播报：如何用低代码搭建训练一个专业知识库问答GPT机器人-亚洲酒业网

首页> 行业> 详情

播报：如何用低代码搭建训练一个专业知识库问答GPT机器人

2023-04-01 11:29:28 来源：腾讯云

来源：依然基于Stable-Diffusion模型生成

距离上篇文章《低代码xChatGPT，五步搭建AI聊天机器人》已经过去3个多月，收到了很多小伙伴的关注和反馈，也帮助很多朋友快速低成本搭建了ChatGPT聊天应用，未曾想这一段时间GPT热度只增不减，加上最近国内外各种LLM、文生图多模态模型密集发布，开发者们也有了更高的要求。比如如何训练一个自己的GPT应用，如何结合GPT和所在的专业领域知识来搭建AI应用，像心理咨询助手、个人知识库助手等，看目前网上这方面资料还不多，今天我们就来抛个砖试试。

(资料图)

目前的预训练方式主要如下几种：

基于OpenAI的官方LLM模型，进行fine-tune（费用高，耗时长）基于开源的Alpaca.cpp本地模型（目前可在本地消费级显卡跑起来，对自己硬件有信心也可以试试）通过向量数据库上下文关联（轻量级，费用可控，速度快，包括昨天OPENAI官方昨天刚放出来的示例插件chatgpt-retrieval-plugin，也采用的这种方式）

低代码实现的AI问答机器人效果如下：

这次还是用腾讯云微搭低代码作为应用搭建平台，来介绍如何快速搭建一个垂直领域的知识库GPT问答机器人，今天的教程尽量避开了各种黑科技的封装库(没有Langchain/Supabase/PineconeSDK全家桶)，尝试从最基本的实现原理来展开介绍，尽量让大家知其所以然。新手开发者也可以试试，与其看各种GPT热闹，不如Make your hands dirty

一、准备工作

在开始搭建垂直知识库的问答机器人前，你需要做以下准备：

微信小程序账号：如果您还没有微信小程序账号，可以在微信公众平台注册（如果没有小程序，也可以发布为移动端H5应用）开通腾讯云微搭低代码：微搭低代码是腾讯云官方推出的一款低代码开发工具，可以直接访问腾讯云微搭官网免费开通注册OpenAI账号：OpenAI账号注册也是免费的，不过OpenAI有地域限制，网上方法很多在此不赘述。注册成功后，可以登录OpenAI的个人中心来获取API KEY一个支持向量匹配的数据库（本文以开源的PostgreSQL为例，你也可以使用Redis，或者NPM的HNSWlib包）

关于向量数据库，目前可选择的方式有好几种，可以使用PostgreSQL安装vector向量扩展，也可以使用Redis的Vector Similarity Search，还可以直接云函数使用HNSWLib库，甚至自行diy一个简单的基于文件系统的余弦相似度向量数据库，文末的 github/lowcode.ai也有简单示例代码，仅做参考交流不建议在生产环境使用。

本教程适用人群和应用类型：

适用人群：有前后端基础的开发者（有一定技术背景的非开发者也可以体验）应用类型：小程序或 H5应用（基于微搭一码多端特性，可以发布为Web应用，点击原文链接可体验作者基于微搭搭建的文档GPT机器人）

二、搭建聊天机器人界面

如何使用低代码进行界面搭建的详细过程，在之前的文章中《低代码xChatGPT，五步搭建AI聊天机器人》已经有过详细的教程介绍，这里就不再继续展开。

另外，大家也可以使用微搭官方的聊天模板，这样的话界面这一步直接跳过，开箱即用，附微搭低代码GPT聊天应用模板地址

完成界面配置之后，大家重点关注下图中页面设计模块的”发送“按钮的事件配置即可，在后续会提到。

三、配置后端逻辑

与之前机器人的实现直接调用远程API不同，这次由于需要针对专业的领域知识进行预处理以及向量化，重点会涉及3个部分：

读取待训练的文档数据并进行向量化，之后存入向量数据库通过query的向量化结果与数据库向量进行相似度匹配，并返回关联文本结果结合返回的关联文本和query来构建上下文生成prompt

可以通过下图了解向量搜索实现GPT Context的大致原理：

由上图可见，主要是两个处理流程，一个文档数据的向量化预处理，一个是查询时的向量匹配和Context构造处理，这两个处理我们都可以使用腾讯云低代码的云函数来实现（当然第一步的预处理也可以在本地电脑完成）

1. 将知识库文档数据向量化

首先，将所需要的预处理的知识库内容放在某个目录下，遍历知识库目录下的所有文档文件（本文文件格式以markdown为例），将文本分块后结构化存储在本地json文件。

如果数据量小，分块后的结构化数据也可以直接放在内存中，本地化json主要便于在大量文本预处理时，遇到网络等异常时，能够在断点处重启预处理

关键代码如下：

本教程涉及的完整代码已放到https://github.com/enimo/lowcode.ai中，可按需下载试验，也可直接上传到微搭低代码的云函数中运行）

function splitDocuments(files, chunkSize) {let docSize = chunkSize || 1000;let textString = "";let index = 0;let documents = [];for(let i = 0, len = files.length; i < len; i++) {if(files[i] && files[i].content) {textString = files[i].content;}else {textString = fs.readFileSync(files[i], "utf8");}textString = textString.replace(/\n|\r/g, " ").replace(/<.*?>/g,"")    let start = 0;    while (start < textString.length) {      const end = start + docSize;      const chunk = textString.slice(start, end);      documents.push({ docIndex: index++, fileIndex: files[i].fileIndex, filename: files[i].filename || files[i], content: chunk });      start = end;}  }  fs.writeFileSync("./docstore.json", JSON.stringify(documents));  return documents;}

上述代码用途主要是在得到遍历后的文件路径数组files后，对文件进行切块处理，分块大小可按需调整，一般建议在1000~2000之间（切换主要为兼容GPT API的单次token限制及成本控制）

其次，对分块的文本进行向量化并存入向量数据库，关键代码如下：

async function initVector(sql, docs){    const maxElements = docs.length || 500; // 最多处理500个    for (let j = 0; j < maxElements; j++ ) {        const input = docs[j].content;        const filename = docs[j].filename;        const fileIndex = docs[j].fileIndex        const docIndex = docs[j].docIndex        // 通过根据训练日志返回断点docIndex，调整 docIndex 的值，确保从断点继续向量化        if(docIndex >= 0 &&  docIndex < 1000 ){            log("start embedding fileIndex: ", fileIndex, "docIndex: ", docIndex, "filename:", filename);            const embedding = await embedding(input);            const embeddingArr = "[" + embedding + "]";            const metadata = { filename, "doclength": maxElements, index: j };            const insertRet = await sql`              INSERT INTO documents ( content, appcode, metadata, embedding )              VALUES              ( ${input}, "wedadoc",  ${metadata}, ${embeddingArr} )`            await delay(1000); // 如果embedding API并发请求限制，可设置随机数sleep        }        else {          continue;        }    }    return true;}

上述文本向量化的存储过程中，涉及到调用OpenAI的embedding模型进行向量转化，这里使用text-embedding-ada-002模型（这个文本向量化过程也可以不使用OpenAI的官方模型，有部分开源模型可代替）

async function embedding (text) {    const raw_text = text.replace(/\n|\r/g, " ");    const embeddingResponse = await fetch(        OPENAI_URL + "/v1/embeddings",        {          method: "POST",          headers: {            "Authorization": `Bearer ${OPENAI_API_KEY}`,            "Content-Type": "application/json"          },          body: JSON.stringify({            input: raw_text,            model: "text-embedding-ada-002"          })        }    );    const embeddingData = await embeddingResponse.json();        const [{ embedding }] = embeddingData.data;    log({embedding});    return embedding;}

以上，一个文档知识库的向量化预处理就基本完成了，接下来看看怎么实现基于query的搜索逻辑。

2. 实现query的向量化搜索

我们在上一步中已经完成了文本数据的向量化存储。接下来，可以基于用户提交的query来进行相似度搜索，关键代码如下:

async function searchKnn(question, k, sql){    const embedding = await embedding(question);    const embeddingArr = "[" + embedding + "]";    const result = await sql`SELECT * FROM match_documents(${embeddingArr},"wedadoc", 0.1, ${k})`    return result;}

上述代码将query同样转化为向量后，再去上一步向量化后的数据库中进行相似搜索，得到最终与query最匹配的上下文，其中有一个预定义的SQL函数match_documents，主要用作文本向量的匹配搜索，具体会在后面介绍，在 github/lowcode.ai中也有详细的定义和说明。

最后，我们工具拿到的搜索返回值，来构造GPT 3.5接口的prompt上下文，关键代码如下：

async function getChatGPT (query, documents){    let contextText = "";    if (documents) {        for (let i = 0; i < documents.length; i++) {            const document = documents[i];            const content = document.content;              const url = encodeURI(document.metadata["filename"]);            contextText += `${content.trim()}\n SOURCE: ${url}\n---\n`;        }    }    const systemContent = `You are a helpful assistant. When given CONTEXT you answer questions using only that information,and you always format your output in markdown. `;    const userMessage = `CONTEXT:      ${contextText}      USER QUESTION:       ${query}`;    const messages = [        {          role: "system",          content: systemContent        },        {          role: "user",          content: userMessage        }    ];      const chatResponse = await fetch(        OPENAI_URL + "/v1/chat/completions",        {            method: "POST",            headers: {                "Authorization": `Bearer ${OPENAI_API_KEY}`,                "Content-Type": "application/json"            },            body: JSON.stringify({                "model": "gpt-3.5-turbo",                 "messages": messages,                "temperature": 0.3,                 "max_tokens": 2000,            })        }    );    return await chatResponse.json();}

上述代码中核心是上下文的构造，由于GPT3.5之后的接口，支持指定role，可以将相关系统角色的prompt放在了systemContent中，至于/v1/chat/completions接口入参说明由于之前的文章中有过介绍，这里也不赘述，有任何疑问大家也可以到「漫话开发者」公众号留言询问。

以上，query的搜索部分完成了，到此所有后端接口的核心逻辑也都完成了，可以看到几个关键流程的实现是不是很简单呢。

3. 将所涉及代码部署到微搭低代码的云函数中

完成后端代码开发后，接下来就是把相应的运行代码部署到微搭低代码的云函数中，综上可知，主要是两部分的后端代码，一部分文档的向量化并入库（这部分本地Node环境运行亦可），另一部分就是实现搜索词匹配构建prompt后调用GPT接口查询了。

微搭低代码的云函数入口，可以在数据源->APIs->云函数中找到，如下图所示：

如果第一次使用云函数，需要点击图中链接跳转到云开发云函数中进行云函数的新建，如下图所示：

新建完成后，点击进入云函数详情页，选择”函数代码“Tab，然后在下面的提交方法下拉框中选择”本地上传ZIP包“即可上传前面完成的后端逻辑代码，也可以直接下载 github/lowcode.ai打包后上传。上传成功后，第一次保存别忘了点击”保存并安装依赖“来安装对应的npm包。

在完成云函数新建和代码上传后，回到上一步的微搭数据源APIs界面中刷新页面，即可看到刚刚新建好的云函数openai，选中该云函数，并按要求正确填写对应的出入参结构，测试方法效果并保存后，即可在第一章的前端界面”发送“按钮中绑定调用数据源事件进行调用了。

4. 完成开发联调，发布应用

完成上述后端逻辑以及云函数配置后，可以切到编辑器的页面设计模块，回到第一章的界面设计来进行事件的配置，完成后点击编辑器右上角的“发布”按钮，可以选择发布到你已绑定的小程序，也可以直接发布Web端H5/PC应用。

至此，一个垂直知识库的AI问答机器人应用基本就搭建完成了。

四、附录说明

1 数据库PostgreSQL的初始化

本文中采用的PostgreSQL作为向量数据库，其中涉及到的建表结构定义参考如下：

create table documents (  id bigserial primary key,  content text, -- corresponds to Document.pageContent  metadata json, -- corresponds to Document.metadata  embedding vector(1536) -- 1536 works for OpenAI embeddings, change if needed);

涉及的SQL函数match_documents的定义参考如下，其中query_embedding表示query关键词的向量值，similarity_threshold表示相似度，一般情况下要求不低于0.1，数值越低相似度也越低，match_count表示匹配后的返回条数，一般情况下2条左右，取决于前文的分块chunk定义大小。

create or replace function match_documents (  query_embedding vector(1536),  similarity_threshold float,  match_count int)returns table (  id bigint,  content text,  metadata json,  similarity float)language plpgsqlas $$begin  return query  select    documents.id,    documents.content,    documents.metadata,    1 - (documents.embedding <=> query_embedding) as similarity  from documents  where 1 - (documents.embedding <=> query_embedding) > similarity_threshold    order by documents.embedding <=> query_embedding  limit match_count;end;$$;

所有上述的内容数据库SQL schema以及部分训练备用文本数据都已经放到github，大家可以关注定期更新，按需采用: github/lowcode.ai

2 体验试用

可以通过Web端体验作者搭建的Web版文档机器人，同时得益于微搭低代码的一码多端，同步发布了一个小程序版本，大家可以扫码体验。

低代码文档AI小程序

由于目前自建向量库的性能局限以及有限的预处理文档数据，响应可能比较慢，准确性偶尔也会差强人意，还请各位看官谅解，抽时间再持续优化了，本文还是以技术方案的探讨交流为主。

3 最后

通过本教程的介绍，你已经基本熟悉了如何使用微搭低代码快速搭建垂直知识库的AI问答机器人了，有任何疑问可以关注「漫话开发者」公众号留言。

用低代码创建一个GPT的聊天应用很简单，实现一个垂直领域的AI问答应用也不难。未来不管被AI替代也好，新的开发者时代来了，先动手试试，make your hands dirty first, enjoy~

关键词：

播报：如何用低代码搭建训练一个专业知识库问答GPT机器人

距离上篇文章《低代码xChatGPT，五步搭建AI聊天机器人》已经过去3个多月，收到了很多小伙伴的关注和反馈，也帮助很多朋友快速低成本搭建了Chat

2023-04-01 11:29:28

三部门发文明确！期限延长至2024年底！|全球讯息

人力资源社会保障部财政部国家税务总局关于阶段性降低失业保险、工伤保险费率有关问题的通知人社部发〔2023〕19号各省

2023-04-01 10:14:21

全球微动态丨整蛊邻居2攻略合集_整蛊邻居2攻略

1、主要是按照导演的指示来,但是如果要拿奖杯的话就得连贯的执行,不要耽误时间,否则老头的怒槽就会下降,呵呵在用了扳手和

2023-04-01 08:45:39

2开是多少厘米_2开|世界快播

1、就是客户的第二次开发。2、广义上来说，包括通常意义上的“升单”、“再消费“、“续卡”、“再开发”等等。3、医疗美容技术专业是一门以人

2023-04-01 07:10:41

上汽集团（600104）：3月31日北向资金减持2.38万股世界看热讯

3月31日北向资金减持2 38万股上汽集团。近5个交易日中，获北向资金增持的有2天，累计净增持171 87万股。近20个交易日中，获北向资金减持的有14

2023-04-01 05:00:50

补牙的材料有哪些牌子_补牙的材料都有哪些

1、你好，补牙材料最常用的有以下三种：（1）汞剂类：由汞与合金粉组成；优点：经久耐用、相对便宜、通常只需看牙医一次即可完

2023-04-01 02:01:04

全球视讯！外部势力蠢蠢欲动，美日菲扬言将联手介入台海南海，我国防部表态

美军已多次扬言将军事阻挠大陆收台情况下，日菲两国防长、外长发布的“寻求扩大与美军军事联系，共同警惕中国”言论，无疑是对区域局势的火上

2023-03-31 22:40:16

当前热讯：云南建投混凝土(01847)公布年度业绩，利润2990万元同比上升346.3%

智通财经APP讯，云南建投混凝土公布2022年全年业绩，公司收入同比下降20 1%至16 81亿元(人民币，下同)，利润同比上升346 3%至2990万元，每股盈

2023-03-31 21:20:38

【速看料】2023年上半年四级考试时间及报名时间

一、2023年上半年全国大学英语四、六级考试时间1 英语四级口语考试（CET-SET4）考试时间：5月20日。2 英语六级口语考试（CET-SET6）考试时间：

2023-03-31 20:33:21

中外嘉宾齐聚，石景山举办“一路花开”清明主题诗会

此次诗会通过诗文朗诵、器乐演奏、心得分享等形式，感怀革命先烈的崇高伟大，体味现在幸福生活的来之不易。来自石景山区的嘉宾甄趁勇说，“清

2023-03-31 19:24:42

战双帕弥什神威·重能值得培养吗世界球精选

神威·重能是进攻型的机体，配合武器封刃太刀对敌人造成大量的伤害，拥有毋庸置疑的强大力量，所属的阵营是升格者，许多玩家不知道该角色值不

2023-03-31 18:25:11

每日速递：【金融街发布】外汇局：2月我国国际收支货物和服务贸易进出口规模33246亿元同比增长10%

其中，货物贸易出口15393亿元，进口13284亿元，顺差2109亿元；服务贸易出口1782亿元，进口2787亿元，逆差1004亿元。

2023-03-31 17:34:01

科马材料创业板IPO申请被终止审核焦点速讯

财经网讯3月31日，据深交所公告，浙江科马摩擦材料股份有限公司（以下简称“科马材料”）首次公开发行股票并在创业板上市审核被终止。公告显示

2023-03-31 17:03:19

2018基金(加盟投资)

美股三大指数团体收涨，纳指涨1 84%，标普500指数涨1 23%，道指涨0 97%。抢手中概股涨跌纷歧，知乎涨超12%

2023-03-31 16:08:20

全球动态:老花眼眼药水Vuity新给药方案获批，每日两次可将疗效延长至9小时

2023年3月31日讯香港济民药业MORECARE --美国FDA已批准AbbVie公司的Vuity（pilocarpine，盐酸毛果芸香碱滴眼液）1 25%的补充新药申请(sNDA)，

2023-03-31 14:56:10

当前播报:惠城小金口：立足区位优势，打造产城人融合城市副中心

立足“大交通”区位优势，建设集新兴产业、总部基地等多种业态于一体的城市会客厅，打造产城人融合城市副中心。惠城区小金口街道作为惠州的“

2023-03-31 14:21:36

川哥政治书什么意思梗

最近一段时间又有很多网络梗出现并走红，比如川哥指哪打哪这个梗，据悉是出自政治书，那么川哥政治书什么意思网络用语？川哥政治书是什么梗？

2023-03-31 13:11:08

第六届全国货运物流行业年会在天津召开

文现代物流报全媒体记者马敬泽3月30日，主题为“智物流慧生态”的第六届全国货运物流行业年会暨中国（东疆）数字货运与智慧物流高峰论坛在天

2023-03-31 12:02:21

当前快看：拼多多权重查询（拼多多权重查询）

1、首先，任何一个购物平台来讲，产出比肯定是衡量一个产品受欢迎程度的好坏的重要标准。2、拼多多也不例外，所以销量是搜索权重的第一大权重

2023-03-31 11:16:23

国家统计局赵庆河：3月份采购经理指数持续扩张|新资讯

3月31日，国家统计局服务业调查中心高级统计师赵庆河解读2023年3月中国采购经理指数。

2023-03-31 10:42:34

3月31日生意社氢氟酸(出口)基准价为12250.00元/吨-天天亮点

3月31日，生意社氢氟酸(出口)基准价为12250 00元吨，与本月初(12425 00元吨)相比，下降了-1 41%。生意社基准价定价应用交易商可以根据约

2023-03-31 10:00:27

吉星新能源(03395)公布年度业绩，亏损及全面亏损358万加元，同比降25.6%

智通财经讯，吉星新能源(03395)公布2022年业绩，公司实现总收益2236万加元，同比增18 6%;亏损及全面亏损3

2023-03-31 08:50:23

acc文件转换成mp3_如何将ACC文件转换为MP3

1、在我们日常娱乐和日常工作中，如果想要将ACC格式转换MP3，我们可以使用一些音频转换工具。2、这里以我自己使用的【风

2023-03-31 07:50:28

世界热点评！为乡村振兴贡献青春力量

为进一步激发青年党员干事创业的热情，发挥青年人才党支部助力乡村振兴和文化旅游的作用，近日，乐安县万崇镇青年人才党支部依托主题党日组织

2023-03-31 06:19:42

美股收盘：三大指数集体收涨中概股集体走高

美股三大指数集体收涨，道指涨0 43%，纳指涨0 73%，标普500指数涨0 57%。中概股集体走高，纳斯达克中国金龙指

2023-03-31 04:10:46

做强做优做大我国数字经济怎样下好“先手棋”？

播报：如何用低代码搭建训练一个专业知识库问答GPT机器人

一、准备工作

二、搭建聊天机器人界面

三、配置后端逻辑

1. 将知识库文档数据向量化

2. 实现query的向量化搜索

3. 将所涉及代码部署到微搭低代码的云函数中

4. 完成开发联调，发布应用

四、附录说明

1 数据库PostgreSQL的初始化

2 体验试用

3 最后

热门推荐

播报：如何用低代码搭建训练一个专业知识库问答GPT机器人

三部门发文明确！期限延长至2024年底！|全球讯息

全球微动态丨整蛊邻居2攻略合集_整蛊邻居2攻略

2开是多少厘米_2开|世界快播

上汽集团（600104）：3月31日北向资金减持2.38万股 世界看热讯

补牙的材料有哪些牌子_补牙的材料都有哪些

全球视讯！外部势力蠢蠢欲动，美日菲扬言将联手介入台海南海，我国防部表态

当前热讯：云南建投混凝土(01847)公布年度业绩，利润2990万元 同比上升346.3%

【速看料】2023年上半年四级考试时间及报名时间

中外嘉宾齐聚，石景山举办“一路花开”清明主题诗会

战双帕弥什神威·重能值得培养吗 世界球精选

每日速递：【金融街发布】外汇局：2月我国国际收支货物和服务贸易进出口规模33246亿元 同比增长10%

科马材料创业板IPO申请被终止审核 焦点速讯

2018基金(加盟投资)

全球动态:老花眼眼药水Vuity新给药方案获批，每日两次可将疗效延长至9小时

当前播报:惠城小金口：立足区位优势，打造产城人融合城市副中心

川哥政治书什么意思梗

第六届全国货运物流行业年会在天津召开

当前快看：拼多多权重查询（拼多多权重查询）

国家统计局赵庆河：3月份采购经理指数持续扩张|新资讯

3月31日生意社氢氟酸(出口)基准价为12250.00元/吨-天天亮点

吉星新能源(03395)公布年度业绩，亏损及全面亏损358万加元，同比降25.6%

acc文件转换成mp3_如何将ACC文件转换为MP3

世界热点评！为乡村振兴贡献青春力量

美股收盘：三大指数集体收涨 中概股集体走高

热点新闻

动态

品牌

行业

上汽集团（600104）：3月31日北向资金减持2.38万股世界看热讯

当前热讯：云南建投混凝土(01847)公布年度业绩，利润2990万元同比上升346.3%

战双帕弥什神威·重能值得培养吗世界球精选

每日速递：【金融街发布】外汇局：2月我国国际收支货物和服务贸易进出口规模33246亿元同比增长10%

科马材料创业板IPO申请被终止审核焦点速讯

美股收盘：三大指数集体收涨中概股集体走高