“本地常识库就相当于大模型的外部资料库。”
很多人应该都听过本地常识库名目,它是当今人工自动畛域爆火的名目之一,那么究竟什么是本地常识库?它和大模型有什么相关?怎样构建本地常识库?
1、为什么须要本地常识库?
其实本地常识库和大模型自身没有什么间接相关,可以说它们是两个齐全独立的技术。
但由于大模型的幻觉疑问和大模型的数据降级缓慢,因此才把常识库技术与大模型技术相联合,发生了大模型常识库技术。
什么是常识库?
常识库便捷来说就是资料库,比如国度图书馆收录了我国几千年来的历史书籍和资料;每家企业都会有一些外部数据;各个畛域都有自己畛域内的数据和资料。
而怎样治理这些资料和数据,就是常识库技术,常识库的**有两点,一是数据的存储,二是数据的检索。
在互联网技术发生之前,常识库都是以档案室或资料室的方式存在;而计算机技术发生之后,特意是大数据技术发生之后,常识库就可以从线下走到了线上。
而大数据技术也为处置少量复杂数据提供了或许。
大模型技术是以先人工自动畛域爆火的技术之一,但它有一个致命的毛病就是,它的训练数据是有期间限度的,比如chatGPT的数据还是两年前的,它对近两年的状况就什么都不知道了。
处置这个疑问其实有多种方式,比如用最新的数据对大模型启动从新训练,或许经常使用微调技术比如lora,用最新的数据启动微调。
但这两种方式一来老本太高,二来门槛太高,对很多小公司是无法接受的。其次就是,哪怕从新训练进去的大模型,在一些垂直畛域的疑问上经常会发生“幻觉”疑问。
所以,大模型常识库技术就发生了,大模型就相似于一个大在校生;它有足够的基础常识,而后在一些没有接触过的畛域或许疑问的疑问,就去图书馆查资料。
更笼统的表白应该是相似于在校生期末考试之前,会发考前资料,而后通知你考试内容在资料里。
这样既处置了大模型的期间限度疑问,也处置了老本和门槛疑问,也大大缩小了幻觉的发生。
2、怎样成功大模型常识库?
成功大模型常识库切实上很便捷,就是在问大模型的时刻,带上“资料”,大模型依据资料内容启动回答。
但这里须要处置几个疑问:
第一,资料的加载疑问,随着技术的开展资料的类型也是多种多样,比如有文本文档,图片,视频,声响等等;文本文档还有txt,word,excel等多种格局,还有很多格局化及非格局化数据,因此文档的加载是一个十分费事的事件。
第二,资料的存储疑问,有了资料之后,须要把资料启动加载而后一致处置,而假设这些资料是给人看,那么只有要把文档依照原本的格局保留即可。但由于大模型只意识向量格局的数据,因此须要把文档转化为向量格局存储,而这就是向量数据库。
第三,数据的检索疑问,数据加载到向量数据库之后,应该怎样检索就是一个疑问。由于假设资料库比拟小疑问还不大,假设资料库很宏大,怎样极速的检索,也是一个值得思索的疑问。
大模型常识库的经常使用流程
大模型常识库加载流程如下:
文档加载,经过加载工具把各种格局的文档加载到向量数据库中;其次,须要对文档启动转换拆分,比如依照固定长度启动拆分;而后,经过embedding大模型,把拆分后的文档依据语义转换为向量格局;最后存储到向量数据中。
而后经常使用的时刻,从向量数据库中检索数据。
embedding模型的作用是为了把文档启动无心义的语义转换,否则文档数据间接存储到数据库中就会发生资料失误的疑问。
流程如下图所示:
上一步加载完文档之后,就可以启动经常使用了。
经常使用的步骤是,用户对大模型启动提问,而后经过embedding把用户提问转化为向量格局,而后依据提问从向量数据库中检索和提问内容无关的资料。如下图8-11步所示。
检索到资料之后,依据用户提问和检索资料,构建prompt template(揭示词模板),最后输入到大模型中,取得结果。
整个常识库的流程如下图所示:
原文链接: