Skip to content

检索增强(RAG)

今日关键词:检索增强(RAG)。

上一个章节,我们知道了 AI 到底是怎么来的,知道了它生成出来的底层逻辑就是源于对互联网数据的不断训练和优化。

我们早期的 AI 大模型,比如 GPT 的较早版本,它实际上是无法实时获取最新的数据的,比如它的训练数据是截止到 2021 年 9 月为止的,那它就无法获取到 2021 年 9 月之后的互联网数据。

但是现在,我们身边有的人用 deep seek,或者豆包等 AI 大模型,会发现,它是可以实时获取最新的互联网数据的,这是为什么呢?

这就是因为,这些 AI 大模型,分成了这么两大类,一类是离线训练好的模型,一类是可以实时获取最新数据的模型。比如,GPT3 这种纯生成型大模型,就是我训练的时候有的数据,我生成的时候就可以较为准确的回答出来,我训练没有的数据,我就给你一本正经的胡说八道。而 deep seek 和豆包这种检索增强型大模型,它除了训练原有的数据,保持模型的通用知识、逻辑和语言能力外,它还加了一个检索/增强(RAG)的模块,正是因为这个机制,使得它可以引入动态信息流,从而生成更加准确和实时的回答。