Skip to content

一次GPT问答操作的分析

🧩 整体逻辑:从输入到输出的 8 层流程

当你输入一句话(Prompt)时,AI 的内部会经历:

输入 → 编码 → 理解 → 检索/增强 → 生成 → 解码 → 输出 → 后处理

我们将这些过程展开到技术主线的 8 个层面,对应 GPT / DeepSeek 的底层机制。

一、【输入层】—— 从自然语言到Token(词元)

用户动作:

你在界面里输入一句话,比如:“帮我写一段关于人工智能的介绍。”

AI内部发生的事:

  1. 文本预处理

    • 清理特殊符号、标准化输入(例如统一换行、空格、编码格式)。
  2. 分词(Tokenization)

    • 使用 BPE(Byte Pair Encoding)SentencePiece 把文本切成「子词单元」(tokens)。
    • 每个 token 映射到一个整数 ID(模型词表中的索引)。

关键技术:

  • Tokenizer算法:BPE、WordPiece、SentencePiece
  • Unicode处理:保证中英文、表情、符号都能正确切分
  • 多语言支持:不同语言共享/独立词表策略

输出结果示例:

“帮我写一段关于人工智能的介绍。” → [4753, 15, 870, 2146, 782, 1129, 2524]

二、【嵌入层(Embedding Layer)】—— 从Token到向量

作用: 将离散的token ID 映射到连续的高维向量空间(embedding space)。

关键技术:

  • Token Embedding:每个token对应一个可学习的向量。
  • Position Embedding / Rotary Embedding:记录序列顺序(GPT使用旋转位置编码 RoPE)。
  • 最终输入模型的是一个矩阵:X = [x1, x2, ..., xn],每个xi是向量。

核心思想:

把语言转换为数学向量,使模型能计算“语义距离”和“上下文相关性”。

三、【编码与上下文建模(Transformer主体)】

这是GPT、DeepSeek等模型的大脑所在。

⚙️ 模型结构

模型通过多层 Decoder-only Transformer 实现:

  • 每层包含:

    • 多头自注意力层(Multi-Head Self-Attention)
    • 前馈层(Feed Forward Network)
    • 残差连接 + LayerNorm

⚙️ 工作原理

  1. 自注意力(Self-Attention):

    • 每个token通过计算与其它token的相关性(Q·Kᵀ / √d)决定自己要“注意谁”。
    • 形成上下文语义理解。
  2. 多头机制:

    • 多个注意力头学习不同层面的关系(语法、语义、情感、逻辑)。
  3. 层叠学习:

    • 多层堆叠形成“语义抽象”,高层捕捉概念与推理。

⚙️ 技术点

  • 核心算法:Transformer (Vaswani et al., 2017)
  • 高效注意力优化:FlashAttention、xFormers、Memory-efficient attention
  • 长上下文技术:ALiBi、Position Interpolation、Sliding Window Attention

四、【理解层】—— 从语义到意图(Prompt解析)

这是模型“理解你问题”的过程,背后依托训练出来的统计语义能力。

过程:

  1. 模型读取你的输入tokens的上下文语义;
  2. 通过在训练中学到的模式(“看到类似问题时,输出的正确回答分布”)去推理;
  3. 形成内部语义表示(隐藏状态向量)。

技术要点:

  • 预训练任务:因果语言建模 (Causal LM)

    预测下一个词的概率 P(next_token | previous_tokens)

  • 微调任务:SFT (Supervised Fine-Tuning)

    模型学会“问答格式”和“指令响应习惯”

  • 对齐任务:RLHF (Reinforcement Learning from Human Feedback)

    通过人类偏好让模型更“符合人类意图”和“安全”。

五、【检索与增强(RAG / 外部知识)】

对于像 DeepSeek / 豆包 这类应用: 它们常使用 RAG(Retrieval-Augmented Generation) 或内部知识库来补充模型的知识。

过程:

  1. 从你的问题中提取关键词或embedding;
  2. 到知识库中做相似度搜索(向量检索);
  3. 把最相关的文档片段拼接回Prompt中;
  4. 模型基于“上下文 + 检索信息”生成答案。

技术点:

  • 向量检索引擎:FAISS / Milvus / Elastic + Dense Embedding
  • 文本Embedding模型:sentence-transformers / OpenAI Embeddings
  • Reranker模型:cross-encoder重新排序最相关文档
  • 拼接策略:上下文长度控制、chunk sliding window

六、【生成层(Decoding / Sampling)】—— 输出文本的概率采样

当模型理解了你的问题后,它要生成答案。 GPT采用 自回归生成

逐字生成,每次预测下一个token的概率分布,然后采样输出。

流程:

  1. 得到当前上下文 hidden state;
  2. 通过线性层 + Softmax → 概率分布 P(token|context)
  3. 按策略选择下一个token;
  4. 追加到输入中,继续生成。

技术点:

  • 生成策略:

    • Greedy(贪心)
    • Top-k Sampling
    • Top-p(nucleus)Sampling
    • Temperature(控制创造性)
  • 缓存机制(KV Cache):

    • 保存注意力key/value,避免重复计算前文。
  • 生成加速:

    • FlashAttention、TensorRT、vLLM、PagedAttention。

七、【解码层(从Token到文本)】

生成的tokens需要转回人类可读文本。

步骤:

  1. 将token ID序列转换为字符(反tokenization);
  2. 进行语言后处理(空格、标点、大小写恢复、格式调整)。

关键技术:

  • Tokenizer反向映射;
  • Unicode拼接;
  • 流式输出(Streaming Tokens)以提高响应体验。

八、【后处理层】—— 答案修正与安全过滤

输出的文本还要经过最后一层管控。

包含:

  • 内容过滤:敏感词、隐私、暴力、违法内容检测;
  • 格式化:Markdown / HTML结构化;
  • 事实核查(部分系统使用外部API做验证);
  • 安全与对齐:拒绝回答违反政策的问题。

技术点:

  • 安全分类器(Safety Classifier):Transformer小模型判断内容类型;
  • 毒性检测:Perspective API、LLM自身过滤;
  • Post-RAG验证:检索验证生成内容是否存在于知识库。

🧠 一次问答背后的完整技术链条图

[用户输入文本]

【文本预处理 + 分词(Tokenization)】

【Embedding层】→ 语义向量

【Transformer编码层】(多层注意力 + 残差网络)

【语义理解层】(SFT + RLHF 对齐)

【知识检索层】(RAG、外部数据库)

【生成层】(解码策略 + 概率采样 + KV Cache)

【解码层】(Token反转为文本)

【后处理层】(安全审查 + 格式优化)

[输出答案]

🔑 一次问答中涉及的核心技术点总表

层级核心技术关键组件
输入层TokenizationBPE / SentencePiece
嵌入层Embedding + Positional EncodingToken Embedding Matrix
编码层Transformer(Self-Attention)Multi-Head Attention, FeedForward, LayerNorm
理解层预训练 + SFT + RLHFCausal LM, PPO, Reward Model
检索层向量检索 RAGFAISS / Milvus / Elastic
生成层自回归采样Top-k / Top-p / Temperature / KV Cache
解码层DetokenizationSentencePiece反解码
后处理层安全过滤 / 对齐Classifier, Rule System, Policy Layer

✅ 总结一句话:

当你在 GPT 或 DeepSeek 中输入一个问题,AI 给出答案的全过程,本质上是:

文本 → 向量 → 注意力建模 → 语义推理 → 概率生成 → 文本输出 → 安全过滤

背后融合了:

  • 数学逻辑(概率/线性代数)
  • 机器学习(Transformer + RLHF)
  • 系统工程(分布式推理 + 加速 + 检索)
  • 安全合规(内容过滤 + 对齐)