Hello Agents第三章习题个人见解 #518

SuninKingdom · 2026-04-21T09:25:37Z

SuninKingdom
Apr 21, 2026

自然语言处理中，语言模型经历了从统计到神经网络的模型演进。

$\circ$ 请使用本章提供的迷你语料库（datawhale agent learns, datawhale agent works），计算句子 agent works 在Bigram模型下的概率
答： $P(\text{agent})$ = $\frac{\text{Count(agent)}}{\text{Number of Words}}$ = $\frac{2}{6}$ $\approx$ $0.333$
$P(\text{works | agent})$ = $\frac{\text{Count(agent works)}}{\text{Count(agent)}}$ = $\frac{1}{2}$ = $0.5$
$P(\text{agent works}) \approx P(\text{agent}) \cdot P(\text{works | agent}) = 0.333 \times 0.5 = 0.1665$

$\circ$ N-gram模型的核心假设是马尔可夫假设。请解释这个假设的含义，以及N-gram模型存在哪些根本性局限？
答：Markov Assumption的含义是“近似地认为一个词出现的概率只与它前面有限的 $n-1$ 个词有关”。基于此假设构建的模型称之为N-gram模型。N-gram的根本局限性在于：
（1）数据稀疏性（Sparsity）：如果一个词序列从未在语料库中出现，其概率估计就为0。
（2）泛化能力差：模型无法理解词与词之间的语义相似性。

$\circ$ 神经网络语言模型（RNN/LSTM）和Transformer分别是如何克服N-gram模型局限的？它们各自的优势是什么？
答：（1）RNN/LSTM：引入隐藏状态（Hidden State），LSTM进一步引入细胞状态（Cell State）。
(2) Transformer：注意力（Attention）机制。

Transformer架构是现代大语言模型的基础。其中：

$\circ$ 自注意力机制（Self-Attention）的核心思想是什么？
答：

$\circ$ 为什么Transformer能够并行处理序列，而RNN必须串行处理？位置编码（Positional Encoding）在其中起什么作用？
答：......
位置编码（Positional Encoding）为输入序列中的每一个词元嵌入向量额外加上一个能代表其绝对位置和相对位置信息的“位置向量”。

$\circ$ Decoder-Only架构与完整的Encoder-Decoder架构有什么区别？为什么现在主流的大语言模型都采用Decoder-Only架构？
答：Decoder-Only架构就是去掉了Encoder部分。因为Decoder-Only架构有如下优势：
（1）训练目标统一：模型的唯一任务就是“预测下一个词”，这个简单的目标非常适合在海量的无标注文本数据上进行预训练。
（2）结构简单，易于扩展：更少的组件意味着更容易进行规模化扩展。今天的 GPT-4、Llama 等拥有数千亿甚至万亿参数的巨型模型，都是基于这种简洁的架构。
（3）天然适合生成任务：其自回归的工作模式与所有生成式任务（对话、写作、代码生成等）完美契合，这也是它能成为构建通用智能体基础的核心原因。

文本子词分词算法是大语言模型的一项关键技术，负责将文本转换为模型可处理的 token 序列。那为什么不能直接以"字符"或"单词"作为模型的输入单元？BPE（Byte Pair Encoding）算法解决了什么问题？
答：以"字符"或"单词"作为模型的输入单元各自存在较大缺陷：
（1）按词分词 (Word-based) ：直接用空格或标点符号将句子切分成单词。这种方法很直观，但也面临挑战：

词表爆炸与未登录词：一个语言的词汇量是巨大的，如果每个词都作为一个独立的词元，词表会变得难以管理。更糟糕的是，模型将无法处理任何未在词表中出现过的词（例如 “DatawhaleAgent”），这种现象我们称为“未登录词” (Out-Of-Vocabulary, OOV)。
语义关联的缺失：模型难以捕捉词形相近的词之间的语义关系。例如，"look"、"looks" 和 "looking" 会被视为三个完全不同的词元，尽管它们有共同的核心含义。同样，训练数据中的低频词由于出现次数少，其语义也难以被模型充分学习。
（2）按字符分词 (Character-based) ：将文本切分成单个字符。这种方法词表很小（例如英文字母、数字和标点），不存在 OOV 问题。但它的缺点是，单个字符大多不具备独立的语义，模型需要花费更多的精力去学习如何将字符组合成有意义的词，导致学习效率低下。

BPE算法有效缓解了上述按词/字符分词出现的一些问题。

本章3.2.3节介绍了如何本地部署开源大语言模型。请完成以下实践和分析：

答：提示：这是一道动手实践题，建议实际操作

$\circ$ 按照本章的指导，在本地部署一个轻量级的开源模型（推荐Qwen3-0.6B），并尝试调整采样参数并观察其对输出的影响

$\circ$ 选择一个具体任务（如文本分类、信息抽取、代码生成等），设计并对比以下不同的提示策略（如Zero-shot、Few-shot、Chain-of-Thought）对输出结果的效果差异

$\circ$ 从性能、成本、可控性、隐私等维度比较闭源模型和开源模型

$\circ$ 如果你要构建一个企业级的客服智能体，你会选择哪种类型的模型？需要考虑哪些因素？

模型幻觉（Hallucination）是大语言模型当前存在的关键局限性之一。本章介绍了缓解幻觉的方法（如检索增强生成、多步推理、外部工具调用）

$\circ$ 请选择其中一种，说明其工作原理和适用场景
答：检索增强生成 (Retrieval-Augmented Generation, RAG) ：这是目前缓解幻觉的有效方法之一。RAG 系统通过在生成之前从外部知识库（如文档数据库、网页）中检索相关信息，然后将检索到的信息作为上下文，引导模型生成基于事实的回答。

$\circ$ 调研前沿的研究和论文，是否还有其他的缓解模型幻觉的方法，他们又有哪些改进和优势？
答：

假设你要设计一个论文辅助阅读智能体，它能够帮助研究人员快速阅读并理解学术论文，包括：总结论文研究的核心内容、回答关于论文的问题、提取关键信息、比较多篇不同论文的观点等。请回答：

$\circ$ 你会选择哪个模型作为智能体设计时的基座模型？选择时需要考虑哪些因素？
答：GPT-5.4。选择时需要考虑成本，反应时间，能处理的上下文长度，是否支持多模态。

$\circ$ 如何设计提示词来引导模型更好地理解学术论文？学术论文通常很长，可能超过模型的上下文窗口限制，你会如何解决这个问题？
答：

$\circ$ 学术研究是严谨的，这意味着我们需要确保智能体生成的信息是准确客观忠于原文的。你认为系统中加入哪些设计能够更好的实现这一需求？
答：

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Hello Agents第三章习题个人见解 #518

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Hello Agents第三章习题个人见解 #518

Uh oh!

Uh oh!

SuninKingdom Apr 21, 2026

Replies: 0 comments

SuninKingdom
Apr 21, 2026