Hello Agents第三章习题个人见解 #518
Unanswered
SuninKingdom
asked this question in
💬 Exercises & Q&A
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
答:
答:Markov Assumption的含义是“近似地认为一个词出现的概率只与它前面有限的
(1)数据稀疏性(Sparsity):如果一个词序列从未在语料库中出现,其概率估计就为0。
(2)泛化能力差:模型无法理解词与词之间的语义相似性。
答:(1)RNN/LSTM:引入隐藏状态(Hidden State),LSTM进一步引入细胞状态(Cell State)。
(2) Transformer:注意力(Attention)机制。
答:
答:......
位置编码(Positional Encoding)为输入序列中的每一个词元嵌入向量额外加上一个能代表其绝对位置和相对位置信息的“位置向量”。
答:Decoder-Only架构就是去掉了Encoder部分。因为Decoder-Only架构有如下优势:
(1)训练目标统一:模型的唯一任务就是“预测下一个词”,这个简单的目标非常适合在海量的无标注文本数据上进行预训练。
(2)结构简单,易于扩展:更少的组件意味着更容易进行规模化扩展。今天的 GPT-4、Llama 等拥有数千亿甚至万亿参数的巨型模型,都是基于这种简洁的架构。
(3)天然适合生成任务:其自回归的工作模式与所有生成式任务(对话、写作、代码生成等)完美契合,这也是它能成为构建通用智能体基础的核心原因。
答:以"字符"或"单词"作为模型的输入单元各自存在较大缺陷:
(1)按词分词 (Word-based) :直接用空格或标点符号将句子切分成单词。这种方法很直观,但也面临挑战:
(2)按字符分词 (Character-based) :将文本切分成单个字符。这种方法词表很小(例如英文字母、数字和标点),不存在 OOV 问题。但它的缺点是,单个字符大多不具备独立的语义,模型需要花费更多的精力去学习如何将字符组合成有意义的词,导致学习效率低下。
BPE算法有效缓解了上述按词/字符分词出现的一些问题。
答:提示:这是一道动手实践题,建议实际操作
答:检索增强生成 (Retrieval-Augmented Generation, RAG) :这是目前缓解幻觉的有效方法之一。RAG 系统通过在生成之前从外部知识库(如文档数据库、网页)中检索相关信息,然后将检索到的信息作为上下文,引导模型生成基于事实的回答。
答:
答:GPT-5.4。选择时需要考虑成本,反应时间,能处理的上下文长度,是否支持多模态。
答:
答:
Beta Was this translation helpful? Give feedback.
All reactions