MaXiaoTiao

BERT 之下句预测（NSP）

BERT 之下句预测（NSP）下一句预测（Next Sentence Prediction，NSP）是 BERT（Bidirectional Encoder Representations from Transformers）预训练过程中的第二个任务，旨在帮助模型理解句子之间的关系。工作原理数

学习

2023-04-14

BERT 之输入表示

BERT 之输入表示 BERT的输入序列构造如下： [CLS] Token: 输入序列的开始是一个特殊的分类token（[CLS]），其最终的隐藏状态被用作分类任务的聚合序列表示。 Token Embeddings: 接下来是句子中每个token的WordPiece tokenization结果。

学习

2023-04-13

BERT之语言掩码模型（MLM）

BERT之语言掩码模型（MLM） BERT 作者认为，使用自左向右编码和自右向左编码的单向编码器拼接而成的双向编码器，在性能、参数规模和效率等方面，都不如直接使用深度双向编码器强大，这也是为什么 BERT 使用 Transformer Encoder 作为特征提取器，而不使用自左向右编码和自右向左编

学习

2023-04-05

BERT 的结构：强大的特征提取能力

BERT 的结构：强大的特征提取能力如下图所示，我们来看看 ELMo、GPT 和 BERT 三者的区别 ELMo 使用自左向右编码和自右向左编码的两个 LST

学习

2023-04-05

为什么 Encoder 给予 Decoders 的是 K、V 矩阵

为什么 Encoder 给予 Decoders 的是 K、V 矩阵我们在讲解 Attention 机制中曾提到，Query 的目的是借助它从一堆信息中找到重要的信息。现在 Encoder 提供了 Ke、VeKe、Ve 矩阵，Decoder 提供了 QdQd 矩阵，通过 “我爱中国” 翻译为 “I

学习

2023-03-31

为什么 Decoder 需要做 Mask

为什么 Decoder 需要做 Mask 训练阶段：我们知道 “je suis etudiant” 的翻译结果为 “I am a student”，我们把 “I am a student” 的 Embedding 输入到 Decoders 里面，翻译第一个词 “I” 时如果对 “I am a st

学习

2023-03-29

Transformer 中的前馈神经网络

Transformer 中的前馈神经网络在Transformer模型中，前馈神经网络（Feed-Forward Neural Network，FFN）是模型架构的关键组成部分之一，它通常位于每个自注意力层（self-attention layer）之后。以下是前馈神经网络在Transformer模

学习

2023-03-28