├── LICENSE ├── README.md └── 第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论) ├── 00 预训练语言模型的前世今生(全文 24854 个词).md ├── 03 什么是预训练(Transformer 前奏).md ├── 04 统计语言模型(n元语言模型).md ├── 05 神经网络语言模型(独热编码+词向量的起源).md ├── 06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram).md ├── 07 预训练语言模型的下游任务改造简介(如何使用词向量).md ├── 08 ELMo模型(双向LSTM模型解决词向量多义问题).md ├── 09 什么是注意力机制(Attention ).md ├── 10 Self-Attention(自注意力机制).md ├── 11 Self-Attention相比较 RNN和LSTM的优缺点.md ├── 12 Masked Self-Attention(掩码自注意力机制).md ├── 13 Multi-Head Self-Attention(从空间角度解释为什么做多头).md ├── 14 Positional Encoding (为什么 Self-Attention 需要位置编码).md ├── 1401 位置编码公式详细理解补充.md ├── 15 Transformer 框架概述.md ├── 16 Transformer 的编码器(Encodes)——我在做更优秀的词向量.md ├── 17 Transformer 的解码器(Decoders)——我要生成一个又一个单词.md ├── 18 Transformer 的动态流程.md └── 19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力).md /LICENSE: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/LICENSE -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/README.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/00 预训练语言模型的前世今生(全文 24854 个词).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/00 预训练语言模型的前世今生(全文 24854 个词).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/03 什么是预训练(Transformer 前奏).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/03 什么是预训练(Transformer 前奏).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/04 统计语言模型(n元语言模型).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/04 统计语言模型(n元语言模型).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/05 神经网络语言模型(独热编码+词向量的起源).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/05 神经网络语言模型(独热编码+词向量的起源).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/07 预训练语言模型的下游任务改造简介(如何使用词向量).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/07 预训练语言模型的下游任务改造简介(如何使用词向量).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/08 ELMo模型(双向LSTM模型解决词向量多义问题).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/08 ELMo模型(双向LSTM模型解决词向量多义问题).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/09 什么是注意力机制(Attention ).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/09 什么是注意力机制(Attention ).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/10 Self-Attention(自注意力机制).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/10 Self-Attention(自注意力机制).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/11 Self-Attention相比较 RNN和LSTM的优缺点.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/11 Self-Attention相比较 RNN和LSTM的优缺点.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/12 Masked Self-Attention(掩码自注意力机制).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/12 Masked Self-Attention(掩码自注意力机制).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/13 Multi-Head Self-Attention(从空间角度解释为什么做多头).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/13 Multi-Head Self-Attention(从空间角度解释为什么做多头).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/14 Positional Encoding (为什么 Self-Attention 需要位置编码).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/14 Positional Encoding (为什么 Self-Attention 需要位置编码).md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/1401 位置编码公式详细理解补充.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/1401 位置编码公式详细理解补充.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/15 Transformer 框架概述.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/15 Transformer 框架概述.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/16 Transformer 的编码器(Encodes)——我在做更优秀的词向量.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/16 Transformer 的编码器(Encodes)——我在做更优秀的词向量.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/17 Transformer 的解码器(Decoders)——我要生成一个又一个单词.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/17 Transformer 的解码器(Decoders)——我要生成一个又一个单词.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/18 Transformer 的动态流程.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/18 Transformer 的动态流程.md -------------------------------------------------------------------------------- /第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力).md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/nickchen121/Pre-training-language-model/HEAD/第一篇 Transformer、GPT、BERT,预训练语言模型的前世今生(理论)/19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力).md --------------------------------------------------------------------------------