└── README.md /README.md: -------------------------------------------------------------------------------- 1 | # LLMs 千面郎君面试题答案 2 | 3 | > 介绍:本项目是作者们根据个人面试和经验总结出的 大模型(LLMs)面试准备的学习笔记与资料,该资料目前包含 大模型(LLMs)各领域的 面试题积累。 4 | 5 | - [LLMs 千面郎君](#llms-千面郎君) 6 | - [大模型(LLMs)基础面](#大模型llms基础面) 7 | - [大模型(LLMs)进阶面](#大模型llms进阶面) 8 | - [大模型(LLMs)微调面](#大模型llms微调面) 9 | - [大模型(LLMs)微调面](#大模型llms微调面-1) 10 | - [大模型(LLMs)训练经验帖](#大模型llms训练经验帖) 11 | - [大模型(LLMs)langchain 面](#大模型llmslangchain-面) 12 | - [大模型(LLMs)langchain 面](#大模型llmslangchain-面-1) 13 | - [基于LLM+向量库的文档对话 经验面](#基于llm向量库的文档对话-经验面) 14 | - [LLM文档对话 —— pdf解析关键问题](#llm文档对话--pdf解析关键问题) 15 | - [基于LLM+向量库的文档对话 经验面](#基于llm向量库的文档对话-经验面-1) 16 | - [大模型(LLMs)参数高效微调(PEFT) 面](#大模型llms参数高效微调peft-面) 17 | - [大模型(LLMs)参数高效微调(PEFT) 面](#大模型llms参数高效微调peft-面-1) 18 | - [配器微调(Adapter-tuning)篇](#配器微调adapter-tuning篇) 19 | - [提示学习(Prompting)](#提示学习prompting) 20 | - [LoRA 系列篇](#lora-系列篇) 21 | - [大模型(LLMs)推理面](#大模型llms推理面) 22 | - [大模型(LLMs)推理面](#大模型llms推理面-1) 23 | - [大模型(LLMs)预训练面](#大模型llms预训练面) 24 | - [大模型(LLMs)增量预训练篇](#大模型llms增量预训练篇) 25 | - [大模型(LLMs)评测面](#大模型llms评测面) 26 | - [大模型(LLMs)强化学习面](#大模型llms强化学习面) 27 | - [大模型(LLMs)软硬件配置面](#大模型llms软硬件配置面) 28 | - [大模型(LLMs)训练集面](#大模型llms训练集面) 29 | - [大模型(LLMs)显存问题面](#大模型llms显存问题面) 30 | - [大模型(LLMs)分布式训练面](#大模型llms分布式训练面) 31 | - [大模型(LLMs)分布式训练面](#大模型llms分布式训练面-1) 32 | - [图解分布式训练(一) —— 流水线并行(Pipeline Parallelism)面](#图解分布式训练一--流水线并行pipeline-parallelism面) 33 | - [图解分布式训练(二) —— nn.DataParallel面](#图解分布式训练二--nndataparallel面) 34 | - [图解分布式训练(三) —— nn.parallel.DistributedDataParallel](#图解分布式训练三---nnparalleldistributeddataparallel) 35 | - [图解分布式训练(四) —— torch.multiprocessing 详细解析](#图解分布式训练四---torchmultiprocessing-详细解析) 36 | - [图解分布式训练(五) —— AMP混合精度训练 详细解析](#图解分布式训练五---amp混合精度训练-详细解析) 37 | - [图解分布式训练(六) —— Pytorch的 DeepSpeed 详细解析](#图解分布式训练六--pytorch的-deepspeed-详细解析) 38 | - [图解分布式训练(七)—— accelerate 分布式训练 详细解析](#图解分布式训练七-accelerate-分布式训练-详细解析) 39 | - [图解分布式训练(八)—— ZeRO 学习](#图解分布式训练八-zero-学习) 40 | - [大模型(LLMs)agent 面](#大模型llmsagent-面) 41 | - [Token及模型参数准备篇](#token及模型参数准备篇) 42 | - [LLMs 位置编码篇](#llms-位置编码篇) 43 | - [LLMs Tokenizer 篇](#llms-tokenizer-篇) 44 | - [LLMs Tokenizer 篇](#llms-tokenizer-篇-1) 45 | - [怎么让英文大语言模型支持中文?(一) —— 构建中文tokenization](#怎么让英文大语言模型支持中文一--构建中文tokenization) 46 | - [怎么让英文大语言模型支持中文?(二) —— 继续预训练篇](#怎么让英文大语言模型支持中文二--继续预训练篇) 47 | - [怎么让英文大语言模型支持中文?(三) —— 对预训练模型进行指令微调](#怎么让英文大语言模型支持中文三--对预训练模型进行指令微调) 48 | - [Layer normalization 篇](#layer-normalization-篇) 49 | - [LLMs 激活函数篇](#llms-激活函数篇) 50 | - [LLMs 激活函数篇](#llms-激活函数篇-1) 51 | - [大模型(LLMs)加速篇](#大模型llms加速篇) 52 | - [大模型(LLMs)加速篇](#大模型llms加速篇-1) 53 | - [LLM(大语言模型)部署加速方法——PagedAttention篇](#llm大语言模型部署加速方法pagedattention篇) 54 | - [大模型推理加速工具 —— vLLM](#大模型推理加速工具--vllm) 55 | - [LLM(大语言模型)部署加速方法——Faster Transformer篇](#llm大语言模型部署加速方法faster-transformer篇) 56 | - [纯Python超轻量高性能LLM推理框架 —— LightLLM](#纯python超轻量高性能llm推理框架--lightllm) 57 | - [Attention 升级面](#attention-升级面) 58 | - [大模型幻觉(LLM Hallucination)面](#大模型幻觉llm-hallucination面) 59 | - [大模型幻觉(LLM Hallucination)面](#大模型幻觉llm-hallucination面-1) 60 | - [大模型的幻觉问题篇](#大模型的幻觉问题篇) 61 | - [大模型的幻觉问题篇](#大模型的幻觉问题篇-1) 62 | - [LLMs 对比篇](#llms-对比篇) 63 | - [LLMs 对比篇](#llms-对比篇-1) 64 | - [百川智能baichuan7B、13B、53B、baichuan2 总结篇](#百川智能baichuan7b13b53bbaichuan2-总结篇) 65 | - [思维链 Chain-of-Thought(COT)篇](#思维链-chain-of-thoughtcot篇) 66 | - [思维链 Chain-of-Thought(COT)篇](#思维链-chain-of-thoughtcot篇-1) 67 | - [思维链 Chain-of-Thought(COT)变体篇](#思维链-chain-of-thoughtcot变体篇) 68 | - [思维链 Chain-of-Thought(COT)变体篇](#思维链-chain-of-thoughtcot变体篇-1) 69 | 70 | ## [大模型(LLMs)基础面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 71 | 72 | 1. 目前 主流的开源模型体系 有哪些? 73 | 2. prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么? 74 | 3. 大模型LLM的 训练目标 是什么? 75 | 4. 涌现能力是啥原因? 76 | 5. 为何现在的大模型大部分是Decoder only结构? 77 | 6. 简单 介绍一下 大模型【LLMs】? 78 | 7. 大模型【LLMs】后面跟的 175B、60B、540B等 指什么? 79 | 8. 大模型【LLMs】具有什么优点? 80 | 9. 大模型【LLMs】具有什么缺点? 81 | 82 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 83 | 84 | ## [大模型(LLMs)进阶面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 85 | 86 | 1. LLMs 复读机问题 87 | 1. 什么是 LLMs 复读机问题? 88 | 2. 为什么会出现 LLMs 复读机问题? 89 | 3. 如何缓解 LLMs 复读机问题? 90 | 2. llama 系列问题 91 | 1. llama 输入句子长度理论上可以无限长吗? 92 | 3. 什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型,咋选? 93 | 4. 各个专业领域是否需要各自的大模型来服务? 94 | 5. 如何让大模型处理更长的文本? 95 | 96 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 97 | 98 | ## [大模型(LLMs)微调面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 99 | 100 | ### [大模型(LLMs)微调面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 101 | 102 | 1. 如果想要在某个模型基础上做全参数微调,究竟需要多少显存? 103 | 2. 为什么SFT之后感觉LLM傻了? 104 | 3. SFT 指令微调数据 如何构建? 105 | 4. 领域模型Continue PreTrain 数据选取? 106 | 5. 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力? 107 | 6. 领域模型Continue PreTrain ,如何 让模型在预训练过程中就学习到更多的知识? 108 | 7. 进行SFT操作的时候,基座模型选用Chat还是Base? 109 | 8. 领域模型微调 指令\&数据输入格式 要求? 110 | 9. 领域模型微调 领域评测集 构建? 111 | 10. 领域模型词表扩增是不是有必要的? 112 | 11. 如何训练自己的大模型? 113 | 12. 训练中文大模型有啥经验? 114 | 13. 指令微调的好处? 115 | 14. 预训练和微调哪个阶段注入知识的? 116 | 15. 想让模型学习某个领域或行业的知识,是应该预训练还是应该微调? 117 | 16. 多轮对话任务如何微调模型? 118 | 17. 微调后的模型出现能力劣化,灾难性遗忘是怎么回事? 119 | 18. 微调模型需要多大显存? 120 | 19. 大模型LLM进行SFT操作的时候在学习什么? 121 | 20. 预训练和SFT操作有什么不同 122 | 21. 样本量规模增大,训练出现OOM错 123 | 22. 大模型LLM进行SFT 如何对样本进行优化? 124 | 23. 模型参数迭代实验 125 | 24. 微调大模型的一些建议 126 | 127 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 128 | 129 | ### [大模型(LLMs)训练经验帖](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 130 | 131 | - 分布式训练框架选择? 132 | - LLMs 训练时 有哪些有用的建议? 133 | - 模型大小如何选择? 134 | - 加速卡如何选择? 135 | 136 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 137 | 138 | ## 大模型(LLMs)langchain 面 139 | 140 | ### [大模型(LLMs)langchain 面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 141 | 142 | - 1. 什么是 LangChain? 143 | - 2. LangChain 包含哪些 核心概念? 144 | - 2.1 LangChain 中 Components and Chains 是什么? 145 | - 2.2 LangChain 中 Prompt Templates and Values 是什么? 146 | - 2.3 LangChain 中 Example Selectors 是什么? 147 | - 2.4 LangChain 中 Output Parsers 是什么? 148 | - 2.5 LangChain 中 Indexes and Retrievers 是什么? 149 | - 2.6 LangChain 中 Chat Message History 是什么? 150 | - 2.7 LangChain 中 Agents and Toolkits 是什么? 151 | - 3. 什么是 LangChain Agent? 152 | - 4. 如何使用 LangChain ? 153 | - 5. LangChain 支持哪些功能? 154 | - 6. 什么是 LangChain model? 155 | - 7. LangChain 包含哪些特点? 156 | - 8. LangChain 如何使用? 157 | - 8.1 LangChain 如何调用 LLMs 生成回复? 158 | - 8.2 LangChain 如何修改 提示模板? 159 | - 8.3 LangChain 如何链接多个组件处理一个特定的下游任务? 160 | - 8.4 LangChain 如何Embedding \& vector store? 161 | - LangChain 存在哪些问题及方法方案? 162 | - 1. LangChain 低效的令牌使用问题 163 | - 2. LangChain 文档的问题 164 | - 3. LangChain 太多概念容易混淆,过多的“辅助”函数问题 165 | - 4. LangChain 行为不一致并且隐藏细节问题 166 | - 5. LangChain 缺乏标准的可互操作数据类型问题 167 | - LangChain 替代方案? 168 | 169 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 170 | 171 | ### [基于LLM+向量库的文档对话 经验面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 172 | 173 | - 一、基于LLM+向量库的文档对话 基础面 174 | - 1.1 为什么 大模型 需要 外挂(向量)知识库? 175 | - 1.2. 基于LLM+向量库的文档对话 思路是怎么样? 176 | - 1.3. 基于LLM+向量库的文档对话 核心技术是什么? 177 | - 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建? 178 | - 二、基于LLM+向量库的文档对话 存在哪些痛点? 179 | - 三、基于LLM+向量库的文档对话 工程示例面 180 | 181 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 182 | 183 | ### [LLM文档对话 —— pdf解析关键问题](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 184 | 185 | - 一、为什么需要进行pdf解析? 186 | - 二、为什么需要 对 pdf 进行解析? 187 | - 三、pdf解析 有哪些方法,对应的区别是什么? 188 | - 四、pdf解析 存在哪些问题? 189 | - 五、如何 长文档(书籍)中关键信息? 190 | - 六、为什么要提取标题甚至是多级标题? 191 | - 七、如何提取 文章标题? 192 | - 八、如何区分单栏还是双栏pdf?如何重新排序? 193 | - 九、如何提取表格和图片中的数据? 194 | - 十、基于AI的文档解析有什么优缺点? 195 | 196 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 197 | 198 | ### [基于LLM+向量库的文档对话 经验面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 199 | 200 | - 一、基于LLM+向量库的文档对话 基础面 201 | - 1.1 为什么 大模型 需要 外挂(向量)知识库? 202 | - 1.2. 基于LLM+向量库的文档对话 思路是怎么样? 203 | - 1.3. 基于LLM+向量库的文档对话 核心技术是什么? 204 | - 1.4. 基于LLM+向量库的文档对话 prompt 模板 如何构建? 205 | - 二、基于LLM+向量库的文档对话 存在哪些痛点? 206 | - 三、基于LLM+向量库的文档对话 工程示例面 207 | 208 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 209 | 210 | 211 | ## [大模型(LLMs)参数高效微调(PEFT) 面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 212 | 213 | ### [大模型(LLMs)参数高效微调(PEFT) 面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 214 | 215 | - 微调方法是啥?如何微调? 216 | - 为什么需要 PEFT? 217 | - 介绍一下 PEFT? 218 | - PEFT 有什么优点? 219 | - 微调方法批处理大小模式GPU显存速度? 220 | - Peft 和 全量微调区别? 221 | - 多种不同的高效微调方法对比 222 | - 当前高效微调技术存在的一些问题 223 | - 高效微调技术最佳实践 224 | - PEFT 存在问题? 225 | - 能不能总结一下各种参数高效微调方法? 226 | 227 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 228 | 229 | ### [配器微调(Adapter-tuning)篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 230 | 231 | - 一、为什么 需要 适配器微调(Adapter-tuning)? 232 | - 二、适配器微调(Adapter-tuning)思路? 233 | - 三、 适配器微调(Adapter-tuning)特点是什么? 234 | - 四、AdapterFusion 思路 是什么? 235 | - 五、AdapterDrop 思路 是什么? 236 | - 六、AdapterDrop 特点 是什么? 237 | - 七、MAM Adapter 思路 是什么? 238 | - 八、MAM Adapter 特点 是什么? 239 | 240 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 241 | 242 | ### [提示学习(Prompting)](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 243 | 244 | - 一、为什么需要 提示学习(Prompting)? 245 | - 二、什么是 提示学习(Prompting)? 246 | - 三、提示学习(Prompting) 有什么优点? 247 | - 四、提示学习(Prompting)有哪些方法,能不能稍微介绍一下它们间? 248 | - 4.1 前缀微调(Prefix-tining)篇 249 | - 4.1.1 为什么需要 前缀微调(Prefix-tining)? 250 | - 4.1.2 前缀微调(Prefix-tining)思路是什么? 251 | - 4.1.3 前缀微调(Prefix-tining)的优点是什么? 252 | - 4.1.4 前缀微调(Prefix-tining)的缺点是什么? 253 | - 4.2 指示微调(Prompt-tuning)篇 254 | - 4.2.1 为什么需要 指示微调(Prompt-tuning)? 255 | - 4.2.2 指示微调(Prompt-tuning)思路是什么? 256 | - 4.2.3 指示微调(Prompt-tuning)优点是什么? 257 | - 4.2.4 指示微调(Prompt-tuning)缺点是什么? 258 | - 4.2.5 指示微调(Prompt-tuning)与 Prefix-tuning 区别 是什么? 259 | - 4.2.6 指示微调(Prompt-tuning)与 fine-tuning 区别 是什么? 260 | - 4.3 P-tuning 篇 261 | - 4.3.1 为什么需要 P-tuning? 262 | - 4.3.2 P-tuning 思路是什么? 263 | - 4.3.3 P-tuning 优点是什么? 264 | - 4.3.4 P-tuning 缺点是什么? 265 | - 4.4 P-tuning v2 篇 266 | - 4.4.1 为什么需要 P-tuning v2? 267 | - 4.4.2 P-tuning v2 思路是什么? 268 | - 4.4.3 P-tuning v2 优点是什么? 269 | - 4.4.4 P-tuning v2 缺点是什么? 270 | 271 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 272 | 273 | ### [LoRA 系列篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 274 | 275 | - 一、LoRA篇 276 | - 1.1 什么是 LoRA? 277 | - 1.2 LoRA 的思路是什么? 278 | - 1.3 LoRA 的特点是什么? 279 | - 二、QLoRA篇 280 | - 2.1 QLoRA 的思路是怎么样的? 281 | - 2.2 QLoRA 的特点是什么? 282 | - 三、AdaLoRA篇 283 | - 3.1 AdaLoRA 的思路是怎么样的? 284 | - 四、LoRA权重是否可以合入原模型? 285 | - 五、ChatGLM-6B LoRA后的权重多大? 286 | - 六、LoRA 微调优点是什么? 287 | - 七、LoRA微调方法为啥能加速训练? 288 | - 八、如何在已有LoRA模型上继续训练? 289 | - 九、LoRA 缺点是什么? 290 | - 十、LoRA这种微调方法和全参数比起来有什么劣势吗? 291 | 292 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 293 | 294 | ## [大模型(LLMs)推理面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 295 | 296 | ### [大模型(LLMs)推理面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 297 | 298 | - 1. 为什么大模型推理时显存涨的那么多还一直占着? 299 | - 2. 大模型在gpu和cpu上推理速度如何? 300 | - 3. 推理速度上,int8和fp16比起来怎么样? 301 | - 4. 大模型有推理能力吗? 302 | - 5. 大模型生成时的参数怎么设置? 303 | - 6. 有哪些省内存的大语言模型训练/微调/推理方法? 304 | - 6.1 如何 估算模型所需的RAM? 305 | - 6.2 Fp16-mixed precision 306 | - 6.3 Int8-bitsandbytes 307 | - 6.4 LoRA 308 | - 6.5 Gradient Checkpointing 309 | - 6.6 Torch FSDP+CPU offload 310 | - 7. 如何让大模型输出合规化 311 | - 8. 应用模式变更 312 | 313 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 314 | 315 | ## 大模型(LLMs)预训练面 316 | 317 | ### [大模型(LLMs)增量预训练篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 318 | 319 | 1. 为什么要增量预训练? 320 | 2. 进行 增量预训练 需要做哪些准备工作? 321 | 3. 增量预训练 所用 训练框架? 322 | 4. 增量预训练 训练流程 是怎么样? 323 | 324 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 325 | 326 | ## [大模型(LLMs)评测面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 327 | 328 | 1. 大模型怎么评测? 329 | 2. 大模型的honest原则是如何实现的?模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力? 330 | 3. 如何衡量大模型水平? 331 | 4. 大模型评估方法 有哪些? 332 | 5. 大模型评估工具 有哪些? 333 | 334 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 335 | 336 | ## [大模型(LLMs)强化学习面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 337 | 338 | - 1. 简单介绍强化学习? 339 | - 2. 简单介绍一下 RLHF? 340 | - 3. 奖励模型需要和基础模型一致吗? 341 | - 4. RLHF 在实践过程中存在哪些不足? 342 | - 5. 如何解决 人工产生的偏好数据集成本较高,很难量产问题? 343 | - 6. 如何解决三个阶段的训练(SFT-\>RM-\>PPO)过程较长,更新迭代较慢问题? 344 | - 7. 如何解决 PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高 问题? 345 | 346 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 347 | 348 | ## [大模型(LLMs)软硬件配置面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 349 | 350 | 1. 建议的软件环境是什么? 351 | 352 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 353 | 354 | ## [大模型(LLMs)训练集面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 355 | 356 | 1. SFT(有监督微调)的数据集格式? 357 | 2. RM(奖励模型)的数据格式? 358 | 3. PPO(强化学习)的数据格式? 359 | 4. 找数据集哪里找? 360 | 5. 微调需要多少条数据? 361 | 6. 有哪些大模型的训练集? 362 | 7. 进行领域大模型预训练应用哪些数据集比较好? 363 | 364 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 365 | 366 | ## [大模型(LLMs)显存问题面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 367 | 368 | 1. 大模型大概有多大,模型文件有多大? 369 | 2. 能否用4 * v100 32G训练vicuna 65b? 370 | 3. 如果就是想要试试65b模型,但是显存不多怎么办? 371 | 4. nB模型推理需要多少显存? 372 | 5. nB模型训练需要多少显存? 373 | 6. 如何 估算模型所需的RAM? 374 | 7. 如何评估你的显卡利用率? 375 | 8. 测试你的显卡利用率 实现细节篇 376 | 1. 如何查看多机训练时的网速? 377 | 2. 如何查看服务器上的多卡之间的NVLINK topo? 378 | 3. 如何查看服务器上显卡的具体型号? 379 | 4. 如何查看训练时的flops?(也就是每秒的计算量) 380 | 5. 如何查看对deepspeed的环境配置是否正确? 381 | 6. tf32格式有多长? 382 | 7. 哪里看各类显卡算力比较? 383 | 8. (torch profiler)如何查看自己的训练中通信开销? 384 | 385 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 386 | 387 | ## 大模型(LLMs)分布式训练面 388 | 389 | ### [大模型(LLMs)分布式训练面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 390 | 391 | - 1. 理论篇 392 | - 1.1 训练 大语言模型 存在问题? 393 | - 1.2 什么是 点对点通信? 394 | - 1.3 什么是 集体通信? 395 | - 1.4 什么是 数据并行? 396 | - 1.5 数据并行 如何 提升效率? 397 | - 1.6 什么是 流水线并行? 398 | - 1.7 什么是 张量并行 (intra-layer)? 399 | - 1.8 数据并行 vs 张量并行 vs 流水线并行? 400 | - 1.9 什么是 3D并行? 401 | - 1.10 想要训练1个LLM,如果只想用1张显卡,那么对显卡的要求是什么? 402 | - 1.11 如果有N张显存足够大的显卡,怎么加速训练? 403 | - 1.12 如果显卡的显存不够装下一个完整的模型呢? 404 | - 1.13 PP推理时,是一个串行的过程,1个GPU计算,其他空闲,有没有其他方式? 405 | - 1.14 3种并行方式可以叠加吗? 406 | - 1.15 Colossal-AI 有1D/2D/2.5D/3D,是什么情况? 407 | - 1.16 除了3D并行有没有其他方式大规模训练? 408 | - 1.17 有了ZeRO系列,为什么还需要3D并行? 409 | - 1.18 平民适不适合玩3D并行? 410 | - 1.19 平民适不适合直接上多机多卡的ZeRO3(万兆网)? 411 | - 1.20 分布式并行及显存优化技术并行技术有哪一些,都有什么特点? 412 | - 1.21 显存优化技术有哪一些,都有什么特点? 413 | - 1.22 常见的分布式训练框架哪一些,都有什么特点? 414 | - 2. 实践篇 415 | - 2.1 假如有超多的8卡A100节点(DGX A100),如何应用3D并行策略? 416 | - 2.2 如果想构这样一个大规模并行训练系统,训练框架如何选? 417 | - 2.3 训练框架如何选? 418 | - 3. 并行化策略选择篇 419 | - 3.1 如何选择一款分布式训练框架? 420 | - 3.2 如何选择一款分布式训练框架? 421 | - 3.3 单GPU 422 | - 3.4 单节点多卡 423 | - 3.5 多节点多卡 424 | - 4. 问题篇 425 | - 4.1 推理速度验证 426 | - 4.2 并行化训练加速 427 | - 4.3 deepspeed 训练过程,报找不主机 428 | - 4.4 为什么 多机训练效率不如单机? 429 | - 4.5 多机训练不通,DeepSPeed配置问题 430 | 431 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 432 | 433 | ### [图解分布式训练(一) —— 流水线并行(Pipeline Parallelism)面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 434 | 435 | - 为什么需要流水线并行(Pipeline Parallelism)? 436 | - 一、流水线并行(Pipeline Parallelism) 优化目标是什么? 437 | - 二、图解 流水线并行(Pipeline Parallelism)模型并行 必要性? 438 | - 三、流水线并行(Pipeline Parallelism) 图解? 439 | - 四、流水线并行(Pipeline Parallelism)优缺点? 440 | 441 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 442 | 443 | ### [图解分布式训练(二) —— nn.DataParallel面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 444 | 445 | - 为什么需要nn.DataParallel? 446 | - 一、pytorch中的GPU操作默认是什么样? 447 | - 二、介绍一下 nn.DataParallel 函数? 448 | - 三、nn.DataParallel 函数 处理逻辑 介绍一下? 449 | - 四、nn.DataParallel 函数 常见问题及解答 有哪些? 450 | - 4.1 多GPU计算减少了程序运行的时间? 451 | - 4.2 如何保存和加载多GPU训练模型呢? 452 | - 4.3 为什么第一块卡的显存会占用的更多一些? 453 | - 4.4 直接使用nn.DataParallel的时候,训练采用多卡训练,会出现一个warning? 454 | - 4.5 device\_ids 0 被占用问题 455 | - 五、nn.DataParallel 函数 参数更新方式 ? 456 | - 六、nn.DataParallel 函数 优点 介绍一下? 457 | - 七、nn.DataParallel 函数 缺点 介绍一下? 458 | - 八、nn.DataParallel 函数 实战? 459 | 460 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 461 | 462 | ### [图解分布式训练(三) —— nn.parallel.DistributedDataParallel](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 463 | 464 | - 为什么需要 nn.parallel.DistributedDataParallel ? 465 | - 一、什么是 DistributedDataParallel 核心 —— Ring-AllReduce? 466 | - 二、nn.parallel.DistributedDataParallel 函数 介绍一下? 467 | - 三、nn.parallel.DistributedDataParallel 函数 如何多卡加速训练? 468 | - 四、nn.parallel.DistributedDataParallel 实现流程介绍一下? 469 | - 五、nn.parallel.DistributedDataParallel 参数更新介绍一下? 470 | - 六、nn.DataParallel(以下简称DP) vs DistributedDataParallel(以下简称DDP)介绍一下? 471 | - 七、DistributedDataParallel(以下简称DDP) 优点有哪些? 472 | - 八、DistributedDataParallel(以下简称DDP) 缺点有哪些? 473 | 474 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 475 | 476 | ### [图解分布式训练(四) —— torch.multiprocessing 详细解析](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 477 | 478 | - 一、torch.multiprocessing 函数介绍一下? 479 | - 二、torch.multiprocessing 函数如何使用? 480 | - 三、介绍一下 共享CUDA张量? 481 | - 四、介绍一下 共享策略? 482 | - 五、torch.multiprocessing 函数使用 483 | 484 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 485 | 486 | ### [图解分布式训练(五) —— AMP混合精度训练 详细解析](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 487 | 488 | - 为什么需要 AMP混合精度训练? 489 | - 一、什么是自动混合精度训练(AMP) 490 | - 二、为什么需要自动混合精度? 491 | - 三、混合精度训练的优点是什么? 492 | - 四、混合精度训练的缺点是什么? 493 | - 五、混合精度训练的关键技术是什么? 494 | - 六、介绍一下 混合精度训练 动态损失缩放? 495 | - 七、如何在PyTorch中使用自动混合精度? 496 | - 八、如何使用 AMP混合精度训练 ? 497 | 498 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 499 | 500 | ### [图解分布式训练(六) —— Pytorch的 DeepSpeed 详细解析](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 501 | 502 | - 一、为什么需要 Deepspeed? 503 | - 二、DeepSpeed 基本概念 介绍一下? 504 | - 三、DeepSpeed 通信策略 介绍一下? 505 | - 四、DeepSpeed 如何使用? 506 | - 五、DeepSpeed 代码实现? 507 | - 七、训练精度 介绍一下? 508 | - 八、获取模型参数 介绍一下? 509 | 510 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 511 | 512 | ### [图解分布式训练(七)—— accelerate 分布式训练 详细解析](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 513 | 514 | - 一、为什么需要 accelerate 分布式训练? 515 | - 二、什么是 accelerate 分布式训练? 516 | - 三、accelerate 分布式训练 原理讲解? 517 | - 四、accelerate 分布式训练 如何实践? 518 | 519 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 520 | 521 | ### [图解分布式训练(八)—— ZeRO 学习](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 522 | 523 | - 一、什么是 3D 并行? 524 | - 二、3D 并行 策略有哪些? 525 | - 三、为什么需要 ZeRO? 526 | - 四、ZeRO 的 核心思想是什么? 527 | - 五、ZeRO 显存如何分配? 528 | - 六、ZeRO 优化策略是怎么样? 529 | - 七、ZeRO Offload后的计算流程是怎么样? 530 | 531 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 532 | 533 | ## [大模型(LLMs)agent 面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 534 | 535 | 1. 如何给LLM注入领域知识? 536 | 2. 如果想要快速体验各种模型,该怎么办? 537 | 538 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 539 | 540 | ## [Token及模型参数准备篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 541 | 542 | 1. 预训练数据 Token 重复 是否影响 模型性能? 543 | 2. SFT需要训练Token数? 544 | 545 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 546 | 547 | ## [LLMs 位置编码篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 548 | 549 | - 1 什么是位置编码? 550 | - 2 什么是绝对位置编码? 551 | - 3 什么是相对位置编码? 552 | - 4 旋转位置编码 RoPE篇 553 | - 4.1 旋转位置编码 RoPE 思路是什么? 554 | - 4.2 推导一下 旋转位置编码 RoPE ? 555 | - 4.3 旋转位置编码 RoPE 有什么优点? 556 | - 4.4 旋转位置编码 RoPE 被哪些 LLMs 应用? 557 | - 5 长度外推问题篇 558 | - 5.1 什么是 长度外推问题? 559 | - 5.2 长度外推问题 的 解决方法 有哪些? 560 | - 6 ALiBi (Attention with Linear Biases)篇 561 | - 6.1 ALiBi (Attention with Linear Biases) 思路是什么? 562 | - 6.2 ALiBi (Attention with Linear Biases) 的偏置矩阵是什么?有什么作用? 563 | - 6.3 ALiBi (Attention with Linear Biases) 有什么优点? 564 | - 6.4 ALiBi (Attention with Linear Biases) 被哪些 LLMs 应用? 565 | 566 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 567 | 568 | ## LLMs Tokenizer 篇 569 | 570 | ### [LLMs Tokenizer 篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 571 | 572 | - Byte-Pair Encoding(BPE)篇 573 | - 1 Byte-Pair Encoding(BPE) 如何构建词典? 574 | - WordPiece 篇 575 | - 1 WordPiece 与 BPE 异同点是什么? 576 | - SentencePiece 篇 577 | - 简单介绍一下 SentencePiece 思路? 578 | - 对比篇 579 | - 1 举例 介绍一下 不同 大模型LLMs 的分词方式? 580 | - 2 介绍一下 不同 大模型LLMs 的分词方式 的区别? 581 | 582 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 583 | 584 | ### [怎么让英文大语言模型支持中文?(一) —— 构建中文tokenization](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 585 | 586 | - 一、为什么需要 构建中文tokenization? 587 | - 二、如何对 原始数据预处理? 588 | - 三、如何构建中文的词库? 589 | - 四、如何使用transformers库加载sentencepiece模型? 590 | - 五、如何合并英文词表和中文词表? 591 | - 六、怎么使用修改后的词表? 592 | - 总结一下 构建中文tokenization? 593 | 594 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 595 | 596 | ### [怎么让英文大语言模型支持中文?(二) —— 继续预训练篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 597 | 598 | - 一、为什么需要进行继续预训练? 599 | - 二、如何对 继续预训练 数据预处理? 600 | - 三、如何 构建模型? 601 | - 四、如何 使用模型? 602 | 603 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 604 | 605 | ### [怎么让英文大语言模型支持中文?(三) —— 对预训练模型进行指令微调](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 606 | 607 | - 一、为什么需要对预训练模型进行指令微调? 608 | - 二、对预训练模型进行指令微调 数据 如何处理? 609 | - 三、对预训练模型进行指令微调 tokenization 如何构建? 610 | - 四、对预训练模型进行指令微调 模型 如何构建? 611 | - 五、是否可以结合 其他库 使用? 612 | 613 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 614 | 615 | ## [Layer normalization 篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 616 | 617 | - Layer normalization-方法篇 618 | - Layer Norm 篇 619 | - Layer Norm 的计算公式写一下? 620 | - RMS Norm 篇 (均方根 Norm) 621 | - RMS Norm 的计算公式写一下? 622 | - RMS Norm 相比于 Layer Norm 有什么特点? 623 | - Deep Norm 篇 624 | - Deep Norm 思路? 625 | - 写一下 Deep Norm 代码实现? 626 | - Deep Norm 有什么优点? 627 | - Layer normalization-位置篇 628 | - 1 LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么? 629 | - Layer normalization 对比篇 630 | - LLMs 各模型分别用了 哪种 Layer normalization? 631 | 632 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 633 | 634 | ## [LLMs 激活函数篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 635 | 636 | - 1 介绍一下 FFN 块 计算公式? 637 | - 2 介绍一下 GeLU 计算公式? 638 | - 3 介绍一下 Swish 计算公式? 639 | - 4 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式? 640 | - 5 介绍一下 使用 GeLU 的 GLU 块 计算公式? 641 | - 6 介绍一下 使用 Swish 的 GLU 块 计算公式? 642 | - 各LLMs 都使用哪种激活函数? 643 | 644 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 645 | 646 | ## [LLMs 激活函数篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 647 | 648 | - 1 介绍一下 FFN 块 计算公式? 649 | - 2 介绍一下 GeLU 计算公式? 650 | - 3 介绍一下 Swish 计算公式? 651 | - 4 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式? 652 | - 5 介绍一下 使用 GeLU 的 GLU 块 计算公式? 653 | - 6 介绍一下 使用 Swish 的 GLU 块 计算公式? 654 | - 各LLMs 都使用哪种激活函数? 655 | 656 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 657 | 658 | ## 大模型(LLMs)加速篇 659 | 660 | ### [大模型(LLMs)加速篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 661 | 662 | - 1. 当前优化模型最主要技术手段有哪些? 663 | - 2. 推理加速框架有哪一些?都有什么特点? 664 | - 3 vLLM 篇 665 | - 3.1 vLLM 的 功能有哪些? 666 | - 3.2 vLLM 的 优点有哪些? 667 | - 3.3 vLLM 的 缺点有哪些? 668 | - 3.4 vLLM 离线批量推理? 669 | - 3.5 vLLM API Server? 670 | - 4 Text generation inference 篇 671 | - 4.1 介绍一下 Text generation inference? 672 | - 4.2 Text generation inference 的 功能有哪些? 673 | - 4.3 Text generation inference 的 优点有哪些? 674 | - 4.4 Text generation inference 的 缺点有哪些? 675 | - 4.5 Text generation inference 的 使用docker运行web server? 676 | 677 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 678 | 679 | ### [LLM(大语言模型)部署加速方法——PagedAttention篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 680 | 681 | - 一、vLLM 用于大模型并行推理加速 存在什么问题? 682 | - 二、vLLM 如何 优化 大模型并行推理加速? 683 | - 三、什么是 PagedAttention? 684 | - 四、 PagedAttention 如何存储 连续的key和value? 685 | - 五、 PagedAttention 技术细节? 686 | - 六、 PagedAttention 如何 实现安全共享? 687 | - 七、 PagedAttention 源码介绍? 688 | 689 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 690 | 691 | ### [大模型推理加速工具 —— vLLM](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 692 | 693 | - 一、引言 694 | - 1.1 前言 695 | - 1.2 为什么 需要 vLLM ? 696 | - 1.3 vLLM 具有哪些特点 ? 697 | - 1.4 vLLM 支持哪些 Huggingface 模型 ? 698 | - 二、vLLM 性能如何? 699 | - 三、vLLM 依赖包 700 | - 四、vLLM 如何安装? 701 | - 五、vLLM 如何使用? 702 | - 六、vLLM 分布式推理与服务 703 | 704 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 705 | 706 | ### [LLM(大语言模型)部署加速方法——Faster Transformer篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 707 | 708 | - 一、为什么需要 FasterTransformer? 709 | - 二、FasterTransformer 介绍一下? 710 | - 三、FasterTransformer 核心是什么? 711 | - 四、FasterTransformer 优化? 712 | 713 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 714 | 715 | ### [纯Python超轻量高性能LLM推理框架 —— LightLLM](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 716 | 717 | - 一、引言 718 | - 1.1 前言 719 | - 1.2 为什么 需要 LightLLM ? 720 | - 1.3 目前 LLM推理框架 有 哪些? 721 | - 二、LightLLM 介绍一下? 722 | - 2.1 什么是 LightLLM ? 723 | - 2.2 Token Attention 介绍? 724 | - 2.3 Efficient Router 介绍? 725 | - 三、LightLLM 性能表现 介绍? 726 | - 四、LightLLM 依赖包 有哪些? 727 | - 五、LightLLM 如何安装? 728 | - 5.1 下载 LightLLM 729 | - 5.2 安装 LightLLM 依赖 730 | - 5.3 安装 LightLLM 731 | - 六、LightLLM 如何使用? 732 | - 6.1 启动 LightLLM 服务 733 | - 填坑笔记 734 | - LightLLM 支持模型 LLMs 模型? 735 | 736 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 737 | 738 | ## [Attention 升级面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 739 | 740 | - 1 传统 Attention 存在哪些问题? 741 | - 2 Attention 优化方向 742 | - 3 Attention 变体有哪些? 743 | - 4 Multi-Query Attention 篇 744 | - 4.1 Multi-head Attention 存在什么问题? 745 | - 4.2 介绍一下 Multi-Query Attention? 746 | - 4.3 对比一下 Multi-head Attention 和 Multi-Query Attention? 747 | - 4.4 Multi-Query Attention 这样做的好处是什么? 748 | - 4.5 有 哪些模型 是 使用 Multi-Query Attention? 749 | - 5 Grouped-query Attention 750 | - 5.1 什么是 Grouped-query Attention? 751 | - 5.2 有哪些大模型使用 Grouped-query Attention? 752 | - 6 FlashAttention 介绍一下 753 | - 7 并行 transformer block 介绍一下? 754 | 755 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 756 | 757 | ## 大模型幻觉(LLM Hallucination)面 758 | 759 | ### [大模型幻觉(LLM Hallucination)面](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 760 | 761 | - 一、什么是大模型幻觉? 762 | - 二、为什么LLM会产生幻觉? 763 | - 三、为什么需要解决LLM的幻觉问题? 764 | - 四、幻觉一定是有害的吗? 765 | - 五、幻觉有哪些不同类型? 766 | - 六、如何度量幻觉? 767 | - 七、如何缓解LLM幻觉? 768 | - 7.1 通过使用外部知识验证主动检测和减轻幻觉 769 | - 7.2 事实核心采样 770 | - 7.3 SelfCheckGPT 771 | - 八、LLMs什么时候最容易产生幻觉? 772 | 773 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 774 | 775 | ### [大模型的幻觉问题篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 776 | 777 | - 一、什么是 大模型幻觉问题? 778 | - 二、为什么 会 出现 大模型幻觉问题? 779 | - 三、如何 评估 大模型幻觉问题? 780 | - 四、如何 缓解 大模型幻觉问题? 781 | 782 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 783 | 784 | ### [大模型的幻觉问题篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 785 | 786 | - 一、为什么 会 出现 大模型幻觉? 787 | - 二、如何 缓解 大模型幻觉? 788 | 789 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 790 | 791 | ## LLMs 对比篇 792 | 793 | ### [LLMs 对比篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 794 | 795 | - LLMs 训练数据 和 数据量 对比如何? 796 | 797 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 798 | 799 | ### [百川智能baichuan7B、13B、53B、baichuan2 总结篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 800 | 801 | - 一、baichuan-7B篇 802 | - 1. 你了解baichuan-7B解构么?介绍一下? 803 | - 2. baichuan-7B 如何 收集原始数据并 构建 训练数据? 804 | - 3. baichuan-7B 如何 提高 训练稳定性和吞吐? 805 | - 二、baichuan-13B篇 806 | - 1. 相比于 baichuan-7B,baichuan-13B 的 特点体现在哪里? 807 | - 2. 如何 对 baichuan-13B 进行推理和部署? 808 | - 3. 如何 对 baichuan-13B 进行微调? 809 | - 三、baichuan-53B篇 810 | - 3.1 baichuan-53B 相比于 baichuan-7B 和 baichuan-13B 有哪些优势? 811 | - 3.2 baichuan-53B 如何对 预训练数据 做处理? 812 | - 3.3 baichuan-53B 如何进行 搜索增强? 813 | - 四、baichuan2篇 814 | - 4.1 baichuan2 与 其他大模型 对比 815 | - 五、baichuan 数据构建篇 816 | - 5.1 baichuan 进行微调时,领域数据:通用数据配比? 817 | 818 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 819 | 820 | ## 思维链 Chain-of-Thought(COT)篇 821 | 822 | ### [思维链 Chain-of-Thought(COT)篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 823 | 824 | - 一、什么是思维链提示? 825 | - 二、思维链提示本质是什么? 826 | - 三、思维链提示 与 标准的提示学习方法有什么不同? 827 | - 四、思维链提示 为什么可以提高语言模型的复杂推理能力?它的优势在哪里? 828 | - 五、思维链提示 适用场景 有 哪些? 829 | - 六、思维链提示 目前还存在哪些不足点? 830 | - 七、思维链提示 对推动语言模型复杂推理能力研究有哪些启发和影响? 831 | - 八、思维链提示 对实现真正的通用人工智能仍面临哪些挑战? 832 | - 九、如何通过增加模型规模来获得语言模型强大的思路链推理能力的?这与模型获得的哪些能力有关? 833 | - 十、你认为可以在哪些其他方面应用“思路链提示”这一思路来提升语言模型的能力? 834 | - 十一、如果需要你对 思维链提示 进行改进,你觉得你会改进哪些地方? 835 | - 十二、思维链提示 未来研究方向? 836 | 837 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 838 | 839 | ### [思维链 Chain-of-Thought(COT)变体篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 840 | 841 | - 思维链 Chain-of-Thought(COT):思维链的启蒙 842 | - 1. 什么是 思维链 Chain-of-Thought(COT)? 843 | - 2. 思维链 Chain-of-Thought(COT)是思路是什么? 844 | - 3. 思维链 Chain-of-Thought(COT)存在问题? 845 | - 思维树 Tree of Thoughts(TOT):一种用树结构解决复杂问题的方法 846 | - 1. 为什么需要 思维树 Tree of Thoughts(TOT)? 847 | - 2. 什么是 思维树 Tree of Thoughts(TOT)? 848 | - 3. 思维树 Tree of Thoughts(TOT)涉及问题有哪些? 849 | - 思维图 Graph of Thoughts(GOT):一种把思维链过程建模层图结构的方法 850 | - 1. 为什么 需要 思维图 Graph of Thoughts(GOT)? 851 | - 2. 什么是 思维图 Graph of Thoughts(GOT) ? 852 | - 3. 思维图 Graph of Thoughts(GOT)核心思想是什么 ? 853 | - 思维算法 Algorithm of Thoughts(AOT):一种用DFS/BFS示例解决问题的方法 854 | - 1. 为什么 需要 思维算法 Algorithm of Thoughts(AOT)? 855 | - 2. 思维算法 Algorithm of Thoughts(AOT)思路是什么? 856 | - 3. 思维算法 Algorithm of Thoughts(AOT) vs 其他 COT 的 区别? 857 | - 思维链 Chain-of-Thought(COT) 有哪些 应用场景? 858 | - 思维链 Chain-of-Thought(COT) 有哪些 局限性? 859 | 860 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 861 | 862 | ## [思维链 Chain-of-Thought(COT)变体篇](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 863 | 864 | - 一、为什么需要 Graph RAG? 865 | - 二、什么是 Graph RAG? 866 | - 三、Graph RAG 思路介绍? 867 | - 四、用代码 介绍 Graph RAG ? 868 | - 五、用 示例 介绍 Graph RAG ? 869 | - 六、Graph RAG 排序优化方式? 870 | 871 | - [点击查看答案](https://docs.qq.com/doc/DRmNUYWlvTXJVUUxW) 872 | --------------------------------------------------------------------------------