├── LICENSE
├── README.md
├── 大模型推荐.md
├── 大语言模型是什么？.md
├── 没有卡的条件下我们能做什么？.md
├── 论文列表.md
└── 论文解读
    ├── pic
        ├── 3种note.png
        ├── Agent Instructions生成过程.png
        ├── AutoGen实验.png
        ├── AutoGen框架.png
        ├── BBH_result.png
        ├── BFS与DFS算法结合ToT.png
        ├── CoN prompt.png
        ├── CoT and SG CoT.png
        ├── CoT approaches.png
        ├── CoT formulations.png
        ├── CoT_Agent_fw.png
        ├── HELM任务分类.png
        ├── HKFR_Experimental.png
        ├── HKFR_key.png
        ├── LATS整体框架.png
        ├── LATS迭代过程.png
        ├── MCTS_PromptAgent.png
        ├── MedPrompt 算法.png
        ├── MedPrompt_SOTA.png
        ├── MedPrompt图解.png
        ├── MedPrompt表现.png
        ├── MedPrompt跨域泛化.png
        ├── NLU_result.png
        ├── QA性能.png
        ├── RAG Components.png
        ├── RAG Framework.png
        ├── RAG vs Self-RAG.png
        ├── RAG vs 其他.png
        ├── RAG vs 微调.png
        ├── RAG时间线.png
        ├── RALM vs RALM+CoN.png
        ├── RAP思维框架.png
        ├── Reflexion框架.png
        ├── Reflexion过程.png
        ├── STP.png
        ├── STP_result.png
        ├── Self-RAG tokens.png
        ├── Self-generate CoT tem.png
        ├── Self_RAG 消融.png
        ├── Self_RAG 算法.png
        ├── Self_RAG 结果.png
        ├── ToT框架与其他三种方法.png
        ├── UCT公式.png
        ├── Winning rate (%) between zeroshot, zero-shot CoT, and zero-shot AgentInstruct.png
        ├── Zero-shot Agent instructions.png
        ├── agent研究总结.png
        ├── collm_data.png
        ├── collm_key.png
        ├── collm_warm_cold.png
        ├── example_PromptAgent.png
        ├── expert_prompt.png
        ├── kgllm01.png
        ├── kgllm02.png
        ├── kgllm03.png
        ├── kgllm04.png
        ├── kgllm05.png
        ├── kgllm06.png
        ├── kgllm07.png
        ├── kgllm08.png
        ├── kgllm09.png
        ├── kgllm10.png
        ├── kgllm11.png
        ├── kgllm12.png
        ├── kgllm13.png
        ├── kgllm14.png
        ├── kgllm15.png
        ├── kgllm16.png
        ├── kgllm17.png
        ├── latm01.png
        ├── latm02.png
        ├── latm03.png
        ├── latm04.png
        ├── latm05.png
        ├── llara01.png
        ├── llara02.png
        ├── llara03.png
        ├── llara04.png
        ├── llara05.png
        ├── llara06.png
        ├── llara07.png
        ├── llara08.png
        ├── metagpt01.png
        ├── metagpt02.png
        ├── metagpt03.png
        ├── p_m_r_CoT.png
        ├── rs_vs_llmrs.png
        ├── scrl01.png
        ├── scrl02.png
        ├── wizardlm1.png
        ├── wizardlm2.png
        ├── 与SC对比.png
        ├── 与few-shot对比.png
        ├── 代理各方面应用.png
        ├── 代理架构模块.png
        ├── 代理能力获取方法.png
        ├── 六种AutoGen框架的应用.png
        ├── 噪声鲁棒性.png
        ├── 多模型对比.png
        ├── 未知鲁棒性.png
        ├── 消融实验结果.png
        └── 蒙特卡洛树规划.png
    ├── 大模型+推荐系统
        ├── CoLLM Integrating Collaborative Embeddings into Large Language Models for Recommendation（中科大）.md
        ├── LLaRA Aligning Large Language Models with Sequential Recommenders.md
        ├── RecSys2023Heterogeneous Knowledge Fusion A Novel Approach for Personalized Recommendation via LLM.md
        └── RecSys2023：Large Language Models for Generative Recommendation A Survey and Visionary Discussions（LLM推荐系统综述）.md
    ├── 大模型+知识图谱
        └── Unifying Large Language Models and Knowledge Graphs A Roadmap（大模型+知识图谱综述）.md
    ├── 大模型+金融
        └── Integrating Stock Features and Global Information via Large Language Models for Enhanced Stock Return Prediction.md
    └── 大模型
        ├── A Survey on Large Language Model based Autonomous Agents（基于LLM的自主智能体的综述）.md
        ├── Agent Instructs Large Language Models to be General Zero-Shot Reasoners.md
        ├── AutoGen Enabling Next-Gen LLM Applications via Multi-Agent Conversation.md
        ├── Can Generalist Foundation Models Outcompete Special-Purpose Tuning Case Study in Medicine.md
        ├── Chain-of-Note Enhancing Robustness in Retrieval-Augmented Language Models.md
        ├── Igniting Language Intelligence The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents.md
        ├── LANGUAGE AGENT TREE SEARCH UNIFIES REASON-ING ACTING AND PLANNING IN LANGUAGE MODELS.md
        ├── Large Language Models as Tool Makers.md
        ├── METAGPT META PROGRAMMING FOR AMULTI-AGENT COLLABORATIVE FRAMEWORK.md
        ├── PromptAgent Strategic Planning with Language Models Enables Expert-level Prompt Optimization.md
        ├── Reasoning with Language Model is Planning with World Model.md
        ├── Reflexion Language Agents with Verbal Reinforcement Learning.md
        ├── Retrieval-Augmented Generation for Large Language Models A Survey(RAG综述).md
        ├── Self-RAG Learning to Retrieve, Generate, and Critique through Self-Reflection.md
        ├── Take a Step Back Evoking Reasoning via Abstraction in Large Language Models.md
        ├── Tree of Thoughts Deliberate Problem Solving with Large Language Models.md
        └── WizardLM Empowering Large Language Models to Follow Complex Instructions.md


/LICENSE:
--------------------------------------------------------------------------------
 1 | MIT License
 2 | 
 3 | Copyright (c) 2023 xingyu
 4 | 
 5 | Permission is hereby granted, free of charge, to any person obtaining a copy
 6 | of this software and associated documentation files (the "Software"), to deal
 7 | in the Software without restriction, including without limitation the rights
 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 | 
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 | 
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.
22 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # LLMsStudy
 2 | 收集大语言模型的学习路径和各种最佳实践
 3 | # LLM的初步探究
 4 | 
 5 | 随着大模型的热度越来越高，我们有必要对大于语言模型进行深入的研究
 6 | 
 7 | ## 怎么开始学习？
 8 | ### 0. 体验大模型 （入门）
 9 | 
10 | 第一步先学会科学上网，最好学会自己搭梯子，这样才能保证你的学习不会被打断。
11 | 
12 | 第二步，体验大模型，可以通过以下方式体验大模型：chatgpt，cluade，bard等等
13 | 
14 | ### 1. 了解大模型（基础）
15 | 
16 | 吴恩达大模型系列课程
17 | 
18 | https://github.com/datawhalechina/prompt-engineering-for-developers
19 | 
20 | 包括 提示词工程，langchain
21 | 
22 | 学习后可以入门大模型的基本概念和应用
23 | 
24 | 
25 | ### 2. 查阅论文（进阶）
26 | 
27 | 在了解大模型的基本概念后，可以通过查阅论文来了解大模型的最新进展
28 | 
29 | https://github.com/Hannibal046/Awesome-LLM
30 | 
31 | ### 3. 代码实践（进阶）
32 | 
33 | 可以自己开始动手实践，可以从以下几个方面入手：
34 | 
35 | 调用大模型的API
36 | 
37 | 自己部署大模型调用
38 | 
39 | 微调大模型
40 | 
41 | 
42 | 
43 | ## 论文解读(持续更新ing)
44 | 
45 | |    主题     |                             题目                             | 推荐  |
46 | | :---------: | :----------------------------------------------------------: | :---: |
47 | |   大模型    | [WizardLM: Empowering Large Language Models to Follow Complex Instructions](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/WizardLM%20Empowering%20Large%20Language%20Models%20to%20Follow%20Complex%20Instructions.md) | ★★★★★★★ |
48 | |   大模型    | [Igniting Language Intelligence The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/Igniting%20Language%20Intelligence%20The%20Hitchhiker's%20Guide%20From%20Chain-of-Thought%20Reasoning%20to%20Language%20Agents.md) | ★★★★★ |
49 | |   大模型    | [Reasoning with Language Model is Planning with World Model](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/Reasoning%20with%20Language%20Model%20is%20Planning%20with%20World%20Model.md) | ★★★★  |
50 | |   大模型    | [Reflexion Language Agents with Verbal Reinforcement Learning](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/Reflexion%20Language%20Agents%20with%20Verbal%20Reinforcement%20Learning.md) | ★★★★  |
51 | |   大模型    | [Tree of Thoughts Deliberate Problem Solving with Large Language Models](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/Tree%20of%20Thoughts%20Deliberate%20Problem%20Solving%20with%20Large%20Language%20Models.md) |   ★   |
52 | |   大模型    | [LANGUAGE AGENT TREE SEARCH UNIFIES REASON-ING ACTING AND PLANNING IN LANGUAGE MODELS](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/LANGUAGE%20AGENT%20TREE%20SEARCH%20UNIFIES%20REASON-ING%20ACTING%20AND%20PLANNING%20IN%20LANGUAGE%20MODELS.md) | ★★★★  |
53 | |   大模型    | [Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B/Take%20a%20Step%20Back%20Evoking%20Reasoning%20via%20Abstraction%20in%20Large%20Language%20Models.md) |  ★★★  |
54 | | 大模型+推荐 | [RecSys2023：Large Language Models for Generative Recommendation A Survey and Visionary Discussions（LLM推荐系统综述)](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B%2B%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/RecSys2023%EF%BC%9ALarge%20Language%20Models%20for%20Generative%20Recommendation%20A%20Survey%20and%20Visionary%20Discussions%EF%BC%88LLM%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E7%BB%BC%E8%BF%B0%EF%BC%89.md) |  ★★★  |
55 | | 大模型+推荐 | [RecSys2023Heterogeneous Knowledge Fusion A Novel Approach for Personalized Recommendation via LLM](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B%2B%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/RecSys2023Heterogeneous%20Knowledge%20Fusion%20A%20Novel%20Approach%20for%20Personalized%20Recommendation%20via%20LLM.md) |  ★★   |
56 | | 大模型+推荐 | [CoLLM: Integrating Collaborative Embeddings into Large Language Models for Recommendation（中科大）](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B%2B%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/CoLLM%20Integrating%20Collaborative%20Embeddings%20into%20Large%20Language%20Models%20for%20Recommendation%EF%BC%88%E4%B8%AD%E7%A7%91%E5%A4%A7%EF%BC%89.md) |  ★★★  |
57 | | 大模型+推荐 | [LLaRA: Aligning Large Language Models with Sequential Recommenders](https://github.com/XingYu-Zhong/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/%E5%A4%A7%E6%A8%A1%E5%9E%8B%2B%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F/LLaRA%20Aligning%20Large%20Language%20Models%20with%20Sequential%20Recommenders.md) | ★★★★  |
58 | 
59 | 我们每周会有分享会议，如果你也愿意分享，请email联系[作者](https://github.com/XingYu-Zhong)
60 | 
61 | 
62 | 
63 | ## 贡献者
64 | 
65 | <a href="https://github.com/XingYu-Zhong/LLMsStudy/graphs/contributors">
66 |   <img src="https://contrib.rocks/image?repo=XingYu-Zhong/LLMsStudy" />
67 | </a>
68 | 
69 | 
70 | 
71 | ## Star History
72 | 
73 | <picture>
74 |   <source
75 |     media="(prefers-color-scheme: dark)"
76 |     srcset="
77 |       https://api.star-history.com/svg?repos=XingYu-Zhong/LLMsStudy&type=Date&theme=dark
78 |     "
79 |   />
80 |   <source
81 |     media="(prefers-color-scheme: light)"
82 |     srcset="
83 |       https://api.star-history.com/svg?repos=XingYu-Zhong/LLMsStudy&type=Date
84 |     "
85 |   />
86 |   <img
87 |     alt="Star History Chart"
88 |     src="https://api.star-history.com/svg?repos=XingYu-Zhong/LLMsStudy&type=Date"
89 |   />
90 | </picture>


--------------------------------------------------------------------------------
/大模型推荐.md:
--------------------------------------------------------------------------------
 1 | ## 大模型推荐
 2 | 
 3 | > 不同任务实验过程中，相对而言整体效果还不错的模型列表。
 4 | 
 5 | |          模型          | 最新时间 | 大小        |                           项目地址                           |                           机构单位                           |
 6 | | :--------------------: | -------- | ----------- | :----------------------------------------------------------: | :----------------------------------------------------------: |
 7 | |       Baichuan2        | 2023-09  | 7/13B       | [Baichuan2](https://github.com/baichuan-inc/Baichuan2)![Star](https://img.shields.io/github/stars/baichuan-inc/Baichuan2.svg?style=social&label=Star) |         [百川智能](https://github.com/baichuan-inc)          |
 8 | |        WizardLM        | 2023-08  | 7/13/30/70B | [WizardLM](https://github.com/nlpxucan/WizardLM)![Star](https://img.shields.io/github/stars/nlpxucan/WizardLM.svg?style=social&label=Star) |                             微软                             |
 9 | |         Vicuna         | 2023-08  | 7/13/33B    | [FastChat](https://github.com/lm-sys/FastChat)![Star](https://img.shields.io/github/stars/lm-sys/FastChat.svg?style=social&label=Star) | [Large Model Systems Organization](https://github.com/lm-sys) |
10 | |         YuLan          | 2023-08  | 13/65B      | [YuLan-Chat](https://github.com/RUC-GSAI/YuLan-Chat)![Star](https://img.shields.io/github/stars/RUC-GSAI/YuLan-Chat.svg?style=social&label=Star) | [中国人民大学高瓴人工智能学院](https://github.com/RUC-GSAI)  |
11 | |        InternLM        | 2023-09  | 7/20B       | [InternLM](https://github.com/InternLM/InternLM)![Star](https://img.shields.io/github/stars/InternLM/InternLM.svg?style=social&label=Star) |      [上海人工智能实验室](https://github.com/InternLM)       |
12 | |        TigerBot        | 2023-08  | 7/13/70B    | [TigerBot](https://github.com/TigerResearch/TigerBot)![Star](https://img.shields.io/github/stars/TigerResearch/TigerBot.svg?style=social&label=Star) |         [虎博科技](https://github.com/TigerResearch)         |
13 | |        Baichuan        | 2023-08  | 7/13B       | [Baichuan-13B](https://github.com/baichuan-inc/Baichuan-13B)![Star](https://img.shields.io/github/stars/baichuan-inc/Baichuan-13B.svg?style=social&label=Star) |         [百川智能](https://github.com/baichuan-inc)          |
14 | |        ChatGLM         | 2023-07  | 6B          | [ChatGLM2-6B](https://github.com/THUDM/ChatGLM2-6B)![Star](https://img.shields.io/github/stars/THUDM/ChatGLM2-6B.svg?style=social&label=Star) |             [清华大学](https://github.com/THUDM)             |
15 | | Chinese-LLaMA-Alpaca-2 | 2023-09  | 7/13B       | [Chinese-LLaMA-Alpaca-2](https://github.com/ymcui/Chinese-LLaMA-Alpaca-2)![Star](https://img.shields.io/github/stars/ymcui/Chinese-LLaMA-Alpaca-2.svg?style=social&label=Star) |                     哈工大讯飞联合实验室                     |
16 | 
17 | ## 大模型评估基准
18 | 
19 | ### 1. C-Eval ![Star](https://img.shields.io/github/stars/SJTU-LIT/ceval.svg?style=social&label=Star)
20 | 
21 | 提供了13948个多项选择题的C-Eval是一个全方位的中文基本模型评估工具。该套件覆盖了52个学科并且分为四个难度等级。[论文](https://arxiv.org/abs/2305.08322)内有更多详细信息。
22 | 
23 | [[官方网站](https://cevalbenchmark.com/)] [[Github](https://github.com/SJTU-LIT/ceval)] [[论文](https://arxiv.org/abs/2305.08322)]
24 | 
25 | ### 2. FlagEval ![Star](https://img.shields.io/github/stars/FlagOpen/FlagEval.svg?style=social&label=Star)
26 | 
27 | FlagEval的设计初衷是为AI基础模型提供评估，它集中于科学、公正和开放的评价准则和工具。该工具包旨在从多维度评估基础模型，推进技术创新和行业应用。
28 | 
29 | [[官方网站](https://cevalbenchmark.com/)] [[Github](https://github.com/FlagOpen/FlagEval)]
30 | 
31 | ### 3. SuperCLUElyb ![Star](https://img.shields.io/github/stars/CLUEbenchmark/SuperCLUElyb.svg?style=social&label=Star)
32 | 
33 | SuperCLUE琅琊榜是中文大模型评估的标准。它采用众包方式，提供匿名和随机对战。Elo评级系统，广泛应用于国际象棋，也被用于此评估中。
34 | 
35 | [[官方网站](https://www.superclueai.com/)] [[Github](https://github.com/CLUEbenchmark/SuperCLUElyb)]
36 | 
37 | ### 4. XiezhiBenchmark ![Star](https://img.shields.io/github/stars/mikegu721/xiezhibenchmark.svg?style=social&label=Star)
38 | 
39 | XiezhiBenchmark涵盖13个学科的220,000个多项选择题和15,000个问题。评估结果显示，大型语言模型在某些领域上超越了人类表现，而在其他领域上仍有待提高。
40 | 
41 | [[官方网站](https://chat.openai.com/c/c0585ba8-1b9a-4a73-96f4-d39747519501)] [[Github](https://github.com/mikegu721/xiezhibenchmark)] [[论文](https://arxiv.org/abs/2306.05783)]
42 | 
43 | ### 5. Open LLM Leaderboard
44 | 
45 | HuggingFace推出的LLM评估榜单，以英语为主，集中于大语言模型和聊天机器人的评估。任何社区成员都可以提交模型以供自动评估。
46 | 
47 | [[官方网站](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)]
48 | 
49 | ### 6. 中文大模型安全评测平台 ![Star](https://img.shields.io/github/stars/thu-coai/Safety-Prompts.svg?style=social&label=Star)
50 | 
51 | 该平台利用完备的评测框架，涉及多个安全类别如仇恨言论、隐私等，进行大模型的安全评估。
52 | 
53 | [[官方网站](http://coai.cs.tsinghua.edu.cn/leaderboard/)] [[Github](https://github.com/thu-coai/Safety-Prompts)] [[论文](https://arxiv.org/abs/2304.10436)]
54 | 
55 | ### 7. OpenCompass大语言模型评测 ![Star](https://img.shields.io/github/stars/open-compass/opencompass.svg?style=social&label=Star)
56 | 
57 | OpenCompass是一个开源平台，专为大语言模型和多模态模型设计。即便是千亿参数模型，也能迅速完成评测。
58 | 
59 | [[官方网站](https://opencompass.org.cn/)] [[Github](https://github.com/open-compass/opencompass)]


--------------------------------------------------------------------------------
/大语言模型是什么？.md:
--------------------------------------------------------------------------------
 1 | ## 大语言模型是什么？
 2 | 
 3 | ### 大模型的发展脉络
 4 | 
 5 | 在2017年，Transformer架构的出现导致深度学习模型的参数超越了1亿，从此RNN和CNN被Transformer取代，开启了大模型的时代。谷歌在2018年推出BERT，此模型轻松刷新了11个NLP任务的最佳记录，为NLP设置了一个新的标杆。它不仅开辟了新的研究和训练方向，也使得预训练模型在自然语言处理领域逐渐受到欢迎。此外，这一时期模型参数的数量也首次超过了3亿。到了2020年，OpenAI发布了GPT-3，其参数数量直接跃升至1750亿。2021年开始，Google先后发布了Switch Transformer和GLaM，其参数数量分别首次突破万亿和1.2万亿，后者在小样本学习上甚至超越了GPT-3。
 6 | 
 7 | ### Transformer结构
 8 | 
 9 | ![image-20231010150630814](https://picgo-zxy.oss-cn-guangzhou.aliyuncs.com/typoreimgs/image-20231010150630814.png)
10 | 
11 | Transformer是由Google Brain在2017年提出的一种新颖的网络结构。相对于RNN，它针对其效率问题和长程依赖传递的挑战进行了创新设计，并在多个任务上均展现出优越的性能。
12 | 
13 | 如下图所示的是Transformer的架构细节。其核心技术是自注意力机制（Self-Attention）。简单地说，自注意力机制允许一个句子中的每个词对句子中的所有其他词进行加权，以生成一个新的词向量表示。这个过程可以看作是每个词都经过了一次类似卷积或聚合的操作。这种机制提高了模型对于上下文信息的捕获能力。
14 | 
15 | ### MOE结构
16 | 
17 | ![image-20231010150553380](https://picgo-zxy.oss-cn-guangzhou.aliyuncs.com/typoreimgs/image-20231010150553380.png)
18 | 
19 | 模型的增大和训练样本的增加导致了计算成本的显著增长。而这种计算上的挑战促使了技术的进步与创新。
20 | 
21 | 考虑到这一问题，一个解决方案是将一个大型模型细分为多个小型模型。这意味着对于给定的输入样本，我们不需要让它通过所有的小型模型，而只是选择其中的一部分进行计算。这种方法显著地节省了计算资源。
22 | 
23 | 那么，如何选择哪些小模型来处理一个特定的输入呢？这是通过所谓的“稀疏门”来实现的。这个门决定哪些小模型应该被激活，同时确保其稀疏性以优化计算。
24 | 
25 | 稀疏门控专家混合模型（Sparsely-Gated MoE）是这一技术的名字。它的核心思想是条件计算，意味着神经网络的某些部分是基于每个特定样本进行激活的。这种方式有效地提高了模型的容量和性能，而不会导致计算成本的相对增长。
26 | 
27 | 实际上，稀疏门控 MoE 使得模型容量得到了1000倍以上的增强，但在现代GPU集群上的计算效率损失却非常有限。
28 | 
29 | 总之，如果说Transformer架构是模型参数量的第一次重大突破，达到了亿级，那么MoE稀疏混合专家结构则进一步推动了这一突破，使参数量达到了千亿乃至万亿的规模。
30 | 
31 | ![llm_survey](https://picgo-zxy.oss-cn-guangzhou.aliyuncs.com/typoreimgs/llm_survey.gif)
32 | 
33 | 


--------------------------------------------------------------------------------
/没有卡的条件下我们能做什么？.md:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | ## 没有卡的条件下我们能做什么？
 4 | 
 5 | 微调和数据增强
 6 | 
 7 | 
 8 | ### LLM压缩
 9 | 
10 | #### LLM量化
11 | 
12 | 训练后量化：
13 | 
14 | - SmoothQuant
15 | - ZeroQuant
16 | - GPTQ
17 | - LLM.int8()
18 | 
19 | 
20 | 量化感知训练：
21 | 
22 | 
23 | 量化感知微调：
24 | 
25 | - QLoRA
26 | - PEQA
27 | 
28 | #### LLM剪枝
29 | 
30 | 
31 | **结构化剪枝**：
32 | 
33 | - LLM-Pruner 
34 | 
35 | **非结构化剪枝**：
36 | 
37 | - SparseGPT
38 | - LoRAPrune
39 | - Wanda
40 | 
41 | 
42 | 
43 | #### LLM知识蒸馏
44 | 
45 | - 大模型知识蒸馏概述
46 | 
47 | **Standard KD**:
48 | 
49 | 使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。
50 | 
51 | 
52 | - MINILLM
53 | - GKD
54 | 
55 | 
56 | **EA-based KD**:
57 | 
58 | 不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。
59 | 
60 | 
61 | In-Context Learning：
62 | 
63 | - In-Context Learning distillation
64 | 
65 | 
66 | Chain-of-Thought：
67 | 
68 | - MT-COT 
69 | - Fine-tune-CoT 
70 | - DISCO 
71 | - SCOTT 
72 | - SOCRATIC CoT
73 | 
74 | Instruction Following：
75 | 
76 | - Lion
77 | 
78 | 
79 | #### 低秩分解
80 | 
81 | https://zhuanlan.zhihu.com/p/646831196
82 | 
83 | 低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。
84 | 
85 | 在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。
86 | 
87 | - ZeroQuant-FP（低秩分解+量化）
88 | - LoRAPrune（低秩分解+剪枝）


--------------------------------------------------------------------------------
/论文列表.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | 
  4 | ## 论文列表
  5 | 
  6 | ### 模型实用指南
  7 | 
  8 | ### BERT-style Language Models: Encoder-Decoder or Encoder-only
  9 | 
 10 | - BERT **BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding**, 2018, [Paper](https://aclanthology.org/N19-1423.pdf)
 11 | - RoBERTa **RoBERTa: A Robustly Optimized BERT Pretraining Approach**, 2019, [Paper](https://arxiv.org/abs/1907.11692)
 12 | - DistilBERT **DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter**, 2019, [Paper](https://arxiv.org/abs/1910.01108)
 13 | - ALBERT **ALBERT: A Lite BERT for Self-supervised Learning of Language Representations**, 2019, [Paper](https://arxiv.org/abs/1909.11942)
 14 | - UniLM **Unified Language Model Pre-training for Natural Language Understanding and Generation**, 2019 [Paper](https://arxiv.org/abs/1905.03197)
 15 | - ELECTRA **ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS**, 2020, [Paper](https://openreview.net/pdf?id=r1xMH1BtvB)
 16 | - T5 **"Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"**. *Colin Raffel et al.* JMLR 2019. [Paper](https://arxiv.org/abs/1910.10683)
 17 | - GLM **"GLM-130B: An Open Bilingual Pre-trained Model"**. 2022. [Paper](https://arxiv.org/abs/2210.02414)
 18 | - AlexaTM **"AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model"**. *Saleh Soltan et al.* arXiv 2022. [Paper](https://arxiv.org/abs/2208.01448)
 19 | - ST-MoE **ST-MoE: Designing Stable and Transferable Sparse Expert Models**. 2022 [Paper](https://arxiv.org/abs/2202.08906)
 20 | 
 21 | 
 22 | ### GPT-style Language Models: Decoder-only
 23 | 
 24 | - GPT **Improving Language Understanding by Generative Pre-Training**. 2018. [Paper](https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)
 25 | - GPT-2 **Language Models are Unsupervised Multitask Learners**. 2018. [Paper](https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf)
 26 | - GPT-3 **"Language Models are Few-Shot Learners"**. NeurIPS 2020. [Paper](https://arxiv.org/abs/2005.14165)
 27 | - OPT **"OPT: Open Pre-trained Transformer Language Models"**. 2022. [Paper](https://arxiv.org/abs/2205.01068)
 28 | - PaLM **"PaLM: Scaling Language Modeling with Pathways"**. *Aakanksha Chowdhery et al.* arXiv 2022. [Paper](https://arxiv.org/abs/2204.02311)
 29 | - BLOOM  **"BLOOM: A 176B-Parameter Open-Access Multilingual Language Model"**. 2022. [Paper](https://arxiv.org/abs/2211.05100)
 30 | - MT-NLG **"Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model"**. 2021. [Paper](https://arxiv.org/abs/2201.11990)
 31 | - GLaM **"GLaM: Efficient Scaling of Language Models with Mixture-of-Experts"**. ICML 2022. [Paper](https://arxiv.org/abs/2112.06905)
 32 | - Gopher **"Scaling Language Models: Methods, Analysis & Insights from Training Gopher"**. 2021. [Paper](http://arxiv.org/abs/2112.11446v2)
 33 | - chinchilla **"Training Compute-Optimal Large Language Models"**. 2022. [Paper](https://arxiv.org/abs/2203.15556)
 34 | - LaMDA **"LaMDA: Language Models for Dialog Applications"**. 2021. [Paper](https://arxiv.org/abs/2201.08239)
 35 | - LLaMA **"LLaMA: Open and Efficient Foundation Language Models"**. 2023. [Paper](https://arxiv.org/abs/2302.13971v1)
 36 | - GPT-4 **"GPT-4 Technical Report"**. 2023. [Paper](http://arxiv.org/abs/2303.08774v2)
 37 | - BloombergGPT **BloombergGPT: A Large Language Model for Finance**, 2023, [Paper](https://arxiv.org/abs/2303.17564)
 38 | - GPT-NeoX-20B: **"GPT-NeoX-20B: An Open-Source Autoregressive Language Model"**. 2022. [Paper](https://arxiv.org/abs/2204.06745)
 39 | - PaLM 2: **"PaLM 2 Technical Report"**. 2023. [Tech.Report](https://arxiv.org/abs/2305.10403)
 40 | - LLaMA 2: **"Llama 2: Open foundation and fine-tuned chat models"**. 2023. [Paper](https://arxiv.org/pdf/2307.09288)
 41 | - Claude 2: **"Model Card and Evaluations for Claude Models"**. 2023. [Model Card](https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf)
 42 | 
 43 | 
 44 | 
 45 | ### 数据实用指南
 46 | 
 47 | 
 48 | ### 预训练数据
 49 | 
 50 | - **RedPajama**, 2023. [Repo](https://github.com/togethercomputer/RedPajama-Data)
 51 | - **The Pile: An 800GB Dataset of Diverse Text for Language Modeling**, Arxiv 2020. [Paper](https://arxiv.org/abs/2101.00027)
 52 | - **How does the pre-training objective affect what large language models learn about linguistic properties?**, ACL 2022. [Paper](https://aclanthology.org/2022.acl-short.16/)
 53 | - **Scaling laws for neural language models**, 2020. [Paper](https://arxiv.org/abs/2001.08361)
 54 | - **Data-centric artificial intelligence: A survey**, 2023. [Paper](https://arxiv.org/abs/2303.10158)
 55 | - **How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources**, 2022. [Blog](https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1)
 56 | 
 57 | ### 微调数据
 58 | 
 59 | - **Benchmarking zero-shot text classification: Datasets, evaluation and entailment approach**, EMNLP 2019. [Paper](https://arxiv.org/abs/1909.00161)
 60 | - **Language Models are Few-Shot Learners**, NIPS 2020. [Paper](https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html)
 61 | - **Does Synthetic Data Generation of LLMs Help Clinical Text Mining?** Arxiv 2023 [Paper](https://arxiv.org/abs/2303.04360)
 62 | 
 63 | ### 测试数据
 64 | 
 65 | - **Shortcut learning of large language models in natural language understanding: A survey**, Arxiv 2023. [Paper](https://arxiv.org/abs/2208.11857)
 66 | - **On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective** Arxiv, 2023. [Paper](https://arxiv.org/abs/2302.12095)
 67 | - **SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems** Arxiv 2019. [Paper](https://arxiv.org/abs/1905.00537)
 68 | 
 69 | 
 70 | ### 传统的 NLU 任务
 71 | 
 72 | - **A benchmark for toxic comment classification on civil comments dataset** Arxiv 2023 [Paper](https://arxiv.org/abs/2301.11125)
 73 | - **Is chatgpt a general-purpose natural language processing task solver?** Arxiv 2023[Paper](https://arxiv.org/abs/2302.06476)
 74 | - **Benchmarking large language models for news summarization** Arxiv 2022 [Paper](https://arxiv.org/abs/2301.13848)
 75 | 
 76 | ### 生成任务
 77 | 
 78 | - **News summarization and evaluation in the era of gpt-3** Arxiv 2022 [Paper](https://arxiv.org/abs/2209.12356)
 79 | - **Is chatgpt a good translator? yes with gpt-4 as the engine** Arxiv 2023 [Paper](https://arxiv.org/abs/2301.08745)
 80 | - **Multilingual machine translation systems from Microsoft for WMT21 shared task**, WMT2021 [Paper](https://aclanthology.org/2021.wmt-1.54/)
 81 | - **Can ChatGPT understand too? a comparative study on chatgpt and fine-tuned bert**, Arxiv 2023, [Paper](https://arxiv.org/pdf/2302.10198.pdf)
 82 | 
 83 | 
 84 | 
 85 | 
 86 | ### 知识密集型任务
 87 | 
 88 | - **Measuring massive multitask language understanding**, ICLR 2021 [Paper](https://arxiv.org/abs/2009.03300)
 89 | - **Beyond the imitation game: Quantifying and extrapolating the capabilities of language models**, Arxiv 2022 [Paper](https://arxiv.org/abs/2206.04615)
 90 | - **Inverse scaling prize**, 2022 [Link](https://github.com/inverse-scaling/prize)
 91 | - **Atlas: Few-shot Learning with Retrieval Augmented Language Models**, Arxiv 2022 [Paper](https://arxiv.org/abs/2208.03299)
 92 | - **Large Language Models Encode Clinical Knowledge**, Arxiv 2022 [Paper](https://arxiv.org/abs/2212.13138)
 93 | 
 94 | 
 95 | ### 缩放能力
 96 | 
 97 | - **Training Compute-Optimal Large Language Models**, NeurIPS 2022 [Paper](https://openreview.net/pdf?id=iBBcRUlOAPR)
 98 | - **Scaling Laws for Neural Language Models**, Arxiv 2020 [Paper](https://arxiv.org/abs/2001.08361)
 99 | - **Solving math word problems with process- and outcome-based feedback**, Arxiv 2022 [Paper](https://arxiv.org/abs/2211.14275)
100 | - **Chain of thought prompting elicits reasoning in large language models**, NeurIPS 2022 [Paper](https://arxiv.org/abs/2201.11903)
101 | - **Emergent abilities of large language models**, TMLR 2022 [Paper](https://arxiv.org/abs/2206.07682)
102 | - **Inverse scaling can become U-shaped**, Arxiv 2022 [Paper](https://arxiv.org/abs/2211.02011)
103 | - **Towards Reasoning in Large Language Models: A Survey**, Arxiv 2022 [Paper](https://arxiv.org/abs/2212.10403)
104 | 
105 | 
106 | ### 特定任务
107 | 
108 | - **Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks**, Arixv 2022 [Paper](https://arxiv.org/abs/2208.10442)
109 | - **PaLI: A Jointly-Scaled Multilingual Language-Image Model**, Arxiv 2022 [Paper](https://arxiv.org/abs/2209.06794)
110 | - **AugGPT: Leveraging ChatGPT for Text Data Augmentation**, Arxiv 2023 [Paper](https://arxiv.org/abs/2302.13007)
111 | - **Is gpt-3 a good data annotator?**, Arxiv 2022 [Paper](https://arxiv.org/abs/2212.10450)
112 | - **Want To Reduce Labeling Cost? GPT-3 Can Help**, EMNLP findings 2021 [Paper](https://aclanthology.org/2021.findings-emnlp.354/)
113 | - **GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation**, EMNLP findings 2021 [Paper](https://aclanthology.org/2021.findings-emnlp.192/)
114 | - **LLM for Patient-Trial Matching: Privacy-Aware Data Augmentation Towards Better Performance and Generalizability**, Arxiv 2023 [Paper](https://arxiv.org/abs/2303.16756)
115 | - **ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks**, Arxiv 2023 [Paper](https://arxiv.org/abs/2303.15056)
116 | - **G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment**, Arxiv 2023 [Paper](https://arxiv.org/abs/2303.16634)
117 | - **GPTScore: Evaluate as You Desire**, Arxiv 2023 [Paper](https://arxiv.org/abs/2302.04166)
118 | - **Large Language Models Are State-of-the-Art Evaluators of Translation Quality**, Arxiv 2023 [Paper](https://arxiv.org/abs/2302.14520)
119 | - **Is ChatGPT a Good NLG Evaluator? A Preliminary Study**, Arxiv 2023 [Paper](https://arxiv.org/abs/2303.04048)
120 | 
121 | 
122 | ### 效率
123 | 
124 | 1. 花费
125 | 
126 | - **Openai’s gpt-3 language model: A technical overview**, 2020. [Blog Post](https://lambdalabs.com/blog/demystifying-gpt-3)
127 | - **Measuring the carbon intensity of ai in cloud instances**, FaccT 2022. [Paper](https://dl.acm.org/doi/abs/10.1145/3531146.3533234)
128 | - **In AI, is bigger always better?**, Nature Article 2023. [Article](https://www.nature.com/articles/d41586-023-00641-w)
129 | - **Language Models are Few-Shot Learners**, NeurIPS 2020. [Paper](https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf)
130 | - **Pricing**, OpenAI. [Blog Post](https://openai.com/pricing)
131 | 
132 | 2. 延迟
133 | 
134 | - HELM: **Holistic evaluation of language models**, Arxiv 2022. [Paper](https://arxiv.org/abs/2211.09110)
135 | 
136 | 3. 微调方法
137 | 
138 | - **LoRA: Low-Rank Adaptation of Large Language Models**, Arxiv 2021. [Paper](https://arxiv.org/abs/2106.09685)
139 | - **Prefix-Tuning: Optimizing Continuous Prompts for Generation**, ACL 2021. [Paper](https://aclanthology.org/2021.acl-long.353/)
140 | - **P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks**, ACL 2022. [Paper](https://aclanthology.org/2022.acl-short.8/)
141 | - **P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks**, Arxiv 2022. [Paper](https://arxiv.org/abs/2110.07602)
142 | 
143 | 4. 预训练系统
144 | 
145 | - **ZeRO: Memory Optimizations Toward Training Trillion Parameter Models**, Arxiv 2019. [Paper](https://arxiv.org/abs/1910.02054)
146 | - **Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism**, Arxiv 2019. [Paper](https://arxiv.org/abs/1910.02054)
147 | - **Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM**, Arxiv 2021. [Paper](https://arxiv.org/abs/2104.04473)
148 | - **Reducing Activation Recomputation in Large Transformer Models**, Arxiv 2021. [Paper](https://arxiv.org/abs/2104.04473)
149 | 
150 | 
151 | ### 可信度
152 | 
153 | 1. 稳健性和校准
154 | 
155 | - **Calibrate before use: Improving few-shot performance of language models**, ICML 2021. [Paper](http://proceedings.mlr.press/v139/zhao21c.html)
156 | - **SPeC: A Soft Prompt-Based Calibration on Mitigating Performance Variability in Clinical Notes Summarization**, Arxiv 2023. [Paper](https://arxiv.org/abs/2303.13035)
157 | 
158 | 2. 虚假偏差
159 | 
160 | - **Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning**, Findings of ACL 2023 [Paper](https://aclanthology.org/2023.findings-acl.284/)
161 | - **Shortcut learning of large language models in natural language understanding: A survey**, 2023 [Paper](https://arxiv.org/abs/2208.11857)
162 | - **Mitigating gender bias in captioning system**, WWW 2020 [Paper](https://dl.acm.org/doi/abs/10.1145/3442381.3449950)
163 | - **Calibrate Before Use: Improving Few-Shot Performance of Language Models**, ICML 2021 [Paper](https://arxiv.org/abs/2102.09690)
164 | - **Shortcut Learning in Deep Neural Networks**, Nature Machine Intelligence 2020 [Paper](https://www.nature.com/articles/s42256-020-00257-z)
165 | - **Do Prompt-Based Models Really Understand the Meaning of Their Prompts?**, NAACL 2022 [Paper](https://aclanthology.org/2022.naacl-main.167/)
166 | 
167 | 3. 安全问题
168 | 
169 | - **GPT-4 System Card**, 2023 [Paper](https://cdn.openai.com/papers/gpt-4-system-card.pdf)
170 | - **The science of detecting llm-generated texts**, Arxiv 2023 [Paper](https://arxiv.org/pdf/2303.07205.pdf)
171 | - **How stereotypes are shared through language: a review and introduction of the aocial categories and stereotypes communication (scsc) framework**, Review of Communication Research, 2019 [Paper](https://research.vu.nl/en/publications/how-stereotypes-are-shared-through-language-a-review-and-introduc)
172 | - **Gender shades: Intersectional accuracy disparities in commercial gender classification**, FaccT 2018 [Paper](https://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf)
173 | 
174 | 
175 | ### 基准指令调整
176 | 
177 | - FLAN: **Finetuned Language Models Are Zero-Shot Learners**, Arxiv 2021 [Paper](https://arxiv.org/abs/2109.01652)
178 | - T0: **Multitask Prompted Training Enables Zero-Shot Task Generalization**, Arxiv 2021 [Paper](https://arxiv.org/abs/2110.08207)
179 | - **Cross-task generalization via natural language crowdsourcing instructions**, ACL 2022 [Paper](https://aclanthology.org/2022.acl-long.244.pdf)
180 | - Tk-INSTRUCT: **Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks**, EMNLP 2022 [Paper](https://aclanthology.org/2022.emnlp-main.340/)
181 | - FLAN-T5/PaLM: **Scaling Instruction-Finetuned Language Models**, Arxiv 2022 [Paper](https://arxiv.org/abs/2210.11416)
182 | - **The Flan Collection: Designing Data and Methods for Effective Instruction Tuning**, Arxiv 2023 [Paper](https://arxiv.org/abs/2301.13688)
183 | - **OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization**, Arxiv 2023 [Paper](https://arxiv.org/abs/2212.12017)
184 | 
185 | ### 对齐
186 | 
187 | - **Deep Reinforcement Learning from Human Preferences**, NIPS 2017 [Paper](https://arxiv.org/abs/1706.03741)
188 | - **Learning to summarize from human feedback**, Arxiv 2020 [Paper](https://arxiv.org/abs/2009.01325)
189 | - **A General Language Assistant as a Laboratory for Alignment**, Arxiv 2021 [Paper](https://arxiv.org/abs/2112.00861)
190 | - **Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback**, Arxiv 2022 [Paper](https://arxiv.org/abs/2204.05862)
191 | - **Teaching language models to support answers with verified quotes**, Arxiv 2022 [Paper](https://arxiv.org/abs/2203.11147)
192 | - InstructGPT: **Training language models to follow instructions with human feedback**, Arxiv 2022 [Paper](https://arxiv.org/abs/2203.02155)
193 | - **Improving alignment of dialogue agents via targeted human judgements**, Arxiv 2022 [Paper](https://arxiv.org/abs/2209.14375)
194 | - **Scaling Laws for Reward Model Overoptimization**, Arxiv 2022 [Paper](https://arxiv.org/abs/2210.10760)
195 | - Scalable Oversight: **Measuring Progress on Scalable Oversight for Large Language Models**, Arxiv 2022 [Paper](https://arxiv.org/pdf/2211.03540.pdf)
196 | 
197 | #### 安全调整
198 | 
199 | - **Red Teaming Language Models with Language Models**, Arxiv 2022 [Paper](https://arxiv.org/abs/2202.03286)
200 | - **Constitutional ai: Harmlessness from ai feedback**, Arxiv 2022 [Paper](https://arxiv.org/abs/2212.08073)
201 | - **The Capacity for Moral Self-Correction in Large Language Models**, Arxiv 2023 [Paper](https://arxiv.org/abs/2302.07459)
202 | - **OpenAI: Our approach to AI safety**, 2023 [Blog](https://openai.com/blog/our-approach-to-ai-safety)
203 | 
204 | #### 真实性排列（诚实）
205 | 
206 | - **Reinforcement Learning for Language Models**, 2023 [Blog](https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)
207 | 
208 | #### 提示实用指南（有用）
209 | 
210 | - **OpenAI Cookbook**. [Blog](https://github.com/openai/openai-cookbook/blob/main/techniques_to_improve_reliability.md)
211 | - **Prompt Engineering**. [Blog](https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/)
212 | - **ChatGPT Prompt Engineering for Developers!** [Course](https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/)
213 | 
214 | #### 开源社区
215 | 
216 | - **Self-Instruct: Aligning Language Model with Self Generated Instructions**, Arxiv 2022 [Paper](https://arxiv.org/abs/2212.10560)
217 | - **Alpaca**. [Repo](https://github.com/tatsu-lab/stanford_alpaca)
218 | - **Vicuna**. [Repo](https://github.com/lm-sys/FastChat)
219 | - **Dolly**. [Blog](https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm)
220 | - **DeepSpeed-Chat**. [Blog](https://github.com/microsoft/DeepSpeedExamples/tree/master/applications/DeepSpeed-Chat)
221 | - **GPT4All**. [Repo](https://github.com/nomic-ai/gpt4all)
222 | - **OpenAssitant**. [Repo](https://github.com/LAION-AI/Open-Assistant)
223 | - **ChatGLM**. [Repo](https://github.com/THUDM/ChatGLM-6B)
224 | - **MOSS**. [Repo](https://github.com/OpenLMLab/MOSS)
225 | - **Lamini**. [Repo](https://github.com/lamini-ai/lamini/)/[Blog](https://lamini.ai/blog/introducing-lamini)
226 | 
227 | 


--------------------------------------------------------------------------------
/论文解读/pic/3种note.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/3种note.png


--------------------------------------------------------------------------------
/论文解读/pic/Agent Instructions生成过程.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Agent Instructions生成过程.png


--------------------------------------------------------------------------------
/论文解读/pic/AutoGen实验.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/AutoGen实验.png


--------------------------------------------------------------------------------
/论文解读/pic/AutoGen框架.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/AutoGen框架.png


--------------------------------------------------------------------------------
/论文解读/pic/BBH_result.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/BBH_result.png


--------------------------------------------------------------------------------
/论文解读/pic/BFS与DFS算法结合ToT.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/BFS与DFS算法结合ToT.png


--------------------------------------------------------------------------------
/论文解读/pic/CoN prompt.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/CoN prompt.png


--------------------------------------------------------------------------------
/论文解读/pic/CoT and SG CoT.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/CoT and SG CoT.png


--------------------------------------------------------------------------------
/论文解读/pic/CoT approaches.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/CoT approaches.png


--------------------------------------------------------------------------------
/论文解读/pic/CoT formulations.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/CoT formulations.png


--------------------------------------------------------------------------------
/论文解读/pic/CoT_Agent_fw.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/CoT_Agent_fw.png


--------------------------------------------------------------------------------
/论文解读/pic/HELM任务分类.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/HELM任务分类.png


--------------------------------------------------------------------------------
/论文解读/pic/HKFR_Experimental.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/HKFR_Experimental.png


--------------------------------------------------------------------------------
/论文解读/pic/HKFR_key.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/HKFR_key.png


--------------------------------------------------------------------------------
/论文解读/pic/LATS整体框架.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/LATS整体框架.png


--------------------------------------------------------------------------------
/论文解读/pic/LATS迭代过程.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/LATS迭代过程.png


--------------------------------------------------------------------------------
/论文解读/pic/MCTS_PromptAgent.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MCTS_PromptAgent.png


--------------------------------------------------------------------------------
/论文解读/pic/MedPrompt 算法.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MedPrompt 算法.png


--------------------------------------------------------------------------------
/论文解读/pic/MedPrompt_SOTA.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MedPrompt_SOTA.png


--------------------------------------------------------------------------------
/论文解读/pic/MedPrompt图解.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MedPrompt图解.png


--------------------------------------------------------------------------------
/论文解读/pic/MedPrompt表现.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MedPrompt表现.png


--------------------------------------------------------------------------------
/论文解读/pic/MedPrompt跨域泛化.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/MedPrompt跨域泛化.png


--------------------------------------------------------------------------------
/论文解读/pic/NLU_result.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/NLU_result.png


--------------------------------------------------------------------------------
/论文解读/pic/QA性能.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/QA性能.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG Components.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG Components.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG Framework.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG Framework.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG vs Self-RAG.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG vs Self-RAG.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG vs 其他.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG vs 其他.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG vs 微调.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG vs 微调.png


--------------------------------------------------------------------------------
/论文解读/pic/RAG时间线.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAG时间线.png


--------------------------------------------------------------------------------
/论文解读/pic/RALM vs RALM+CoN.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RALM vs RALM+CoN.png


--------------------------------------------------------------------------------
/论文解读/pic/RAP思维框架.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/RAP思维框架.png


--------------------------------------------------------------------------------
/论文解读/pic/Reflexion框架.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Reflexion框架.png


--------------------------------------------------------------------------------
/论文解读/pic/Reflexion过程.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Reflexion过程.png


--------------------------------------------------------------------------------
/论文解读/pic/STP.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/STP.png


--------------------------------------------------------------------------------
/论文解读/pic/STP_result.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/STP_result.png


--------------------------------------------------------------------------------
/论文解读/pic/Self-RAG tokens.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Self-RAG tokens.png


--------------------------------------------------------------------------------
/论文解读/pic/Self-generate CoT tem.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Self-generate CoT tem.png


--------------------------------------------------------------------------------
/论文解读/pic/Self_RAG 消融.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Self_RAG 消融.png


--------------------------------------------------------------------------------
/论文解读/pic/Self_RAG 算法.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Self_RAG 算法.png


--------------------------------------------------------------------------------
/论文解读/pic/Self_RAG 结果.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Self_RAG 结果.png


--------------------------------------------------------------------------------
/论文解读/pic/ToT框架与其他三种方法.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/ToT框架与其他三种方法.png


--------------------------------------------------------------------------------
/论文解读/pic/UCT公式.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/UCT公式.png


--------------------------------------------------------------------------------
/论文解读/pic/Winning rate (%) between zeroshot, zero-shot CoT, and zero-shot AgentInstruct.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Winning rate (%) between zeroshot, zero-shot CoT, and zero-shot AgentInstruct.png


--------------------------------------------------------------------------------
/论文解读/pic/Zero-shot Agent instructions.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/Zero-shot Agent instructions.png


--------------------------------------------------------------------------------
/论文解读/pic/agent研究总结.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/agent研究总结.png


--------------------------------------------------------------------------------
/论文解读/pic/collm_data.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/collm_data.png


--------------------------------------------------------------------------------
/论文解读/pic/collm_key.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/collm_key.png


--------------------------------------------------------------------------------
/论文解读/pic/collm_warm_cold.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/collm_warm_cold.png


--------------------------------------------------------------------------------
/论文解读/pic/example_PromptAgent.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/example_PromptAgent.png


--------------------------------------------------------------------------------
/论文解读/pic/expert_prompt.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/expert_prompt.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm01.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm01.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm02.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm02.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm03.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm03.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm04.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm04.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm05.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm05.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm06.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm06.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm07.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm07.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm08.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm08.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm09.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm09.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm10.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm10.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm11.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm11.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm12.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm12.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm13.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm13.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm14.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm14.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm15.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm15.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm16.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm16.png


--------------------------------------------------------------------------------
/论文解读/pic/kgllm17.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/kgllm17.png


--------------------------------------------------------------------------------
/论文解读/pic/latm01.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/latm01.png


--------------------------------------------------------------------------------
/论文解读/pic/latm02.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/latm02.png


--------------------------------------------------------------------------------
/论文解读/pic/latm03.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/latm03.png


--------------------------------------------------------------------------------
/论文解读/pic/latm04.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/latm04.png


--------------------------------------------------------------------------------
/论文解读/pic/latm05.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/latm05.png


--------------------------------------------------------------------------------
/论文解读/pic/llara01.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara01.png


--------------------------------------------------------------------------------
/论文解读/pic/llara02.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara02.png


--------------------------------------------------------------------------------
/论文解读/pic/llara03.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara03.png


--------------------------------------------------------------------------------
/论文解读/pic/llara04.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara04.png


--------------------------------------------------------------------------------
/论文解读/pic/llara05.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara05.png


--------------------------------------------------------------------------------
/论文解读/pic/llara06.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara06.png


--------------------------------------------------------------------------------
/论文解读/pic/llara07.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara07.png


--------------------------------------------------------------------------------
/论文解读/pic/llara08.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/llara08.png


--------------------------------------------------------------------------------
/论文解读/pic/metagpt01.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/metagpt01.png


--------------------------------------------------------------------------------
/论文解读/pic/metagpt02.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/metagpt02.png


--------------------------------------------------------------------------------
/论文解读/pic/metagpt03.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/metagpt03.png


--------------------------------------------------------------------------------
/论文解读/pic/p_m_r_CoT.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/p_m_r_CoT.png


--------------------------------------------------------------------------------
/论文解读/pic/rs_vs_llmrs.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/rs_vs_llmrs.png


--------------------------------------------------------------------------------
/论文解读/pic/scrl01.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/scrl01.png


--------------------------------------------------------------------------------
/论文解读/pic/scrl02.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/scrl02.png


--------------------------------------------------------------------------------
/论文解读/pic/wizardlm1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/wizardlm1.png


--------------------------------------------------------------------------------
/论文解读/pic/wizardlm2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/wizardlm2.png


--------------------------------------------------------------------------------
/论文解读/pic/与SC对比.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/与SC对比.png


--------------------------------------------------------------------------------
/论文解读/pic/与few-shot对比.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/与few-shot对比.png


--------------------------------------------------------------------------------
/论文解读/pic/代理各方面应用.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/代理各方面应用.png


--------------------------------------------------------------------------------
/论文解读/pic/代理架构模块.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/代理架构模块.png


--------------------------------------------------------------------------------
/论文解读/pic/代理能力获取方法.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/代理能力获取方法.png


--------------------------------------------------------------------------------
/论文解读/pic/六种AutoGen框架的应用.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/六种AutoGen框架的应用.png


--------------------------------------------------------------------------------
/论文解读/pic/噪声鲁棒性.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/噪声鲁棒性.png


--------------------------------------------------------------------------------
/论文解读/pic/多模型对比.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/多模型对比.png


--------------------------------------------------------------------------------
/论文解读/pic/未知鲁棒性.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/未知鲁棒性.png


--------------------------------------------------------------------------------
/论文解读/pic/消融实验结果.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/消融实验结果.png


--------------------------------------------------------------------------------
/论文解读/pic/蒙特卡洛树规划.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/644146ba543f565a5335020b197d71e5772a0f8c/论文解读/pic/蒙特卡洛树规划.png


--------------------------------------------------------------------------------
/论文解读/大模型+推荐系统/CoLLM Integrating Collaborative Embeddings into Large Language Models for Recommendation（中科大）.md:
--------------------------------------------------------------------------------
 1 | # CoLLM: Integrating Collaborative Embeddings into Large Language Models for Recommendation（中科大）
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2310.19488
 4 | 
 5 | 论文代码：https://github.com/zyang1580/CoLLM
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 作者认为直接通过提示词进行llm推荐，在冷启动方面确实有比较大的优势，但是在非冷启动上作者发现这样的方式是不如传统推荐系统的。
10 | 
11 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/collm_warm_cold.png)
12 | 
13 | ## 2.论文提出的问题
14 | 
15 | 作者认为直接通过文本信息给大模型进行相似推荐，这样的建模方式并不能很好的表达推荐之间的相似性，所以作者提出了一种方法来解决这个问题
16 | 
17 | ## 3.论文解决方法
18 | 
19 | collm就是作者先用lora去微调了大模型让这个微调的大模型来推荐任务，在推荐前还是使用传统推荐系统CIE方法把数据进行建模处理向量化，然后在用这个建模好的数据给llm做推荐
20 | 
21 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/collm_key.png)
22 | 
23 | ## 4.论文实验
24 | 
25 | 实验部分，作者围绕两个问题去做实验，第一个是与现有方法相比，提出的 CoLLM 能否通过协作信息有效地增强 LLM 以改进推荐。第二个是设计选择对所提出方法的性能的影响有多大？作者使用AUC和UAUC作为验证指标，与传统推荐系统和一些基于提示词的llm推荐系统在ML电影数据集和亚马逊书本数据集上进行实验测试，实验结果上来看都有不错的提升，我认为功劳在于微调上
26 | 
27 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/collm_data.png)
28 | 
29 | 
30 | 
31 | ## 5.论文总结
32 | 
33 | 这篇文章的写作手法是值得学习的，他把一个很简单的idea写的让人觉得很复杂，这是一个很值得学习的能力，我认为他本质上就是用来传统推荐系统的数据建模方法在加上了lora微调做llm推荐系统，他在描述的时候讲了一些lora微调的函数之类的，但又特别浅，把读者讲的一愣一愣的，其次就是实验的目的性特别好，他是先提出问题，然后用实验去证明。总体来说，这个文章值得我们写作的时候学习
34 | 
35 | 


--------------------------------------------------------------------------------
/论文解读/大模型+推荐系统/LLaRA Aligning Large Language Models with Sequential Recommenders.md:
--------------------------------------------------------------------------------
 1 | # LLaRA: Aligning Large Language Models with Sequential Recommenders
 2 | 
 3 | 论文链接：https://arxiv.org/pdf/2312.02445.pdf
 4 | 
 5 | 论文代码：https://github.com/ljy0ustc/LLaRA
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 顺序推荐是指根据用户过往历史的记录进行下一个预测推荐，作者认为llm在这项任务上可以达到不错的水平。
10 | 
11 | 作者认为之前都是直接使用id索引来表示文本提示，再把提示输入llm，这样子并不能表现出足够的顺序理解。
12 | 
13 | 作者说传统的顺序推荐器通常涉及两个步骤:
14 | 
15 | (1)分配具有不同ID的每个项目，将其转换为可训练的嵌入;
16 | 
17 | (2)学习这些嵌入对交互序列进行建模，从而捕获用户偏好并预测下一个感兴趣的项目。
18 | 
19 | 
20 | 
21 | ## 2.论文提出的问题
22 | 
23 | 作者认为，仅仅用基于 ID 或基于文本的项目序列的表示提示 LLM 不能完全利用 LLM 进行顺序推荐的潜力。相反，llm应该更深入地了解顺序交互中固有的行为模式。
24 | 
25 | ![image-20231218173536535](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara01.png)
26 | 
27 | ## 3.论文的方法
28 | 
29 | 作者提出llara方法主要是在提示词上做了优化，分别是混合提示词设计，这个主要是结合了除了文本信息以外的信息，还有课程提示词训练，这个是作者从另外两篇论文中获取的灵感。课程学习不仅熟悉推荐机制的LLM，而且内化了推荐者编码的行为知识。
30 | 
31 | ![image-20231218173658719](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara02.png)
32 | 
33 | ![image-20231218173612163](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara03.png)
34 | 
35 | 课程学习的灵感来自于人类教育中使用的教学策略，强调从简单到更具挑战性的学习任务训练模型。1.复杂性评估：课程学习最初量化了每个数据点或任务的复杂性，然后用于分配学习优先级。2.调度器公式：基于复杂性评估，可以设计一个训练调度器来决定模型在学习过程中将暴露的任务的序列和频率。3.训练执行：在设计训练调度器后，我们可以实现遵循预定进展的课程学习过程。
36 | 
37 | 总上所述，就是评估-设计计划-执行这三步。
38 | 
39 | ![image-20231218173623090](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara04.png)
40 | 
41 | ## 4.论文实验
42 | 
43 | 
44 | 
45 | 作者使用了两个数据集分别是电影和steam数据集，对比方法主要是和传统方法GRU4Rec，Caser，SASREC还有大语言模型方法GPT-4，TALLRec，MoRec，实验比较的指标是HitRatio@1
46 | 
47 | ![image-20231218173758961](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara05.png)
48 | 
49 | RQ1：与传统的顺序推荐模型和基于LLM的方法相比，LLARA的表现如何？
50 | 
51 | ![image-20231218174011940](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara06.png)
52 | 
53 | RQ2：我们的混合提示方法与提示设计中其他形式的项目表示相比如何？
54 | 
55 | ![image-20231218174029581](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara07.png)
56 | 
57 | RQ3：我们的课程学习方案如何针对其他模式注入方法进行测量？
58 | 
59 | ![image-20231218173842613](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/llara08.png)
60 | 
61 | ## 总结
62 | 
63 | 这篇文章是十分值得推荐的，作者在写作上和问题描述上面都有理有据，整体来看是一篇是否值得学习的文章，虽然在创新点上没有那么出彩，但是在写作方面特别值得我们学习。


--------------------------------------------------------------------------------
/论文解读/大模型+推荐系统/RecSys2023Heterogeneous Knowledge Fusion A Novel Approach for Personalized Recommendation via LLM.md:
--------------------------------------------------------------------------------
 1 | # RecSys2023:Heterogeneous Knowledge Fusion: A Novel Approach for Personalized Recommendation via LLM
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2308.03333
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 作者通过LLM来处理用户的异构数据，通过优化prompt来进行推荐，实验表明方法有效
 8 | 
 9 | ## 2.论文提出的问题
10 | 
11 | 作者基于中国美团外卖的用户行为数据进行分析，发现用户行为之间有许多有用的语义数据，而这些异构数据在传统推荐系统上没有得到充分的利用，同时大量的行为主体导致稀疏特征，会对传统推荐系统的高效建模提出了挑战。
12 | 
13 | ## 3.论文的解决方法
14 | 
15 | 如图所示论文采用了对用户行为异构信息融合和指令微调这两种方法来提高推荐效果
16 | 
17 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/HKFR_key.png)
18 | 
19 | 用户行为异构信息融合在本文作者没有告诉我们具体实现的方法和逻辑，但是本文说在推荐的时候是从数据库中检索这个数据的，那么可以推断出，这个异构信息本质上就是原本用户的行为数据，进行了数据清理，预测等操作后的特征数据和一些原本的文本数据和在一起给llm作为prompt。
20 | 
21 | 指令微调本质上就是准备好了训练数据，一个input一个output，如何对chatglm-6b用lora的方法进行微调。
22 | 
23 | ## 4.论文的实验
24 | 
25 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/HKFR_Experimental.png)
26 | 
27 | 实验数据对比主要包含几方面，一部分是像Caser这样的传统推荐系统模型，一类是BERT4Rec这种加载了预训练模型Bert的推荐系统，还有一部分是像P5和ChatGLM-6B这样的大语言模型。剩下的就是作者提出来的使用用户异构数据微调的模型，其中分为三个，第一个是没有加指令微调的模型，我们可以看到其效果和ChatGLM差不多，仅仅好上一点，但不如P5，第二个是有指令微调，但没有做用户异构信息融合的，其效果明显优于前者且比P5还要好一点，第三个就是既做了指令微调又做了用户异构信息融合的，效果明显优于其他方法。我们可以明显看出模型在微调后，就能有不错的提升，而加上用户异构信息融合的数据也可以得到一点提升，但主要还是微调的提升比较明显。
28 | 
29 | ## 5.论文实际效果
30 | 
31 | 作者这个方法在美团外卖实际业务上ABtest的效果，主要是在点击率和冷启动上有一些提升，在其他方面上并没有看到明显的提升效果。
32 | 
33 | ## 6.论文总结
34 | 
35 | 这篇文章在具体方法实现上讲的模糊不清，可能涉及公司等其他因素吧，但他们的实验在美团外卖这样中国大型的互联网公司里的真实数据上做的，总体上可以看出使用llm做推荐确实能给实际业务带来一些提升。所以这篇文章给我们带来的提示：在处理llm推荐系统时主要分为两块，一块是在推荐用户数据处理方面需要做预测，融合等一些处理方法，第二块是微调模型能给推荐系统带来不错的提升。


--------------------------------------------------------------------------------
/论文解读/大模型+推荐系统/RecSys2023：Large Language Models for Generative Recommendation A Survey and Visionary Discussions（LLM推荐系统综述）.md:
--------------------------------------------------------------------------------
 1 | # RecSys2023：Large Language Models for Generative Recommendation: A Survey and Visionary Discussions（LLM推荐系统综述）
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2309.01157
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 作者认为大语言模型虽然已经在nlp和cv上有不错的应用，但在推荐系统上，大语言模型还是作为一个特征提取器的辅助手段，这可能在推荐系统上根本没有释放大语言模型强大的能力。
 8 | 
 9 | ## 2.论文解决了什么问题
10 | 
11 | 作者调查通过检查三个问题回顾了基于LLM的生成推荐的进展、方法和未来方向:1)生成推荐是什么;2)为什么RS应该提前生成推荐;3)如何为各种RS任务实现基于LLM的生成推荐。希望调查能够提供探索这一有趣和新兴主题所需的上下文和指导。
12 | 
13 | ## 3.论文提出了什么观点
14 | 
15 | 作者认为llm推荐可以作为端到端的生成，一步到位，直接吧推荐列表生成出来。
16 | 
17 | ![](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/rs_vs_llmrs.png)
18 | 
19 | 之前推荐系统的流程一般在工业上是先通过简单的模型进行召回，排序，后面缩小范围后才用较为复杂的模型进行精排，所以工业上和学术上差距比较大，主要原因是因为学术没有考虑那么全面落地成本。而大模型做推荐系统在工业上和学术上差距就没有那么大
20 | 
21 | ## 4.论文方法
22 | 
23 | 1.使用评分推荐
24 | 
25 | 作者举了个例子，用llm来评分，可以直接用自然语言描述用户和物品的关系，然后直接让llm打分，比如1-5分，然后llm输出4.12分这样。
26 | 
27 | 存在问题：作者也表示用户可能不会为他们交互的每个项目留下明确的评级，因此评级预测任务对于现实世界的系统可能不太实用。
28 | 
29 | 2.排序推荐
30 | 
31 | 仅包含用户信息（ID 或用户元数据）的提示，并要求 LLM 直接为该用户生成推荐。
32 | 
33 | 提供了提示中的用户信息和候选项目列表，并要求 LLM 从候选项目中选择项目进行推荐。
34 | 
35 | 3.顺序推荐
36 | 
37 | 就是预测用户 u 可能基于他/她的过去交互进行交互的下一个项目
38 | 
39 | 4.可解释性推荐
40 | 
41 | 可解释性推荐，就是cot的方式用于llm推荐
42 | 
43 | ## 5.论文评估方法
44 | 
45 | 评估llm的推荐性能的指标还是传统推荐系统的那些指标，比如rmse，mae等等
46 | 
47 | ## 6.其它
48 | 
49 | 作者认为解决llm推荐幻觉问题的方法之一是：创建项目 ID 并将所有项目的 ID 组织成前缀树结构，也称为 trie 结构。
50 | 
51 | 另一种解决幻觉的方法就是rag，通过约束索引来解决问题
52 | 
53 | ## 7.总结
54 | 
55 | 总的来说，作者对2023年9月份前（可能更早）llm在rs领域的研究进行总结说明，也提出了一点点自己的看法，但不多，在2023年11月份看来一些小的观点可能已经过时，比如：当时llm的上下文限制确实比较大，随着llm的发展上下文限制被逐步打开。可以作为论文索引收藏（去看他的引用文献）


--------------------------------------------------------------------------------
/论文解读/大模型+知识图谱/Unifying Large Language Models and Knowledge Graphs A Roadmap（大模型+知识图谱综述）.md:
--------------------------------------------------------------------------------
  1 | # Unifying Large Language Models and Knowledge Graphs: A Roadmap（大模型+知识图谱综述）
  2 | 
  3 | 机构：合肥工业大学，北京工业大学，南洋理工大学，墨尔本大学
  4 | 
  5 | 论文地址：https://arxiv.org/abs/2306.08302
  6 | 
  7 | 
  8 | 
  9 | ## 论文背景
 10 | 
 11 | 作者认为LLM 是黑盒模型，通常无法捕获和访问事实知识。通过知识图谱可以让llm获取事实知识。
 12 | 
 13 | 
 14 | 
 15 | ![image-20231225164107941](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm01.png)
 16 | 
 17 | 
 18 | 
 19 | llm和知识图谱的优缺点总结。
 20 | LLM 优势：一般知识，语言处理，通用性 ；
 21 | LLM 缺点：隐式知识、幻觉、不确定性、黑盒，缺乏特定领域的/新知识 。
 22 | 知识图谱优势：结构知识 、准确性、决定性、可解释性、特定领域的知识 、进化知识； 
 23 | 知识图谱缺点：不完整 ，缺乏语言理解，未见事实
 24 | 
 25 | ## 论文提出的问题
 26 | 
 27 | 作者认为LLM 无法回忆事实，并且通常通过生成事实不正确的陈述，这就是llm的幻觉问题，这些问题严重损害了llm的可信度。
 28 | 
 29 | 作者觉得LLM 通过概率模型进行推理，这是一个不确定的过程 。尽管一些llm配备了通过应用思维链（cot）来解释他们的预测，但它们的推理解释也存在幻觉问题，这个现象严重损坏了llm在高风险事件上的应用场景，比如医学问诊上，金融交易上，法律咨询上等等。
 30 | 
 31 | 作者认为为了解决幻觉问题，一个潜在的解决方案是将知识图 (KG) 合并到 LLM 中。知识图(KGs)，以三元组的方式存储巨大的事实，即(头实体、关系、尾实体)，但是知识图谱也有缺陷，作者认为我们很难对现实世界进行知识图谱建模，同时当我们好不容易建立图谱后很难进行动态修改。
 32 | 
 33 | ## 论文提出的解决方案
 34 | 
 35 | 作者认为LLM 和 KG 本质上是相互连接的，可以相互增强。在 KG 增强的 LLM 中，KG 不仅可以合并到 LLM 的预训练和微调阶段以提供外部知识，还可以用于分析 LLM 并提供可解释性
 36 | 
 37 | ## 论文介绍
 38 | 
 39 | ### llm部分
 40 | 
 41 | ![image-20231225164250463](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm02.png)
 42 | 
 43 | llm可以分为三组:
 44 | 
 45 | 1)仅编码器的llm, 
 46 | 
 47 | 2)编码器-解码器llm
 48 | 
 49 | 3)仅解码器的llm。
 50 | 
 51 | 
 52 | 
 53 | 仅编码器大型语言模型仅使用编码器对句子进行编码并理解单词之间的关系。这些模型的常见训练范式是预测输入句子中的掩码词。这种方法是无监督的，可以在大规模语料库上进行训练。他们主要做文本分类和命名实体识别这些任务
 54 | 
 55 | 
 56 | 
 57 | 编码器-解码器大型语言模型采用编码器和解码器模块。编码器模块负责将输入图像编码为隐藏空间，解码器用于生成目标输出文本。编码器-解码器llm中的训练策略可以更加灵活。例如，T5 通过掩蔽和预测掩蔽词的跨度来预训练。UL2统一了几个训练目标，例如不同的掩蔽跨度和掩蔽频率。编码器-解码器 LLM（例如 T0 、ST-MoE和 GLM-130B）能够直接解决基于某些上下文生成句子的任务，例如求和、翻译和问答。
 58 | 
 59 | 
 60 | 
 61 | 仅解码器的大型语言模型仅采用解码器模块来生成目标输出文本。这些模型的训练范式是预测句子中的下一个单词。大规模仅解码器llm通常可以从几个例子或简单的指令执行下游任务，而无需添加预测头或微调。许多最先进的 LLM（例如，Chat-GPT 和 GPT-44）遵循仅解码器的架构。这些模型大多数是闭源的
 62 | 
 63 | 
 64 | 
 65 | ![image-20231225164400480](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm03.png)
 66 | 
 67 | ### 提升工程部分
 68 | 
 69 | 作者认为提示工程是一个新颖的领域，专注于创建和细化提示，以最大限度地提高大型语言模型 (LLM) 在各种应用程序和研究领域的有效性。如图 所示，提示是为任务指定的 LLM 的一系列自然语言输入，例如情感分类。提示可以包含几个元素，即 1) 指令、2) 上下文和 3) 输入文本。指令是一个短句，指示模型执行特定任务。上下文为输入文本或少样本示例提供上下文。输入文本是模型需要由模型处理的文本。
 70 | 
 71 | ![image-20231225164431228](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm04.png)
 72 | 
 73 | ### 知识图谱部分
 74 | 
 75 | ![image-20231225164518463](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm05.png)
 76 | 
 77 | 作者把知识图谱分成了四类：
 78 | 
 79 | 百科全书知识图谱
 80 | 
 81 | 常识知识图谱
 82 | 
 83 | 特殊领域知识图谱
 84 | 
 85 | 多模态知识图谱
 86 | 
 87 | 
 88 | 
 89 | 其中多模态知识图谱与传统的只包含文本信息的知识图不同，多模态知识图代表了图像、声音和视频等多种模式的事实。将文本和图像信息合并到知识图中。这些知识图可用于各种多模态任务，如图像-文本匹配、视觉问答和推荐。
 90 | 
 91 | 
 92 | 
 93 | ### llm结合知识图谱方法
 94 | 
 95 | ![image-20231225164759198](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm07.png)
 96 | 
 97 | 两者合作的方式有三种，
 98 | 1) 知识图谱增强llm，在llm的预训练和推理阶段结合知识图谱，或为了增强对llm学习到的知识的理解;
 99 | 2) LLM增强知识图谱，利用llm进行嵌入、完成、构建、图到文本生成和问题回答等不同知识图谱任务;
100 | 3)协同llm +知识图谱，其中llm和知识图谱扮演相同的角色，并以互惠的方式工作，以增强llm和知识图谱，以实现数据和知识驱动的双向推理。
101 | 
102 | ![image-20231225164721256](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm06.png)
103 | 
104 | 作者对第三种方式表示推荐
105 | 
106 | ![image-20231225164922377](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm08.png)
107 | 
108 | 大体上llm合知识图谱可以分成这样
109 | 
110 | ![image-20231225165125658](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm09.png)
111 | 
112 | 最上面三个就是刚刚介绍的三种合作的方式，每一种下还有不同的阶段
113 | 
114 | ####  知识图谱增强llm
115 | 
116 | 有三个小类，分别是kg增强的LLM预训练，旨在在训练前阶段向llm注入知识。然后 是KG 增强的 LLM 推理，它使 LLM 在生成句子时能够考虑最新的知识。最后是 KG 增强的 LLM 可解释性，旨在通过使用 KG 来提高 LLM 的可解释性。
117 | 
118 | ##### 将 KG 集成到训练目标中（LLM预训练阶段）
119 | 
120 | ERNIE提出了一种新的词实体对齐训练目标作为预训练目标。具体来说，ERNIE 将文本中提到的句子和相应实体都输入到 LLM 中，然后训练 LLM 来预测知识图中文本标记和实体之间的对齐链接。
121 | 
122 | ![image-20231225165540916](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm10.png)
123 | 
124 | ##### 将KG集成到LLM输入中
125 | 
126 | 这类研究集中在将相关知识子图引入llm的输入中。给定一个知识图三元组和相应的句子，ERNIE 3.0 将三元组表示为一系列标记，并直接将它们与句子连接起来。它进一步随机屏蔽句子中的三元组或标记中的关系标记，以更好地将知识与文本表示相结合。
127 | 
128 | ![image-20231225165744017](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm11.png)
129 | 
130 | ##### 通过附加融合模块集成 KG
131 | 
132 | 通过在llm中引入额外的融合模块，可以将KGs的信息分别处理和融合到llm中。ERNIE提出了一种文本知识双编码器架构，其中Tencoder首先对输入句子进行编码，然后使用T-encoder的文本表示对知识图进行处理。
133 | 
134 | ![image-20231225170007763](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm12.png)
135 | 
136 | ##### 动态知识融合（LLM推理阶段）
137 | 
138 | 在所有文本标记和 KG 实体上计算成对点积分数，分别计算双向注意力分数。此外，在每个关节 LK 层，KG 也是基于注意力分数动态修剪的，以允许后面的层专注于更重要的子 KG 结构。
139 | 
140 | ![image-20231225170157278](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm13.png)
141 | 
142 | 其实就是把与问题无关的结点删掉，减轻推理负担
143 | 
144 | ##### 检索增强知识融合
145 | 
146 | RAG提出将非参数模块和参数模块结合起来处理外部知识。给定输入文本，RAG首先通过 MIPS 搜索非参数模块中的相关 KG 以获得多个文档。然后 RAG 将这些文档视为隐藏变量 z，并将它们馈送到由 Seq2Seq LLM 授权的输出生成器中，作为附加的上下文信息。
147 | 
148 | ![image-20231225170358063](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm14.png)
149 | 
150 | 研究表明，使用不同的检索到的文档作为不同生成步骤的条件比仅使用单个文档来指导整个生成过程表现更好。实验结果表明，RAG 在开放域 QA 中优于其他仅参数和非参数的基线模型。RAG 还可以比其他仅参数的基线生成更具体的、多样化的和事实文本。
151 | 
152 | ##### 用于LLM探测的（可解释性）
153 | 
154 | LAMA 是第一个通过使用 KG 探索 LLM 知识的工作。LAMA首先通过预定义的提示模板将KGs中的事实转换为完形填空语句，然后使用llm来预测缺失的实体。预测结果用于评估存储在llm中的知识。
155 | 
156 | ![image-20231225170637488](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm15.png)
157 | 
158 | ##### 用于LLM分析的
159 | 
160 | KagNet和QA-GNN使llm在每个推理步骤根据知识图生成的结果。通过这种方式，LLM 的推理过程可以通过从 KG 中提取图结构来解释。
161 | 
162 | ![image-20231225170715893](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm16.png)
163 | 
164 | #### LLM增强知识图谱
165 | 
166 | LLM 集成到 KG 嵌入、KG 完成、KG 构建、KG 到文本生成和 KG 问答
167 | 
168 | 这一块每一步都要对应的描述讲解，优于他不是我研究的重点这里就不过多描述
169 | 
170 | 
171 | 
172 | #### 协同llm +知识图谱
173 | 
174 | 文本语料库和知识图谱都包含巨大的知识。然而，文本语料库中的知识通常是隐式和非结构化的，而 KG 中的知识是显式和结构化的。因此，有必要对齐文本语料库和 KG 中的知识以统一的方式表示它们。
175 | 
176 | ![image-20231225171200836](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/kgllm17.png)
177 | 
178 | ### 总结
179 | 
180 | 作者认为目前在纯文本数据上训练的传统 LLM 并非旨在理解知识图等结构化数据。因此，LLM 可能无法完全掌握或理解 KG 结构传达的信息。
181 | 
182 | 作者认为知识图谱可以帮助llm处理幻觉问题，扩展llm的知识，而llm也可以帮助知识图谱构建，用于黑盒llm知识注入的kg，KG 和 LLM 是两个互补的技术，可以相互协同。然而，现有研究人员较少探索 LLM 和 KG 的协同作用。LLM 和 KG 的期望协同作用将涉及利用这两种技术的优势来克服它们各自的限制。
183 | 
184 | 这是一篇对知识图谱和大模型的综述，描述的十分详细，架构也十分清晰，可以作为入门刊物。


--------------------------------------------------------------------------------
/论文解读/大模型+金融/Integrating Stock Features and Global Information via Large Language Models for Enhanced Stock Return Prediction.md:
--------------------------------------------------------------------------------
 1 | # Integrating Stock Features and Global Information via Large Language Models for Enhanced Stock Return Prediction
 2 | 
 3 | 论文地址：https://arxiv.org/abs/2310.05627
 4 | 
 5 | 
 6 | 
 7 | ## 论文大概
 8 | 
 9 | 作者提出的框架主要是两点，一是Local-Global (LG) 模型，引入了三种不同的全局信息建模策略。这些方法分别基于股票特征、LLM 的能力和结合这两种范式的混合方法，二是SCRL专注于对齐 LLM 生成的财经新闻的嵌入与同一语义空间中的股票特征。
10 | 
11 | 
12 | 
13 | ## 论文提出的问题
14 | 
15 | 作者认为先阶段基于llm在金融领域的研究，它们仅依赖于llm生成的情感信息或固有的推理能力，并没有深入研究llm中的其他有价值的知识。财经新闻可以分为三个层次，即宏观（例如市场、政策、经济）、中观（例如行业）和微观（例如股票、公司），每个层面提供不同的视角。这些不同级别的姿势难以直接将它们的信息对齐和映射到相同的级别，这在利用 LLM 来整合对股票收益预测的全面理解时提出了挑战。另一种解决方案是通过 LLM 提取新闻嵌入并将它们与股票特征连接起来。然而，LLM 和股票特征生成的嵌入本质上并不共享相同的模态，并且在统一的语义空间中不对齐。
16 | 
17 | 
18 | 
19 | ## 论文解决办法
20 | 
21 | 作者解决办法，首先，考虑库存量价格特征中固有的特殊回报。其次，检查了影响股票收益的特征，这反映在与市场相关的新闻、宏观经济政策、行业趋势和特定股票中。分离这些组件可以让我们更细致地了解有助于股票绩效的特征。此外，为了提高股票收益预测的准确性，将 LLM 生成的股票特征和新闻嵌入的信息对齐在同一语义空间中。这是通过引入自相关强化学习 (SCRL) 来实现的。
22 | 
23 | ### 局部全局模型
24 | 
25 | 作者提出局部全局模型，有三种情况
26 | 
27 | 1. 仅使用股票特征的全局模型。就是把股票是开高收低数据，做注意力机制。全局和局部模型都只使用了股票特征。在这种情况下，全局信息可以被认为是股票特征的变换或压缩。
28 | 
29 | 
30 | 
31 | 2. 仅使用LLM的全局模型。作者认为类似“今天，公司的股份被大量购买，导致股价上涨 6%”，这种股票价格的描述已经与特征集中的现有特征重叠。因此，作者尝试将市场、行业和政府政策的新闻作为 LLM 中的提示纳入 LLM 以获得嵌入，然后用于构建全局信息。例如“商务部部部：加强商业环境保护”与特定股票特征没有直接关系。预计合并这些信息将捕获可能影响单个股票绩效的更广泛的市场趋势、行业发展和监管变化。这种将全局信息集成到模型中允许更全面的分析，潜在地揭示隐藏模式并提高预测的准确性。LLM在预测给定附加每日新闻作为输入
32 | 
33 | 
34 | 
35 | 3. 具有股票特征和LLM的全局模型。就是把上面两种结合起来。
36 | 
37 | 
38 | 
39 | ### Self-Correlation强化学习
40 | 
41 | ![image-20240121134651462](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/scrl01.png)
42 | 
43 | 
44 | 
45 | 作者为了有效地提取新闻的嵌入，我们使用精选的新闻语料库预训练 LLM，提供了优于传统手工特征提取方法的丰富表示。做了微调！
46 | 
47 | 作者使用具有库存特征集 M 的监督学习方法训练 Local-Global 模型（Critic 模型）。接下来，我们使用经过训练的 Critic 模型初始化 Actor 模型并微调 Actor 模型。这种训练模式允许模型学习更复杂的决策边界，从而提高预测性能。
48 | 
49 | 
50 | 
51 | ## 实验
52 | 
53 | 实验数据实验在中国 A股市场上进行，该数据集包含 3506 个股票和 342 个从 01/01/2019 到 12/31/2022 的股票价格-体积数据构建的每日特征。
54 | 
55 | 作者根据预测回报对股票进行每日排序，并将它们分成十个分位数。策略涉及从前 10% 分位数购买平等分配股票，同时清算不属于该分位数的投资组合。所有交易都以关闭价格执行，交易成本为 0.3%。此外，将重点限制在 3:30 PM 之前交易日结束和 9:30 AM 当前交易日开始之间发布的新闻。
56 | 
57 | 奇怪的是作者微调llama7b的模型用了八张A100，可能是训练数据多，加快训练速度。
58 | 
59 | ![image-20240121223721979](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/scrl02.png)
60 | 
61 | 对标实验方式文章：https://arxiv.org/pdf/2304.07619.pdf
62 | 
63 | 
64 | 
65 | ## 总结
66 | 
67 | 文章实验具体过程没有明确说明，但是数据还是非常好的，但没有代码，表述模糊，复现可能性较小，且文章在交易上没有说明，但是我读下来，感觉是通过ppo算法做交易的，可能是action就是选股，然后买入。


--------------------------------------------------------------------------------
/论文解读/大模型/A Survey on Large Language Model based Autonomous Agents（基于LLM的自主智能体的综述）.md:
--------------------------------------------------------------------------------
 1 | # A Survey on Large Language Model based Autonomous Agents（基于LLM的自主智能体的综述）
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2308.11432
 4 | 
 5 | GitHub：https://github.com/Paitesanshi/LLM-Agent-Survey
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 之前的研究往往只能在特定的环境中训练具有特定知识的智能体，这与人类的学习过程有很大的分歧，从而使智能体难以实现类似人类的决策。而LLM经过大量数据的训练后已经掌握大量基础知识，具有一定的类人智能，基于这种能力，越来越多研究使用LLM来构建自主代理来获得类似人类的决策推理能力。
10 | 
11 | ## 2.论文解决问题
12 | 
13 | 目前已经有不少使用LLM作为Agent的研究并且都有一定的效果，但这些研究大都是独立提出，目前对他们的整体总结比较少，因此作者对这一领域的一些前沿研究进行了一个较系统的总结。
14 | 
15 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/agent%E7%A0%94%E7%A9%B6%E6%80%BB%E7%BB%93.png)
16 | 
17 | ## 3.论文提出观点
18 | 
19 | 文章主要从代理的构建，应用以及评估三个方面总结了目前的工作。
20 | 
21 | 1.代理构建：主要关注两方面，即应选择哪种架构来更好地使用LLM，以及给出设计的架构，如何使代理获得完成特定任务的能力。
22 | 
23 | ① 代理架构构建：文章提出一个统一架构总结目前开发的一些模块，主要由Profile模块、Memory模块、Planning模块和Action模块组成。
24 | 
25 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E4%BB%A3%E7%90%86%E6%9E%B6%E6%9E%84%E6%A8%A1%E5%9D%97.png)
26 | 
27 | Profile模块：假定代理的角色，交代对应问题背景。
28 | 
29 | (1) 人工设定：手写提示配置agent的角色。
30 | 
31 | (2) LLM生成：先将一些背景告诉LLM，由它生成几种角色再进行选择。
32 | 
33 | (3) 数据集对齐：从真实数据集获取对应角色的特征来配置agent。
34 | 
35 | Memory模块：存储从环境中得到的信息，帮助agent积累经验。
36 | 
37 | (1) 记忆结构：只有短期记忆（统一存储），短期记忆和长期记忆混合两种结构。
38 | 
39 | (2) 记忆格式：自然语言，Embeddings，数据库，结构化列表。
40 | 
41 | (3) 记忆操作：读取，写入，反思。
42 | 
43 | Planning模块：对问题进行分解，计划未来的行动。
44 | 
45 | (1) 无反馈计划：Single-Path，如CoT等，Muti-Path，如ToT等。
46 | 
47 | (2) 有反馈计划：采取行动后会接受到来自环境，人类，和模型的反馈。
48 | 
49 | Action模块：受上面三个模块的指导，直接与外界进行交互。在这个阶段，agent可能需要借助外部的API，数据库，外部模型等，结合LLM内部知识，对环境执行动作空间中的某些动作，动作会对环境产生影响，也会改变agent内部的记忆与知识。
50 | 
51 | ②代理能力获取：获取特定于任务的能力和经验。
52 | 
53 | (1) 基于微调方法：使用人工标注数据，大模型生成数据等对模型参数进行微调，适用于开源LLM。
54 | 
55 | (2) 无微调方法：基于提示工程和机制工程（例如加入试错，众包，经验积累等机制），适用于开源和闭源LLM。
56 | 
57 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E4%BB%A3%E7%90%86%E8%83%BD%E5%8A%9B%E8%8E%B7%E5%8F%96%E6%96%B9%E6%B3%95.png)
58 | 
59 | 2.代理应用：在社会科学，自然科学，工程方面的应用。
60 | 
61 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E4%BB%A3%E7%90%86%E5%90%84%E6%96%B9%E9%9D%A2%E5%BA%94%E7%94%A8.png)
62 | 
63 | 3.代理评估：评估LLM自主代理的有效性，分为主观评估和客观评估。
64 | 
65 | 主观评估：将Agent的执行结果给到人类去打分，但成本较高。
66 | 
67 | 客观评估：使用可以随时间计算、比较和跟踪的量化指标来评估基于LLM的自主代理的能力。
68 | 
69 | ## 4.目前存在挑战
70 | 
71 | 1.对于在之前的训练资料中出现较少或较新的角色，LLM可能不能很好地扮演其角色（LLM内部缺少这方面的知识）。解决方案可能包括人为收集对应数据进行微调，或者设计定制的代理提示。
72 | 
73 | 2.传统的LLM内部通常与正确的人类价值观保持一致，但当agent应用于真实环境时，应当能模拟各种人类的特征，即根据特定场景令agent与不同的人类价值观对齐。因此，一个有趣的方向是如何通过设计适当的提示策略来“重新调整”这些模型。
74 | 
75 | 3.LLM的提示词缺乏鲁棒性，对prompt微小的更改也可能产生截然不同的结果。解决方案：试错后手动写prompt，使用LLM自己生成prompt。
76 | 
77 | 4.幻觉，可能的解决方案是添加人类反馈。
78 | 
79 | 5.由于LLM的超出普通人的广泛知识网络，agent在模拟真实世界人类行为时可能会使用到真实人类无法获取的知识来进行决策，因此需要约束LLM的用户未知知识的使用。
80 | 
81 | ## 5.总结
82 | 
83 | 这篇文章对目前使用LLM作为Agent的研究作了一个概要总结，个人认为比较重要的是本文提出一个统一架构总结了目前开发的一些模块，让人比较清楚地认识到一个基于LLM的agent的大体架构以及架构下各模块是如何组织工作的。并且后面也提出了一些目前的难题和以后的一些研究方向，有一定的参考意义。


--------------------------------------------------------------------------------
/论文解读/大模型/Agent Instructs Large Language Models to be General Zero-Shot Reasoners.md:
--------------------------------------------------------------------------------
 1 | # **Agent Instructs Large Language Models to be General Zero-Shot Reasoners** 
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2310.03710
 4 | 
 5 | GitHub：https://github.com/wang-research-lab/agentinstruct
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 目前，LLM 的新兴能力，例如复杂推理的能力，使其近年来成为研究的主题。其中，零样本推理引起了广泛的公众兴趣，并在特定任务领域取得了可喜的成果。然而，LLM在一般任务上的推理能力仍有待考究。
10 | 
11 | ##  2.论文提出观点
12 | 
13 | 论文提出一种利用零样本Agent生成指令来指导推理的方法。首先使用一个Agent根据简单的任务信息和几个输入样例生成完成任务的说明（一系列instructions），再将instructions给到LLM（task executor）进行后续的推理任务并输出结果。
14 | 
15 | 论文中Agent使用的默认是GPT-4，task executor默认是GPT-3.5。
16 | 
17 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Zero-shot%20Agent%20instructions.png)
18 | 
19 | ## 3.论文方法
20 | 
21 | **Agent Instructions**：基于ReAct方式，利用Agent生成目标任务的instructions，对应动作空间有：ask_about_dataset[string]：搜索外部信息，代码中调用API使用微软Bing在网络上搜索对应任务与数据集的相关信息。
22 | 
23 | finish[instructions]：基于前面的观察与思考得到最终的instructions。
24 | 
25 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Agent%20Instructions%E7%94%9F%E6%88%90%E8%BF%87%E7%A8%8B.png)
26 | 
27 | **Chain of Thought Reasoning**：利用上面Agent生成的多步骤的instructions进行一步步的推理最后得到结果。
28 | 
29 | ## 4.实验分析
30 | 
31 | 实验用到HELM（Holistic Evaluation of Language Models）中的多个任务数据集，作者将这些任务分为生成，分类，推理三类，并与Zero-shot，Zero-shot CoT进行对比。
32 | 
33 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/HELM%E4%BB%BB%E5%8A%A1%E5%88%86%E7%B1%BB.png)     ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Winning%20rate%20(%25)%20between%20zeroshot%2C%20zero-shot%20CoT%2C%20and%20zero-shot%20AgentInstruct.png)
34 | 
35 | 在不同模型上进行实验对比。
36 | 
37 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E5%A4%9A%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%AF%94.png)
38 | 
39 | 消融实验：
40 | 
41 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E6%B6%88%E8%9E%8D%E5%AE%9E%E9%AA%8C%E7%BB%93%E6%9E%9C.png)
42 | 
43 | 与few-shot方法和Self-Consistency方法进行比较：
44 | 
45 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E4%B8%8Efew-shot%E5%AF%B9%E6%AF%94.png)     ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E4%B8%8ESC%E5%AF%B9%E6%AF%94.png)
46 | 
47 | ## 5.论文总结
48 | 
49 | 论文提出了一种提高大型语言模型在一般语言理解任务上零样本推理能力的新方法，构建了一个Agent自动为广泛的任务生成特定于任务的指令。这些指令用于指导LLM在这些任务中更好地进行推理，以做出高质量的预测。
50 | 
51 | ## 6.可能改进的点
52 | 
53 | 将反思机制加入本论文的方法中，根据任务执行时出错的样例得出概括性的经验总结，存储在一个反思队列中，在下次任务执行时task executor将这些经验加入自己的上下文中进行参考，从而更好的执行任务。
54 | 
55 | 实验：在论文用到的其中一个任务集BoolQ上进行了一些实验。BoolQ的任务是给出一段文章，然后给出一句话，然后需要根据文章内容判断这句话正确还是错误，输出是True/False。
56 | 
57 | 论文方法：（50个样例）成功率：0.74  0.76  0.74    平均：0.746                     （200个样例）成功率：0.825 0.84 0.84   平均：0.835
58 | 
59 | 加入反思机制：（50个样例）成功率：0.76  0.84  0.82     平均：0.806             （200个样例）成功率：0.855 0.85 0.885   平均：0.863


--------------------------------------------------------------------------------
/论文解读/大模型/AutoGen Enabling Next-Gen LLM Applications via Multi-Agent Conversation.md:
--------------------------------------------------------------------------------
 1 | # AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2308.08155
 4 | 
 5 | Github：https://github.com/microsoft/autogen
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 大型语言模型 (LLM) 正在成为开发强大的代理的关键构建块，为了扩大代理的能力，一个直观的方法就是通过使用多个代理的合作。
10 | 
11 | ## 2. 论文提出观点
12 | 
13 | 论文对此提出的方法是使用多智能体的对话，每个agent通过彼此之间的对话进行合作从而解决问题。
14 | 
15 | ## 3.论文方法
16 | 
17 | 论文提出一种AutoGen框架，AutoGen框架的核心是其代理协同工作的能力。每个代理都有其特定的能力和角色，你需要定义代理之间的互动行为，即当一个代理从另一个代理收到消息时该如何回复。这种方式不仅仅是在定义代理和角色，还在定义它们如何协同工作，从而实现更优的任务完成效果。
18 | 
19 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/AutoGen%E6%A1%86%E6%9E%B6.png)
20 | 
21 | 有一个泛型ConversableAgent类，有两个核心的内置的子类，**AssistantAgent** 和 **UserProxyAgent**。AssistantAgent 设计为充当 AI 助手，默认使用 LLM（可以是GPT，也可是其他），可以编写 Python 代码给到UserProxyAgent 。
22 | 
23 | UserProxyAgent 是人类的代理，默认情况下，在每个交互回合中，将人工输入作为代理的回复，若设置全自动回复，会自动触发代码执行。
24 | 
25 | GroupChatManager支持更复杂的动态组聊天，它可以动态选择下一个说话者，然后将其响应广播给其他代理。
26 | 
27 | **可定制**：AutoGen 中的代理可以自定义以集成 LLM、人员、工具或它们的组合。根据不同的问题，写对应的子类继承AssistantAgent 和 UserProxyAgent，并在子类中扩展对应的方法。
28 | 
29 | ## 4.实验分析
30 | 
31 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E5%85%AD%E7%A7%8DAutoGen%E6%A1%86%E6%9E%B6%E7%9A%84%E5%BA%94%E7%94%A8.png)
32 | 
33 | 几个应用问题：数学问题求解，检索增强代码生成和问答，文本世界环境中的决策制定，多agent编码，动态群组聊天，国际象棋对话。
34 | 
35 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/AutoGen%E5%AE%9E%E9%AA%8C.png)
36 | 
37 | ## 5.论文总结
38 | 
39 | AutoGen提供了一个多agent系统的通用框架，满足各种实际需求，例如重用、定制和扩展现有agent，以及为它们之间的对话编程。每个agent都可以单独开发、测试和维护，这种方法简化了整体开发和代码管理。通过使用多个代理的交流合作，增强了解决问题的能力。
40 | 
41 | ## 6. 改进方向
42 | 
43 | 论文提出可以探索将现有的agent实现有效集成到我们的多agent框架中，并研究多agent工作流程中自动化和人工控制之间的最佳平衡。研究哪种策略（如agent拓扑结构和对话模式）能带来最有效的多agent对话。
44 | 
45 | 个人认为可以将论文中交谈对话的思想加入之前的各种推理框架，因为以前的框架基本上各个模块是是固定的前后交互，模块间不会相互交流，只有单向的信息传递，加入后可能可以加强效果。


--------------------------------------------------------------------------------
/论文解读/大模型/Can Generalist Foundation Models Outcompete Special-Purpose Tuning Case Study in Medicine.md:
--------------------------------------------------------------------------------
 1 | # Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine（MedPrompt）
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2311.16452
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 基座大模型虽然有很好的通用基础知识，但是对于专有的领域如医学、金融等，缺少专门的训练，因此可能表现并不那么好。使用基座大模型+领域数据进行微调获得一个专用大模型的效果更好，于是便提出是否可以通过更加精巧的 Prompt 技术来解锁大模型的能力以获得近似微调的效果，微软最新研究表明，通过 MedPrompt 提示工程技术，直接让 GPT-4 在医学领域的评测结果超过了医学领域大模型 Med-PaLM2。
 8 | 
 9 | ## 2.论文解决了什么问题
10 | 
11 | 作者认为在没有额外微调和专家策划的情况下，仅凭提示工程，GPT-4 就能达到专家效果。使用他们提出的最新提示策略Medprompt，在医疗专业领域，GPT-4在MultiMed QA 九个测试集中取得最优结果。
12 | 
13 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MedPrompt_SOTA.png)
14 | 
15 | ## 3.论文方法
16 | 
17 | 论文提出的 MedPrompt 方法实际上是一种结合了训练数据的 few-shot 方法，但也不是简单的选择训练数据回答，而是包括三个方法的框架：
18 | 
19 | 1.动态少样本选择（Dynamic few-shot）
20 | 
21 | 结合 KNN 技术借助领域数据动态构建 few-shot 范例，而不是传统的专家手动制作范例，可以为不同的任务输入选择不同的少量示例。
22 | 
23 | 与微调方法相比，动态少样本选择利用了训练数据，但不需要对模型参数进行大量更新。
24 | 
25 | 2.自生成思维链（Self-generated chain of thought）
26 | 
27 | 思维链的大多数方法都是利用专家手动编写带有思维链的简短示例来进行提示，而作者结合前面的动态选择训练数据，使用 GPT-4 来自主生成每道题目的详细思维展示，作为 Prompt 给GPT-4使用。
28 | 
29 | GPT-4 使用以下提示模版为训练示例生成思维链：
30 | 
31 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Self-generate%20CoT%20tem.png)
32 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoT%20and%20SG%20CoT.png)
33 | 
34 | 3.选项洗牌集成（Choice Shuffling Ensemble）
35 | 
36 | 将模型在不同选项顺序情况下生成的多个答案进行汇总和分析，减少模型在回答选择题时对特定选项位置的偏好，提高答案的准确性和模型的可靠性。
37 | 
38 | 改变选项顺序→生成多个答案→分析答案的一致性→集成和决策
39 | 
40 | 4.Medprompt 将上述几种方式进行组合，产生一种通用的提示工程策略。
41 | 
42 | 包括两个阶段：预处理阶段和推理步骤，在推理步骤中对测试用例进行最终预测。
43 | 
44 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MedPrompt%20%E7%AE%97%E6%B3%95.png)
45 | 
46 | ## 4.实验分析
47 | 
48 | 1.作者给出了很多测试，来证明使用 MedPrompt 方法是可以达到或者接近 fine-tuning 效果的。
49 | 
50 | 作者在 MedQA 数据集上进行了消融实验，下图是 Medprompt 组件的直观图解以及对 MedQA 基准性能贡献。
51 | 
52 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MedPrompt%E5%9B%BE%E8%A7%A3.png)
53 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MedPrompt%E8%A1%A8%E7%8E%B0.png)
54 | 
55 | 2.Medprompt的跨域泛化能力
56 | 
57 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MedPrompt%E8%B7%A8%E5%9F%9F%E6%B3%9B%E5%8C%96.png)
58 | 
59 | ## 5.其它
60 | 
61 | 可以进一步研究 Medprompt 策略在非医学领域的适用性，以验证其通用性。
62 | 
63 | 研究如何将 Medprompt 策略应用于非选择题任务，以扩大其应用范围。
64 | 
65 | ## 6.总结
66 | 
67 | 这篇论文证明了使用 Prompt 技术配合领域数据是可以提高基座模型在特定领域的能力的，甚至超过fine-tuning，动态 Prompt 和自生成 CoT 技术给了一种非常好的结合领域数据和 Prompt 的方法，为领域大模型微调提供了另外一种思路。这种对 Prompt 策略的组合似乎可以提高模型效果，但基座模型的强大必须是前提。
68 | 
69 | 通过检索的方法从训练数据中找到近似的问答结果，然后构造 few-shot 案例，嵌入用户的输入中，再让模型回答问题。我觉得这个过程与 RAG 很像，其中构建few-shot 的过程确实给人启发很大，传统的 RAG 仅仅提供将检索的信息作为 Prompt 可能不足以引导模型理解和回答问题的具体上下文。通过将检索到的信息转换为问答样例，可以为模型提供一个清晰、具体的上下文，从而帮助模型更准确地理解和回答特定的问题。
70 | 
71 | 即传统 RAG：向量检索→嵌入用户问答 Prompts
72 | 
73 | 微软新 RAG（MedPrompt）：向量检索→通过思维链构建出问答样例→将该样例作为 few-shot 嵌入用户问答 Prompts
74 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Chain-of-Note Enhancing Robustness in Retrieval-Augmented Language Models.md:
--------------------------------------------------------------------------------
 1 | # Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2311.09210
 4 | 
 5 | 
 6 | ## 1.论文背景
 7 | 
 8 | 检索增强语言模型（RALM）：通过将大型预训练语言模型与外部知识检索相结合，RALM 可以减少事实错误和幻觉，同时注入最新知识或领域知识。
 9 | 
10 | 常规的 RALM 方法存在三个弊端：1）检索系统并不能保证一直能检索出最相关或最值得信赖的信息。不相关的信息可能会对模型带来错误的指导，即使模型内部已经包含了回答问题的信息，也可能会被忽视；2）幻觉；3）缺乏透明度
11 | 
12 | 
13 | ## 2.论文解决了什么问题
14 | 
15 | 基于存在的问题，作者对 RALM 系统的鲁棒性做了两个定义：
16 | 
17 | 1）“噪声”鲁棒性：RALM 辨别和忽略不相关检索文档中存在的噪声信息，同时适当利用其内在知识的能力。
18 | 2）“未知”鲁棒性：当问题本身能力无法回答，同时检索的文档也没有的时候，RALM 应该回答“unknown”来承认其局限性。
19 | 
20 | 为了改进以上鲁棒性，作者提出了：Chain-Of-Note (CoN) 框架，它为每个文档生成简洁且上下文相关的摘要或注释。该方法允许模型系统地评估从外部文档中获取的信息的相关性和准确性。
21 | 
22 | 
23 | ## 3.论文方法
24 | 
25 | 1.Chain-Of-Note
26 | 
27 | 通过对检索到的每个文档进行总结和评估，让模型生成 reading note，然后再生成最终的回应。这个过程可以增强模型的以下能力：
28 | 
29 | 1）评估检索到文档与查询的相关性；2）识别可靠信息与误导信息；3）过滤掉无关或不可信的内容；4）认识到知识差距并回应“unknown”
30 | 
31 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RALM%20vs%20RALM%2BCoN.png)
32 | 
33 | 2.三种不同类型的 CoN
34 | 
35 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/3%E7%A7%8Dnote.png)
36 | 
37 | 相关：语言模型根据检索到的信息生成最终答案
38 | 
39 | 无关但有用的上下文：检索到的文档虽然没有直接回答 query，但提供了上下文，使得语言模型能够将这些信息与其固有知识结合起来，从而推导出答案
40 | 
41 | 无关：语言模型遇到不相关文档并缺乏回应所需知识的情况，能够承认自己“unknown”
42 | 
43 | 3.CoN 框架的实现
44 | 
45 | reading note 设计：有直接答案就检索回答，有线索就推理，不知道就说不知道
46 | 
47 | 数据收集：通过 ChatGPT 来合成数据，从 NQ 数据集中随机采样了10K个问题，提示词如下：
48 | 
49 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoN%20prompt.png)
50 | 
51 | 模型训练：使用 ChatGPT 为不同类型的笔记生成的训练数据，对LLaMa-2 7B模型进行微调，以增强模型记笔记的能力，使用加权损失函数策略，将训练重点放在最终答案的准确性上。
52 | 
53 | ## 4.实验分析
54 | 
55 | 作者在 NQ 和另外三个开放域问答数据集上进行，即 TriviaQA，WebQ 和 RealTimeQA。
56 | 
57 | 对集成了 CoN 的 RALM 进行评估，与标准 RALM 进行比较，重点关注三个主要方面：
58 | 
59 | (1)使用DPR检索文档的整体问答表现，
60 | 
61 | (2)通过向系统引入噪声信息来评估抗噪声能力
62 | 
63 | (3)通过LLaMa-2预训练数据之外的查询(即实时问题)来评估未知鲁棒性。
64 | 
65 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/QA%E6%80%A7%E8%83%BD.png)
66 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E5%99%AA%E5%A3%B0%E9%B2%81%E6%A3%92%E6%80%A7.png)
67 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E6%9C%AA%E7%9F%A5%E9%B2%81%E6%A3%92%E6%80%A7.png)
68 | 
69 | 论文的实验表明，CoN 不仅在使用 DPR 检索文档时改善了整体问答表现，还增强了抗噪声和未知两方面的鲁棒性。这包括在噪声检索文档中的精确匹配分数提高 7.9，以及对超出预训练知识范围的实时问题的拒绝率 RR 提高 10.5。
70 | 
71 | 
72 | ## 5.其他
73 | 
74 | self-rag：自适应检索，按需检索，RAG+微调，也是通过 ChatGPT 构造训练数据集，利用指令微调将能力蒸馏到了 LLaMa2 上，让模型具备特定的能力。
75 | 
76 | ## 6.总结
77 | 
78 | 本文不仅有 RAG，还有模型微调，是两者的结合，因为需要训练，性能提升其实是理所当然的。主要介绍了 Chain-of-Note 提示用于上下文自适应增强的思路，而基于 GPT4 进行数据蒸馏，可以生成微调数据，然后转为一种特定的能力，但其泛化性并不是很够。当模型本身和召回文档都不掌握回答问题需要的知识时，应该回答 unknown 而不是胡编乱造这种思路也是比较重要的。
79 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Igniting Language Intelligence The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents.md:
--------------------------------------------------------------------------------
 1 | # Igniting Language Intelligence The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents（从 CoT 到 Agent 综述）
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2311.11797
 4 | 
 5 | github：https://github.com/Zoeyyao27/CoT-Igniting-Agent#33-cot-for-agent
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 作者认为思维链 CoT 推理技术在大模型性能表现中有显著提升，而且在增强可解释性、可控性和灵活性方面也表现出熟练特性。鉴于这些优点，最近的研究努力将 CoT 推理方法扩展到培养自主语言代理的发展，Agent 是一类拥有“自主智能的实体”，而以 Agent 为主体的大模型必须具备感知，记忆和推理的能力，恰巧 CoT 可以从这三个方面赋予 Agent。
10 | 
11 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/p_m_r_CoT.png)
12 | 
13 | 
14 | ## 2.论文解决了什么问题
15 | 
16 | 作者从三个研究维度逐步深入来论述从 CoT 到 Agent 的发展:1)CoT 技术的基础机制，阐述其功效的情况和理由;2)CoT 的范式转变;3)由 CoT 方法强化的语言代理的兴起。
17 | 
18 | 
19 | ## 3.论文提出了什么观点
20 | 
21 | 作者抽象出大模型智能体的结构框架，主要由三部分组成，分别是 Agent 主体，工具与环境。
22 | 
23 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoT_Agent_fw.png)
24 | 
25 | 作为 Agent 主体的大模型是模拟人类智能决策流程的核心，在许多 Agent 需要处理的任务中，Agent 的“先天知识”并不包含解决任务的直接答案，因此 Agent 需要在一系列与外部环境的交互循环中，制定计划，做出决策，执行行动，收到反馈……在一整个计划、决策与控制的循环中，大模型需要具备“感知”，“记忆”与“推理”的能力，CoT 恰恰可以从这三个方面来赋能 Agent。
26 | 
27 | 规划、决策和行动执行的过程可以反映 LLM 的推理能力，由于 LLM 暴露在 LLM 预训练期间不存在的环境中，在这种环境中，LLM 必须感知世界的知识并采取行动，CoT 有助于弥合环境感知与 LLM 天生能力之间的差距。
28 | 
29 | 
30 | ## 4.论文思路
31 | 
32 | 1.什么是 CoT？
33 | 
34 | 大模型逐步参与将一个复杂问题分解为一步一步的子问题并依次进行求解的过程。这一系列推理的中间步骤就被称为思维链（Chain of Thought）。
35 | 
36 | 2.为什么使用 CoT？
37 | 
38 | CoT 增强了大模型的推理能力，可解释性，可控性，灵活性，
39 | 
40 | 3.何时应该使用 CoT？
41 | 
42 | 作者认为 CoT 应当被用于 20B 以上参数规模的模型之中，并且模型的训练数据应当与任务问题相关且彼此有较强的联结。
43 | 
44 | 4.为什么 CoT 会生效？
45 | 
46 | 关于 CoT 为什么会生效，目前还没有一套被大家广泛接受的普遍理论。通过许多论文对 CoT 与大模型互动的实验，大致总结如下：CoT 需要大模型具备一些方面“最基础”的知识；使用 CoT 可以为一些它理解到的基础知识之间搭起一座桥梁；CoT 的作用在于强迫模型进行推理，而不是教会模型如何完成推理。
47 | 
48 | 5.CoT 朝着什么方向发展？
49 | 
50 | 在CoT问世的一年多以来，CoT 也开始从最简单的“Let's think step by step”慢慢进化，这篇综述也全面概括了 CoT 的发展方向与进化路径，如下图，包括“Prompt 模式”，“推理结构”以及“应用场景”。
51 | 
52 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoT%20approaches.png)
53 | 
54 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoT%20formulations.png)
55 | 
56 | 6.CoT 与 Agent 有何关系？
57 | 
58 | 基于最近许多关于 Agent 框架的研究，作者觉得大模型智能体可以被认为具有如下图的结构：
59 | 
60 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/CoT_Agent_fw.png)
61 | ![]()
62 | 
63 | 当人类指令输入 Agent 主体后，Agent 主体通过一系列计划、决策与控制，使用工具与外部环境互动。感知 CoT，记忆 CoT，推理 CoT 的实现有助于智能体的构建。
64 | 
65 | 
66 | ## 5.论文局限性
67 | 
68 | 作者认为 CoT 和 Agent 在这些方面存在挑战：未知领域中的泛化能力，Agent 的过度交互问题，多智能体社会，Agent 安全问题，Agent 的评价。
69 | 
70 | 
71 | ## 6.其它
72 | 
73 | RL智体：RL智体被训练通过与环境的迭代交互来做出决策，接收奖励或惩罚形式的反馈——正确的动作会得到奖励，而错误的动作会受到惩罚。但它严重依赖专家数据，并为特定任务设计奖励函数，缺乏泛化能力，透明度和可解释性。
74 | 
75 | 语言智体：语言智体利用 LLM 中嵌入的常识先验与 RL智体区分开，使它能够适应环境，并利用 CoT 进行解释。
76 | 
77 | 可以通过结合类似RL的策略来增强语言智体的能力。
78 | 
79 | 
80 | ## 7.总结
81 | 
82 | 作者对 CoT 推理进行全面研究，包括该领域的最新进展和挑战，并延申到大模型 Agent 的前沿议题，CoT 不仅作为推理的技术手段，还可以扩展促进 Agent 的开发。文章中的一些观点在当下也存在质疑，比如：最近有文章质疑大模型是否可以真的进行可靠的 CoT 验证，在大模型的能力本身无法解决验证结果反馈提出的问题时，大模型有可能会过度纠正推理过程，直接跳过正确答案。
83 | 
84 | 论文中的很多点可以进行深入研究，比如：CoT 构造的几套框架


--------------------------------------------------------------------------------
/论文解读/大模型/LANGUAGE AGENT TREE SEARCH UNIFIES REASON-ING ACTING AND PLANNING IN LANGUAGE MODELS.md:
--------------------------------------------------------------------------------
 1 | # LANGUAGE AGENT TREE SEARCH UNIFIES REASON-ING ACTING AND PLANNING IN LANGUAGE MODELS
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2310.04406
 4 | 
 5 | GitHub：https://github.com/andyz245/LanguageAgentTreeSearch
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 虽然大型语言模型 (LLM) 已经在多种多样的任务中表现出令人印象深刻的性能，以及展现出不俗的推理能力，但其在某些任务上表现得不尽如人意。目前的LLM的思维框架方法大都各自基于推理，基于动作，基于规划，却没有能一个能统筹各方面能力的框架。
10 | 
11 | ## 2. 论文提出解决方案
12 | 
13 | 论文提出一个LATS框架，协同了LLM在规划，行动，推理各方面的能力，并且能与外界环境进行交互得到外界的反馈，甚至加入了自我反思机制，让LLM代理能通过错误的推理轨迹进行一系列反思总结，学习到经验从而改善推理。
14 | 
15 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/LATS%E6%95%B4%E4%BD%93%E6%A1%86%E6%9E%B6.png)
16 | 
17 | ## 3.论文方法
18 | 
19 | LLM Agent在推理过程中会不断迭代构建一个蒙特卡洛树结构，每次迭代都分为以下几个步骤：
20 | 
21 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/LATS%E8%BF%AD%E4%BB%A3%E8%BF%87%E7%A8%8B.png)
22 | 
23 | 1.Selection：从根节点(表示为初始状态S0)开始，选择一个当前的叶节点进行扩展。为了平衡探索和开发，我们使用UCT算法来选择节点。
24 | 
25 | 2.Expansion：在选择一个节点之后，第二个操作是通过Agent产生n个动作来扩展树。环境接收每个动作并返回相应的反馈（也叫观察）。这将导致向树中添加n个子节点。
26 | 
27 | 3.Evaluation：通过一个评估器（一个带有特定提示的LLM）为新产生的每个节点分配一个评估值，用以评价该中间节点对之后完成目标任务的价值大小。
28 | 
29 | 4.Simulation：经过评估器评估后，选出评价值最优的节点继续向下扩展，扩展方法同上，一直如此在每一层都进行这样的评估选择再扩展直至到达终端节点。若最终节点任务完成，则停止搜索并返回正确的推理路径。如果任务部分完成或未能完成，则视情况执行以下两个步骤。
30 | 
31 | 5.Backpropagation：该操作根据轨迹的结果更新节点的value值。对于轨迹中的每个节点，其值被更新以反映模拟的结果。
32 | 
33 | 6.Reflection：当遇到不成功的终端节点时，LLM会受到轨迹和最终奖励的提示，进行自我反思，总结推理或行动过程中的错误，并提出更好的替代方案。我们将失败的轨迹和相应的反思结果都存储在记忆中。在随后的迭代中，这些被集成为Agent和评估器的附加上下文，通过上下文学习对两者进行细化。
34 | 
35 | ## 4. 实验分析
36 | 
37 | 实验一：HotpotQA 
38 | 
39 | HotpotQA是一个大型问答数据集，这些问题的答案并不是现成的可以回答相应问题的形式，甚至这些答案都不集中在同一个地方。这些问题要求问答系统能够筛选大量的文本文档，以找到与生成答案相关的信息，并对找到的多个支撑性事实进行推理，从而得出最终答案。
40 | 实验会与维基百科进行交互，动作分为Search[entity]， lookup[keyword]， Finish[answer]。搜索返回的结果即为环境的反馈（观察）。
41 | 
42 | 实验二：PROGRAMMING
43 | 
44 | 用到HumanEval，MBPP数据集，任务是将一些自然语言描述的功能转化成对应语言的代码。会有多个测试点测试功能。
45 | 实验用测试工具和编译器的输出作为外部反馈。
46 | 
47 | 实验三：WEBSHOP
48 | 
49 | 这是一个在线购物环境，由一个拥有118万件真实产品和12k条人类指令的网站组成。代理必须通过各种命令浏览网站，以购买符合用户规格的物品。
50 | 实验使用预先构建的搜索和点击命令构建动作空间，浏览器的反馈内容来作为对环境的观察。
51 | 
52 | 
53 | 
54 | LATS框架在三个任务都表现良好，优于先前的其他方法。
55 | 
56 | ## 5.论文总结
57 | 
58 | LATS融合了之前不少论文的思想，比如引入了RAP中所用的MCTS算法用作推理轨迹，又引入了ReAct中的action，observation等概念，使LLM能把与外界的交互也考虑进去，而后又引入了Reflexion的思想，让LLM能对错误的经历中进行反思学习以改进推理能力。有点像一个大杂烩，但确实有效果。
59 | 
60 | ## 6.可能可以改进的点
61 | 
62 | 作者认为LATS框架的计算成本较大，对资源的消耗也比较多，因此建议将LATS应用在一些比较复杂或结果质量要求较高而速度可以不做太多要求的任务中。
63 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Large Language Models as Tool Makers.md:
--------------------------------------------------------------------------------
 1 | # Large Language Models as Tool Makers
 2 | 
 3 | 论文地址：https://arxiv.org/abs/2305.17126
 4 | 
 5 | 论文代码：https://github.com/ctlllll/LLM-ToolMaker.
 6 | 
 7 | ## 论文背景
 8 | 
 9 | 作者认为在众多问题解决请求的情况下，直接利用强大的LLM来解决所有实例可能会导致高昂的成本。另一方面，轻量级模型具有成本效益，但通常难以处理复杂的任务。
10 | 
11 | 作者认为LLM 可以创建他们自己的可重用的工具来解决问题。作者使用 GPT-4 作为工具制造商，GPT-3.5 作为工具用户
12 | 
13 | ## 论文解决方案
14 | 
15 | 作者提出的LATM 通过使用强大的模型作为工具制造商为请求中观察到的任务生成可重用的工具（实现为 Python 函数）来利用两种模型的优势，并将该工具传递给具有成本效益的工具用户模型，以解决以下请求中的类似实例。这种方法允许轻量级模型在保持更大的成本效率的同时，实现与强大模型相当的性能。
16 | 
17 | 作者的方法包括两个关键阶段：
18 | 
19 | 1）工具制作：LLM，称为工具制造商，专门为给定任务设计工具（实现为 Python 函数）。
20 | 
21 | 2) 使用的工具：另一个 LLM 称为工具用户，可以与工具制造商相同，应用工具来处理新请求。两阶段设计允许LATM将每个阶段的作业分配到最合适的LLM。
22 | 
23 | 具体来说，需要高度能力的工具制作过程可以分配给一个强大的、资源密集型的模型（例如 GPT-4）。另一方面，相对简单的工具使用过程可以分配给轻量级且具有成本效益的模型（例如 GPT-3.5 Turbo）。这种方法不仅增强了llm的问题解决能力，而且显著降低了解决一系列任务的平均计算成本。
24 | 
25 | 在 LATM 范式中，主要过程可以分为两个阶段：工具制作和工具使用。每个阶段都利用不同类型的大型语言模型 (LLM) 来平衡性能和成本效益。
26 | 
27 | ## LATM
28 | 
29 | ![image-20240113100739586](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/latm01.png)
30 | 
31 | 有点像学霸闭卷考，学渣开卷考，但是学霸消耗的脑力更多，学渣开卷所以消耗的脑力相对没那么多。他的方法更像是学霸把做题技巧总结好，学渣拿着做题技巧去解题。
32 | 
33 | 工具制作阶段可以进一步分为三个子阶段：
34 | 
35 | （i）提出工具：工具制造商尝试从一些训练演示中生成工具（Python 函数），如果工具不可执行，报告错误并生成一个新的（修复函数中的问题）； 
36 | 
37 | (ii) 工具验证：工具制造商在验证样本上运行单元测试，如果工具没有通过测试，报告错误并生成新的测试（修复单元测试中函数调用中的问题）；
38 | 
39 |  (iii) 工具包装：包装函数代码以及如何将问题转换为单元测试的函数调用的演示，为工具用户准备可用的工具。
40 | 
41 | ![image-20240113100855130](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/latm02.png)
42 | 
43 | 
44 | 
45 | 作者提出一种调度程序，具体来说，调度程序维护工具制造商产生的现有工具的记录。当接收到新的任务实例时，调度程序最初确定手头任务是否有合适的工具。如果存在合适的工具，调度程序将实例及其对应的工具传递给工具用户进行任务解析。如果没有找到合适的工具，调度程序将实例识别为新任务，并使用强大的模型解决实例，甚至调用人类标记器。然后缓存来自新任务的实例，直到工具制造商有足够的缓存实例来制作新工具。
46 | 
47 | 
48 | 
49 | 调度程序是一个轻量级模型，评估每个传入实例。如果已经存在合适的工具来处理任务，调度程序会选择该工具并将任务实例转发给工具用户以解析。如果没有找到合适的工具，调度程序将任务实例路由到工具制造商，以创建稍后工具用户可以使用的新工具。
50 | 
51 | 
52 | 
53 | 有个小细节，在工具制作阶段，作者将温度设置为 0.3， 以将随机性引入生成过程，当使用工具时，作者将温度设置为0.0。对于工具暴露和工具验证阶段，最大重试次数设置为3。
54 | 
55 | 
56 | 
57 | ## 论文实验
58 | 
59 | 作者的实验部分采用了谷歌提供的bigbench数据集，一共有五份，同时作者还加了一份混合任务，加上从这五份数据集中随机抽取出来100条数据组成混合数据集，在实验上来看GPT4作为工具制造商比GPT3.5 Turbo好，同时作者提出让GPT3.5 Turbo作为工具用户的方法在几项数据集上的效果和GPT4作为工具用户相对，这也说明确实降本增效了。
60 | 
61 | ![image-20240113101001961](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/latm03.png)
62 | 
63 | Tool User对比实验
64 | 
65 | ![image-20240113101029722](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/latm04.png)
66 | 
67 | ToolMarkerModel实验
68 | 
69 | 
70 | 
71 | ![image-20240113101100811](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/latm05.png)
72 | 
73 | 还有一点就是，作者通过实验证明使用gpt来生成prompt效果不及人类手写
74 | 
75 | 
76 | 
77 | ## 总结
78 | 
79 | 总的来说，作者提供的思想我是非常认同的，在处理一些简单任务上我们没有必要使用参数量更大的模型去做，有点像拿大炮打蚊子，完全可以想作者所提的那样去处理。


--------------------------------------------------------------------------------
/论文解读/大模型/METAGPT META PROGRAMMING FOR AMULTI-AGENT COLLABORATIVE FRAMEWORK.md:
--------------------------------------------------------------------------------
 1 | # METAGPT: META PROGRAMMING FOR AMULTI-AGENT COLLABORATIVE FRAMEWORK
 2 | 
 3 | 论文地址：https://arxiv.org/abs/2308.00352
 4 | 
 5 | 论文代码：https://github.com/geekan/MetaGPT
 6 | 
 7 | ## 论文背景
 8 | 
 9 | 作者认为虽然基于大型语言模型 (LLM) 的智能体社会自动解决问题方面取得了显着进展。现有的基于LLM的多智能体系统已经可以解决简单的对话任务，但由于天真地链接 LLM 引起的级联幻觉会导致效果变差。
10 | 
11 | 作者觉得虽然利用大型语言模型 (LLM) 的自主代理为增强和复制人类工作流程提供了有希望的机会，但是目前研究的系统，都过于简化复杂性了。
12 | 
13 | ## 论文解决方案
14 | 
15 | MetaGPT 要求代理生成结构化输出，例如高质量的要求文档、设计工件、流程图和接口规范。
16 | 
17 | ![image-20240104211220226](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/metagpt01.png)
18 | 
19 | 作者认为中间结构化输出的使用显着提高了目标代码生成的成功率。
20 | 
21 | 作者通过所有角色都遵循严格和精简的工作流程，并且他们的所有切换都必须遵守某些既定标准。从而去降低幻觉的出现.
22 | 
23 | ## MetaGPT
24 | 
25 | MetaGPT 代表了一种独特的解决方案，它允许通过组织良好的专业代理组进行有效的元编程。根据一些既定的标准，每个代理都有特定的角色和专业知识。这允许在运行时自动需求分析、系统设计、代码生成、修改、执行和调试，强调基于代理的技术如何增强元编程。
26 | 
27 | ![image-20240104211240877](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/metagpt02.png)
28 | 
29 | 作者认为一对一的沟通，效率十分低，一种可行的方法是将信息存储在全局消息池中，所以作者引入了一个共享消息池，允许所有代理直接交换消息。优点就是任何代理都可以直接从共享池中检索所需的信息，从而消除了需要查询其他代理并等待它们的响应。这提高了通信效率。
30 | 
31 | 同时与每个代理共享所有信息可能会导致信息过载。在任务执行期间，代理通常更喜欢仅接收与任务相关的信息，并通过不相关的细节避免干扰。这些信息的有效管理和传播起着至关重要的作用。作者提供了一种简单有效的解决方案订阅机制。代理不依赖于对话，而是利用特定于角色的兴趣来提取相关信息。他们可以根据他们的角色配置文件选择要遵循的信息。在实际实现中，代理仅在接收到其所有先决条件依赖项后才会激活其动作。
32 | 
33 | 作者让工程师编写并执行相应的单元测试用例，然后接收测试结果。如果令人满意，则启动额外的开发任务。否则，工程师在恢复编程之前调试代码。这个迭代测试过程继续进行，直到测试被传递或达到最大 3 个重试。
34 | 
35 | ![image-20240104211313093](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/metagpt03.png)
36 | 
37 | 作者给每个角色和请求建立一个模式和格式，个人根据他们的特定角色和上下文提供必要的输出。
38 | 
39 | ## 论文实验
40 | 
41 | metagpt使用了HumanEval和 MBPP进行评估。但我们字典这两个数据集都是简单的写leetcode类型的数据集，虽然在pass@1上获得85和87的分数，但其token数量上的消耗是要比其它方法跟高的，这也是其问题之一
42 | 
43 | 
44 | 
45 | ## 总结
46 | 
47 | 作者认为明确的角色专业化使复杂工作分解为更小、更具体的任务。解决复杂的任务或问题通常需要具有不同技能和专业知识的代理协作，每个代理都贡献了针对特定问题量身定制的专门输出。我也非常认同这个观点，其最主要是我们对llm的期望太高了，以至于经常让他处理我们人类都很难处理的问题，其实目前llm的发展，他已经可以在具体细节任务上获得90分，但是还是很难去处理整体任务，我感觉这个现象除非llm能涌现超越人类的智慧，目前以及未来一段时间内都很难让它处理一个复杂的整体任务，所以需要我们对特定任务进行拆解，细化，做垂直类的agent，这个是很有意义的。


--------------------------------------------------------------------------------
/论文解读/大模型/PromptAgent Strategic Planning with Language Models Enables Expert-level Prompt Optimization.md:
--------------------------------------------------------------------------------
 1 | # PromptAgent Strategic Planning with Language Models Enables Expert-level Prompt Optimization
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2310.16427
 4 | 
 5 | github：https://github.com/xinyuanwangcs/promptagent
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 在特定任务上发挥潜力的 Prompt 往往需要专家进行大量的手工调整，而自动化生成这种专家级 Prompt 尚未取得成功，现有的方法往往无法充分考虑到领域知识的深度，也难以有效地探索 Prompt 的广阔空间，而且现有的 Prompt 优化技术往往集中于短期的、浅层次的搜索，而忽略了长期的、深入的领域知识。这些方法的局限性在于，它们不能自动地生成与人类专家手工制作同等质量的 Prompt。
10 | 
11 | ## 2.论文解决了什么问题
12 | 
13 | 作者比较了一些启发式的 Prompt 生成方法：比如蒙特卡洛搜索、Gibbs采样，发现这些方法忽略了 Prompt 的本质是通过多次人机交互来修改校验的过程。基于此作者提出模拟人机交互的过程，利用大模型的反思能力，不断试错迭代从而生成更专业的 Prompt。PromptAgent这个新的优化方法，可以自动地生成与专家手工制作同等质量的 Prompt。
14 | 
15 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/expert_prompt.png)
16 | 
17 | ## 3.论文方法
18 | 
19 | 作者提出可以自动优化 Prompt 的框架—— PromptAgent，结合大模型的自我反思特点与蒙特卡洛树搜索规划算法，自动迭代检查 Prompt，发现不足，并根据反馈对其进行改进，寻找通往最优 Prompt 的路径，可以将简单的初始 Prompt 打造成媲美人类专家手工设计的 Prompt。
20 | 
21 | 整个方法基于 MCTS，具体步骤如下：
22 | 
23 | 1.给定当前状态（即 Prompt），使用基本模型（gpt-3.5）收集错误。
24 | 
25 | 2.使用优化模型（GPT-4）提供错误反馈
26 | 
27 | 3.根据错误和反馈来优化 Prompt
28 | 
29 | 4.循环1-3，最终导向专家级 Prompt。
30 | 
31 | 策略优化过程：对 Prompt 优化的过程可以将 PromptAgent 与规划算法蒙特卡洛树搜索（MCTS）相结合，从而产生专家级Prompt。
32 | 
33 | 基于蒙特卡洛树搜索（MCTS）逐步构建树状结构来实现策略搜索，每个节点表示一个状态，每个边表示一个动作。算法通过四个操作：选择、扩展、模拟和反向传播，来更新状态-动作的价值函数，并扩展树结构。迭代过程在达到预定义的迭代次数后结束，从所有路径中挑选一条最优的路径和节点（Prompt）作为最终结果。
34 | 
35 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/MCTS_PromptAgent.png)
36 | 
37 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/example_PromptAgent.png)
38 | 
39 | ## 4.实验分析
40 | 
41 | 作者在三个不同领域的12个任务进行实验： 6个BIG-Bench Hard (BBH)任务，3个生物医学领域特定任务，3个自然语言理解任务。
42 | 
43 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/BBH_result.png)
44 | 
45 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/NLU_result.png)
46 | 
47 | 泛化性：作者在GPT-3.5, GPT-4， PaLM2 上进行实验发现指标都有较大的提升。
48 | 
49 | ## 5.其它
50 | 
51 | APE:自动指令生成和选择的框架，首先大模型生成候选指令池，然后把指令交给大模型打分，最后选择打分高的作为最后的指令。算力消耗大
52 | 
53 | ## 6.总结
54 | 
55 | 这篇论文介绍了 PromptAgent，一种 Prompt 优化框架，结合 LLMs 的自我反思能力将任务的领域特定知识纳入到新生成的 Prompt 中，并使用 MCTS 规划能力遍历复杂的 Prompt 空间找到专家级 Prompt，PromptAgent 优化后的 Prompt 表现出专家级的特征。
56 | 
57 | 现在大部分研究聚焦于通用 Prompt 设计激发模型潜力以及人工专家 Prompt 实现特定领域效能，我觉得在某些任务上效果较好的 Prompt，可能是因为该类型的数据在训练数据分布上和 prompt 存在较大的相似性，从而在某些 prompt 上处理指定任务会达到相对较好的效果。自动构建专家级 Prompt 则能在一定程度上找到最适合的 Prompt。
58 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Reasoning with Language Model is Planning with World Model.md:
--------------------------------------------------------------------------------
 1 | # Reasoning with Language Model is Planning with World Model
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2305.14992
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | LLM目前仍没办法像人类大脑一样进行深思熟虑的长远规划与推理，包括探索不同的推理方向，预估可能得到的中间状态与反馈等，这是目前LLM推理的局限之一。
 8 | 
 9 | ## 2.论文提出解决方案
10 | 
11 | 文章使用两种LLM，一个用作Agent，一个用作World Model(所谓World Model，以下简称WM，即模拟人脑对外部世界的认知与建模，人脑在遇到新问题时，会先在脑中根据现有经验思考可能的解决办法，可能的结果与这样做的价值)，随后基于此提出一种RAP推理框架，让LLM能更像人一样进行有意的规划。如下图。
12 | 
13 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAP%E6%80%9D%E7%BB%B4%E6%A1%86%E6%9E%B6.png)
14 | 
15 | ## 3.论文方法
16 | 
17 | 文章引入了基于蒙特卡洛树的搜索算法(MCTS),让LLM能够战略性探索问题空间，在探索与利用间取得平衡，得到较好的推理轨迹，如下图：
18 | 
19 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E8%A7%84%E5%88%92.png)
20 | 
21 | 构建树的过程包含多次迭代，每次迭代主要步骤有如下四个：
22 | 
23 | 1.选择：在已存在的树结构中选择一个当前树的叶子节点进行后续扩张，从初始节点开始基于UCT(一种平衡探索和利用的方式)的方式往下寻找，一直找到一个叶子节点。
24 | 
25 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/UCT%E5%85%AC%E5%BC%8F.png)
26 | 
27 | 2.扩展：通过Agent生成多个action，再通过WM预测经过每个action后得到的不同状态。
28 | 
29 | 3.模拟：选取一个节点继续按上述过程往下扩展，模拟从该节点继续向下推理的过程，直到得到终止节点，每次都选择局部回报最大的action。
30 | 
31 | 4.反向传播：到达终止节点后将回报累次相加回传给上述推理路径上的各父节点，更新Q值。
32 | 
33 | ## 4.实验分析
34 | 
35 | 实验部分选取了计划生成(BlocksWorld Game)，数学推理，逻辑推理三个不同的任务来测试RAP框架的性能，并将其与CoT，CoT-SC，Least-to-Most等现有方法进行比较，其效果都优于之前的方法。
36 | 
37 | ## 5.论文总结
38 | 
39 | 文章提出一种新的RAP推理框架，使LLM能够像人一样，根据已有经验先进行思考与规划，最终再一步步推理出问题的结果，有一定创新性。
40 | 
41 | ## 6.可能可以改进的点
42 | 
43 | 作者认为本文中使用到的WM只是经过预训练，是一个通用的LLM，而如果能针对特定的任务对WM进行微调，让WM更好的模拟特定环境，可能可以使生成的状态，回报等值更加准确。
44 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Reflexion Language Agents with Verbal Reinforcement Learning.md:
--------------------------------------------------------------------------------
 1 | # Reflexion: Language Agents with Verbal Reinforcement Learning
 2 | 
 3 | 论文链接: https://arxiv.org/abs/2303.11366
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 传统大型模型的微调成本非常高，因此它们无法迅速从环境交互中学习并提升性能。由此，本文提出了Reflexion框架，旨在让大型模型能够通过语言反馈优化动作执行。
 8 | 
 9 | ## 2.论文内容概述
10 | 
11 | 大模型作为goal-driven agents 越来越多地用于和外界环境进行交互，最近涌现了ReAct,HuggingGPT等基于大模型的任务决策框架，它们利用In-context learning的方式快速地指导模型执行任务，避免了传统微调方式带来的计算成本和时间成本。
12 | 
13 | 受前面工作的启发，本文提出了Reflexion框架，使用语言反馈信号(verbal reinforcement)来帮助agent从先前的失败经验中学习。具体地，Reflexion将传统梯度更新中的参数信号转变为添加在大模型上下文中的语言总结，使得agent在下一个episode中能参考上次执行失败的失败经验，从而提高agent的执行效果。这个过程和人类反思(reflexion)过程十分相似。
14 | 
15 | ## 3.论文方法
16 | 
17 | 作者提出Reflexion框架，包含四个组成部分：
18 | 
19 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Reflexion%E6%A1%86%E6%9E%B6.png)
20 | 
21 | Actor: 基于当前环境生成下一步的动作。
22 | 
23 | Evaluator: 衡量Actor生成结果的质量。就像强化学习中的Reward函数对Actor的执行结果进行打分。
24 | 
25 | Self-reflexion：Reflexion框架中最重要的部分。它能结合离散的reward信号(如success/fail)、trajectory等生成具体且详细语言反馈信号，这种反馈信号会储存在Memory中，启发下一次实验的Actor执行动作。
26 | 
27 | Memory：分为短期记忆(short-term)和长期记忆(long-term)。在一次实验中的上下文称为短期记忆，多次试验中Self-reflexion的结果称为长期记忆。
28 | 
29 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Reflexion%E8%BF%87%E7%A8%8B.png)
30 | 
31 | 执行过程：如上图伪代码所示，Reflexion是一个迭代过程，Actor产生行动，Evaluator对Actor的行动做出评价，Self-Rflexion基于行动和评价形成反思，并将反思结果存储到长期记忆中，直到Actor执行的结果达到目标效果。
32 | 
33 | ## 4.实验分析
34 | 
35 | 1.决策能力
36 | 
37 | 在AlfWorld任务中，Reflexion框架能够有效解决幻觉(hallucination)和规划不足(inefficinet planning)问题，使得agent的任务完成率明显提升，在10次实验后最多完成130/134个任务。
38 | 
39 | 评估指标：决策任务完成率
40 | 
41 | 2.推理能力
42 | 
43 | HotpotQA是一个基于百科知识库的问答任务，用于测试agent在大量文本中的推理能力。在这个任务中，Reflexion的效果比所有的baseline都高出不少。同时作者还对比了cot+EPM(episodic memory 类似一种长期记忆)和Reflexion框架，发现Reflexion的效果仍要高很多，这说明Reflexion框架中长期记忆和Self-Reflexion模块都起到了重要的作用。
44 | 
45 | 评估指标：推理任务准确率
46 | 
47 | 3.代码生成
48 | 
49 | 在HumanEval(PY)代码生成任务中，Reflexion取得了SOTA效果，准确率相比GPT-4提高10.9%。
50 | 
51 | 评估指标：编程任务通过率
52 | 
53 | ## 5.其它
54 | 
55 | 反思可以在没有明确基准真理的情况下增强AI模型的问题解决能力。通过模拟人类的问题解决策略，这种方法使agent能够通过自我反思、评估和反馈来迭代地改进他们的解决方案。
56 | 
57 | React：“行动” + “推理”
58 | 
59 | Self-Refine：对自身的推理进行优化和改进，可以执行多次迭代，直到达到迭代次数或者满足某个条件，输出最终结果
60 | 
61 | Self-Correction：让LLM模型反思自己的输出结果，并根据假设列表进行true/false判断，重新作答。
62 | 
63 | Self-Reflexion与self-correction相似，反过来询问LLM模型，让LLM对自己的行为进行评判
64 | 
65 | ## 6.总结
66 | 
67 | 本文提出的Reflexion使得大模型agent能够快速地从错误经验中进行总结学习，在多个任务上都取得了不错的效果。从作者的实验分析看来，Reflexion最重要的两个模块是：
68 | 
69 | 长期记忆模块：赋予了agent长期记忆的能力
70 | Self-Reflexion模块：将一些数字化的reward信号转化为细致分析的语言总结，形成重要的长期记忆，能明显提高下一次执行的成功率。


--------------------------------------------------------------------------------
/论文解读/大模型/Retrieval-Augmented Generation for Large Language Models A Survey(RAG综述).md:
--------------------------------------------------------------------------------
 1 | # Retrieval-Augmented Generation for Large Language Models: A Survey（RAG综述）
 2 | 
 3 | 论文链接：https://arxiv.org/pdf/2312.10997.pdf
 4 | 
 5 | 机构：同济大学，复旦大学
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 作者认为 LLM 仍面临诸如幻觉，知识更新和答案缺乏透明度等挑战，从而提出检索增强生成 RAG 手段，通过从外部知识库检索相关信息来辅助大型语言模型回答问题，已经被证明能显著提高回答的准确性，减少模型产生的幻觉，尤其是在知识密集型任务中。
10 | 
11 | 
12 | ## 2.论文解决了什么问题
13 | 
14 | 作者介绍了 RAG 的优势：提高答案准确性，增强可信度，便于知识更新和引入特定领域知识
15 | 
16 | 概述 RAG 在大模型发展时代的三种范式：原始 RAG（Naive RAG）、高级 RAG（Advanced RAG）和模块化 RAG（Modular RAG）
17 | 
18 | 总结 RAG 的三个主要组成部分：检索器、生成器和增强方法，并着重介绍了从各个角度优化 RAG 在大模型中的表现，实现通过知识检索增强大型语言模型的生成。
19 | 
20 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%E6%97%B6%E9%97%B4%E7%BA%BF.png)
21 | 
22 | ## 3.论文思路
23 | 
24 | # RAG 本质
25 | 
26 | 让模型获取正确的 Context (上下文)，利用 ICL 的能力，输出正确的响应。它综合利用了固化在模型权重中的参数化知识和存在外部存储中的非参数化知识(知识库、数据库等)。
27 | 
28 | RAG分为两阶段：
29 | 
30 | 使用编码模型（如 BM25、DPR、ColBERT 等）根据问题找到相关的文档。
31 | 生成阶段：以找到的上下文作为基础，系统生成文本。
32 | 
33 | # RAG vs 微调
34 | 
35 | RAG 是为了改善 LLM 的生成效果，但它不是改善生成效果的唯一方法。常见方法有：
36 | 
37 | 提示工程，通过例如 few-shot prompt 的手段增强输出
38 | RAG，检索增强，就是本文叙述的方法
39 | 微调，对模型进行微调
40 | 综合手段，综合利用微调、提示工程和 RAG
41 | 
42 | 应该根据不同应用场景决定采用何种方法
43 | 
44 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%20vs%20%E5%85%B6%E4%BB%96.png)
45 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%20vs%20%E5%BE%AE%E8%B0%83.png)
46 | 
47 | # RAG 几种范式
48 | 
49 | 原始 RAG（Naive RAG）：这是通常所说的 RAG，包括索引，检索，生成。把文本分段，根据用户的 Qurey，去查找分段，输入给模型，然后输出。但是太简单，有各种问题，首先生硬的对文本分段就不科学，然后可能查询到的分段有可能和 Qurey 并不相关，再有输入给 LLM 的文本分段可能有大量的冗余、重复或者噪声信息，让模型不能输出和期望一致的内容。
50 | 
51 | 高级 RAG（Advanced RAG）：对原始 RAG 进行了优化。主要是针对检索进行了改善，包括 Preretrieval(检索前)，Post-retrieval(检索后) 和 Retrieval Process(检索中) 的各种改善方法。检索前包括建立多种文档索引、利用滑动窗口对文本进行分块；检索中包括多路召回，Embedding 模型微调，包括之前提到的StepBack-prompt，检索后包括重排(Re-rank)，提示压缩等。
52 | 
53 | 模块化 RAG（Modular RAG）：模块化方法允许根据具体问题调整模块和流程，利用大模型自身的"反思"能力等，构建起 RAG 新的范式。上面两种方法都是单一的流水线模式，检索结束之后交给模型，然后模型输出结果。但是在论文中的 Modular RAG 方法中，递归的调用了 LLM 的能力，例如利用模型来反思、评估第一次输出，然后再输出新的结果。或者是自适应 RAG，让模型自己决定什么时候调用检索工具。这其实有点像实现一个 RAG Agent。论文表示这种模块化的 RAG 范式正逐渐成为 RAG 领域的趋势。
54 | 
55 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%20Framework.png)
56 | 
57 | # 增强 RAG 效果的方法
58 | 
59 | 论文从检索器，生成器，增强方法等角度描述如何获得更好的效果
60 | 
61 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%20Components.png)
62 | 
63 | # RAG 评估方法
64 | 
65 | 主要有两种方法来评估 RAG 的有效性：独立评估和端到端评估。独立评估涉及对检索模块和生成模块（即阅读和合成信息）的评估。端到端评估是对 RAG 模型针对特定输入生成的最终响应进行评估，涉及模型生成的答案与输入查询的相关性和一致性。并简单介绍了 RAGAS 和 ARES 两种评估框架。
66 | 
67 | 
68 | ## 4.展望
69 | 
70 | 论文讨论了 RAG 的三大未来发展方向：垂直优化、横向扩展以及 RAG 生态系统的构建。
71 | 
72 | 垂直优化主要研究方向是：长上下文的处理问题，鲁棒性研究，RAG 与微调（Fine-tuning）的协同作用，以及如何在大规模知识库场景中提高检索效率和文档召回率，如何保障企业数据安全——例如防止 LLM 被诱导泄露文档的来源、元数据或其他敏感信息。
73 | 
74 | 水平扩展主要研究方向是：从最初的文本问答领域出发，RAG 的应用逐渐拓展到更多模态数据，包括图像、代码、结构化知识、音视频等。在这些领域，已经涌现出许多相关研究成果。
75 | 
76 | 生态系统主要介绍了 Langchain、LlamaIndex 等常见的技术框架。
77 | 
78 | 
79 | ## 5.总结
80 | 
81 | 可以看到，简单的 RAG 和复杂的 RAG 之间相差非常大，可以从 RAG 的组件和模式进行优化。同时，RAG 与微调，提示工程的协同作用也可以实现模型的最佳性能。随着各种 Agent 的发展，我认为将来 RAG 也必然会 Agent 化，而 Retriever 就类似于 Agent 的工具之一。


--------------------------------------------------------------------------------
/论文解读/大模型/Self-RAG Learning to Retrieve, Generate, and Critique through Self-Reflection.md:
--------------------------------------------------------------------------------
 1 | # Self-RAG Learning to Retrieve, Generate, and Critique through Self-Reflection
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2310.11511
 4 | 
 5 | 论文代码：https://github.com/AkariAsai/self-rag
 6 | 
 7 | ## 1.论文背景
 8 | 
 9 | 尽管 LLM 的模型和数据规模不断增加，但它们仍然面临事实错误的问题。现有的 RAG 方法可以通过增强 LLM 的输入来减少知识密集任务中的事实错误，但还是有以下问题存在：1）如何保证检索内容是有效，或有用的？2）如何验证检索的内容对输出的结果是支持的？3）如何验证输出的结果是来自检索还是模型的生成？
10 | 
11 | 
12 | ## 2.论文解决了什么问题
13 | 
14 | 作者引入了自反思的检索增强生成方法（Self-RAG），该方法通过按需检索和自我反思来改进 LLM 的生成质量。Self-RAG 会训练一个任意的 LM，使其能够反思自己的生成过程，并生成任务输出和中间的特殊 tokens（reflection tokens）。这些反思 tokens 被分类为检索 tokens 和评论 tokens，分别表示需要检索的需求和其生成质量。
15 | 
16 | 
17 | ## 3.论文方法
18 | 
19 | 1.RAG vs Self-RAG
20 | 
21 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/RAG%20vs%20Self-RAG.png)
22 | 
23 | 对比 RAG，Self-RAG 框架的不同之处就是：在生成过程中利用特殊的 token 达到更精细的控制——要不要检索、检索内容相关性怎样、利用检索内容生成的质量怎样。达到这些目的，就会让 RAG+LLM 生成的内容在质量、事实性、验证性上得到提升。
24 | 
25 | 2.核心算法
26 | 
27 | 以下是 Self-RAG 框架中使用的四种反思 tokens 的类型：
28 | 
29 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Self-RAG%20tokens.png)
30 | 
31 | 以下是推理算法的伪代码，其中涉及三个主要组件：生成器语言模型（LM）、检索器（R）、以及大型文本段落集合（D）
32 | 
33 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Self_RAG%20%E7%AE%97%E6%B3%95.png)
34 | 
35 | 对于每一个 x 和前序生成结果 y_n (n < t)，模型都会解码一个检索标记，以评估检索的效用。如果不需要检索，模型就会像标准 LM 一样预测下一个输出段落。如果需要检索，模型就会生成一个评论标记，用于评估检索段落的相关性，然后生成下一个回复段落以及一个评论标记，用于评估回应段中的信息是否得到段落的支持。
36 | 
37 | 3.Self-RAG 训练
38 | 
39 | Self-RAG 的训练包括三个模型：检索器（Retriever）、评论家（Critic）和生成器（Generator）。
40 | 
41 | 首先，训练评论家，使用检索器检索到的段落以及反思 token 增强指令-输出数据。
42 | 
43 | 然后，使用标准的下一个 token 预测目标来训练生成器 LM，以学习生成 自然延续(continuations)以及特殊 tokens (用来检索或批评其自己的生成内容).
44 | 
45 | 4.Self-RAG 推理
46 | 
47 | 在推理阶段，SELF-RAG通过生成反射标记来自我评估输出结果，从而使其行为适应不同的任务要求。对于要求事实准确性的任务，目标是让模型更频繁地检索段落，以确保输出结果与可用证据密切吻合。在开放性较强的任务中，如撰写个人经历文章，重点则转向减少检索次数，优先考虑整体创造性或实用性得分。
48 | 
49 | 因此，在推理过程中需要实施控制以满足这些不同目标。方法包括：
50 | 
51 | 1）基于阈值的自适应检索。
52 | 
53 | 2）基于评论 tokens 的树解码
54 | 
55 | 
56 | ## 4.实验分析
57 | 
58 | 1.实验结果
59 | 
60 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Self_RAG%20%E7%BB%93%E6%9E%9C.png)
61 | 
62 | Self-RAG在六项任务中均超越了原始的 ChatGPT 或 LLama2-chat，并且在大多数任务中，其表现远超那些广泛应用的检索增强方法。
63 | 
64 | 2.消融实验
65 | 
66 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/Self_RAG%20%E6%B6%88%E8%9E%8D.png)
67 | 
68 | 每一个组件和技术在Self-RAG中都起到了至关重要的作用。调整这些组件可以显著影响模型的输出性质和质量，这证明了它们在模型中的重要性。
69 | 
70 | 
71 | ## 5.总结
72 | 
73 | Self-RAG 框架给 LLM+RAG 提供了一种新的结合方式——在生成过程中加入多维、更细粒度的控制与评价标签，让 LLM 对检索内容的利用，以及利用效果有了更直接的操作。但也有缺点，在输出的时候要多次生成和判断标签，会增加推理成本。
74 | 
75 | 优化空间，1）比如标签的优化（用更少的标签，或者代表其他含义的标签）；2）在召回相关文档后，用一个小模型来判断，选择top1作为最终结果，减少循环计算。
76 | 


--------------------------------------------------------------------------------
/论文解读/大模型/Take a Step Back Evoking Reasoning via Abstraction in Large Language Models.md:
--------------------------------------------------------------------------------
 1 | # Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models
 2 | 
 3 | 论文链接: https://arxiv.org/abs/2310.06117
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 受到人们在面对复杂任务时通常会退一步，抽象化思考问题的启发，本文提出了“Step-Back Prompting”策略。通过这种方式使模型能够在进行推理时以更加抽象和高层次的概念为基础，从而减少在中间推理步骤中犯错误的可能性，最终达到提高整个推理过程正确性的目的。
 8 | 
 9 | ## 2.论文方法
10 | 
11 | 作者提出“Step-Back Prompting"，简称后退提示（STP），它是让 LLM 自己抽象问题，得到更高维度概念和原理，再用这些知识推理并解决问题。这种思维模式类似于人类解决问题的方式，让大模型能够借鉴已有规律解决问题。
12 | 
13 | 该方法包含两个步骤：
14 | 
15 | 1.抽象：首先提示 LLM 提出一个关于更高层次概念或原则的通用问题，并检索与之相关的信息，而不是直接回答原始问题。
16 | 
17 | 2.推理：在获取了关于高层次概念或原则的信息后，LLM 可以基于这些信息对原始问题进行推理。
18 | 
19 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/STP.png)
20 | 
21 | 后退策略可能会让LLM尝试识别问题的范围和上下文，有的问题后退的多一点，有的少一些。
22 | 
23 | ## 3.实验分析
24 | 
25 | 作者用 PaLM-2L 和 GPT-4 模型做了实验，发现这种 Prompt 技巧对推理任务（STEM、知识问答、多步推理）的性能表现提升显著（高达27%）。
26 | 
27 | ![](https://github.com/Kayin211/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/STP_result.png)
28 | 
29 | 评估：采用了一种基于 PaLM-2L 模型的评估方法，通过 few-shot 学习来判断模型的答案是否与目标答案等价。
30 | 
31 | 作者还进行了错误分析，发现大部分应用后退推理时出现的错误，都是由于 LLMs 推理能力的内在局限性造成的，与新的 prompt 技术无关。
32 | 而抽象能力又是 LLMs 比较容易学会的，所以这为后退推理的进一步发展指明了方向。
33 | 
34 | 实验还表明将 Step-Back Prompting 与 RAG 结合能在某些方面提升模型效果。后退提示（STP）和RAG相结合，利用后退提示获得的抽象问题，获得更多与最终答案需要的的上下文信息，然后，再将获得的上下文和原始问题一起提交给LLM，从而让LLM获得更好的回答质量。
35 | 
36 | ## 4.其它
37 | 
38 | 10.3的一个新的研究《Large Language Models as Analogical Reasoners》提出，通过类比推理提示（Analogical Prompting）可以让大模型自己生成相似问题做为例子，从而再根据例子步骤形成思维链来解决新问题，提升了问题的泛化性，大模型可以根据问题不同生成不同的例子。
39 | 
40 | 而10.9提出的“Step-Back Prompting”，不是类比寻找相似示例，而是让大语言模型自己把问题抽象化，得到一个更高维度的概念或者原理，再把抽象出来的知识当作工具，推理并得出问题的答案。
41 | 
42 | RAG：通过检索的方式，将问题相关的背景知识作为上下文一并传给大模型，有效的提高模型的准确性以及减轻幻觉。
43 | 
44 | ## 5.总结
45 | 
46 | 本文提出的“Step-Back Prompting”在复杂推理任务中通过全局观的思维提升模型效果，当然这也局限于一些需要深度推理的任务，而在简单问答中则没有效果。
47 | 
48 | 对于复杂推理任务，传统手段是将其分解成多个子任务并解决，是一对多的关系，而本文提出的方法中的抽象手段则与其相反，专注于使问题变得更加抽象和高层次，抽象问题通常具有通用性，是多对一的关系。
49 | 
50 | 综合最近的其他几篇论文发现，要让 LLM 能得到高质量的问答，和原始问题相关的高质量上下文信息是非常重要的，最好是不需要借助外部工具，直接通过特定的方法激发 LLM 自己去生成高质量的上下文信息。


--------------------------------------------------------------------------------
/论文解读/大模型/Tree of Thoughts Deliberate Problem Solving with Large Language Models.md:
--------------------------------------------------------------------------------
 1 | # Tree of Thoughts: Deliberate Problem Solving with Large Language Models
 2 | 
 3 | 论文链接：https://arxiv.org/abs/2305.10601
 4 | 
 5 | ## 1.论文背景
 6 | 
 7 | 大语言模型(LLM)现在被用于解决各种不同类型的问题，但受限于其推理过程中token级别的从左到右的决策过程，大模型仍没办法很好的完成某些需要进行局部探索(多角度思想)，战略前瞻的任务。
 8 | 
 9 | ## 2.论文提出解决方案
10 | 
11 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/ToT%E6%A1%86%E6%9E%B6%E4%B8%8E%E5%85%B6%E4%BB%96%E4%B8%89%E7%A7%8D%E6%96%B9%E6%B3%95.png)
12 | 
13 | 如上图，左边是三种已有的使用LLM进行思维推理的方法，分别是IO，CoT，CoT-SC，但他们都属于是单链思维，没有针对某个问题或中间思想进行多角度的思考。右边的是本文提出的ToT思维框架，通过维护一个树的结构，利用LLM对输入问题生成中间思想，再利用LLM对生成思想进行评估，结合特定的搜索算法对问题空间进行搜索并适当剪枝，以实现对问题的推理前瞻，多角度思考，对不同思维步骤进行局部探索，适当时候进行思想回溯等。
14 | 
15 | ## 3.论文方法
16 | 
17 | 针对上面提出的基于树思维框架，其中一个重点在于每一步如何生成中间思想，以及如何评估生成的思想的价值(即是否对任务的完成有帮助)。
18 | 
19 | Thought Generator：用于生成下一步的中间思想，分为基于CoT提示生成与基于Propose提示生成。前者在提示词中只给出一个大致的思想方向，适用于一些问题空间比较丰富的情况(如创意写作)，后者在提示词中给出某些特定的限制，规定输出的某些条件如格式等，适用于一些问题空间比较有限的情况(如Game of 24)。
20 | 
21 | Value Evaluator：用于评估中间状态的价值，分为独立评价与投票评价。前者将本次生成的所有中间思想分别进行评分，可能最后会选出分最高的几个，后者将所有中间思想聚集在一起做一个投票，选出票数最高的一个。评价的作用多用于树的剪枝，缩小问题空间。
22 | 
23 | 有了上面的树的思维框架，还需要将搜索算法应用到这个框架上面来解决实际问题，本文介绍了两个基本搜索算法BFS，DFS跟ToT的结合，如下图。
24 | 
25 | ![](https://github.com/zzysos/LLMsStudy/blob/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/BFS%E4%B8%8EDFS%E7%AE%97%E6%B3%95%E7%BB%93%E5%90%88ToT.png)
26 | 
27 | ## 4.实验分析
28 | 
29 | 本文将ToT应用于三个不同的任务中：Game of 24，Creative Writing，Mini Crosswords。
30 | 
31 | 1.Game of 24：使用BFS算法，其中Thought Generator使用基于Propose提示生成，Value Evaluator使用独立评价方法。
32 | 
33 | 2.Creative Writing：使用BFS算法，其中Thought Generator使用基于CoT提示生成，Value Evaluator使用投票评价方法。
34 | 
35 | 3.Mini Crosswords：使用DFS算法，其中Thought Generator使用基于Propose提示生成，Value Evaluator使用独立评价方法。
36 | 
37 | 文章还将IO，CoT，CoT-SC的方法也在对应任务中进行实验以与ToT框架作对比。结果表明，ToT框架的效果在三个任务中均优于其他方法。
38 | 
39 | ## 5.总结
40 | 
41 | 本文提出的ToT框架，让LLM能够像人类思考问题一样，提出多种可能的解题思路进行局部的探索，在深入探索到一定阶段，发现该思路可能不太可行时，又可通过思想回溯换一个思路继续深入思考最后得到最好的解答，其推理能力相比其他方法来说确实有了不少提升。
42 | 
43 | ## 6.可能可以改进的点
44 | 
45 | 1.无论是思想生成还是评估都需要使用LLM来完成，一次任务中就可能调用很多次GPT的API，有点耗时和耗资源。
46 | 
47 | 2.思想生成和评估都使用的是LLM内部的知识，或许评估时可以结合外部环境给的反馈来进行评估？
48 | 


--------------------------------------------------------------------------------
/论文解读/大模型/WizardLM Empowering Large Language Models to Follow Complex Instructions.md:
--------------------------------------------------------------------------------
 1 | # WizardLM: Empowering Large Language Models to Follow Complex Instructions
 2 | 
 3 | ## 论文解决的问题
 4 | ![alt text](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/wizardlm1.png)
 5 | 就是作者提出了一种方法叫Evol-Instruct，主要目的就是为了扩充数据，通过对原始数据的添加约束、深化、具体化、增加推理步骤和复杂的输入。从而将原始数据的复杂性和数据量都得到了扩充。通过这种方法，我们能够生成大量高质量的指令数据，并用这些数据对LLaMA模型进行微调，得到了性能更优的WizardLM模型。人类评估和GPT-4自动评估的结果表明，WizardLM在处理复杂指令方面优于现有的ChatGPT模型。
 6 | 
 7 | ## 具体解决方案
 8 | Evol-Instruct的核心思想是迭代地“进化”初始指令集，通过逐步增加指令的复杂性，生成多样化和高难度的指令数据。
 9 | 
10 | 具体来说，Evol-Instruct包括两个主要组成部分：指令演化器（Instruction Evolver）和指令消除器（Instruction Eliminator）。指令演化器利用特定的提示（prompts）来增强指令的复杂性和难度，这包括增加约束、深化、具体化、增加推理步骤和复杂化输入等操作。这些操作通过向LLM提供特定提示来实现，例如要求LLM在保留原始指令内容的基础上添加额外的约束或要求，从而使指令变得更加复杂。此外，还有“广度演化”（In-breadth Evolving），它通过变异生成全新的、与给定指令同样复杂的指令，以增加数据集的多样性。
11 | 
12 | 指令消除器的作用是过滤掉那些未能成功进化的指令。这些指令可能因为过于简单、无法生成响应或与原始指令相似度过高而被排除。通过这种淘汰机制，只有成功的演化指令才会被添加到指令池中，用于后续的模型训练。
13 | ![alt text](https://raw.githubusercontent.com/XingYu-Zhong/LLMsStudy/master/%E8%AE%BA%E6%96%87%E8%A7%A3%E8%AF%BB/pic/wizardlm2.png)
14 | 
15 | ## prompt例子
16 | ### 普通
17 | 我想你充当提示重写器。您的目标是将给定的提示重写为更复杂的版本，以使这些著名的人工智能系统（例如，ChatGPT 和 GPT4）更难处理。但是重写的提示必须是合理的，必须被人类理解和回应。您的重写不能省略非文本部分，例如#Given Prompt# 中的表和代码：.此外，请不要在#Given Prompt# 中省略输入。你应该用以下方法使给定的提示复杂化:请在#given Prompt#中添加更多的约束/要求，你应该尽量不要使#Rewritten Prompt#变得冗长，#Rewritten Prompt#只能在#Given Prompt#中添加10到20个单词。
18 | 
19 | '#Given Prompt#', '#Rewritten Prompt#', 'given prompt' and 'rewritten prompt' are not allowed to appear in #Rewritten Prompt# #Given Prompt#: <Here is instruction.> #Rewritten Prompt#:
20 | 
21 | ### 复杂
22 | 我想你充当提示重写器。您的目标是将给定的提示重写为更复杂的版本，以使这些著名的人工智能系统（例如，ChatGPT 和 GPT4）更难处理。但是重写的提示必须是合理的，必须被人类理解和回应。您必须添加 [XML 数据] 格式数据作为 [重写提示] 中的输入数据
23 | 
24 | #Given Prompt#: <Here is Demonstration instruction 1.> 
25 | 
26 | #Rewritten Prompt#: <Here is Demonstration Example 1.>
27 | 
28 | ### 进化突变
29 | 我想你充当提示创建者。你的目标是从#Given Prompt#中汲取灵感，以创建全新的提示。这个新的提示应该属于与#Given Prompt#相同的域，但更罕见。#Created Prompt# 的 LENGTH 和难度级别应该与 #Given Prompt# 相似。#Created Prompt# 必须是合理的，必须被人类理解和回应。
30 | 
31 | '#Given Prompt#', '#Created Prompt#', 'given prompt' and 'created prompt' are not allowed to appear in #Created Prompt#. #Given Prompt#: <Here is instruction.> #Created Prompt#:
32 | 
33 | ### 进化失败条件
34 | 进化失败的认定
35 | - 1.先让gpt去看两个提示是否相同（它们具有相同的约束和要求。他们的调查深度和广度相同。）
36 | - 2.如果出现了对不起和长度小于80个单词
37 | - 3.如果只是包含标点符号和停止词。
38 | - 4.进化指令显然是从进化提示中复制了一些单词，如“给定提示”、“重写提示”和“#重写提示#”等。
39 | 
40 | ## 微调
41 | 
42 | 微调的时候把升级来的数据和原有数据合在一起，然后打散，让数据分布均匀
43 | 
44 | 数据生成时候gpt的参数：
45 | ChatGPT 生成响应。我们使用 1 的温度生成响应并将最大令牌数设置为 2048。此外，我们将频率惩罚设置为零，将 top-p 设置为 0.9。
46 | 
47 | 微调的参数：我们采用 Adam 优化器作为 2 ×10−5 的初始学习率，最大令牌数为 2048，每个 GPU 的批量大小为 8。我们在 8 个 V100 GPU 上训练我们的模型，Deepspeed Zero-3 在 3 个 epoch 上训练了 70 小时。
48 | 
49 | 


--------------------------------------------------------------------------------