├── src ├── LLM.png ├── icon.png ├── Legal.png ├── Medical.png ├── Financial.png └── chinese_taxonomy.png ├── doc ├── LLM.xmind ├── Legal.xmind ├── Medical.xmind ├── Financial.xmind ├── LLM.md ├── Legal.md ├── Financial.md └── Medical.md └── README.md /src/LLM.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/LLM.png -------------------------------------------------------------------------------- /src/icon.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/icon.png -------------------------------------------------------------------------------- /doc/LLM.xmind: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/doc/LLM.xmind -------------------------------------------------------------------------------- /doc/Legal.xmind: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/doc/Legal.xmind -------------------------------------------------------------------------------- /src/Legal.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/Legal.png -------------------------------------------------------------------------------- /src/Medical.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/Medical.png -------------------------------------------------------------------------------- /doc/Medical.xmind: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/doc/Medical.xmind -------------------------------------------------------------------------------- /src/Financial.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/Financial.png -------------------------------------------------------------------------------- /doc/Financial.xmind: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/doc/Financial.xmind -------------------------------------------------------------------------------- /src/chinese_taxonomy.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhiweihu1103/Awesome-Chinese-LLM/main/src/chinese_taxonomy.png -------------------------------------------------------------------------------- /doc/LLM.md: -------------------------------------------------------------------------------- 1 | ## Awesome-Chinese-LLM 2 | 3 | * BLOOM 底座 4 | * TigerBot 5 | * 轩辕(XuanYuan 2.0) 6 | * 流萤(Firefly-BLOOM) 7 | * BELLE-BLOOM 8 | 9 | * Falcon 底座 10 | * Linly-Chinese-Falcon 11 | 12 | * CPM-Bee 底座 13 | * WebCPM 14 | * VisCPM 15 | 16 | * 元语智能(ChatYuan) 底座 17 | * 扁鹊 (BianQue) 18 | 19 | * 百川(Baichuan-7b) 20 | * 流萤(Firefly-baichuan) 21 | 22 | * ChatRWKV 23 | 24 | * 书生·浦语(InternLM) 25 | 26 | * Aquila 27 | 28 | * MOSS 29 | 30 | * ChatGLM 底座 31 | * DoctorGLM 32 | * Med-ChatGLM 33 | * LexiLaw 34 | * Chatglm-maths 35 | * MeChat 36 | * VisualGLM 37 | * XrayGLM 38 | * ChatGLM2 39 | 40 | * LLaMA 底座 41 | * Chinese-LLaMA-Alpaca 42 | * OpenChineseLLaMA 43 | * BELLE-LLaMA 44 | * Linly-Chinese-LLaMA 45 | * 姜子牙(Ziya-LLaMA-13B) 46 | * MedicalGPT 47 | * Lawyer LLaMA 48 | * 骆驼(Luotuo) 49 | * Panda 50 | * BiLLa 51 | * 启真医学大模型(QiZhenGPT) 52 | * ChatMed 53 | * 聚宝盆(Cornucopia) 54 | * 桃李(TaoLi) 55 | * KnowLM 56 | * BayLing 57 | * YuLan-Chat 58 | * Anima(33B) 59 | -------------------------------------------------------------------------------- /doc/Legal.md: -------------------------------------------------------------------------------- 1 | 2 | ### 法律类大模型的应用 3 | 4 | * 獬豸(LawGPT_zh) (2023-04-09) 5 | * Code: https://github.com/LiuHC0428/LAW-GPT 6 | * License: 7 | * 基础模型: ChatGLM-6B 8 | * 数据: 9 | * 情景对话:真实的律师用户问答 (200K) 10 | * 利用ChatGPT根据CrimeKgAssitant的问答重新生成 (52K) 11 | * 根据中华人民共和国法律手册上最核心的9k法律条文,利用ChatGPT联想生成具体的情景问答 (92K) 12 | * 知识问答:法律知识问题的解释性回答 13 | * 法律领域的教科书,经典案例等数据 14 | * 算力: 4 x NVIDIA 3090 15 | * 院校: 上海交通大学 16 | 17 | * LaWGPT (2023-04-12) 18 | * Code: https://github.com/pengxiao-song/LaWGPT 19 | * License: GPL-3.0 20 | * 基础模型: Chinese-Alpaca-Plus-7B 21 | * 数据: 22 | * https://github.com/pengxiao-song/awesome-chinese-legal-resources 23 | * 官方数据 24 | * 中国检查网:起诉书等 25 | * 中国裁判文书网:裁决书、裁定书、决定书等 26 | * 司法部国家司法考试中心:行政法规库、法考真题等 27 | * 国家法律法规数据库:官方法律法规数据库 28 | * https://github.com/pengxiao-song/awesome-chinese-legal-resources/issues/2 29 | * 竞赛数据 30 | * 中国法律智能技术评测(CAIL)历年赛题数据 31 | * 中国法研杯司法人工智能挑战赛(LAIC)历年赛题数据 32 | * 百度知道法律问答数据集:约 3.6w 条法律问答数据,包括用户提问、网友回答、最佳回答 33 | * 法律知识问答数据集:约 2.3w 条法律问答数据 34 | * 中国司法考试试题数据集:约 2.6w 条中国司法考试数据集 35 | * 开源数据 36 | * LaWGPT 数据集 @pengxiao-song:包含法律领域专有词表、结构化罪名数据、高质量问答数据等 37 | * 法律罪名预测与机器问答 @liuhuanyong:包括罪名知识图谱、20w 法务问答数据等 38 | * 法律条文知识抽取 @liuhuanyong:包括法律裁判文书和犯罪案例 39 | * 中国法律手册 @LawRefBook:收集各类法律法规、部门规章案例等 40 | * 其他 41 | * 刑法最新罪名一览表:记录2021年最新刑法罪名 42 | 43 | * 中文裁判文书网公开法律文书数据 44 | * 司法考试数据 45 | * 中国检查网:起诉书等 46 | * 算力: 8 x NVIDIA Tesla V100 32GB, 24h/epoch (pre-training), 12/epoch (fine-tuning) 47 | * 院校: 南京大学 48 | 49 | * LexiLaw (2023-05-16) 50 | * Code: https://github.com/CSHaitao/LexiLaw 51 | * License: MIT 52 | * 基础模型: ChatGLM-6B 53 | * 数据: 54 | * 通用领域数据 55 | * 链家 BELLE-1.5M 56 | * 法律问答数据 57 | * LawGPT_zh :52k单轮问答数据和92k带有法律依据的情景问答 58 | * Lawyer LLaMA :法考数据和法律指令微调数据 59 | * 华律网问答数据 :20k高质量华律网问答数据 60 | * 法律知道 :百度知道收集的36k条法律问答数据 61 | * 法律法规和法律参考书籍 62 | * 法律法规: 包含刑法、民法、宪法、司法解释等法律法规 63 | * 法律参考书籍: JEC-QA数据集提供的法律参考书籍 64 | * 法律文书 65 | * 从法律裁判文书网收集50k法律文书 66 | * 算力: 7 x NVIDIA A100 GPUs 40GB 67 | * 院校: 清华大学 68 | 69 | * Lawyer LLaMA (2023-05-24) 70 | * Paper: https://arxiv.org/abs/2305.15062 71 | * Code: https://github.com/AndrewZhe/lawyer-llama 72 | * License: Apache-2.0 73 | * 基础模型: Chinese-Alpaca-Plus-13B 74 | * 数据: 75 | * JEC-QA中国法考数据集 76 | * 中国国家统一法律职业资格考试客观题 77 | * 院校: 北京大学 78 | 79 | * 韩非(HanFei) (2023-05-31) 80 | * Code: https://github.com/siat-nlp/HanFei 81 | * License: Apache-2.0 82 | * 基座模型: BLOOMZ-7B1 83 | * 数据: 84 | * 预训练 85 | * 案例、法规、起诉状、法律新闻 (60G, 2K token/条) 86 | * 微调 87 | * v1.0 88 | * 中文通用指令 (53k) 89 | * 中文法律指令 (41k) 90 | * 中文通用对话 (55k) 91 | * 中文法律对话 (56k) 92 | * 中文法律问答数据 (50k) 93 | * 评估 94 | * 法律问题 95 | * 包含劳动、婚姻等9个板块 (150) 96 | * 算力: 8 x NVIDIA A100/A800 97 | * 机构: 98 | * 中科院深圳先进院 99 | * 深圳市大数据研究院 100 | * 香港中文大学(深圳) 101 | 102 | * ChatLaw (2023-06-28) 103 | * Paper: https://arxiv.org/abs/2306.16092 104 | * Code: https://github.com/PKU-YuanGroup/ChatLaw 105 | * License: AGPL-3.0 106 | * 基础模型: 107 | * ChatLaw-13B: 姜子牙 Ziya-LLaMA-13B-v1 108 | * ChatLaw-33B: Anima-33B 109 | * 数据: 由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据 110 | * 算力: multiple NVIDIA V100 GPUs 111 | * 院校: 北京大学 112 | -------------------------------------------------------------------------------- /doc/Financial.md: -------------------------------------------------------------------------------- 1 | ### 金融类大模型的应用 2 | 3 | * BBT-Fin (2023-02-18) 4 | * Paper: https://arxiv.org/abs/2302.09432 5 | * Code: https://github.com/ssymmetry/BBT-FinCUGE-Applications 6 | * 基础模型: FinT5 (0.2B, 1B) 7 | * 数据: 8 | * BBT-FinCorpus (Base: 4GB, Large: 16GB) 9 | * 公司公告、研究报告 10 | * 东方财富 11 | * 财经新闻 12 | * 新浪金融 13 | * 腾讯金融 14 | * 凤凰金融 15 | * 36氪 16 | * 虎嗅 17 | * 社交媒体 18 | * 东方财富 - 股吧 19 | * 雪球 20 | * 评测 21 | * BBT-CFLEB 22 | * FinNA - 金融新闻摘要数据集 (24k, 3k, 3k) 23 | * FinQA - 金融新闻公告事件问答数据集 (16k, 2k, 2k) 24 | * FinNL - 金融新闻分类数据集 (8k, 1k, 1k) 25 | * FinRE - 金融新闻关系抽取数据集 (7.5k, 1.5k, 3.7k) 26 | * FinFE - 金融社交媒体文本情绪分类数据集 (8k,1k,1k) 27 | * FinNSP - 金融负面消息及主体判定数据集 (4.8k, 0.6k, 0.6k) 28 | * 机构: 29 | * 复旦大学 30 | 31 | * 聚宝盆 (Cornucopia) (2023-05-07) 32 | * Code: https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 33 | * License: Apache-2.0 34 | * 基座模型: 35 | * LLaMA-7B, Chinese-LLaMA-7B 36 | * 数据: 37 | * 14M 指令数据 38 | * 中文知识图谱-金融 39 | * CFLEB金融数据集 40 | * 算力: 41 | * NVIDIA A100 SXM 80GB 42 | * 10 epochs, batch size 96 43 | * 机构: 中科院成都计算机应用研究所 44 | 45 | * 轩辕 (XuanYuan 2.0) (2023-05-19) 46 | * Paper: 47 | * https://arxiv.org/abs/2305.12002 48 | * https://arxiv.org/abs/2305.11952 49 | * https://arxiv.org/abs/2305.14471 50 | * Code: https://github.com/Duxiaoman-DI/XuanYuan 51 | * 模型: 52 | * https://huggingface.co/xyz-nlp/XuanYuan2.0 53 | * 基座模型: 54 | * BLOOM-176B 55 | * 70 layers 56 | * 14336 hidden size 57 | * 112 attention heads 58 | * BLOOM-7B 59 | * 30 layers 60 | * 4096 hidden size 61 | * 32 attention heads 62 | * 数据: 63 | * 13B tokens 64 | * 预训练数据来自互联网 65 | * 指令训练数据 66 | * 对Self-Instruct 67 | * 对金融领域的数据的Self-QA得到信息 68 | * 算力: 69 | * 8 x NVIDIA A100 80GB + DeepSpeed 70 | * ZeRO (stage-1) 71 | * batch-size: 2048 72 | * 机构: 度小满 (原百度金融) 73 | 74 | 75 | * 貔貅(PIXIU/FinMA) (2023-06-08) 76 | * Paper: https://arxiv.org/abs/2306.05443 77 | * Code: https://github.com/chancefocus/PIXIU 78 | * License: MIT 79 | * 模型: LLaMA-7B, LLaMA-30B 80 | * 数据: 81 | * 预训练 82 | * 指令微调 83 | * 136K 指令数据 84 | * 5 类任务、9个数据集 85 | * 金融情感分析 86 | * Financial Phrase Bank 87 | * FiQA-SA 88 | * 新闻标题分类 89 | * Gold 新闻标题数据集 90 | * 命名实体识别 91 | * FIN 92 | * 问答 93 | * FinQA 94 | * ConvFinQA 95 | * 股价变动预测 96 | * BigData22 97 | * ACL18 98 | * CIKM18 99 | * 测试 100 | * FLARE 101 | * 算力: 102 | * max length: 2048 103 | * FinMA-7B 104 | * 8 x NVIDIA A100 40GB 105 | * 15 epochs, batch size 32 106 | * FinMA-30B 107 | * 128 x NVIDIA A100 40GB 108 | * 20 epochs, batch size 24 109 | * 院校: 110 | * 武汉大学 111 | * 中山大学 112 | * 西南交通大学 113 | * University of Florida 114 | 115 | * FinGPT (2023-06-09) 116 | * Paper: https://arxiv.org/abs/2306.06031 117 | * Code: https://github.com/AI4Finance-Foundation/FinGPT 118 | * License: MIT 119 | * 基座模型: 120 | * FinGPT v1 121 | * ChatGLM-6B + LoRA 122 | * FinGPT v2 123 | * LLaMA-7B + LoRA 124 | * 数据: 125 | * 金融新闻 126 | * Reuters 127 | * CNBC 128 | * Yahoo Finance 129 | * 东方财富 130 | * Financial Modeling Prep 131 | * 社交媒体 132 | * Twitter 133 | * Facebook 134 | * Reddit 135 | * 新浪微博 136 | * 财报 137 | * SEC 138 | * 证券交易所官网 139 | * 趋势 140 | * Seeking Alpha 141 | * Google Trends 142 | * 学术数据集 143 | * 算力: 144 | * $300/训练 145 | * 机构: 146 | * Columbia University 147 | * New York University (Shanghai) 148 | 149 | -------------------------------------------------------------------------------- /doc/Medical.md: -------------------------------------------------------------------------------- 1 | ### 医学类大模型的应用 2 | 3 | * ChatDoctor (2023-03-24) 4 | * Paper: https://arxiv.org/abs/2303.14070 5 | * Code: https://github.com/Kent0n-Li/ChatDoctor 6 | * License: Apache 2.0 7 | * 基座模型:LLaMA-7B 8 | * 数据: 9 | * HealthCareMagic-100k 10 | * icliniq-10k 11 | * GenMedGPT-5k 12 | * disease database 13 | * 算力: 14 | * 6 x NVIDIA A100 GPUs, 18h, batch size 192, 3 epochs 15 | * 院校: 16 | * Department of Radiation Oncology, University of Texas Southwestern Medical Center, Dallas, USA 17 | * Department of Computer Science, University of Illinois at Urbana-Champaign, Illinois, USA 18 | * Department of Computer Science and Engineering, The Ohio State University, Columbus, USA 19 | * 杭州电子科技大学计算机学院 20 | 21 | * DoctorGLM (2023-04-03) 22 | * Paper: https://arxiv.org/abs/2304.01097 23 | * Code: https://github.com/xionghonglin/DoctorGLM 24 | * 基座模型: THUDM/chatglm-6b 25 | * 数据: 26 | * CMD 27 | * Surgical (116K) 28 | * Obstetrics and Gynecology (229K) 29 | * Pediatrics (117K) 30 | * Internal Medicine (307K) 31 | * Andriatria (113K) 32 | * MedDialog (3.4M) 33 | * ChatDoctor (5.4K) 34 | * HealthCareMagic (200K) 35 | * 算力: 36 | * 1 x NVIDIA A100 GPU 80GB, 13h 37 | * 院校: 38 | * 上海科技大学 39 | * 上海交通大学 40 | * 复旦大学华山医院 41 | 42 | * MedicalGPT-zh (2023-04-08) 43 | * Code: https://github.com/MediaBrain-SJTU/MedicalGPT-zh 44 | * License: Apache 2.0 45 | * 基座模型: ChatGLM-6B 46 | * 数据: 47 | * 28科室的中文医疗共识与临床指南文本 48 | * 情景对话 (52K) 49 | * 知识问答 (130K) 50 | * 算力: 51 | * 4 x NVIDIA 3090 GPUs 52 | * 院校:上海交通大学未来媒体网络协同创新中心 53 | 54 | * Chinese-Vicuna-Medical (2023-04-11) 55 | * Code: https://github.com/Facico/Chinese-Vicuna/blob/master/docs/performance-medical.md 56 | * License: Apache 2.0 57 | * 基座模型:Chinese-Vicuna-7B 58 | * 数据: 59 | * cMedQA2 60 | * 算力: 61 | * 70w of data, 3 epochs, a 2080Ti about 200h 62 | 63 | * 本草(BenTsao) (2023-04-14) 64 | * 原名:华佗(HuaTuo) 65 | * Paper: https://arxiv.org/abs/2304.06975 66 | * Code: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 67 | * License: Apache 2.0 68 | * 基座模型:LLaMA-7B, Chinese-LLaMA-Alpaca, ChatGLM-6B 69 | * 数据: 70 | * 公开和自建的中文医学知识库,主要参考了cMeKG 71 | * 2023年关于肝癌疾病的中文医学文献,利用GPT3.5接口围绕医学文献多轮问答数据 72 | * 算力: 73 | * A100-SXM-80GB,10 epochs, 2h17m, batch_size=128 74 | * 院校:哈尔滨工业大学社会计算与信息检索研究中心健康智能组 75 | 76 | * OpenBioMed (2023-04-17) 77 | * Paper: https://arxiv.org/abs/2305.01523 (2023-04-17) 78 | * Paper: https://arxiv.org/abs/2306.04371 (2023-06-07) 79 | * Code: https://github.com/BioFM/OpenBioMed 80 | * License: MIT 81 | * 模型:BioMedGPT-1.6B 82 | * 数据:DeepDTA 83 | * 院校:清华大学计算机系 84 | 85 | * ChatMed (2023-04-19) 86 | * Code: https://github.com/michael-wzhu/ChatMed 87 | * License: Apache 2.0 88 | * 基座模型:LLaMA-7B + Chinese-LLaMA-Alpaca 89 | * 数据: 90 | * 中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集 91 | * 中医药指令数据集ChatMed_TCM_Dataset 92 | * 中医药知识图谱 93 | * ChatGPT得到11w+的围绕中医药的指令数据 94 | * 算力: 95 | * 4 x NVIDIA 3090 GPUS 96 | * 院校:华东师范大学 97 | 98 | * 扁鹊(BianQue) (2023-04-22) 99 | * Code: https://github.com/scutcyr/BianQue 100 | * 基座模型: 101 | * v1: 元语智能 102 | * v2: ChatGLM-6B 103 | * 数据: 104 | * 中文医疗问答指令与多轮问询对话混合数据集包含了超过900万条样本 105 | * 扁鹊健康大数据BianQueCorpus 106 | * 扩充了药品说明书指令 107 | * 医学百科知识指令 108 | * ChatGPT蒸馏指令等数据 109 | * MedDialog-CN 110 | * IMCS-V2 111 | * CHIP-MDCFNPC 112 | * MedDG 113 | * cMedQA2 114 | * Chinese-medical-dialogue-data 115 | * 算力: 116 | * 8张 NVIDIA RTX 4090显卡上微调了1个epoch,大约16天 117 | * 院校:华南理工大学未来技术学院 118 | 119 | * PMC-LLaMA (2023-04-27) 120 | * Paper: https://arxiv.org/abs/2304.14454 121 | * Code: https://github.com/chaoyi-wu/PMC-LLaMA 122 | * 基座模型: LLaMA-13B 123 | * 数据: 124 | * PubmedCentral papers (4.8M) 125 | * 院校:上海交通大学未来媒体网络协同创新中心 126 | 127 | * MeChat (2023-04-30) 128 | * Paper: https://arxiv.org/abs/2305.00450 129 | * Code: https://github.com/qiuhuachuan/smile 130 | * License: CC0-1.0 131 | * Model: https://huggingface.co/qiuhuachuan/MeChat 132 | * 基座模型: ChatGLM-6B 133 | * 微调方式: LoRA 134 | * 数据: 135 | * PsyQA 136 | * 院校: 137 | * 西湖大学 138 | * 浙江大学 139 | 140 | * 启真医学大模型 (2023-05-23) 141 | * Code: https://github.com/CMKRG/QiZhenGPT 142 | * License: GPL-3.0 143 | * 基座模型:ChatGLM-6B, CaMA-13B, Chinese-LLaMA-Plus-7B 144 | * 数据: 145 | * 启真医学知识库 146 | * 真实医患知识问答数据 147 | * 在启真医学知识库的药品文本知识基础上,通过对半结构化数据设置特定的问题模板构造的指令数据 148 | * 药品适应症评测数据集 149 | * 算力: 150 | * 7 x NVDIA A800 GPU 80GB 151 | * ChatGLM-6B, 16h20m (2500), 152 | * CaMA-13B, 54h30m (6000) / 114h46m (12400) 153 | * Chinese-LLaMA-Plus-7B, 40h56m (6000) 154 | * 院校:浙江大学 155 | 156 | * XrayGLM (2023-05-23) 157 | * Code: https://github.com/WangRongsheng/XrayGLM 158 | * License: CC BY-NC-SA 4.0 159 | * 基座模型: VisualGLM-6B 160 | * 数据: 161 | * MIMIC-CXR (377K Image + 227K Report) 162 | * Openl (6459 Image + 3955 Report) 163 | * 算力: 4 x NVIDIA A100 GPUs 80GB 164 | * 院校: 澳门理工大学应用科学学院 165 | 166 | * 华佗GPT (HuaTuoGPT) (2023-05-24) 167 | * Papser: https://arxiv.org/abs/2305.15075 168 | * Code: https://github.com/FreedomIntelligence/HuatuoGPT 169 | * License: Apache 2.0 170 | * 基座模型: BLOOMZ-7b1 171 | * 数据: 172 | * 用 ChatGPT 构成的指令数据集 (61K) 173 | * 真实的医生指令集 (70K) 174 | * ChatGPT 角色扮演医患对话数据集 (68K) 175 | * 真实的医患对话数据集 (26K) 176 | * 算力: 177 | * 8 x NVIDIA A100 GPUs, 3 epochs, 16000 steps, 178 | * 院校: 香港中文大学(深圳) 179 | 180 | * MedicalGPT (2023-06-05) 181 | * Code: https://github.com/shibing624/MedicalGPT 182 | * License: Apache 2.0 183 | * 基座模型:Ziya-LLaMA-13B-v1 等 184 | * 数据: 185 | * 医疗数据: 186 | * 240万条中文医疗数据集(包括预训练、指令微调和奖励数据集):shibing624/medical 187 | * 22万条中文医疗对话数据集(华佗项目):FreedomIntelligence/HuatuoGPT-sft-data-v1 188 | * 通用数据: 189 | * 50万条中文ChatGPT指令Belle数据集:BelleGroup/train_0.5M_CN 190 | * 100万条中文ChatGPT指令Belle数据集:BelleGroup/train_1M_CN 191 | * 5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset 192 | * 2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh 193 | * 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanaco_belle_merge_v1.0 194 | * 5万条英文ChatGPT多轮对话数据集:RyokoAI/ShareGPT52K 195 | * 80万条中文ChatGPT多轮对话数据集:BelleGroup/multiturn_chat_0.8M 196 | * 116万条中文ChatGPT多轮对话数据集:fnlp/moss-002-sft-data 197 | * Reward Model datasets 198 | * 原版的oasst1数据集:OpenAssistant/oasst1 199 | * 2万条多语言oasst1的reward数据集:tasksource/oasst1_pairwise_rlhf_reward 200 | * 11万条英文hh-rlhf的reward数据集:Dahoas/full-hh-rlhf 201 | * 9万条英文reward数据集(来自Anthropic's Helpful Harmless dataset):Dahoas/static-hh 202 | * 7万条英文reward数据集(来源同上):Dahoas/rm-static 203 | * 7万条繁体中文的reward数据集(翻译自rm-static)liswei/rm-static-m2m100-zh 204 | * 7万条英文Reward数据集:yitingxie/rlhf-reward-datasets 205 | * 3千条中文知乎问答偏好数据集:liyucheng/zhihu_rlhf_3k 206 | * 作者:徐明 207 | 208 | * ClinicalGPT (2023-06-16) 209 | * Paper: https://arxiv.org/abs/2306.09968 210 | * 基座模型: BLOOM-7B 211 | * 数据: 212 | * cMedQA2 (120K: 10K RM + 4K RL) 213 | * cMedQA-KG (100K) 214 | * MD-EHR (100K) 215 | * MEDQA-MCMLE (34K) 216 | * MedDialog (100K) 217 | * 院校: 北京邮电大学 218 | 219 | * 孙思邈(Sunsimiao) (2023-06-21) 220 | * Code: https://github.com/thomas-yanxin/Sunsimiao 221 | * License: Apache 2.0 222 | * 基座模型: 223 | * Sunsimiao: baichuan-7B 224 | * Sunsimiao-6B: ChatGLM2-6B 225 | * 数据: 226 | * 十万级高质量的中文医疗数据 227 | * 院校: 华东理工大学信息科学与工程学院 228 | 229 | * 神农(ShenNong-TCM) (2023-06-25) 230 | * Code: https://github.com/michael-wzhu/ShenNong-TCM-LLM 231 | * License: Apache 2.0 232 | * 基座模型: Chinese-Alpaca-Plus-7B 233 | * 数据: 234 | * 中医药指令数据集 ShenNong_TCM_Dataset 235 | * 以开源的中医药知识图谱为基础 236 | * 调用ChatGPT得到11w+的围绕中医药的指令数据 237 | * 院校:华东师范大学 238 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | 2 |
6 | 7 |
8 |
9 |
11 | An Awesome Collection for LLM in Chinese 12 |
13 |14 | 收集和梳理中文LLM相关 15 |
16 | 21 | 22 | 23 | 自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个! 24 | 25 | 如果本项目能给您带来一点点帮助,麻烦点个⭐️吧~ 26 | 27 | 同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~ 28 | 29 |  30 | 31 | 常见底座模型细节概览: 32 | | 底座名称 | 模型参数大小 | 训练token数 | 训练最大长度 | 是否可商用 | 33 | |----------|-----------------|-----------|--------|-------| 34 | | ChatGLM | 6B | 1T | 2K | 可商用 | 35 | | ChatGLM2 | 6B | 1.4T | 32K | 可商用 | 36 | | LLaMA | 7B/13B/33B/65B | 1T | 2k | 不可商用 | 37 | | LLaMA2 | 7B/13B/33B/65B | 2T | 4k | 可商用 | 38 | | BLOOM | 1B7/7B1/176B-MT | 1.5T | 2k | 可商用 | 39 | | Baichuan | 7B/13B | 1.2T/1.4T | 4k | 可商用 | 40 | | Falcon | 7B/40B | 1.5T | 2k | 可商用 | 41 | | Qwen | 7B/14B/72B Base&Chat | 2.2T/3T | 8k/32k | 可商用 | 42 | | Aquila | 7B/Chat-7B | - | 2k | 可商用 | 43 | | InternLM | 7B/20B Base&Chat | - | 200k | 可商用 | 44 | | Mixtral | 8x7B Base&Chat | - | 32k | 可商用 | 45 | 46 | ## 目录 47 | - [目录](#目录) 48 | - [1. 模型](#1-模型) 49 | - [1.1 文本LLM模型](#11-文本llm模型) 50 | - [1.2 多模态LLM模型](#12-多模态llm模型) 51 | - [2. 应用](#2-应用) 52 | - [2.1 垂直领域微调](#21-垂直领域微调) 53 | - [医疗](#医疗) 54 | - [法律](#法律) 55 | - [金融](#金融) 56 | - [教育](#教育) 57 | - [科技](#科技) 58 | - [自媒体](#自媒体) 59 | - [电商](#电商) 60 | - [网络安全](#网络安全) 61 | - [农业](#农业) 62 | - [2.2 LangChain应用](#22-langchain应用) 63 | - [2.3 其他应用](#23-其他应用) 64 | - [3. 数据集](#3-数据集) 65 | - [预训练数据集](#预训练数据集) 66 | - [SFT数据集](#sft数据集) 67 | - [偏好数据集](#偏好数据集) 68 | - [4. LLM训练微调框架](#4-llm训练微调框架) 69 | - [5. LLM推理部署框架](#5-llm推理部署框架) 70 | - [6. LLM评测](#6-llm评测) 71 | - [7. LLM教程](#7-llm教程) 72 | - [LLM基础知识](#llm基础知识) 73 | - [提示工程教程](#提示工程教程) 74 | - [LLM应用教程](#llm应用教程) 75 | - [LLM实战教程](#llm实战教程) 76 | - [8. 相关仓库](#8-相关仓库) 77 | - [Star History](#star-history) 78 | 79 | 80 | ### 1. 模型 81 | 82 | #### 1.1 文本LLM模型 83 | 84 | * ChatGLM: 85 | * 地址:https://github.com/THUDM/ChatGLM-6B 86 |  87 | * 简介:中文领域效果最好的开源底座模型之一,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持 88 | * ChatGLM2-6B 89 | * 地址:https://github.com/THUDM/ChatGLM2-6B 90 |  91 | * 简介:基于开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,引入了GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练;基座模型的上下文长度扩展到了 32K,并在对话阶段使用 8K 的上下文长度训练;基于 Multi-Query Attention 技术实现更高效的推理速度和更低的显存占用;允许商业使用。 92 | * ChatGLM3-6B 93 | * 地址:https://github.com/THUDM/ChatGLM3 94 |  95 | * 简介:ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略;更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景;更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B-Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。 96 | * Chinese-LLaMA-Alpaca: 97 | * 地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca 98 |  99 | * 简介:中文LLaMA&Alpaca大语言模型+本地CPU/GPU部署,在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练 100 | * Chinese-LLaMA-Alpaca-2: 101 | * 地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-2 102 |  103 | * 简介:该项目将发布中文LLaMA-2 & Alpaca-2大语言模型,基于可商用的LLaMA-2进行二次开发。 104 | * Chinese-LlaMA2: 105 | * 地址:https://github.com/michael-wzhu/Chinese-LlaMA2 106 |  107 | * 简介:该项目基于可商用的LLaMA-2进行二次开发决定在次开展Llama 2的中文汉化工作,包括Chinese-LlaMA2: 对Llama 2进行中文预训练;第一步:先在42G中文预料上进行训练;后续将会加大训练规模;Chinese-LlaMA2-chat: 对Chinese-LlaMA2进行指令微调和多轮对话微调,以适应各种应用场景和多轮对话交互。同时我们也考虑更为快速的中文适配方案:Chinese-LlaMA2-sft-v0: 采用现有的开源中文指令微调或者是对话数据,对LlaMA-2进行直接微调 (将于近期开源)。 108 | * Llama2-Chinese: 109 | * 地址:https://github.com/FlagAlpha/Llama2-Chinese 110 |  111 | * 简介:该项目专注于Llama2模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。 112 | * Qwen 113 | * 地址:https://github.com/QwenLM/Qwen 114 |  115 | * 简介:通义千问 是阿里云研发的通义千问大模型系列模型,包括参数规模为18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。各个规模的模型包括基础模型Qwen,即Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B,以及对话模型Qwen-Chat,即Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。数据集包括文本和代码等多种数据类型,覆盖通用领域和专业领域,能支持8K的上下文长度,针对插件调用相关的对齐数据做了特定优化,当前模型能有效调用插件以及升级为Agent。 116 | * OpenChineseLLaMA: 117 | * 地址:https://github.com/OpenLMLab/OpenChineseLLaMA 118 |  119 | * 简介:基于 LLaMA-7B 经过中文数据集增量预训练产生的中文大语言模型基座,对比原版 LLaMA,该模型在中文理解能力和生成能力方面均获得较大提升,在众多下游任务中均取得了突出的成绩。 120 | * BELLE: 121 | * 地址:https://github.com/LianjiaTech/BELLE 122 |  123 | * 简介:开源了基于BLOOMZ和LLaMA优化后的一系列模型,同时包括训练数据、相关模型、训练代码、应用场景等,也会持续评估不同训练数据、训练算法等对模型表现的影响。 124 | * Panda: 125 | * 地址:https://github.com/dandelionsllm/pandallm 126 |  127 | * 简介:开源了基于LLaMA-7B, -13B, -33B, -65B 进行中文领域上的持续预训练的语言模型, 使用了接近 15M 条数据进行二次预训练。 128 | * Robin (罗宾): 129 | * 地址:https://github.com/OptimalScale/LMFlow 130 |  131 | * 简介:Robin (罗宾)是香港科技大学LMFlow团队开发的中英双语大语言模型。仅使用180K条数据微调得到的Robin第二代模型,在Huggingface榜单上达到了第一名的成绩。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。 132 | * Fengshenbang-LM: 133 | * 地址:https://github.com/IDEA-CCNL/Fengshenbang-LM 134 |  135 | * 简介:Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,该项目开源了姜子牙通用大模型V1,是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。除姜子牙系列模型之外,该项目还开源了太乙、二郎神系列等模型。 136 | * BiLLa: 137 | * 地址:https://github.com/Neutralzz/BiLLa 138 |  139 | * 简介:该项目开源了推理能力增强的中英双语LLaMA模型。模型的主要特性有:较大提升LLaMA的中文理解能力,并尽可能减少对原始LLaMA英文能力的损伤;训练过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型理解任务求解逻辑;全量参数更新,追求更好的生成效果。 140 | * Moss: 141 | * 地址:https://github.com/OpenLMLab/MOSS 142 |  143 | * 简介:支持中英双语和多种插件的开源对话语言模型,MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 144 | * Luotuo-Chinese-LLM: 145 | * 地址:https://github.com/LC1332/Luotuo-Chinese-LLM 146 |  147 | * 简介:囊括了一系列中文大语言模型开源项目,包含了一系列基于已有开源模型(ChatGLM, MOSS, LLaMA)进行二次微调的语言模型,指令微调数据集等。 148 | * Linly: 149 | * 地址:https://github.com/CVI-SZU/Linly 150 |  151 | * 简介:提供中文对话模型 Linly-ChatFlow 、中文基础模型 Linly-Chinese-LLaMA 及其训练数据。 中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。 152 | * Firefly: 153 | * 地址:https://github.com/yangjianxin1/Firefly 154 |  155 | * 简介:Firefly(流萤) 是一个开源的中文大语言模型项目,开源包括数据、微调代码、多个基于Bloom、baichuan等微调好的模型等;支持全量参数指令微调、QLoRA低成本高效指令微调、LoRA指令微调;支持绝大部分主流的开源大模型,如百川baichuan、Ziya、Bloom、LLaMA等。持lora与base model进行权重合并,推理更便捷。 156 | * ChatYuan 157 | * 地址:https://github.com/clue-ai/ChatYuan 158 |  159 | * 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。 160 | * ChatRWKV: 161 | * 地址:https://github.com/BlinkDL/ChatRWKV 162 |  163 | * 简介:开源了一系列基于RWKV架构的Chat模型(包括英文和中文),发布了包括Raven,Novel-ChnEng,Novel-Ch与Novel-ChnEng-ChnPro等模型,可以直接闲聊及进行诗歌,小说等创作,包括7B和14B等规模的模型。 164 | * CPM-Bee 165 | * 地址:https://github.com/OpenBMB/CPM-Bee 166 |  167 | * 简介:一个完全开源、允许商用的百亿参数中英文基座模型。它采用Transformer自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在CPM-Bee基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。 168 | * TigerBot 169 | * 地址:https://github.com/TigerResearch/TigerBot 170 |  171 | * 简介:一个多语言多任务的大规模语言模型(LLM),开源了包括模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B,基本训练和推理代码,100G预训练数据,涵盖金融、法律、百科的领域数据以及API等。 172 | * 书生·浦语 173 | * 地址:https://github.com/InternLM/InternLM-techreport 174 |  175 | * 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。据悉,“书生·浦语”具有1040亿参数,基于“包含1.6万亿token的多语种高质量数据集”训练而成。 176 | * 书生·浦语2 177 | * 地址:https://github.com/InternLM/InternLM 178 |  179 | * 简介:商汤科技、上海AI实验室联合香港中文大学、复旦大学和上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM2)。InternLM2 在数理、代码、对话、创作等各方面能力都获得了长足进步,综合性能达到开源模型的领先水平。InternLM2 包含两种模型规格:7B 和 20B。7B 为轻量级的研究和应用提供了一个轻便但性能不俗的模型,20B 模型的综合性能更为强劲,可以有效支持更加复杂的实用场景。 180 | * Aquila 181 | * 地址:https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila 182 |  183 | * 简介:由智源研究院发布,Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的tokenizer,升级了BMTrain并行训练方法,是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。也是首个支持中英双语知识、支持商用许可协议、符合国内数据合规需要的大规模开源语言模型。 184 | * Baichuan-7B 185 | * 地址:https://github.com/baichuan-inc/baichuan-7B 186 |  187 | * 简介:Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。该项目发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。 188 | * Baichuan-13B 189 | * 地址:https://github.com/baichuan-inc/Baichuan-13B 190 |  191 | * 简介:由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。 192 | * Baichuan2 193 | * 地址:https://github.com/baichuan-inc/Baichuan2 194 |  195 | * 简介:由百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在多个权威的中文、英文和多语言的通用、领域 benchmark上取得同尺寸最佳的效果,发布包含有7B、13B的Base和经过PPO训练的Chat版本,并提供了Chat版本的4bits量化。 196 | * Anima 197 | * 地址:https://github.com/lyogavin/Anima 198 |  199 | * 简介:由艾写科技开发的一个开源的基于QLoRA的33B中文大语言模型,该模型基于QLoRA的Guanaco 33B模型使用Chinese-Vicuna项目开放的训练数据集guanaco_belle_merge_v1.0进行finetune训练了10000个step,基于Elo rating tournament评估效果较好。 200 | * KnowLM 201 | * 地址:https://github.com/zjunlp/KnowLM 202 |  203 | * 简介:KnowLM项目旨在发布开源大模型框架及相应模型权重以助力减轻知识谬误问题,包括大模型的知识难更新及存在潜在的错误和偏见等。该项目一期发布了基于Llama的抽取大模型智析,使用中英文语料对LLaMA(13B)进行进一步全量预训练,并基于知识图谱转换指令技术对知识抽取任务进行优化。 204 | * BayLing 205 | * 地址:https://github.com/ictnlp/BayLing 206 |  207 | * 简介:一个具有增强的跨语言对齐的通用大模型,由中国科学院计算技术研究所自然语言处理团队开发。百聆(BayLing)以LLaMA为基座模型,探索了以交互式翻译任务为核心进行指令微调的方法,旨在同时完成语言间对齐以及与人类意图对齐,将LLaMA的生成能力和指令跟随能力从英语迁移到其他语言(中文)。在多语言翻译、交互翻译、通用任务、标准化考试的测评中,百聆在中文/英语中均展现出更好的表现。百聆提供了在线的内测版demo,以供大家体验。 208 | * YuLan-Chat 209 | * 地址:https://github.com/RUC-GSAI/YuLan-Chat 210 |  211 | * 简介:YuLan-Chat是中国人民大学GSAI研究人员开发的基于聊天的大语言模型。它是在LLaMA的基础上微调开发的,具有高质量的英文和中文指令。 YuLan-Chat可以与用户聊天,很好地遵循英文或中文指令,并且可以在量化后部署在GPU(A800-80G或RTX3090)上。 212 | * PolyLM 213 | * 地址:https://github.com/DAMO-NLP-MT/PolyLM 214 |  215 | * 简介:一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B)。PolyLM覆盖中、英、俄、西、法、葡、德、意、荷、波、阿、土、希伯来、日、韩、泰、越、印尼等语种,特别是对亚洲语种更友好。 216 | * huozi 217 | * 地址:https://github.com/HIT-SCIR/huozi 218 |  219 | * 简介:由哈工大自然语言处理研究所多位老师和学生参与开发的一个开源可商用的大规模预训练语言模型。 该模型基于 Bloom 结构的70 亿参数模型,支持中英双语,上下文窗口长度为 2048,同时还开源了基于RLHF训练的模型以及全人工标注的16.9K中文偏好数据集。 220 | * YaYi 221 | * 地址:https://github.com/wenge-research/YaYi 222 |  223 | * 简介:雅意大模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。雅意大模型从预训练初始化权重到领域模型的迭代过程中,我们逐步增强了它的中文基础能力和领域分析能力,并增加了多轮对话和部分插件能力。同时,经过数百名用户内测过程中持续不断的人工反馈优化,进一步提升了模型性能和安全性。已开源基于 LLaMA 2 的中文优化模型版本,探索适用于中文多领域任务的最新实践。。 224 | * XVERSE-13B 225 | * 地址:https://github.com/xverse-ai/XVERSE-13B 226 |  227 | * 简介:由深圳元象科技自主研发的支持多语言的大语言模型,使用主流 Decoder-only 的标准Transformer网络结构,支持 8K 的上下文长度(Context Length),为同尺寸模型中最长,构建了 1.4 万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等 40 多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果;基于BPE算法使用上百GB 语料训练了一个词表大小为100,278的分词器,能够同时支持多语言,而无需额外扩展词表。 228 | * Skywork 229 | * 地址:https://github.com/SkyworkAI/Skywork 230 |  231 | * 简介:该项目开源了天工系列模型,该系列模型在3.2TB高质量多语言和代码数据上进行预训练,开源了包括模型参数,训练数据,评估数据,评估方法。具体包括Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。 232 | * Yi 233 | * 地址:https://github.com/01-ai/Yi 234 |  235 | * 简介:该项目开源了Yi-6B和Yi-34B等模型,该系列模型最长可支持200K的超长上下文窗口版本,可以处理约40万汉字超长文本输入,理解超过1000页的PDF文档。 236 | * Yuan-2.0 237 | * 地址:https://github.com/IEIT-Yuan/Yuan-2.0 238 |  239 | * 简介:该项目开源了由浪潮信息发布的新一代基础语言大模型,具体开源了全部的3个模型源2.0-102B,源2.0-51B和源2.0-2B。并且提供了预训练,微调,推理服务的相关脚本。源2.0是在源1.0的基础上,利用更多样的高质量预训练数据和指令微调数据集,令模型在语义、数学、推理、代码、知识等不同方面具备更强的理解能力。 240 | * Chinese-Mixtral-8x7B 241 | * 地址:https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B 242 |  243 | * 简介:该项目基于Mixtral-8x7B稀疏混合专家模型进行了中文扩词表增量预训练,开源了Chinese-Mixtral-8x7B扩词表模型以及训练代码。该模型的的中文编解码效率较原模型显著提高。同时通过在大规模开源语料上进行的增量预训练,该模型具备了强大的中文生成和理解能力。 244 | 245 | #### 1.2 多模态LLM模型 246 | 247 | * VisualGLM-6B 248 | * 地址:https://github.com/THUDM/VisualGLM-6B 249 |  250 | * 简介:一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。依靠来自于 CogView 数据集的30M高质量中文图文对,与300M经过筛选的英文图文对进行预训练。 251 | 252 | * CogVLM 253 | * 地址:https://github.com/THUDM/CogVLM 254 |  255 | * 简介:一个强大的开源视觉语言模型(VLM)。CogVLM-17B 拥有 100 亿视觉参数和 70 亿语言参数。 CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能。CogVLM 能够准确地描述图像,几乎不会出现幻觉。 256 | 257 | * VisCPM 258 | * 地址:https://github.com/OpenBMB/VisCPM 259 |  260 | * 简介:一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型)。VisCPM基于百亿参数量语言大模型CPM-Bee(10B)训练,融合视觉编码器(Q-Former)和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于CPM-Bee基座优秀的双语能力,VisCPM可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。 261 | 262 | * Visual-Chinese-LLaMA-Alpaca 263 | * 地址:https://github.com/airaria/Visual-Chinese-LLaMA-Alpaca 264 |  265 | * 简介:基于中文LLaMA&Alpaca大模型项目开发的多模态中文大模型。VisualCLA在中文LLaMA/Alpaca模型上增加了图像编码等模块,使LLaMA模型可以接收视觉信息。在此基础上,使用了中文图文对数据进行了多模态预训练,对齐图像与文本表示,赋予其基本的多模态理解能力;并使用多模态指令数据集精调,增强其对多模态指令的理解、执行和对话能力,目前开源了VisualCLA-7B-v0.1。 266 | 267 | * LLaSM 268 | * 地址:https://github.com/LinkSoul-AI/LLaSM 269 |  270 | * 简介:第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。目前开源了LLaSM-Chinese-Llama-2-7B、LLaSM-Baichuan-7B等模型与数据集。 271 | 272 | * Qwen-VL 273 | * 地址:https://github.com/QwenLM/Qwen-VL 274 |  275 | * 简介:是阿里云研发的大规模视觉语言模型,可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。特点包括:强大的性能:在四大类多模态任务的标准英文测评中上均取得同等通用模型大小下最好效果;多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。 276 | 277 | ### 2. 应用 278 | 279 | #### 2.1 垂直领域微调 280 | 281 | ##### 医疗 282 | 283 | [](src/Medical.png) 284 | 285 | * DoctorGLM: 286 | * 地址:https://github.com/xionghonglin/DoctorGLM 287 |  288 | * 简介:基于 ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署 289 | 290 | * BenTsao: 291 | * 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 292 |  293 | * 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。 294 | 295 | * BianQue: 296 | * 地址:https://github.com/scutcyr/BianQue 297 |  298 | * 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。 299 | 300 | * HuatuoGPT: 301 | * 地址:https://github.com/FreedomIntelligence/HuatuoGPT 302 |  303 | * 简介:开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型 304 | 305 | * Med-ChatGLM: 306 | * 地址:https://github.com/SCIR-HI/Med-ChatGLM 307 |  308 | * 简介:基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。 309 | 310 | * QiZhenGPT: 311 | * 地址:https://github.com/CMKRG/QiZhenGPT 312 |  313 | * 简介:该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。 314 | 315 | * ChatMed: 316 | * 地址:https://github.com/michael-wzhu/ChatMed 317 |  318 | * 简介:该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。 319 | 320 | * XrayGLM,首个会看胸部X光片的中文多模态医学大模型: 321 | * 地址:https://github.com/WangRongsheng/XrayGLM 322 |  323 | * 简介:该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。 324 | 325 | * MeChat,中文心理健康支持对话大模型: 326 | * 地址:https://github.com/qiuhuachuan/smile 327 |  328 | * 简介:该项目开源的中文心理健康支持通用模型由 ChatGLM-6B LoRA 16-bit 指令微调得到。数据集通过调用gpt-3.5-turbo API扩展真实的心理互助 QA为多轮的心理健康支持多轮对话,提高了通用语言大模型在心理健康支持领域的表现,更加符合在长程多轮对话的应用场景。 329 | 330 | * MedicalGPT 331 | * 地址:https://github.com/shibing624/MedicalGPT 332 |  333 | * 简介:训练医疗大模型,实现包括二次预训练、有监督微调、奖励建模、强化学习训练。发布中文医疗LoRA模型shibing624/ziya-llama-13b-medical-lora,基于Ziya-LLaMA-13B-v1模型,SFT微调了一版医疗模型,医疗问答效果有提升,发布微调后的LoRA权重。 334 | 335 | * Sunsimiao 336 | * 地址:https://github.com/thomas-yanxin/Sunsimiao 337 |  338 | * 简介:Sunsimiao是一个开源的中文医疗大模型,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。 339 | 340 | * ShenNong-TCM-LLM 341 | * 地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM 342 |  343 | * 简介:该项目开源了ShenNong中医药大规模语言模型,该模型以LlaMA为底座,采用LoRA (rank=16)微调得到。微调代码与ChatMed代码库相同。此外该项目还开源了中医药指令微调数据集。 344 | 345 | * SoulChat 346 | * 地址:https://github.com/scutcyr/SoulChat 347 |  348 | * 简介:该项目开源了经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调的心理健康大模型灵心(SoulChat),该模型以ChatGLM-6B作为初始化模型,进行了全量参数的指令微调。 349 | 350 | * CareGPT 351 | * 地址:https://github.com/WangRongsheng/CareGPT 352 |  353 | * 简介:该项目开源了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,包含LLM的训练、测评、部署等以促进医疗LLM快速发展。 354 | 355 | * DISC-MedLLM 356 | * 地址:https://github.com/FudanDISC/DISC-MedLLM 357 |  358 | * 简介:该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到。 359 | 360 | * Taiyi-LLM 361 | * 地址:https://github.com/DUTIR-BioNLP/Taiyi-LLM 362 |  363 | * 简介:该项目由大连理工大学信息检索研究室开发的中英双语医学大模型"太一",收集整理了丰富的中英双语生物医学自然语言处理(BioNLP)训练语料,总共包含38个中文数据集,通过丰富的中英双语任务指令数据(超过100W条样本)进行大模型(Qwen-7B-base)指令微调,使模型具备了出色的中英双语生物医学智能问答、医患对话、报告生成、信息抽取、机器翻译、标题生成、文本分类等多种BioNLP能力。 364 | 365 | * WiNGPT 366 | * 地址:https://github.com/winninghealth/WiNGPT2 367 |  368 | * 简介:WiNGPT是一个基于GPT的医疗垂直领域大模型,基于Qwen-7b1作为基础预训练模型,在此技术上进行了继续预训练,指令微调等,该项目具体开源了WiNGPT2-7B-Base与WiNGPT2-7B-Chat模型。 369 | 370 | * ChiMed-GPT 371 | * 地址:https://github.com/synlp/ChiMed-GPT 372 |  373 | * 简介:ChiMed-GPT是一个开源中文医学大语言模型,通过在中文医学数据上持续训练 Ziya-v2 构建而成,其中涵盖了预训练、有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等训练过程。 374 | 375 | * MindChat 376 | * 地址:https://github.com/X-D-Lab/MindChat 377 |  378 | * 简介:心理大模型——漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑,为用户提供隐私、温暖、安全、及时、方便的对话环境,从而帮助用户克服各种困难和挑战,实现自我成长和发展。MindChat是一个基于Qwen作为基础预训练模型,并在此基础上进行指令微调得到的心理垂域大模型。 379 | 380 | ##### 法律 381 | 382 | [](src/Legal.png) 383 | 384 | * 獬豸(LawGPT_zh): 中文法律对话语言模型 385 | * 地址:https://github.com/LiuHC0428/LAW-GPT 386 |  387 | * 简介: 本项目开源的中文法律通用模型由ChatGLM-6B LoRA 16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。 388 | 389 | * LaWGPT:基于中文法律知识的大语言模型 390 | * 地址:https://github.com/pengxiao-song/LaWGPT 391 |  392 | * 简介:该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。 393 | 394 | * LexiLaw:中文法律大模型 395 | * 地址:https://github.com/CSHaitao/LexiLaw 396 |  397 | * 简介:LexiLaw 是一个基于 ChatGLM-6B微调的中文法律大模型,通过在法律领域的数据集上进行微调。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务,包括具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询。 398 | 399 | * Lawyer LLaMA:中文法律LLaMA 400 | * 地址:https://github.com/AndrewZhe/lawyer-llama 401 |  402 | * 简介:开源了一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数。Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题(以下简称法考)的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。 403 | 404 | * 韩非(HanFei) 405 | * 地址: https://github.com/siat-nlp/HanFei 406 |  407 | * 简介: HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索等。 408 | 409 | * ChatLaw-法律大模型 410 | * 地址:https://github.com/PKU-YuanGroup/ChatLaw 411 |  412 | * 简介:由北大开源的一系列法律领域的大模型,包括ChatLaw-13B(基于姜子牙Ziya-LLaMA-13B-v1训练而来),ChatLaw-33B(基于Anima-33B训练而来,逻辑推理能力大幅提升),ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。 413 | 414 | * lychee_law-律知 415 | * 地址:https://github.com/davidpig/lychee_law 416 |  417 | * 简介:该项目由德国萨尔大学团队和中国南京大学团队合作开发,开源一系列中文司法领域大模型,如Law-GLM-10B: 基于 GLM-10B 模型, 在 30GB 中文法律数据上进行指令微调得到的。 418 | 419 | * 智海-录问(wisdomInterrogatory) 420 | * 地址:https://github.com/zhihaiLLM/wisdomInterrogatory 421 |  422 | * 简介:该项目由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于baichuan-7b进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。 423 | 424 | * 夫子•明察司法大模型 425 | * 地址:https://github.com/irlab-sdu/fuzi.mingcha 426 |  427 | * 简介:该项目由是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能。 428 | 429 | * DISC-LawLLM 430 | * 地址:https://github.com/FudanDISC/DISC-LawLLM 431 |  432 | * 简介:该项目由由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源的法律领域大模型,包括数据集,基于 Baichuan-13B-Base 进行微调的模型,且增加了检索增强模块。 433 | 434 | ##### 金融 435 | 436 | [](src/Financial.png) 437 | 438 | * Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型 439 | * 地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese 440 |  441 | * 简介:开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过中文金融公开数据+爬取的金融数据构建指令数据集,并在此基础上对LLaMA进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于相同的数据,后期还会利用GPT3.5 API构建高质量的数据集,另在中文知识图谱-金融上进一步扩充高质量的指令数据集。 442 | 443 | * BBT-FinCUGE-Applications 444 | * 地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications 445 |  446 | * 简介:开源了中文金融领域开源语料库BBT-FinCorpus,中文金融领域知识增强型预训练语言模型BBT-FinT5及中文金融领域自然语言处理评测基准CFLEB。 447 | 448 | * XuanYuan(轩辕):首个千亿级中文金融对话模型 449 | * 地址:https://github.com/Duxiaoman-DI/XuanYuan 450 |  451 | * 简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。 452 | 453 | * FinGPT 454 | * 地址:https://github.com/AI4Finance-Foundation/FinGPT 455 |  456 | * 简介:该项目开源了多个金融大模型,包括ChatGLM-6B/ChatGLM2-6B+LoRA和LLaMA-7B+LoRA的金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。 457 | 458 | * DISC-FinLLM 459 | * 地址:https://github.com/FudanDISC/DISC-FinLLM 460 |  461 | * 简介:该项目由复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源,项目中开源的资源包括:DISC-FinLLM-SFT训练数据样本,DISC-FinLLM模型参数(基于Baichuan-13B-Chat训练),DISC-Fin-Eval-Benchmark等。 462 | 463 | * Tongyi-Finance 464 | * 地址:https://modelscope.cn/models/TongyiFinance/Tongyi-Finance-14B 465 | * 简介:该模型是针对对金融行业推出的大语言模型,基于通义千问基础模型进行行业语料增量学习,强化金融领域知识和场景应用能力,覆盖金融知识问答、文本分类、信息抽取、文本创作、阅读理解、逻辑推理、多模态、Coding等能力象限。具有以下特点:行业语料增量学习:使用200B高质量金融行业语料进行增量学习,并进行金融行业词表扩展,覆盖丰富的数据类型,支持更大上下文(16k)输入和完整的语义表达。行业能力强化:自研SFT质量&多样性分析工具,筛选高质量SFT数据,解决大语言模型的alignment问题。行业后链路优化:借助multi-agent框架,实现知识库增强和工具API调用。 466 | 467 | ##### 教育 468 | 469 | * 桃李(Taoli): 470 | * 地址:https://github.com/blcuicall/taoli 471 |  472 | * 简介:一个在国际中文教育领域数据上进行了额外训练的模型。项目基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库,构造了共计 88000 条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将知识应用到具体场景中的能力。 473 | 474 | * EduChat: 475 | * 地址:https://github.com/icalk-nlp/EduChat 476 |  477 | * 简介:该项目华东师范大学计算机科学与技术学院的EduNLP团队研发,主要研究以预训练大模型为基底的教育对话大模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。 478 | 479 | * chatglm-maths: 480 | * 地址:https://github.com/yongzhuo/chatglm-maths 481 |  482 | * 简介:基于chatglm-6b微调/LORA/PPO/推理的数学题解题大模型, 样本为自动生成的整数/小数加减乘除运算, 可gpu/cpu部署,开源了训练数据集等。 483 | 484 | * MathGLM: 485 | * 地址:https://github.com/THUDM/MathGLM 486 |  487 | * 简介:该项目由THUDM研发,开源了多个能进行20亿参数可以进行准确多位算术运算的语言模型,同时开源了可用于算术运算微调的数据集。 488 | 489 | * QiaoBan: 490 | * 地址:https://github.com/HIT-SCIR-SC/QiaoBan 491 |  492 | * 简介:该项目旨在构建一个面向儿童情感陪伴的大模型,这个仓库包含:用于指令微调的对话数据/data,巧板的训练代码,训练配置文件,使用巧板进行对话的示例代码(TODO,checkpoint将发布至huggingface)。 493 | 494 | ##### 科技 495 | 496 | * 天文大语言模型StarGLM: 497 | * 地址:https://github.com/Yu-Yang-Li/StarGLM 498 |  499 | * 简介:基于ChatGLM训练了天文大语言模型,以期缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,为接下来可处理天文多模态任务、部署于望远镜阵列的观测Agent——司天大脑(数据智能处理)打下基础。 500 | 501 | * TransGPT·致远: 502 | * 地址:https://github.com/DUOMO/TransGPT 503 |  504 | * 简介:开源交通大模型,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。 505 | 506 | * Mozi: 507 | * 地址:https://github.com/gmftbyGMFTBY/science-llm 508 |  509 | * 简介:该项目开源了基于LLaMA和Baichuan的科技论文大模型,可以用于科技文献的问答和情感支持。 510 | 511 | 512 | ##### 自媒体 513 | 514 | * MediaGPT: 515 | * 地址:https://github.com/IMOSR/MediaGPT 516 |  517 | * 简介:一个针对自媒体领域进行特殊训练的模型,首先在大规模自媒体语料上进行连续预训练,然后ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,开源一系列自媒体领域的指令微调数据和基于LLaMA训练的中文自媒体大模型的参数。 518 | 519 | ##### 电商 520 | 521 | * EcomGPT 522 | * 地址:https://github.com/Alibaba-NLP/EcomGPT 523 |  524 | * 简介:一个由阿里发布的面向电商领域的语言模型,该模型基于BLOOMZ在电商指令微调数据集上微调得到,人工评估在12个电商评测数据集上超过ChatGPT。 525 | 526 | ##### 网络安全 527 | 528 | * SecGPT 529 | * 地址:https://github.com/Clouditera/secgpt 530 |  531 | * 简介:开项目开源了网络安全大模型,该模型基于Baichuan-13B采用Lora做预训练和SFT训练,此外该项目还开源了相关预训练和指令微调数据集等资源。 532 | 533 | ##### 农业 534 | 535 | * 后稷(AgriMa): 536 | * 地址:https://github.com/zhiweihu1103/AgriMa 537 |  538 | * 简介:首个中文开源农业大模型是由山西大学、山西农业大学与The Fin AI联合研发,以Baichuan为底座,基于海量有监督农业领域相关数据微调,具备广泛的农业知识和智能分析能力,该模型旨在为农业领域提供全面而高效的信息处理和决策支持。 539 | * 稷丰(AgriAgent): 540 | * 地址:https://github.com/zhiweihu1103/AgriAgent 541 |  542 | * 简介:首个开源中文农业多模态大模型是由山西农业大学研发,以[MiniCPM-Llama3-V 2.5](https://github.com/OpenBMB/MiniCPM-V)为底座,能够从图像、文本、气象数据等多源信息中提取有用信息,为农业生产提供全面、精准的智能化解决方案。我们致力于将稷丰应用于作物健康监测、病虫害识别、土壤肥力分析、农田管理优化等多个方面,帮助农民提升生产效率,减少资源浪费,促进农业的可持续发展。 543 | 544 | #### 2.2 LangChain应用 545 | 546 | * langchain-ChatGLM: 547 | * 地址:https://github.com/imClumsyPanda/langchain-ChatGLM 548 |  549 | * 简介:基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。建立了全流程可使用开源模型实现的本地知识库问答应用。现已支持使用 ChatGLM-6B 等大语言模型直接接入,或通过 fastchat api 形式接入 Vicuna, Alpaca, LLaMA, Koala, RWKV 等模型。 550 | 551 | * LangChain-ChatGLM-Webui: 552 | * 地址:https://github.com/thomas-yanxin/LangChain-ChatGLM-Webui 553 |  554 | * 简介:利用LangChain和ChatGLM-6B系列模型制作的Webui, 提供基于本地知识的大模型应用。目前支持上传 txt、docx、md、pdf等文本格式文件, 提供包括ChatGLM-6B系列、Belle系列等模型文件以及GanymedeNil/text2vec-large-chinese、nghuyong/ernie-3.0-base-zh、nghuyong/ernie-3.0-nano-zh等Embedding模型。 555 | 556 | * Langchain-ChatGLM-and-TigerBot: 557 | * 地址:https://github.com/wordweb/langchain-ChatGLM-and-TigerBot 558 |  559 | * 简介:该项目在langchain-ChatGLM的基础上补充了加载TigerBot模型的基于本地知识库的问答应用。 560 | 561 | * Chinese-LangChain: 562 | * 地址:https://github.com/yanqiangmiffy/Chinese-LangChain 563 |  564 | * 简介:基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成(包括互联网检索结果接入) 565 | 566 | * Lagent: 567 | * 地址:https://github.com/InternLM/lagent 568 |  569 | * 简介:Lagent 是一个轻量级、开源的基于大语言模型的智能体(agent)框架,支持用户快速地将一个大语言模型转变为多种类型的智能体。具体实现了多种类型的智能体,如经典的 ReAct,AutoGPT 和 ReWoo 等智能体。框架简单易拓展. 只需要不到20行代码你就能够创造出一个你自己的智能体(agent)。同时支持了 Python 解释器、API 调用和搜索三类常用典型工具。灵活支持多个大语言模型. 提供了多种大语言模型支持包括 InternLM、Llama-2 等开源模型和 GPT-4/3.5 等基于 API 的闭源模型。 570 | 571 | * DemoGPT: 572 | * 地址:https://github.com/melih-unsal/DemoGPT 573 |  574 | * 简介:⚡ DemoGPT 使您只需使用提示即可创建快速演示。 ⚡ 575 | 576 | * ChatDev: 577 | * 地址:https://github.com/OpenBMB/ChatDev 578 |  579 | * 简介:ChatDev是一家虚拟软件公司,通过担任不同角色的各种智能代理进行运营,包括首席执行官、首席技术官、程序员、测试员等。 这些代理形成了一个多代理组织结构,并因“通过编程彻底改变数字世界”的使命而团结在一起。 ChatDev中的代理通过参加专门的功能研讨会进行协作,包括设计、编码、测试和记录等任务。 580 | 581 | #### 2.3 其他应用 582 | 583 | * wenda: 584 | * 地址:https://github.com/wenda-LLM/wenda 585 |  586 | * 简介:一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作,实现不亚于于大模型的生成能力。 587 | 588 | * JittorLLMs: 589 | * 地址:https://github.com/Jittor/JittorLLMs 590 |  591 | * 简介:计图大模型推理库:笔记本没有显卡也能跑大模型,具有成本低,支持广,可移植,速度快等优势。 592 | 593 | * LMFlow: 594 | * 地址:https://github.com/OptimalScale/LMFlow 595 |  596 | * 简介:LMFlow是香港科技大学LMFlow团队开发的大模型微调工具箱。LMFlow工具箱具有可扩展性强、高效、方便的特性。LMFlow仅使用180K条数据微调,即可得到在Huggingface榜单第一名的Robin模型。LMFlow支持用户快速训练个性化模型,仅需单张3090和5个小时即可微调70亿参数定制化模型。 597 | 598 | * fastllm: 599 | * 地址:https://github.com/ztxz16/fastllm 600 |  601 | * 简介:纯c++的全平台llm加速库,chatglm-6B级模型单卡可达10000+token / s,支持moss, chatglm, baichuan模型,手机端流畅运行。 602 | 603 | * WebCPM 604 | * 地址:https://github.com/thunlp/WebCPM 605 |  606 | * 简介:一个支持可交互网页搜索的中文大模型。 607 | 608 | * GPT Academic: 609 | * 地址:https://github.com/binary-husky/gpt_academic 610 |  611 | * 简介:为GPT/GLM提供图形交互界面,特别优化论文阅读润色体验,支持并行问询多种LLM模型,支持清华chatglm等本地模型。兼容复旦MOSS, llama, rwkv, 盘古等。 612 | 613 | * ChatALL: 614 | * 地址:https://github.com/sunner/ChatALL 615 |  616 | * 简介:ChatALL(中文名:齐叨)可以把一条指令同时发给多个 AI,可以帮助用户发现最好的回答。 617 | 618 | * CreativeChatGLM: 619 | * 地址:https://github.com/ypwhs/CreativeChatGLM 620 |  621 | * 简介:可以使用修订和续写的功能来生成创意内容,可以使用“续写”按钮帮 ChatGLM 想一个开头,并让它继续生成更多的内容,你可以使用“修订”按钮修改最后一句 ChatGLM 的回复。 622 | 623 | * docker-llama2-chat: 624 | * 地址:https://github.com/soulteary/docker-llama2-chat 625 |  626 | * 简介:开源了一个只需要三步就可以上手LLaMA2的快速部署方案。 627 | 628 | * ChatGLM2-Voice-Cloning: 629 | * 地址:https://github.com/KevinWang676/ChatGLM2-Voice-Cloning 630 |  631 | * 简介:实现了一个可以和喜欢的角色沉浸式对话的应用,主要采用ChatGLM2+声音克隆+视频对话的技术。 632 | 633 | * Flappy 634 | * 地址:https://github.com/pleisto/flappy 635 |  636 | * 简介:一个产品级面向所有程序员的LLM SDK, 637 | 638 | ### 3. 数据集 639 | 640 | #### 预训练数据集 641 | 642 | * MNBVC 643 | * 地址:https://github.com/esbatmop/MNBVC 644 |  645 | * 数据集说明:超大规模中文语料集,不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集,且在持续更新中。 646 | 647 | * WuDaoCorporaText 648 | * 地址:https://data.baai.ac.cn/details/WuDaoCorporaText 649 | * 数据集说明:WuDaoCorpora是北京智源人工智能研究院(智源研究院)构建的大规模、高质量数据集,用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成,分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联,为大模型训练提供坚实的数据支撑。 650 | 651 | * CLUECorpus2020 652 | * 地址:https://github.com/CLUEbenchmark/CLUECorpus2020 653 |  654 | * 数据集说明:通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料,可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。 655 | 656 | * WanJuan-1.0 657 | * 地址:https://opendatalab.org.cn/WanJuan1.0 658 | * 数据集说明:书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。 目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。 659 | 660 | #### SFT数据集 661 | 662 | * RefGPT:基于RefGPT生成大量真实和定制的对话数据集 663 | * 地址:https://github.com/DA-southampton/RedGPT 664 |  665 | * 数据集说明:包括RefGPT-Fact和RefGPT-Code两部分,其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话,RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。 666 | 667 | * COIG 668 | * 地址:https://huggingface.co/datasets/BAAI/COIG 669 | * 数据集说明:维护了一套无害、有用且多样化的中文指令语料库,包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。 670 | 671 | * generated_chat_0.4M: 672 | * 地址:https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M 673 | * 数据集说明:包含约40万条由BELLE项目生成的个性化角色对话数据,包含角色介绍。但此数据集是由ChatGPT产生的,未经过严格校验,题目或解题过程可能包含错误。 674 | 675 | * alpaca_chinese_dataset: 676 | * 地址:https://github.com/hikariming/alpaca_chinese_dataset 677 |  678 | * 数据集说明:根据斯坦福开源的alpaca数据集进行中文翻译,并再制造一些对话数据 679 | 680 | * Alpaca-CoT: 681 | * 地址:https://github.com/PhoebusSi/Alpaca-CoT 682 |  683 | * 数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。 684 | 685 | * pCLUE: 686 | * 地址:https://github.com/CLUEbenchmark/pCLUE 687 |  688 | * 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据,73个Prompt,9个任务。 689 | 690 | * firefly-train-1.1M: 691 | * 地址:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 692 | * 数据集说明:23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 693 | 694 | * BELLE-data-1.5M: 695 | * 地址:https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M 696 |  697 | * 数据集说明:通过self-instruct生成,使用了中文种子任务,以及openai的text-davinci-003接口,涉及175个种子任务 698 | 699 | * Chinese Scientific Literature Dataset: 700 | * 地址:https://github.com/ydli-ai/csl 701 |  702 | * 数据集说明:中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)以及简单的prompt 703 | 704 | * Chinese medical dialogue data: 705 | * 地址:https://github.com/Toyhom/Chinese-medical-dialogue-data 706 |  707 | * 数据集说明:中文医疗对话数据集,包括: