└── README.md /README.md: -------------------------------------------------------------------------------- 1 | 2 | # Legal-ChatGLM: 基于中文法律知识的ChatGLM微调模型 3 | 4 | 本项目开源了经过中文法律相关指令精调/指令微调(Instruct-tuning) 的ChatGLM-6B模型.我们利用开源的基于ChatGPT生成的[法律相关指令微调数据集](https://github.com/AndrewZhe/lawyer-llama),与基于已有司法数据集自动化抽取构建的指令微调数据集, 对ChatGLM-6B进行了指令微调,提高了ChatGLM在司法领域的问答效果. 5 | 6 | ## 数据集构建 7 | 8 | ### 基于ChatGPT生成的指令集合 9 | 来源见[Lawyer-llama](https://github.com/AndrewZhe/lawyer-llama) 10 | ### 法考数据 11 | 将[JEC-QA中国法考数据集](https://jecqa.thunlp.org/)中的试题输入ChatGPT,让其生成对每个答案的解析. 12 | 13 | Input: 14 | 15 | 根据<物权法>,下列关于物权变动的特别规定,表述正确吗? 16 | 因继承或者受遗赠取得物权的,自继承或者受遗赠开始时发生效力 17 | 请给出详细的推理过程之后再给出答案. 18 | 19 | Output: 20 | 21 | 这个表述是正确的. 22 | 根据<物权法>第X条规定:"因继承或者受遗赠取得物权的,自继承或者受遗赠开始时发生效力."这意味着,当一个人通过继承或受遗赠获得物权时,这个物权的效力是从继承或受遗赠开始时就生效的,而不是从物权转移的时间开始生效.这是因为,继承或受遗赠是一种法定的方式来获得物权,因此,物权的效力应该从这个法定的时间点开始生效. 23 | 24 | ### 法律咨询 25 | 从[开放数据集](https://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/OLO4G8)中收集了一些咨询问题,输入ChatGPT,让ChatGPT扮演律师解答问题. 26 | 27 | Input: 28 | 29 | 是这么个回事,关于我儿子今年2月27日背着我们大人买了一台轻便女式摩托车麻烦你帮忙看怎么解决? 30 | 31 | Output: 32 | 33 | 首先,根据法律规定,未满18岁的未成年人是无法独立签订合同的,因此你的儿子在未经你的同意的情况下购买摩托车是无效的.其次,根据<中华人民共和国道路交通安全法>的规定,未满18周岁的人不得驾驶摩托车,因此你的儿子也无权驾驶这辆摩托车.建议你尽快联系卖家,说明情况并要求退货.如果卖家不同意,你可以向消费者协会或相关部门投诉,寻求法律帮助.同时,你也需要对你的儿子进行教育,让他了解道路交通安全法规,避免再次发生类似的情况. 34 | 35 | ### 基于在线法律知识问答构造的指令集 36 | 37 | 来源:[在线法律问答数据](https://www.heywhale.com/mw/dataset/5e953ca8e7ec38002d02fca7/file);[法律知识问答比赛](https://aistudio.baidu.com/aistudio/datasetdetail/89457) 38 | 39 | Input: 40 | 41 | 我离婚了想复婚需要什么手续大概需要多少钱 42 | 43 | Output: 44 | 45 | 应按<市婚姻登记管理办法>第十条、十一条规定的结婚登记程序办理,提供双方必需提供的证件和证明,可以不进行婚前医学检查,但复婚一方当事人要求进行婚前医学检查的除外.下面是广*省的规定:(三)国内居民办理复婚登记离婚后,男女双方自愿恢复夫妻关系的,必须共同到一方户口所在地的婚姻登记管理机关申请复婚登记.申请复婚登记的男女双方除须持与结婚登记相同的证件外,还须持<离婚证>或<解除夫妻关系证明书>.复婚登记的当事人可免婚前健康检查.复婚登记按结婚登记的程序办理,并须在<结婚申请书>上注明""复婚""字样,同时收回双方的<离婚证>或<解除夫妻关系证明书>.建议咨询当地的民政局.这样比较准确.每个地方的处理方式都不一样. 46 | 47 | ### 基于已有司法任务数据集构建的指令集合 48 | 49 | 1、基于CAIL信息抽取任务数据 50 | 51 | Input: 52 | 53 | 被告人朱某某于2018年4月25日至4月27日期间,先后在常州市钟楼区**镇**东大门**路**号门口、**村委**村**号**楼**房间、**路物流港幢号楼一房间等地盗窃作案3次,窃得被害人吴某某、周某某、王某某的电动车、手机等物品. 54 | 55 | Output: 56 | 57 | 上文提到的作案地点是常州市钟楼区**镇**东大门**路**号门口、**村委**村**号**楼**房间、**路物流港幢号楼,作案工具是电动车、手机,作案日期是2018年4月25日至4月27日期间. 58 | 59 | 60 | 2、基于论辩理解任务数据: 61 | 62 | Input: 63 | 64 | 谢家集公安分局侦查结束后即将该案移送谢家集区人民检察院审查起诉要求对被告人王某以涉嫌犯强奸罪审查起诉,可是谢家集区人民检察院经审查后认为证据不足而对被告人王某作出不起诉决定,对此自诉人不服,故依法提起自诉,请求依法追究被告人王某犯强奸罪的刑事责任,判决王某赔偿经济损失38000元. 65 | 66 | Output: 67 | 68 | 辩护人朱某提出的辩护意见是:王某构成强奸罪的事实不清、证据不足,依法不构成强奸罪,同时亦申请非法证据排除,亦未提供相关证据或线索,对自诉人提供的证据认为与事实不符或无关联性. 69 | 70 | 3、其他司法任务数据集等 71 | 72 | ## Finetune训练 73 | 74 | ### 计算资源需求 75 | 76 | 我们在四张V100-32GB显卡上进行了训练,batchsize为128. 77 | 78 | ## 新闻 79 | 80 | [2023/5/2] 开源了构造的数据集 81 | 82 | ## 模型参数下载 83 | 84 | 施工中.... 85 | 86 | ## To-do list 87 | 88 | - [ ] 开源更大规模的指令微调数据 89 | 90 | - [ ] 开源微调后的模型参数 91 | 92 | - [ ] 开源构建转换已有数据的脚本 93 | 94 | ## 致谢 95 | 96 | 本项目参考了以下开源项目和开源数据集,在此对相关项目和研究开发人员表示感谢. 97 | 98 | - ChatGLM: [https://github.com/THUDM/ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B) 99 | - ChatGLM-Instruct-Tuning: [https://github.com/thinksoso/ChatGLM-Instruct-Tuning/issues](https://github.com/thinksoso/ChatGLM-Instruct-Tuning/issues) 100 | - Lawyer-llama:https://github.com/AndrewZhe/lawyer-llama 101 | - CAIL:https://github.com/china-ai-law-challenge/CAIL2022 102 | 103 | ## 项目参与者 104 | 105 | 本项目贡献人员: 106 | 费志伟,申宗汶,葛季栋* 107 | 108 | 指导老师 :葛季栋副教授 109 | 110 | 111 | 112 | ## 免责声明 113 | 本项目相关资源仅供学术研究之用,严禁用于商业用途.使用涉及第三方代码的部分时,请严格遵循相应的开源协议.模型生成的内容受模型计算、随机性和量化精度损失等因素影响,本项目无法对其准确性作出保证.对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任. 114 | 115 | ## Citation 116 | 如果你使用了本项目的数据或者代码,请声明引用. 117 | ``` 118 | @misc{Legal-ChatGLM, 119 | author={Zhiwei Fei,Zongwen Shen,JiDong Ge}, 120 | title = {Legal-ChatGLM: 基于中文法律知识的ChatGLM微调模型}, 121 | year = {2023}, 122 | publisher = {GitHub}, 123 | journal = {GitHub repository}, 124 | howpublished = {\url{https://github.com/NJU-LegalAI/Legal-ChatGLM}}, 125 | } 126 | ``` 127 | 128 | --------------------------------------------------------------------------------