├── README.md ├── zh-data-part-00.json └── zh-data-part-01.json /README.md: -------------------------------------------------------------------------------- 1 | # alpaca-chinese-dataset 2 | 3 | alpaca中文指令微调数据集 4 | 5 | ## TODO 6 | - 每份数据的生成方法待补充 7 | - 清洗关键词及规则待补充 8 | 9 | ## 格式 10 | - 与原始alpaca数据json格式相同 11 | 12 | ## 方法 13 | 14 | ### 数据生成 15 | - 机器翻译 16 | - self-instruct 17 | 18 | ### 数据清洗 19 | 20 | ### 样例 21 | 22 | ``` json 23 | [ 24 | { 25 | "instruction": "根据给定的坐标确定最近的机场。", 26 | "input": "40.728157, -73.794853", 27 | "output": "距给定坐标最近的机场是纽约市的拉瓜迪亚机场 (LGA)。" 28 | }, 29 | { 30 | "instruction": "输出不同种类水果的列表", 31 | "input": "", 32 | "output": "1. 苹果\n2. 香蕉\n3. 橘子\n4. 芒果\n5. 草莓\n6. 葡萄\n7. 蓝莓\n8. 樱桃\n9. 猕猴桃\n10. 甜瓜\n11.菠萝\n12. 李子\n13.桃子" 33 | }, 34 | { 35 | "instruction": "找出字串中隐藏的信息", 36 | "input": "业余咖啡", 37 | "output": "隐藏的消息是“咖啡因爱好者”。" 38 | } 39 | ] 40 | ``` 41 | --------------------------------------------------------------------------------