├── .DS_Store
├── .gitignore
├── NER
├── MSRA
│ ├── ReadMe.md
│ ├── link.txt
│ ├── test1.txt
│ ├── testright1.txt
│ ├── train1.txt
│ └── train2pkl.py
├── boson
│ ├── data_util.py
│ ├── license.txt
│ ├── origindata.txt
│ └── readme.md
├── readme.txt
├── renMinRiBao
│ ├── data_renmin_word.py
│ └── renmin.txt
└── weiboNER
│ └── readme.txt
├── THUCNews
└── readme.md
├── dialogue
└── SMP-2019-NLU
│ └── train.json
├── news_sohusite_xml
└── README.md
├── oppo_round1
└── README.md
├── pic
└── image-20200910233858454.png
├── readme.md
├── toutiao text classfication dataset
└── readme.md
└── word_vector
└── readme.md
/.DS_Store:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/InsaneLife/ChineseNLPCorpus/65fc49b20af96c9f1ae159bef7f04b9e56157fda/.DS_Store
--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
1 | !/*/README.*
2 | !/*/readme.*
3 |
--------------------------------------------------------------------------------
/NER/MSRA/ReadMe.md:
--------------------------------------------------------------------------------
1 | # 数据量
2 | 训练集(46,364),测试集(4,365)
3 |
4 |
5 | # reference
6 | - https://faculty.washington.edu/levow/papers/sighan06.pdf
--------------------------------------------------------------------------------
/NER/MSRA/link.txt:
--------------------------------------------------------------------------------
1 | http://www.pudn.com/Download/item/id/2435241.html
--------------------------------------------------------------------------------
/NER/MSRA/train2pkl.py:
--------------------------------------------------------------------------------
1 | #coding:utf-8
2 | from __future__ import print_function
3 | import codecs
4 | import re
5 | import pandas as pd
6 | import numpy as np
7 |
8 | def wordtag():
9 | input_data = codecs.open('train1.txt','r','utf-8')
10 | output_data = codecs.open('wordtag.txt','w','utf-8')
11 | for line in input_data.readlines():
12 | #line=re.split('[,。;!:?、‘’“”]/[o]'.decode('utf-8'),line.strip())
13 | line = line.strip().split()
14 |
15 | if len(line)==0:
16 | continue
17 | for word in line:
18 | word = word.split('/')
19 | if word[1]!='o':
20 | if len(word[0])==1:
21 | output_data.write(word[0]+"/B_"+word[1]+" ")
22 | elif len(word[0])==2:
23 | output_data.write(word[0][0]+"/B_"+word[1]+" ")
24 | output_data.write(word[0][1]+"/E_"+word[1]+" ")
25 | else:
26 | output_data.write(word[0][0]+"/B_"+word[1]+" ")
27 | for j in word[0][1:len(word[0])-1]:
28 | output_data.write(j+"/M_"+word[1]+" ")
29 | output_data.write(word[0][-1]+"/E_"+word[1]+" ")
30 | else:
31 | for j in word[0]:
32 | output_data.write(j+"/o"+" ")
33 | output_data.write('\n')
34 |
35 |
36 | input_data.close()
37 | output_data.close()
38 |
39 | wordtag()
40 | datas = list()
41 | labels = list()
42 | linedata=list()
43 | linelabel=list()
44 |
45 | tag2id = {'' :0,
46 | 'B_ns' :1,
47 | 'B_nr' :2,
48 | 'B_nt' :3,
49 | 'M_nt' :4,
50 | 'M_nr' :5,
51 | 'M_ns' :6,
52 | 'E_nt' :7,
53 | 'E_nr' :8,
54 | 'E_ns' :9,
55 | 'o': 0}
56 |
57 | id2tag = {0:'' ,
58 | 1:'B_ns' ,
59 | 2:'B_nr' ,
60 | 3:'B_nt' ,
61 | 4:'M_nt' ,
62 | 5:'M_nr' ,
63 | 6:'M_ns' ,
64 | 7:'E_nt' ,
65 | 8:'E_nr' ,
66 | 9:'E_ns' ,
67 | 10: 'o'}
68 |
69 |
70 | input_data = codecs.open('wordtag.txt','r','utf-8')
71 | for line in input_data.readlines():
72 | line=re.split('[,。;!:?、‘’“”]/[o]'.decode('utf-8'),line.strip())
73 | for sen in line:
74 | sen = sen.strip().split()
75 | if len(sen)==0:
76 | continue
77 | linedata=[]
78 | linelabel=[]
79 | num_not_o=0
80 | for word in sen:
81 | word = word.split('/')
82 | linedata.append(word[0])
83 | linelabel.append(tag2id[word[1]])
84 |
85 | if word[1]!='o':
86 | num_not_o+=1
87 | if num_not_o!=0:
88 | datas.append(linedata)
89 | labels.append(linelabel)
90 |
91 | input_data.close()
92 | print(len(datas))
93 | print(len(labels))
94 |
95 | from compiler.ast import flatten
96 | all_words = flatten(datas)
97 | sr_allwords = pd.Series(all_words)
98 | sr_allwords = sr_allwords.value_counts()
99 | set_words = sr_allwords.index
100 | set_ids = range(1, len(set_words)+1)
101 | word2id = pd.Series(set_ids, index=set_words)
102 | id2word = pd.Series(set_words, index=set_ids)
103 |
104 | word2id["unknow"] = len(word2id)+1
105 |
106 |
107 | max_len = 50
108 | def X_padding(words):
109 | """把 words 转为 id 形式,并自动补全位 max_len 长度。"""
110 | ids = list(word2id[words])
111 | if len(ids) >= max_len: # 长则弃掉
112 | return ids[:max_len]
113 | ids.extend([0]*(max_len-len(ids))) # 短则补全
114 | return ids
115 |
116 | def y_padding(ids):
117 | """把 tags 转为 id 形式, 并自动补全位 max_len 长度。"""
118 | if len(ids) >= max_len: # 长则弃掉
119 | return ids[:max_len]
120 | ids.extend([0]*(max_len-len(ids))) # 短则补全
121 | return ids
122 |
123 | df_data = pd.DataFrame({'words': datas, 'tags': labels}, index=range(len(datas)))
124 | df_data['x'] = df_data['words'].apply(X_padding)
125 | df_data['y'] = df_data['tags'].apply(y_padding)
126 | x = np.asarray(list(df_data['x'].values))
127 | y = np.asarray(list(df_data['y'].values))
128 |
129 | from sklearn.model_selection import train_test_split
130 | x_train,x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=43)
131 | x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.2, random_state=43)
132 |
133 |
134 | print('Finished creating the data generator.')
135 | import pickle
136 | import os
137 | with open('../dataMSRA.pkl', 'wb') as outp:
138 | pickle.dump(word2id, outp)
139 | pickle.dump(id2word, outp)
140 | pickle.dump(tag2id, outp)
141 | pickle.dump(id2tag, outp)
142 | pickle.dump(x_train, outp)
143 | pickle.dump(y_train, outp)
144 | pickle.dump(x_test, outp)
145 | pickle.dump(y_test, outp)
146 | pickle.dump(x_valid, outp)
147 | pickle.dump(y_valid, outp)
148 | print('** Finished saving the data.')
149 |
150 |
151 |
--------------------------------------------------------------------------------
/NER/boson/data_util.py:
--------------------------------------------------------------------------------
1 | #!/usr/bin/python
2 | # -*- coding: UTF-8 -*-
3 |
4 | from __future__ import print_function
5 | import codecs
6 | import pandas as pd
7 | import numpy as np
8 | import re
9 |
10 | def data2pkl():
11 | datas = list()
12 | labels = list()
13 | linedata=list()
14 | linelabel=list()
15 | tags = set()
16 |
17 | input_data = codecs.open('./wordtagsplit.txt','r','utf-8')
18 | for line in input_data.readlines():
19 | line = line.split()
20 | linedata=[]
21 | linelabel=[]
22 | numNotO=0
23 | for word in line:
24 | word = word.split('/')
25 | linedata.append(word[0])
26 | linelabel.append(word[1])
27 | tags.add(word[1])
28 | if word[1]!='O':
29 | numNotO+=1
30 | if numNotO!=0:
31 | datas.append(linedata)
32 | labels.append(linelabel)
33 |
34 | input_data.close()
35 | print(len(datas),tags)
36 | print(len(labels))
37 | from compiler.ast import flatten
38 | all_words = flatten(datas)
39 | sr_allwords = pd.Series(all_words)
40 | sr_allwords = sr_allwords.value_counts()
41 | set_words = sr_allwords.index
42 | set_ids = range(1, len(set_words)+1)
43 |
44 |
45 | tags = [i for i in tags]
46 | tag_ids = range(len(tags))
47 | word2id = pd.Series(set_ids, index=set_words)
48 | id2word = pd.Series(set_words, index=set_ids)
49 | tag2id = pd.Series(tag_ids, index=tags)
50 | id2tag = pd.Series(tags, index=tag_ids)
51 |
52 | word2id["unknow"] = len(word2id)+1
53 | print(word2id)
54 | max_len = 60
55 | def X_padding(words):
56 | ids = list(word2id[words])
57 | if len(ids) >= max_len:
58 | return ids[:max_len]
59 | ids.extend([0]*(max_len-len(ids)))
60 | return ids
61 |
62 | def y_padding(tags):
63 | ids = list(tag2id[tags])
64 | if len(ids) >= max_len:
65 | return ids[:max_len]
66 | ids.extend([0]*(max_len-len(ids)))
67 | return ids
68 | df_data = pd.DataFrame({'words': datas, 'tags': labels}, index=range(len(datas)))
69 | df_data['x'] = df_data['words'].apply(X_padding)
70 | df_data['y'] = df_data['tags'].apply(y_padding)
71 | x = np.asarray(list(df_data['x'].values))
72 | y = np.asarray(list(df_data['y'].values))
73 |
74 | from sklearn.model_selection import train_test_split
75 | x_train,x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=43)
76 | x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.2, random_state=43)
77 |
78 |
79 | import pickle
80 | import os
81 | with open('../Bosondata.pkl', 'wb') as outp:
82 | pickle.dump(word2id, outp)
83 | pickle.dump(id2word, outp)
84 | pickle.dump(tag2id, outp)
85 | pickle.dump(id2tag, outp)
86 | pickle.dump(x_train, outp)
87 | pickle.dump(y_train, outp)
88 | pickle.dump(x_test, outp)
89 | pickle.dump(y_test, outp)
90 | pickle.dump(x_valid, outp)
91 | pickle.dump(y_valid, outp)
92 | print('** Finished saving the data.')
93 |
94 |
95 |
96 | def origin2tag():
97 | input_data = codecs.open('./origindata.txt','r','utf-8')
98 | output_data = codecs.open('./wordtag.txt','w','utf-8')
99 | for line in input_data.readlines():
100 | line=line.strip()
101 | i=0
102 | while i
25 | - PKU :
26 |
--------------------------------------------------------------------------------
/NER/renMinRiBao/data_renmin_word.py:
--------------------------------------------------------------------------------
1 | # -*- coding: UTF-8 -*-
2 |
3 | from __future__ import print_function
4 | import codecs
5 | import re
6 | import pdb
7 | import pandas as pd
8 | import numpy as np
9 | import collections
10 | def originHandle():
11 | with open('./renmin.txt','r') as inp,open('./renmin2.txt','w') as outp:
12 | for line in inp.readlines():
13 | line = line.split(' ')
14 | i = 1
15 | while i= max_len:
114 | return ids[:max_len]
115 | ids.extend([0]*(max_len-len(ids)))
116 | return ids
117 |
118 | def y_padding(tags):
119 | ids = list(tag2id[tags])
120 | if len(ids) >= max_len:
121 | return ids[:max_len]
122 | ids.extend([0]*(max_len-len(ids)))
123 | return ids
124 | df_data = pd.DataFrame({'words': datas, 'tags': labels}, index=range(len(datas)))
125 | df_data['x'] = df_data['words'].apply(X_padding)
126 | df_data['y'] = df_data['tags'].apply(y_padding)
127 | x = np.asarray(list(df_data['x'].values))
128 | y = np.asarray(list(df_data['y'].values))
129 |
130 | from sklearn.model_selection import train_test_split
131 | x_train,x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=43)
132 | x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.2, random_state=43)
133 |
134 |
135 | import pickle
136 | import os
137 | with open('../renmindata.pkl', 'wb') as outp:
138 | pickle.dump(word2id, outp)
139 | pickle.dump(id2word, outp)
140 | pickle.dump(tag2id, outp)
141 | pickle.dump(id2tag, outp)
142 | pickle.dump(x_train, outp)
143 | pickle.dump(y_train, outp)
144 | pickle.dump(x_test, outp)
145 | pickle.dump(y_test, outp)
146 | pickle.dump(x_valid, outp)
147 | pickle.dump(y_valid, outp)
148 | print('** Finished saving the data.')
149 |
150 |
151 |
152 | originHandle()
153 | originHandle2()
154 | sentence2split()
155 | data2pkl()
156 |
--------------------------------------------------------------------------------
/NER/weiboNER/readme.txt:
--------------------------------------------------------------------------------
1 |
2 |
3 | # 微博实体识别.
4 | - https://github.com/hltcoe/golden-horse
5 | - https://github.com/hltcoe/golden-horse/tree/master/data
6 |
7 |
8 |
--------------------------------------------------------------------------------
/THUCNews/readme.md:
--------------------------------------------------------------------------------
1 | ## 开源协议
2 |
3 | 1. THUCTC面向国内外大学、研究所、企业以及个人研究者免费开放源。
4 | 2. 如有机构或个人拟将THUCTC用于商业目的,请发邮件至thunlp@gmail.com洽谈技术许可协议。
5 | 3. 欢迎对该工具包的任何宝贵意见和建议,请发邮件至thunlp@gmail.com。
6 | 4. 如果您在THUCTC基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了清华大学THUCTC”,并按如下格式引用:
7 | - **中文:孙茂松,李景阳,郭志芃,赵宇,郑亚斌,司宪策,刘知远. THUCTC:一个高效的中文文本分类工具包. 2016.**
8 | - **英文: Maosong Sun, Jingyang Li, Zhipeng Guo, Yu Zhao, Yabin Zheng, Xiance Si, Zhiyuan Liu. THUCTC: An Efficient Chinese Text Classifier. 2016.**
9 |
10 |
11 |
12 | 下载链接:http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
--------------------------------------------------------------------------------
/news_sohusite_xml/README.md:
--------------------------------------------------------------------------------
1 | ## 搜狐新闻数据(SogouCS)版本:2012
2 |
3 | ##### 介绍:
4 |
5 | 来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息
6 |
7 | ##### 格式说明:
8 |
9 | 数据格式为
10 |
11 |
12 |
13 | 页面URL
14 |
15 | 页面ID
16 |
17 | 页面标题
18 |
19 | 页面内容
20 |
21 |
22 |
23 | 注意:content字段去除了HTML标签,保存的是新闻正文文本
24 |
25 | ##### 相关任务:
26 |
27 | 文本分类
28 |
29 | 事件检测跟踪
30 |
31 | 新词发现
32 |
33 | 命名实体识别
34 |
35 | 自动摘要
36 |
37 | ##### 相关资源:
38 |
39 | [全网新闻数据](https://www.sogou.com/labs/resource/ca.php) [互联网语料库](https://www.sogou.com/labs/resource/t.php) [Reuters-21578](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html) [20 Newsgroups](http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.html) [Web KB](http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/)
40 |
41 | ##### 成果列表:
42 |
43 | [Automatic Online News Issue Construction in Web Environment](https://www.sogou.com/labs/paper/Automatic_Online_News_Issue_Construction_in_Web_Environment.pdf)
44 |
45 | Canhui Wang, Min Zhang, Shaoping ma, Liyun Ru, the 17th International World Wide Web Conference (WWW08), Beijing, April, 2008.
46 |
47 | ##### 下载:
48 |
49 | 下载前请仔细阅读“[搜狗实验室数据使用许可协议](https://www.sogou.com/labs/resource/license.php)”
50 |
51 | Please read the "[License for Use of Sogou Lab Data](https://www.sogou.com/labs/resource/license_en.php)" carefully before downloading.
52 |
53 | 迷你版(样例数据, 110KB):[tar.gz格式](http://download.labs.sogou.com/dl/sogoulabdown/SogouCS/news_sohusite_xml.smarty.tar.gz),[zip格式](http://download.labs.sogou.com/dl/sogoulabdown/SogouCS/news_sohusite_xml.smarty.zip)
54 |
55 | 完整版(648MB):[tar.gz格式](https://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouCS/news_sohusite_xml.full.tar.gz),[zip格式](https://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouCS/news_sohusite_xml.full.zip)
56 |
57 | 历史版本:2008版(6KB):完整版(同时提供[硬盘拷贝](https://www.sogou.com/labs/resource/contact.php),65GB):[tar.gz格式](https://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouCS/SogouCS.tar.gz)
58 |
59 | 迷你版(样例数据, 1KB):[tar.gz格式](http://download.labs.sogou.com/dl/sogoulabdown/SogouCS/SogouCS.mini.tar.gz)
60 |
61 | 精简版(一个月数据, 347MB):[tar.gz格式](https://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouCS/SogouCS.reduced.tar.gz)
62 |
63 | 特别版([王灿辉WWW08论文](https://www.sogou.com/labs/paper/Automatic_Online_News_Issue_Construction_in_Web_Environment.pdf)数据, 647KB):[tar.gz格式](http://download.labs.sogou.com/dl/sogoulabdown/SogouCS/SogouCS.WWW08.tar.gz)
64 |
65 |
66 |
67 | 来源: https://www.sogou.com/labs/resource/cs.php
68 |
69 |
--------------------------------------------------------------------------------
/oppo_round1/README.md:
--------------------------------------------------------------------------------
1 | 数据来自天池大数据比赛,是OPPO手机搜索排序query-title语义匹配的问题。
2 |
3 | 数据格式: 数据分4列,\t分隔。
4 |
5 | | 字段 | 说明 | 数据示例 |
6 | | ---------------- | ------------------------------------------------------------ | ------------------------------------------ |
7 | | prefix | 用户输入(query前缀) | 刘德 |
8 | | query_prediction | 根据当前前缀,预测的用户完整需求查询词,最多10条;预测的查询词可能是前缀本身,数字为统计概率 | {“刘德华”: “0.5”, “刘德华的歌”: “0.3”, …} |
9 | | title | 文章标题 | 刘德华 |
10 | | tag | 文章内容标签 | 百科 |
11 | | label | 是否点击 | 0或1 |
12 |
13 | 为了应用来训练DSSM demo,将prefix和title作为正样,prefix和query_prediction(除title以外)作为负样本。
14 |
15 |
16 |
17 | 下载链接:
18 | 链接: https://pan.baidu.com/s/1KzLK_4Iv0CHOkkut7TJBkA?pwd=ju52 提取码: ju52 复制这段内容后打开百度网盘手机App,操作更方便哦
19 |
20 | 本数据仅限用于个人实验,如数据版权问题,请联系chou.young@qq.com 下架。
21 |
--------------------------------------------------------------------------------
/pic/image-20200910233858454.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/InsaneLife/ChineseNLPCorpus/65fc49b20af96c9f1ae159bef7f04b9e56157fda/pic/image-20200910233858454.png
--------------------------------------------------------------------------------
/readme.md:
--------------------------------------------------------------------------------
1 | [TOC]
2 |
3 |
4 | # ChineseNlpCorpus
5 |
6 | 中文自然语言处理数据集,平时做做实验的材料。欢迎补充提交合并。
7 |
8 | # 阅读理解
9 |
10 | 阅读理解数据集按照方法主要有:抽取式、分类(观点提取)。按照篇章又分为单篇章、多篇章,比如有的问题答案可能需要从多个文章中提取,每个文章可能都只是一部分,那么多篇章提取就会面临怎么合并,合并的时候怎么去掉重复的,保留补充的。
11 |
12 | | 名称 | 规模 | 说明 | 单位 | 论文 | 下载 | 评测 |
13 | | -------- | --------------------------- | ---------------------------- | ---- | ----------------------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
14 | | DuReader | 30万问题 140万文档 66万答案 | 问答阅读理解数据集 | 百度 | [链接](https://www.aclweb.org/anthology/W18-2605.pdf) | [链接](https://ai.baidu.com/broad/introduction?dataset=dureader) | [2018 NLP Challenge on MRC](http://mrc2018.cipsc.org.cn/) [2019 Language and Intelligence Challenge on MRC](http://lic2019.ccf.org.cn/) |
15 | | $DuReader_{robust}$ | 2.2万问题 | 单篇章、抽取式阅读理解数据集 | 百度 | | [链接](https://github.com/PaddlePaddle/Research/tree/master/NLP/DuReader-Robust-BASELINE) | [评测](https://aistudio.baidu.com/aistudio/competition/detail/49/?isFromLUGE=TRUE) |
16 | | CMRC 2018 | 2万问题 | 篇章片段抽取型阅读理解 | 哈工大讯飞联合实验室 | [链接](https://www.aclweb.org/anthology/D19-1600.pdf) | [链接](https://github.com/ymcui/cmrc2018) | [第二届“讯飞杯”中文机器阅读理解评测](https://hfl-rc.github.io/cmrc2018/) |
17 | | $DuReader_{yesno}$ | 9万 | 观点型阅读理解数据集 | 百度 | | [链接](https://aistudio.baidu.com/aistudio/competition/detail/49/?isFromLUGE=TRUE) | [评测](https://aistudio.baidu.com/aistudio/competition/detail/49/?isFromLUGE=TRUE) |
18 | | $DuReader_{checklist}$ | 1万 | 抽取式数据集 | 百度 | | [链接](https://aistudio.baidu.com/aistudio/competition/detail/49/?isFromLUGE=TRUE) | |
19 |
20 | # 任务型对话数据
21 |
22 | ## Medical DS
23 |
24 | 复旦大学发布的基于百度拇指医生上真实对话数据的,面向任务型对话的中文医疗诊断数据集。
25 |
26 | | 名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 |
27 | | ---------- | -------------------------- | -------- | ---------- | -------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
28 | | Medical DS | 710个对话 67种症状 4种疾病 | 2018年 | Liu et al. | 复旦大学 | [链接](http://www.sdspeople.fudan.edu.cn/zywei/paper/liu-acl2018.pdf) | [链接](http://www.sdspeople.fudan.edu.cn/zywei/data/acl2018-mds.zip) |
29 |
30 | ## 千言数据集
31 |
32 | 包含知识对话、推荐对话、画像对话。详细见[官网](https://aistudio.baidu.com/aistudio/competition/detail/48/?isFromLUGE=TRUE)
33 | 千言里面还有很多数据集,见:[https://www.luge.ai/#/](https://www.luge.ai/#/)
34 | ## [CATSLU](https://dl.acm.org/doi/10.1145/3340555.3356098)
35 |
36 | 之前的一些对话数据集集中于语义理解,而工业界真实情况ASR也会有错误,往往被忽略。[CATSLU](https://dl.acm.org/doi/10.1145/3340555.3356098)而是一个中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解(而非word or token)。
37 |
38 | 数据统计:
39 |
40 | 
41 |
42 | 官方说明手册:[CATSLU](https://sites.google.com/view/catslu/handbook)
43 | 数据下载:[https://sites.google.com/view/CATSLU/home](https://sites.google.com/view/CATSLU/home)
44 |
45 | ## NLPCC2018 Shared Task 4
46 |
47 | 中文呢真实商用车载语音任务型对话系统的对话日志.
48 |
49 | | 名称 | 规模 | 创建日期 | 作者 | 单位 | 论文 | 下载 | 评测 |
50 | | ----------------------- | ------------------ | -------- | ----------- | ---- | ------------------------------------------------------------ | ------------------------------------------------------------ | ------------------------------------------------------------ |
51 | | NLPCC2018 Shared Task 4 | 5800对话 2.6万问题 | 2018年 | zhao et al. | 腾讯 | [链接](http://tcci.ccf.org.cn/conference/2018/papers/EV33.pdf) | [训练开发集](http://tcci.ccf.org.cn/conference/2018/dldoc/trainingdata04.zip) [测试集](http://tcci.ccf.org.cn/conference/2018/dldoc/tasktestdata04.zip) | [NLPCC 2018 Spoken Language Understanding in Task-oriented Dialog Systems](http://tcci.ccf.org.cn/conference/2018/taskdata.php) |
52 |
53 | NLPCC每年都会举办,包含大量中文数据集,如对话、qa、ner、情感检测、摘要等任务
54 |
55 | ## SMP
56 |
57 | 这是一系类数据集,每年都会有新的数据集放出。
58 | ### SMP-2020-ECDT小样本对话语言理解数据集
59 | > 论文中叫FewJoint 基准数据集,来自于讯飞AIUI开放平台上真实用户语料和专家构造的语料(比例大概为3:7),包含59个真实domain,目前domain最多的对话数据集之一,可以避免构造模拟domain,非常适合小样本和元学习方法评测。其中45个训练domain,5个开发domain,9个测试domain。
60 |
61 | 数据集介绍:[新闻链接](https://mp.weixin.qq.com/s?__biz=MzIxMjAzNDY5Mg==&mid=2650799572&idx=1&sn=509e256c62d80e2866f38e9d026d4af3&chksm=8f47683fb830e129f0ac7d2ff294ad1bd2cad5dc2050ae1ab81a7b108b79a6edcdba3d8030f9&mpshare=1&scene=1&srcid=1007YJCULNtwsRCUx7b35S0m&sharer_sharetime=1602603945222&sharer_shareid=904fa30621d7b898b031f4fdb5da41fc&key=9ae93b5dab71cae000c0dd901c537565d9fac572f40bafa92d79cee849b96fddbdece4d7151bec0f9a1c330dc3a9ddfe5ff4d742eef3165a71be493cd344e6ebc0a34dd5ebc61cb3c519f3a1d765f480cd5fd85d6b45655cc09b9816726ff06c2480b5287346c11ef1a18c0195b51259bd768110b49eb4b7583b40580369bcd2&ascene=1&uin=MTAxMzA5NjY2NQ%3D%3D&devicetype=Windows+10+x64&version=6300002f&lang=zh_CN&exportkey=ATbSQY9SBUjBETt7KZpV%2BIk%3D&pass_ticket=gGOfSeYJMhUPfn3Fbu8lBtWlGjw%2BANSIQ4rgajKq6vxzOW%2Fm%2Bwcw3YkXM0bkiM%2Bz&wx_header=0)
62 |
63 | 数据集论文:https://arxiv.org/abs/2009.08138
64 | 数据集下载地址:https://atmahou.github.io/attachments/FewJoint.zip
65 | 小样本工具平台主页地址:https://github.com/AtmaHou/MetaDialog
66 |
67 | ### SMP-2019-NLU
68 | 包含领域分类、意图识别和语义槽填充三项子任务的数据集。训练数据集下载:[trian.json](./dialogue/SMP-2019-NLU/train.json),目前只获取到训练集,如果有同学有测试集,欢迎提供。
69 |
70 | | | Train |
71 | | ------ | ----- |
72 | | Domain | 24 |
73 | | Intent | 29 |
74 | | Slot | 63 |
75 | | Samples | 2579 |
76 |
77 |
78 |
79 | ### SMP-2017
80 | 中文对话意图识别数据集,官方git和数据: [https://github.com/HITlilingzhi/SMP2017ECDT-DATA](https://github.com/HITlilingzhi/SMP2017ECDT-DATA)
81 |
82 | 数据集:
83 |
84 | | | Train |
85 | | ------------- | ----- |
86 | | Train samples | 2299 |
87 | | Dev samples | 770 |
88 | | Test samples | 666 |
89 | | Domain | 31 |
90 |
91 | 论文:[https://arxiv.org/abs/1709.10217 ](https://arxiv.org/abs/1709.10217)
92 |
93 | # 文本分类
94 |
95 | ## 新闻分类
96 |
97 | - 今日头条中文新闻(短文本)分类数据集 :https://github.com/fateleak/toutiao-text-classfication-dataset
98 | - 数据规模:共**38万条**,分布于15个分类中。
99 | - 采集时间:2018年05月。
100 | - 以0.7 0.15 0.15做分割 。
101 | - 清华新闻分类语料:
102 | - 根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。
103 | - 数据量:**74万篇新闻文档**(2.19 GB)
104 | - 小数据实验可以筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
105 | - http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
106 | - rnn和cnn实验:https://github.com/gaussic/text-classification-cnn-rnn
107 | - 中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145
108 |
109 |
110 |
111 | ## 情感/观点/评论 倾向性分析
112 |
113 | | 数据集 | 数据概览 | 下载 |
114 | | ----------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
115 | | ChnSentiCorp_htl_all | 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb) |
116 | | waimai_10k | 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/waimai_10k/intro.ipynb) |
117 | | online_shopping_10_cats | 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/online_shopping_10_cats/intro.ipynb) |
118 | | weibo_senti_100k | 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb) |
119 | | simplifyweibo_4_moods | 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/simplifyweibo_4_moods/intro.ipynb) |
120 | | dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb) |
121 | | yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb) |
122 | | yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | [地址](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb) |
123 | | 百度千言情感分析数据集 | 包括句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(Opinion Target Extraction) | [地址](https://aistudio.baidu.com/aistudio/competition/detail/50/?isFromLUGE=TRUE) |
124 |
125 |
126 |
127 |
128 |
129 | # 实体识别&词性标注&分词
130 |
131 | - ## 微博实体识别.
132 |
133 | - https://github.com/hltcoe/golden-horse
134 |
135 | - ## boson数据。
136 |
137 | - 包含6种实体类型。
138 | - https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
139 |
140 | - ## 人民日报数据集。
141 |
142 | - 人名、地名、组织名三种实体类型
143 | - 1998:[https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao](https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao)
144 | - 2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
145 | - ## MSRA微软亚洲研究院数据集。
146 |
147 | - 5 万多条中文命名实体识别标注数据(包括地点、机构、人物)
148 | - https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
149 |
150 | - SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。
151 |
152 | - MSR:
153 | - PKU :
154 |
155 | 另外这三个链接里面数据集也挺全的,链接:
156 |
157 | - [分词](https://github.com/luge-ai/luge-ai/blob/master/lexical-analysis/word-segment.md)
158 | - [词性标注](https://github.com/luge-ai/luge-ai/blob/master/lexical-analysis/part-of-speech-tagging.md)
159 | - [命名实体](https://github.com/luge-ai/luge-ai/blob/master/lexical-analysis/name-entity-recognition.md)
160 |
161 | # 句法&语义解析
162 |
163 | ## [依存句法](https://github.com/luge-ai/luge-ai/blob/master/dependency-parsing/dependency-parsing.md)
164 |
165 | ## 语义解析
166 |
167 | - 看方法主要还是转化为分类和ner任务。下载地址:[https://aistudio.baidu.com/aistudio/competition/detail/47/?isFromLUGE=TRUE](https://aistudio.baidu.com/aistudio/competition/detail/47/?isFromLUGE=TRUE)
168 |
169 | | 数据集 | 单/多表 | 语言 | 复杂度 | 数据库/表格 | 训练集 | 验证集 | 测试集 | 文档 |
170 | | :-----: | :-----: | :--: | :----: | :---------: | :----: | :----: | :----: | ------------------------------------------------------------ |
171 | | NL2SQL | 单 | 中文 | 简单 | 5,291/5,291 | 41,522 | 4,396 | 8,141 | [NL2SQL](https://arxiv.org/abs/2006.06434) |
172 | | CSpider | 多 | 中英 | 复杂 | 166/876 | 6,831 | 954 | 1,906 | [CSpider](https://arxiv.org/abs/1909.13293) |
173 | | DuSQL | 多 | 中文 | 复杂 | 200/813 | 22,521 | 2,482 | 3,759 | [DuSQL](https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf) |
174 |
175 |
176 |
177 | # 信息抽取
178 |
179 | - [实体链指](https://github.com/luge-ai/luge-ai/blob/master/information-extraction/entity_linking.md)
180 | - [关系抽取](https://github.com/luge-ai/luge-ai/blob/master/information-extraction/relation-extraction.md)
181 | - [事件抽取](https://github.com/luge-ai/luge-ai/blob/master/information-extraction/event-extraction.md)
182 |
183 | # 搜索匹配
184 |
185 | ## 千言文本相似度
186 |
187 | 百度千言文本相似度,主要包含LCQMC/BQ Corpus/PAWS-X,见[官网](https://aistudio.baidu.com/aistudio/competition/detail/45/?isFromLUGE=TRUE),丰富文本匹配的数据,可以作为目标匹配数据集的源域数据,进行多任务学习/迁移学习。
188 |
189 | ## OPPO手机搜索排序
190 |
191 | OPPO手机搜索排序query-title语义匹配数据集。
192 |
193 | 链接: https://pan.baidu.com/s/1KzLK_4Iv0CHOkkut7TJBkA?pwd=ju52 提取码: ju52
194 |
195 | ## 网页搜索结果评价(SogouE)
196 |
197 | - 用户查询及相关URL列表
198 |
199 | - https://www.sogou.com/labs/resource/e.php
200 |
201 | # 推荐系统
202 |
203 | | 数据集 | 数据概览 | 下载地址 |
204 | | ----------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
205 | | ez_douban | 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据 | [点击查看](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ez_douban/intro.ipynb) |
206 | | dmsc_v2 | 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据 | [点击查看](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/dmsc_v2/intro.ipynb) |
207 | | yf_dianping | 24 万家餐馆,54 万用户,440 万条评论/评分数据 | [点击查看](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_dianping/intro.ipynb) |
208 | | yf_amazon | 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据 | [点击查看](https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/yf_amazon/intro.ipynb) |
209 |
210 | # 百科数据
211 |
212 | ## 维基百科
213 |
214 | 维基百科会定时将语料库打包发布:
215 |
216 | - [数据处理博客](https://blog.csdn.net/wangyangzhizhou/article/details/78348949)
217 | - https://dumps.wikimedia.org/zhwiki/
218 |
219 | ## 百度百科
220 |
221 | 只能自己爬,爬取得链接:`https://pan.baidu.com/share/init?surl=i3wvfil`提取码 neqs 。
222 |
223 |
224 |
225 | # 指代消歧
226 |
227 | CoNLL 2012 :
228 |
229 | # 预训练:(词向量or模型)
230 |
231 | ## BERT
232 |
233 | 1. 开源代码:https://github.com/google-research/bert
234 | 2. 模型下载:[**BERT-Base, Chinese**](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip): Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
235 |
236 | BERT变种模型:
237 |
238 | | 模型 | 参数 | git |
239 | | ------------------------------------------------------------ | ---- | ------------------------------------------------------------ |
240 | | [Chinese-BERT-base](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip) | 108M | [BERT](https://github.com/google-research/bert) |
241 | | [Chinese-BERT-wwm-ext](https://drive.google.com/open?id=1Jzn1hYwmv0kXkfTeIvNT61Rn1IbRc-o8) | 108M | [Chinese-BERT-wwm](https://github.com/ymcui/Chinese-BERT-wwm) |
242 | | [RBT3](https://drive.google.com/open?id=1-rvV0nBDvRCASbRz8M9Decc3_8Aw-2yi) | 38M | [Chinese-BERT-wwm](https://github.com/ymcui/Chinese-BERT-wwm) |
243 | | [ERNIE 1.0 Base 中文](https://ernie-github.cdn.bcebos.com/model-ernie1.0.1.tar.gz) | 108M | [ERNIE](https://github.com/PaddlePaddle/ERNIE)、ernie模型转成tensorflow模型:[tensorflow_ernie](https://github.com/ArthurRizar/tensorflow_ernie) |
244 | | [RoBERTa-large](https://drive.google.com/open?id=1W3WgPJWGVKlU9wpUYsdZuurAIFKvrl_Y) | 334M | [RoBERT](https://github.com/brightmart/roberta_zh) |
245 | | [XLNet-mid](https://drive.google.com/open?id=1342uBc7ZmQwV6Hm6eUIN_OnBSz1LcvfA) | 209M | [XLNet-mid](https://github.com/ymcui/Chinese-PreTrained-XLNet) |
246 | | [ALBERT-large](https://storage.googleapis.com/albert_zh/albert_large_zh.zip) | 59M | [Chinese-ALBERT](https://github.com/brightmart/albert_zh) |
247 | | [ALBERT-xlarge](https://storage.googleapis.com/albert_zh/albert_xlarge_zh_183k.zip) | | [Chinese-ALBERT](https://github.com/brightmart/albert_zh) |
248 | | [ALBERT-tiny](https://storage.googleapis.com/albert_zh/albert_tiny_489k.zip) | 4M | [Chinese-ALBERT](https://github.com/brightmart/albert_zh) |
249 | | [chinese-roberta-wwm-ext](https://www.paddlepaddle.org.cn/hubdetail?name=chinese-roberta-wwm-ext&en_category=SemanticModel) | 108M | [Chinese-BERT-wwm](https://github.com/ymcui/Chinese-BERT-wwm) |
250 | | [chinese-roberta-wwm-ext-large](https://www.paddlepaddle.org.cn/hubdetail?name=chinese-roberta-wwm-ext-large&en_category=SemanticModel) | 330M | [Chinese-BERT-wwm](https://github.com/ymcui/Chinese-BERT-wwm) |
251 |
252 | ## ELMO
253 |
254 | 1. 开源代码:https://github.com/allenai/bilm-tf
255 | 2. 预训练的模型:https://allennlp.org/elmo
256 |
257 | ## 腾讯词向量
258 |
259 | 腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。
260 |
261 | - 下载地址:~~https://ai.tencent.com/ailab/nlp/embedding.html~~,网页已经失效,有网盘链接同学希望分享下
262 |
263 | 下载地址:[https://ai.tencent.com/ailab/nlp/en/download.html](https://ai.tencent.com/ailab/nlp/en/download.html)
264 |
265 |
266 | ## **上百种预训练中文词向量**
267 |
268 | [https://github.com/Embedding/Chinese-Word-Vectors](https://link.zhihu.com/?target=https%3A//github.com/Embedding/Chinese-Word-Vectors)
269 |
270 | # **中文完形填空数据集**
271 |
272 | [https://github.com/ymcui/Chinese-RC-Dataset](https://link.zhihu.com/?target=https%3A//github.com/ymcui/Chinese-RC-Dataset)
273 |
274 |
275 |
276 | # **中华古诗词数据库**
277 |
278 | 最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
279 |
280 | [https://github.com/chinese-poetry/chinese-poetry](https://link.zhihu.com/?target=https%3A//github.com/chinese-poetry/chinese-poetry)
281 |
282 |
283 |
284 |
285 |
286 | # **保险行业语料库**
287 |
288 | [https://github.com/Samurais/insuranceqa-corpus-zh](https://link.zhihu.com/?target=https%3A//github.com/Samurais/insuranceqa-corpus-zh)
289 |
290 |
291 |
292 | # **汉语拆字字典**
293 |
294 | 英文可以做char embedding,中文不妨可以试试拆字
295 |
296 | [https://github.com/kfcd/chaizi](https://link.zhihu.com/?target=https%3A//github.com/kfcd/chaizi)
297 |
298 |
299 |
300 |
301 |
302 | # 中文数据集平台
303 |
304 | - ## **搜狗实验室**
305 |
306 | 搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。
307 |
308 | [https://www.sogou.com/labs/resource/list_pingce.php](https://link.zhihu.com/?target=https%3A//www.sogou.com/labs/resource/list_pingce.php)
309 |
310 | - ## **中科大自然语言处理与信息检索共享平台**
311 |
312 | [http://www.nlpir.org/?action-category-catid-28](https://link.zhihu.com/?target=http%3A//www.nlpir.org/%3Faction-category-catid-28)
313 |
314 | - ## 中文语料小数据
315 |
316 | - 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。
317 | - https://github.com/crownpku/Small-Chinese-Corpus
318 |
319 | - ## 维基百科数据集
320 |
321 | - https://dumps.wikimedia.org/
322 | - 中文维基百科23万条高质量词条数据集(更新至2307):https://huggingface.co/datasets/pleisto/wikipedia-cn-20230720-filtered
323 |
324 |
325 |
326 | # NLP工具
327 |
328 | THULAC: [https://github.com/thunlp/THULAC]( ) :包括中文分词、词性标注功能。
329 |
330 | HanLP:
331 |
332 | 哈工大LTP
333 |
334 | NLPIR
335 |
336 | jieba
337 |
338 | 百度千言数据集:[https://github.com/luge-ai/luge-ai](https://github.com/luge-ai/luge-ai)
339 |
--------------------------------------------------------------------------------
/toutiao text classfication dataset/readme.md:
--------------------------------------------------------------------------------
1 | # 中文文本分类数据集
2 |
3 | 数据来源:
4 |
5 | 今日头条客户端
6 |
7 |
8 |
9 | 数据格式:
10 |
11 | ```
12 | 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
13 | ```
14 |
15 | 每行为一条数据,以`_!_`分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词
16 |
17 |
18 |
19 | 分类code与名称:
20 |
21 | ```
22 | 100 民生 故事 news_story
23 | 101 文化 文化 news_culture
24 | 102 娱乐 娱乐 news_entertainment
25 | 103 体育 体育 news_sports
26 | 104 财经 财经 news_finance
27 | 106 房产 房产 news_house
28 | 107 汽车 汽车 news_car
29 | 108 教育 教育 news_edu
30 | 109 科技 科技 news_tech
31 | 110 军事 军事 news_military
32 | 112 旅游 旅游 news_travel
33 | 113 国际 国际 news_world
34 | 114 证券 股票 stock
35 | 115 农业 三农 news_agriculture
36 | 116 电竞 游戏 news_game
37 | ```
38 |
39 |
40 |
41 | 数据规模:
42 |
43 | 共382688条,分布于15个分类中。
44 |
45 |
46 |
47 | 采集时间:
48 |
49 | 2018年05月
50 |
51 |
52 |
53 | 实验结果:
54 |
55 | 以0.7 0.15 0.15做分割。欢迎提交你使用本数据集的实验结果~
56 |
57 | ```
58 | Test Loss: 0.57, Test Acc: 83.81%
59 |
60 | precision recall f1-score support
61 |
62 | news_story 0.66 0.75 0.70 848
63 |
64 | news_culture 0.57 0.83 0.68 1531
65 |
66 | news_entertainment 0.86 0.86 0.86 8078
67 |
68 | news_sports 0.94 0.91 0.92 7338
69 |
70 | news_finance 0.59 0.67 0.63 1594
71 |
72 | news_house 0.84 0.89 0.87 1478
73 |
74 | news_car 0.92 0.90 0.91 6481
75 |
76 | news_edu 0.71 0.86 0.77 1425
77 |
78 | news_tech 0.85 0.84 0.85 6944
79 |
80 | news_military 0.90 0.78 0.84 6174
81 |
82 | news_travel 0.58 0.76 0.66 1287
83 |
84 | news_world 0.72 0.69 0.70 3823
85 |
86 | stock 0.00 0.00 0.00 53
87 |
88 | news_agriculture 0.80 0.88 0.84 1701
89 |
90 | news_game 0.92 0.87 0.89 6244
91 |
92 | avg / total 0.85 0.84 0.84 54999
93 |
94 |
95 |
96 | 以上Acc较低的原因:
97 |
98 | 1,数据不均衡,部分类目数据太少
99 |
100 | 2,部分分类之间本身模棱两可,例如故事、文化、旅行
101 |
102 | 详见text-class xxxx内代码
103 |
104 | 后续可以优化的地方:
105 |
106 | 1,更多的数据
107 |
108 | 2,更全的分类
109 |
110 | 因为分类不全,例如缺少美食等,导致实际使用时,分哪里都不对的情况出现。
111 |
112 | 3,更均衡的分类数据
113 |
114 | 4,引入正文
115 |
116 | ```
117 |
118 | 下载地址:
119 |
120 | https://github.com/fateleak/toutiao-text-classfication-dataset
--------------------------------------------------------------------------------
/word_vector/readme.md:
--------------------------------------------------------------------------------
1 | # 预训练:(词向量or模型)
2 |
3 | ## BERT
4 |
5 | 1. 开源代码:https://github.com/google-research/bert
6 | 2. 模型下载:[**BERT-Base, Chinese**](https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip): Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
7 |
8 |
9 |
10 | ## ELMO
11 |
12 | 1. 开源代码:https://github.com/allenai/bilm-tf
13 | 2. 预训练的模型:https://allennlp.org/elmo
14 |
15 | ## 腾讯词向量
16 |
17 | 腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。
18 |
19 | - 下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
20 |
21 |
--------------------------------------------------------------------------------