├── Dataset_Source.md ├── Dataset_ZH.md └── README.md /Dataset_Source.md: -------------------------------------------------------------------------------- 1 | 2 | ## 中文数据集网站 3 | 4 | ## 中文数据集收集网站 5 | 6 | | WebSite | Link | 7 | | --- | --- | 8 | | CLUE | https://www.cluebenchmarks.com/dataSet_search.html | 9 | | 千言 | https://www.luge.ai/#/ | 10 | | 天池 | https://tianchi.aliyun.com/dataset?spm=5176.12281949.J_3941670930.21.493e2448HK3FyF | 11 | | 智源指数 | http://cuge.baai.ac.cn/#/ | 12 | | NLPCC | http://tcci.ccf.org.cn/conference/2020/ | 13 | | BienData | https://www.biendata.xyz | 14 | | DataFountain | https://www.datafountain.cn/datasets | 15 | | DataWhale | https://www.heywhale.com/home/dataset | 16 | | AIStudio | https://aistudio.baidu.com/aistudio/datasetoverview | 17 | | Kaggle | https://www.kaggle.com | 18 | 19 | - [⼈⼯智能数据集 - DataFountain](https://www.datafountain.cn/datasets) 20 | 21 | - [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com/) 22 | 23 | - [CLUE](https://www.cluebenchmarks.com/dataSet_search.html) 24 | 25 | - [千言(LUGE)| 全面的中文开源数据集合](https://www.luge.ai/#/) 26 | 27 | - [数据集-阿里系唯一对外开放数据分享平台](https://tianchi.aliyun.com/dataset?spm=5176.12281949.J_3941670930.21.493e2448HK3FyF) 28 | 29 | - [CUGE](http://cuge.baai.ac.cn/#/) 30 | 31 | - [Data Competition Community - Biendata](https://www.biendata.xyz/) 32 | 33 | - [和鲸社区 - Heywhale.com](https://www.heywhale.com/home/dataset) 34 | 35 | - [开放数据集-百度AI Studio - 人工智能学习与实训社区](https://aistudio.baidu.com/aistudio/datasetoverview) 36 | 37 | - [Kaggle: Your Machine Learning and Data Science Community](https://www.kaggle.com/) 38 | 39 | ## 中文github数据集仓库 40 | 41 | - [https://github.com/CLUEbenchmark/CLUEDatasetSearch](https://github.com/CLUEbenchmark/CLUEDatasetSearch) 42 | 43 | - [https://github.com/SophonPlus/ChineseNlpCorpus](https://github.com/SophonPlus/ChineseNlpCorpus) 44 | 45 | - [https://github.com/smoothnlp/FinancialDatasets](https://github.com/smoothnlp/FinancialDatasets) 46 | 47 | - [https://github.com/liucongg/GPT2-NewsTitle](https://github.com/liucongg/GPT2-NewsTitle) 48 | 49 | - [https://github.com/27182812/NLP-dataset](https://github.com/27182812/NLP-dataset) 50 | 51 | - [https://github.com/nocater/baidu_nlp_project2](https://github.com/nocater/baidu_nlp_project2) 52 | 53 | - [https://github.com/haiker2011/awesome-nlp-sentiment-analysis](https://github.com/haiker2011/awesome-nlp-sentiment-analysis) 54 | 55 | - [https://github.com/fighting41love/funNLP](https://github.com/fighting41love/funNLP) 56 | 57 | - [https://github.com/xiaoxiong74/Cool-NLPCV](https://github.com/xiaoxiong74/Cool-NLPCV) 58 | 59 | - [https://github.com/lrs1353281004/Chinese_medical_NLP](https://github.com/lrs1353281004/Chinese_medical_NLP) -------------------------------------------------------------------------------- /Dataset_ZH.md: -------------------------------------------------------------------------------- 1 | # 中文数据集网站 2 | 3 | 4 | 5 | 6 | ## 中文NLP工具 7 | --- 8 | | ToolKit | Intro | Repo | 9 | | --- | --- | --- | 10 | | FastHAN | 中文NLP工具 | [homepage](https://github.com/fastnlp/fastHan) | 11 | | HanNLP | 中文NLP工具 | [homepage](https://github.com/hankcs/HanLP) | 12 | | ZJU-DEEPKG | 知识图谱抽取 | [homepage](https://github.com/zjunlp/DeepKE) | 13 | | THU-NRE | 信息抽取工具 | [homepage](https://github.com/thunlp/OpenNRE) | 14 | | LAC| 15 | | LTP| 16 | 17 | --- 18 | 19 | 20 | | 数据集 | 领域 | 规模 | 下载链接 | 备注 | 论文 | 21 | | --- | --- | --- | --- | --- | --- | 22 | | CCKS2019金融领域篇章级事件主体抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=111237 | ✅ | | 23 | | CCKS2020金融领域篇章级事件要素抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=111211 | ✅ | | 24 | | CCKS2020金融领域篇章级事件主题抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=111209 | ✅ | | 25 | | CCKS2021金融领域篇章级事件元素抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904 | ✅ | | 26 | | CCKS2021金融领域事件因果关系抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901 | ✅ | | 27 | | CCKS2021中文地址相关性数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110146 | ✅ | | 28 | | CCKS2021中文地址要素解析数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339 | ✅ | | 29 | | Chinese Medical Intent Dataset(CMID)中文医学意图数据集CMID | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=92109 | ✅ | | 30 | 31 | ## 命名实体(25) 32 | 33 | | 数据集 | 领域 | 数据集规模 | 下载链接 | 备注 | 论文 | 34 | | --- | --- | --- | --- | --- | --- | 35 | | Weibo | | 2013年11月至2014年12月之间包含了1,890条来自微博的消息。 | https://github.com/hltcoe/golden-horse | ✅ | | 36 | | MSRA | | 数据来源于MSRA,标注形式为BIO,共有46365条语料 | https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data | ✅ | | 37 | | Resume | | 由收集到的简历,标注得到的数据集 | https://github.com/jiesutd/LatticeLSTM | ✅ | r Chinese NER Using Lattice LSTM 38 | . | 39 | | PeopleDaily | | 数据来源为98年人民日报,标注形式为BIO,共有23061条语料 | https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data | ✅ | | 40 | | BDCI2019 | 金融领域新闻 | 每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | https://github.com/cxy229/BDCI2019-SENTIMENT-CLASSIFICATION | ✅ | | 41 | | CMeEE | 中国医学名为实体识别 | 中国医学名为实体识别,是CHIP20204首次发布的数据集,用于CMEEE任务 | https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414 | ✅ | CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark | 42 | | 搜狐2019算法大赛 | 给定若干文章,目标是判断文章的核心实体以及对核心实体的情感态度。 | 每篇文章识别最多三个核心实体,并分别判断文章对上述核心实体的情感倾向(积极、中立、消极三种)。实体:人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的实体词。核心实体:文章主要描述、或担任文章主要角色的实体词 | https://www.biendata.xyz/competition/sohu2019/data/ | ✅ | | 43 | | CCKS2017电子病例命名实体识别 | | 据来源于其云医院平台的真实电子病历数据,共计800条(单个病人单次就诊记录),经脱敏处理 | https://www.biendata.xyz/competition/CCKS2017_2/data/ | ✅ | | 44 | | CCKS2018的电子病历命名实体识别的评测任务 | | 提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体 | https://www.biendata.xyz/competition/CCKS2018_1/data/ | ✅ | | 45 | | CCKS2019面向中文电子病历的医疗实体识别及属性抽取 | | | https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k | ✅ | | 46 | | CCKS2020面向试验鉴定的命名实体识别任务 | | | https://www.biendata.xyz/competition/ccks_2020_8/rules/ | ✅ | | 47 | | CCKS2020面向中文电子病历的医疗实体及事件抽取 | (一)医疗命名实体识别 | | https://www.biendata.xyz/competition/ccks_2020_2_1/rules/ | ✅ | | 48 | | CMID | 中文医疗实体识别,层次文本分类 | | https://github.com/liutongyang/CMID | ✅ | | 49 | | 科大讯飞21医疗实体及关系识别 | | 1)训练集约4000条中文标注数据,2)测试集A约1000条数据,3)测试集B约1000条数据 | https://challenge.xfyun.cn/topic/info?type=medical-entity | | | 50 | | BosonNER | | | https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data | ✅ | | 51 | | 天池-医药 | 中药说明书实体识别 | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819 | ✅ | | 52 | | CAIL2019 | 要素识别 | 件描述中重要事实描述自动抽取出来,并根据领域专家设计的案情要素体系进行分类。案情要素抽取的结果可以用于案情摘要、可解释性的类案推送以及相关知识推荐等司法领域的实际业务需求中 | https://github.com/china-ai-law-challenge/CAIL2019 | ✅ | | 53 | | 天池-地址结构化解析数据集 | | 针对对地址解析,我们并标注了21类标签类型。具体统计如下 | https://tianchi.aliyun.com/dataset/dataDetail?dataId=108780 | ✅ | | 54 | | Youku NER Dataset | 阿里公布的文娱语料 | 数据集提供了文娱领域的NER开放数据集,包括了3大类、9小类实体类别。 | https://tianchi.aliyun.com/dataset/dataDetail?dataId=108771 | ✅ | Better Modeling of Incomplete Annotations for Named Entity Recognition | 55 | | E-Commercial NER Dataset | | 本数据集提供了电商领域的NER开放数据集,包括了4大类、9小类实体类别 | https://tianchi.aliyun.com/dataset/dataDetail?dataId=108758 | ✅ | Better Modeling of Incomplete Annotations for Named Entity Recognition | 56 | | CCKS2021保险领域低资源文档信息抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110099 | ✅ | | 57 | | CCKS2021金融领域事件因果关系抽取数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110901 | ✅ | | 58 | | CCKS2021中文地址相关性数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110146 | ✅ | | 59 | | CCKS2021中文地址要素解析数据集 | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=109339 | ✅ | | 60 | | Chinese Medical Intent Dataset(CMID)中文医学意图数据集CMID | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=92109 | ✅ | | 61 | 62 | ## 关系抽取/联合抽取(6) 63 | 64 | | 数据集 | 领域 | 数据集规模 | 下载链接 | 备注 | 论文 | 65 | | --- | --- | --- | --- | --- | --- | 66 | | DuIE2.0 | 通用新闻 | 包含超过43万三元组数据、21万中文句子及48个预定义的关系类型 | https://www.luge.ai/#/luge/dataDetail?id=5 | | | 67 | | SciCN | 科技文献 | 手动注释的大约,6w+实体和2w+的关系 | | | | 68 | | FinRE | 金融 | 手动注释的财务关系提取数据集FINRE,其中包含44个关系(双向)和18000多个实例 | https://github.com/thunlp/Chinese_NRE | | Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge 69 | | CMeIE | 中文医疗 | CBULE的一部分,数据集中定义了53个关系,其中包括10个同义子关系和其他43个子关系。 | https://tianchi.aliyun.com/cblue?spm=5176.12282016.0.0.140e7474IE2ln0 | | CMeIE: Construction and Evaluation of Chinese Medical Information Extraction Dataset | 70 | | 科大讯飞21 | 医疗实体及关系识别 | 1)训练集约4000条中文标注数据,2)测试集A约1000条数据,3)测试集B约1000条数据 | https://challenge.xfyun.cn/topic/info?type=medical-entity&ch=dc-web-35 | | | 71 | | Chinese-Literature-NER-RE-Dataset | 文学 | 9 types ofrelations among 837 Chinese literature articles, in which 695 articles for training, 84 for testing and the rest 58 for validating. | https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset | | A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text | 72 | 73 | ## 事件抽取(8) 74 | 75 | | 数据集 | 领域 | 数据集规模 | train/dev/test | 下载链接 | 备注 | 论文 | 76 | | --- | --- | --- | --- | --- | --- | --- | 77 | | DuEE1.0 | | DuEE1.0是百度发布的中文事件抽取数据集,包含65个事件类型的1.7万个具有事件信息的句子(2万个事件)。 | | https://www.luge.ai/#/luge/dataDetail?id=6 | ✅ | | 78 | | DuEE-fin | | DuEE-fin是百度最新发布的金融领域篇章级事件抽取数据集,包含13个事件类型的1.17万个篇章。 | | https://www.luge.ai/#/luge/dataDetail?id=7 | ✅ | | 79 | | CCKS2019金融领域篇章级事件主体抽取数据集 | | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=111237 | ✅ | | 80 | | CCKS2020金融领域篇章级事件要素抽取数据集 | | | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=111209 | ✅ | | 81 | | CCKS2021金融领域篇章级事件元素抽取数据集 | | 事件用事件类型和事件要素来表示,该任务旨在从给定的长文本中抽取事件的13个要素,即给定文本T抽取T中的13个事件要素。同时,该任务提供文本所属的事件类型作为输入, | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=110904 | ✅ | | 82 | | IREE | 投资领域细颗粒度风险事件抽取数据集 | 我们将新闻分为5大类、包括市场行为、财报信息、公司运营、信用评估、公司声誉。原始的风险事件一共98个,经过讨论和投票,将相似度较高的(如:收到法院传票、胜诉、败诉)等做了合并精简。最终共计59个风险事件。 | | http://openkg.cn/dataset/iree | ✅ | | 83 | | CEC事件抽取 | | 互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。【CEC 采用了 XML 语言作为标注格式】 | | http://openkg.cn/dataset/cec-data | | | 84 | | 中文医学意图数据集CMID | | Inclusion of 4class and 36class | | https://tianchi.aliyun.com/dataset/dataDetail?dataId=92109 | ✅ | | 85 | 86 | ## 观点抽取(6) 87 | 88 | | 数据集 | 数据集规模 | 下载链接 | 备注 | 论文 | 89 | | --- | --- | --- | --- | --- | 90 | | ASAP | | https://github.com/Meituan-Dianping/asap | ✅ | ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating | 91 | | ChnSentiCorp | | https://huggingface.co/datasets/seamew/ChnSentiCorp | ✅ | An empirical study of sentiment analysis for chinese documents | 92 | | CTB | | https://github.com/Junjieli0704/HUARN | ✅ | Document-level Multi-aspect Sentiment Classification by Jointly Modeling Users, Aspects, and Overall Ratings | 93 | | COTE中文观点抽取数据集 | | https://www.luge.ai/#/luge/dataDetail?id=19 | ✅ | | 94 | | SE-ABSA16_CAME | 价对象抽取任务旨在对于给定的评论文本,自动抽取其中包含的评价对象。该任务是情感分析中的基础任务之一,该数据集覆盖百度、点评和马蜂窝上抓取的数据。 | https://www.luge.ai/#/luge/dataDetail?id=19 | ✅ | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | 95 | | NLPCC14-SC | | | ✅ | | 96 | 97 | ## 知识图谱 98 | 99 | | 小规模有任务数据集 | 规模 | 下载地址b | 备注 | 100 | | --- | --- | --- | --- | 101 | | CCKS2021运营商知识图谱推理问答数据集 | https://tianchi.aliyun.com/dataset/dataDetail?dataId=109340 | | | 102 | | | | | | 103 | 104 | | 数据集 | Size | 数据规模 | 下载地址 | 论文 | 备注 | 105 | | --- | --- | --- | --- | --- | --- | 106 | | ownthink-中文知识图谱 | 1.95g | 1.4亿的关系和三元组 | https://github.com/ownthink/KnowledgeGraphData | | ✅ | 107 | | 中文通用百科知识图谱(CN-DBpedia) | CN-DBpedia目前提供Dump数据下载。包含900万+的百科实体以及6700万+的三元组关系。其中mention2entity信息110万+,摘要信息400万+,标签信息1980万+,infobox信息4100万+ | N-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用 | http://openkg.cn/dataset/cndbpedia |  CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System | ✅ | 108 | | 复旦大学-中文通用概念知识图谱(CN-Probase) | | CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱,包含约1700万实体、27万概念和3300万isa关系 | http://openkg.cn/dataset/cnprobase | | ✅ | 109 | | 东北大学-TechKG | TechKG是一个“中文、面向学术、领域分类明确”的大型知识图谱知识库,目前TechKG分38个领域,共包含超过5千万个实体以及2.6亿个三元组 | 5千万个实体以及2.6亿个三元组 | http://openkg.cn/dataset/techkg | | ✅ | 110 | | ConceptNet5(中文部分) | Concept5中包含的60多万条中文数据。【】 | | http://openkg.cn/dataset/conceptnet5-chinese | ConceptNet是常识知识库。Net5版本已经包含有2800万关系描述。与Cyc相比,CConceptNet比较侧重于词与词之间的关系。从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。 | ✅ | 111 | | 北京大学中文百科知识图谱-PKU-PIE 知识库 | 该数据集提供了本知识库内全领域实体的优质三元组数据集,规模超过5000万条,实体覆盖面广,三元组丰富且质量较高 | | http://openkg.cn/dataset/pku-pie | | 无法下载,考虑发邮件问 | 112 | | 浙江大学—大规模细粒度中文概念图谱OpenConcepts | 是一个基于自动化知识抽取算法的大规模中文概念图谱 | OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体 | http://openkg.cn/dataset/openconcept | | ✅ | 113 | | 开放的数字商业知识图谱(阿里巴巴) | 首个大规模开放数字商业知识图谱AliOpenKG | 第一个版本已包含了超过18亿的三元组,多达67万的核心概念,2681类关系,后面还将持续维护与扩展。 | http://openkg.cn/dataset/aliopenkg | | ✅ | 114 | | WikiData中文部分 | WikiData支持的是以三元组为基础的知识条目(Items)的自由编辑。一个三元组代表一个关于该条目的陈述(Statements)。例如可以给“地球”的条目增加“”的三元组陈述。截止2016年,WikiData已经包含超过2470多万个知识条目。 | | http://openkg.cn/dataset/http-pan-baidu-com-s-1c2ovnks | | | 115 | | Zhishi.me | 2.8g | 过从开放的百科数据中抽取结构化数据,首次尝试构建中文通用知识图谱。目前,已融合了三大中文百科,百度百科,互动百科以及维基百科中的数据。 | http://openkg.cn/dataset/zhishi-me-dump | Zhishi.me - Weaving Chinese Linking Open Data | ✅ | 116 | | DiseaseKG:基于cnSchma常见疾病信息知识图谱 | | 实体:约4.4万实体量级,关系:约31万关系量级 | http://openkg.cn/dataset/disease-information | https://github.com/nuolade/disease-kb | | 117 | | 87万通用领域实体概念描述三元组 | | 87万实体概念描述知识库,基于开放文本挖掘而成,格式为[实体/概念,描述体,置信度] | http://openkg.cn/dataset/concept-desc-kg | | | 118 | | 13万中文简称知识三元组 | | 136081条中文简称知识三元组,涉及高校、商品名称、公司简称等多个领域 | http://openkg.cn/dataset/abbr-knowlege-triples | | | 119 | | 学迹:大规模实时(事件逻辑与概念)事理知识 | | 实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目。包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。截至目前,我们已经积累事件概念描述三元组500余万,因果事件三元组两千余万,概念上下位三元组一百余万。 | http://openkg.cn/dataset/event-concept-graph-xueji | | 无法下载,链接已经失效 | 120 | | NLPIR | | NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据); | http://www.nlpir.org/wordpress/2017/12/02/nlpir微博关注关系语料库100万条/ | | ✅ | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Information Extraction Datasets Collections 2 | 3 | 欢迎大家贡献公开信息抽取数据集(尤其是.中文.信息抽取数据集) 4 | 5 | --- 6 | 2022-02-24-Updated: 7 | TODO: 8 | - [ ] 为中文和英文数据集分别建立一份文档 9 | - [ ] 为每份数据集,提供相关论文介绍 10 | - [ ] 使用预处理的代码进行处理好。 11 | - [ ] 统计实体的类型 +数据集的划分 12 | - [ ] 处理好的上传Drive提供下载链接 13 | 14 | --- 15 | ## Named Entity Recognition 16 | 17 | | Datasets | Domain | Language | Intro | Ent Types | PaperWithCode | Train/Dev/Test(Preprocess Code) | Download | 18 | | --- | --- | --- | --- | --- | --- | --- | --- | 19 | | CoNLL02 | News | English | | | | | [download](https://www.clips.uantwerpen.be/conll2002/ner/) | 20 | | CoNLL03 | News | English | | | | | [download](https://www.clips.uantwerpen.be/conll2003/ner/) | 21 | | ConNLL03 | News | English | | LOC、ORG、PER、MISC | | [doc](https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf) | [download](https://www.clips.uantwerpen.be/conll2003/ner/) | 22 | | CoNLL 2017 | News | | Multilingual: has developed treebanks for 40+ languages with cross-linguistically consistent annotation and recoverability of the original raw texts | | | | [download](https://aclweb.org/portal/content/conll-2017-shared-task-multilingual-parsing-raw-text-universal-dependencies) | 23 | | Cross-lingual Name Tagging| Wiki | 282 Languages| | | | [doc](https://aclanthology.org/P17-1178.pdf) | [download](http://nlp.cs.rpi.edu/wikiann) | 24 | | OntoNotes4.0 | News | English,Chinese,Arabic | | PERSON、NORP、 LOC、 GPE、 PRODUCT、 EVENT、LAW | | [doc](https://catalog.ldc.upenn.edu/docs/LDC2011T03/OntoNotes-Release-4.0.pdf) | [download](https://catalog.ldc.upenn.edu/LDC2011T03) | 25 | | OntoNotes5.0 | News | English, Chinese,Arabic | | | | | [download](https://catalog.ldc.upenn.edu/ldc2013t19) | 26 | | NNE [2019] | News | English | A Dataset for Nested Named Entity Recognition in English Newswire | | | | [download](‣) | 27 | | MSRA | 新闻 | 中文 | | 人物、地点、机构 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/MSRA) | 28 | | WeiBo | 微博 | 中文 | | 地名、人名、机构名、行政区名 | | | | 29 | | Resume | 简历 | 中文 | | 人名、国籍、籍贯、种族、专业、学位、机构、职称 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/ResumeNER) | 30 | | BosonNER | 新闻 | 中文 | | 时间、地点、人名、组织名、公司名、产品名 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/boson) | 31 | | ClueNER | 新闻 | 中文 | | 组织、人名、地址、公司、政府、书籍、游戏、电影、职位、景点 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/cluener_public) | 32 | | People Daily | 新闻 | 中文 | | 地名、机构名、人名 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/people_daily) | 33 | | CCKS2019-Task1 | 电子病历 | 中文 | CCKS2019评测任务一,即“面向中文电子病历的命名实体识别”的数据集 | 实验室检验、影像检查、手术、疾病和诊断、药物、解剖部位 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/yidu-s4k) | 34 | | CCKS2020-Task | | 中文 | 面向试验鉴定的命名实体数据集 | 试验要素、性能指标、系统组成、任务场景 | | | [download](https://www.biendata.xyz/competition/ccks_2020_8/) | 35 | | CCKS2017-2020 | 电子病历 | 中文 | | 症状和体征、检查和检验、疾病和诊断、治疗、身体部位 | | | [download](https://www.biendata.xyz/competition/CCKS2017_2) | 36 | | CCKS2018 | 电子病历 | 中文 | | 解剖部位、症状描述、独立症状、药物、手术 | | | [download](https://www.biendata.xyz/competition/CCKS2018_1) | 37 | | CCKS2019 | 电子病历 | 中文 | | 疾病、诊断、检查、检验、手术、药物、解剖部 | | | [download](https://github.com/GuocaiL/nlp_corpus/tree/main/open_ner_data/2020_ccks_ner。) | 38 | | CCKS2020 | 电子病历 | 中文 | | 疾病、诊断、检查、检验、手术、药物、解剖部位 | | | [download](https://www.biendata.xyz/competition/ccks_2020_2_1/) | 39 | 40 | 41 | ## Relation Extraction 42 | 43 | 44 | | Datasets | Domain | Language | Introduction | Rel Types | PaperWithCode | Train/Dev/Test(Preprocess Code) | Download | 45 | | --- | --- | --- | --- | --- | --- | --- | --- | 46 | | ACE04 | | English | | | | 常用的分割方式:[link1](https://github.com/dwadden/dygiepp), [link2](https://github.com/LorrinWWW/two-are-better-than-one)) | [download](https://catalog.ldc.upenn.edu/LDC2005T09) | 47 | | ACE05 | | English | | | | 常用的分割方式:[link](https://github.com/lavis-nlp/spert) | [download](https://catalog.ldc.upenn.edu/LDC2006T06) | 48 | | Conll04 | News | English | | | | | [download](http://lavis.cs.hs-rm.de/storage/spert/public/datasets/conll04/) | 49 | | GENIA | Bio | English | The GENIA corpus is the primary collection of biomedical literature compiled and annotated within the scope of the GENIA project. The corpus was created to support the development and evaluation of information extraction and text mining systems for the domain of molecular biology.| | | | [download] | 50 | | ADE | Bio , Drug | English | a benchmark corpus to support the automatic extraction of drug-related adverse effects from medical case reports. | | | 注意这里是使用十折交叉验证 | [download](http://lavis.cs.hs-rm.de/storage/spert/public/datasets/ade/) | 51 | | Chempot | BioPapers | English | ChemProt consists of 1,820 PubMed abstracts with chemical-protein interactions annotated by domain experts and was used in the BioCreative VI text mining chemical-protein interactions shared task. | | | | [download](https://biocreative.bioinformatics.udel.edu/news/corpora/chemprot-corpus-biocreative-vi/) | 52 | | SciERC | SciPapers | English | | | | | [download](http://lavis.cs.hs-rm.de/storage/spert/public/datasets/scierc/) | 53 | | DialogRE | Film | English,Chinese | The first human-annotated dialogue-based relation extraction dataset, containing 1,788 dialogues originating from the complete transcripts of a famous American television situation comedy Friends. | | | 5,936 / 1,928/1,858 (36 rels) | [download](https://dataset.org/dialogre/) | 54 | | DocRED | News | English | DocRED是基于维基百科的文档级关系抽取数据集,数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。 | | | | [download](https://huggingface.co/datasets/docred) | 55 | | TACRED | News | English | TACRED is a large-scale relation extraction dataset with 106,264 examples built over newswire and web text. Examples in TACRED cover 41 relation types as used in the TAC KBP challenges | | | | [download](https://nlp.stanford.edu/projects/tacred/) | 56 | | CDR | Sci-Biometrics | English | a human-annotated dataset in the biomedical domain. It consists of 500 documents for train- ing. The task is to predict the binary interactions between Chemical and Disease concepts. | | | 数据预处理处理:[link](https://github.com/fenchri/edge-oriented-graph) | [download]() | 57 | | GDA | Sci-Biometrics | English | a large-scale dataset in the biomedical domain. It contains of 29,92 articles.The task is to predict the binary interactions between Gene and Disease concepts. | | | 数据预处理:[link](https://github.com/fenchri/edge-oriented-graph) | [download]() | 58 | | SciREX | Sci-CS | English | SCIREX is a document level IE dataset that encompasses multiple IE tasks, including salient entity identification and document level N-ary relation identification from scientific articles. The dataset is annotated by integrating automatic and human annotations, leveraging existing scientific knowledge resources | | [sota](https://paperswithcode.com/dataset/scirex) | 数据预处理:[link] | [download](https://github.com/allenai/SciREX/blob/master/scirex_dataset/release_data.tar.gz) | 59 | | SciCN | Sci-CS | 中文 | | | | | [download] | 60 | | NYT-10 | Wiki | English | 由NYT corpus 在2010年基于Freebase远程监督得到的,共包含founders、place_of_birth在内的53种关系(包括一种NA | | | 数据划分和预处理: [CasRel](https://github.com/weizhepei/CasRel) | [download](https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh) | 61 | | WebNLG | Wiki | English | the WebNLG challenge consists in mapping data to text. The training data consists of Data/Text pairs where the data is a set of triples extracted from DBpedia and the text is a verbalisation of these triples | | | 数据划分和预处理:[CasRel](https://github.com/weizhepei/CasRel) | [download](https://drive.google.com/file/d/1zISxYa-8ROe2Zv8iRc82jY9QsQrfY1Vj/view) | 62 | | SemEval-2010-Task8 | News | English | SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集,该数据集包括8000个训练样本,2717个测试样本 | | [link](https://paperswithcode.com/dataset/semeval-2010-task-8) | | [download](https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh) | 63 | | FewRel | Wiki | English | 该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99 | | | | [download](https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_fewrel.sh) | 64 | | Wiki80 | Wiki | English | Wiki80是从数据集FewRel上提取的一个关系数据集,共包含location、part of、follows等80种关系,每种关系个数均为700,共56000个样本。 | | | | [download](https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_wiki80.sh) | 65 | | DuIE2.0 | 新闻 | 中文 | 数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型 | | | | [download](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE) | 66 | | CCKS2019 | 电子病历 | 中文 | 层级关系分类任务,包括三大类(亲属关系、社交关系、师生关系),四中类(配偶、血亲、姻亲、友谊)、35小类(现夫、前妻)种关系类型 | | | | [download](https://github.com/SUDA-HLT/IPRE) | 67 | | Chinese Literature Text | 文学作品 | 中文 | 面向中文文学的一个实体关系数据集,标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体,位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系 | | | | [download](https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset/tree/master/relation_extraction) | 68 | ## Event Extraction 69 | 70 | - TODO 71 | 72 | ## ToolKit 73 | 74 | | ToolKit | Intro | Repo | 75 | | --- | --- | --- | 76 | | Spacy | 英文NLP工具 | [homepage](https://github.com/explosion/spaCy) | 77 | | FastHAN | 中文NLP工具 | [homepage](https://github.com/fastnlp/fastHan) | 78 | | HanNLP | 中文NLP工具 | [homepage](https://github.com/hankcs/HanLP) | 79 | | ZJU-DEEPKG | 知识图谱抽取 | [homepage](https://github.com/zjunlp/DeepKE) | 80 | | THU-NRE | 信息抽取工具 | [homepage](https://github.com/thunlp/OpenNRE) | 81 | 82 | ## More Datasets 83 | 84 | | Forum | Intro | Websit | 85 | | --- | --- | --- | 86 | | Huggface Datasets | | https://huggingface.co/datasets?sort=downloads&search=web | 87 | | Github | | | 88 | | Kaggle | | | 89 | 90 | ## Contact 91 | - 📧yangjing2036@126.com --------------------------------------------------------------------------------