├── .DS_Store ├── .github └── FUNDING.yml ├── 2017_知乎看山杯机器学习竞赛_多标签文本分类.md ├── 2018_机器阅读理解技术竞赛.md ├── 2019_CCKS_全国知识图谱与语义计算大会.md ├── 2019_中国法研杯.md ├── 2019_全国社交媒体处理大_拓尔思杯中文隐式情感分析评测.md ├── 2019_全国社交媒体处理大会_第二届文本溯源技术评测.md ├── 2019_搜狐校园算法大赛_内容识别.md ├── 2019_语言与智能技术竞赛_信息抽取.md ├── 2019_语言与智能技术竞赛_机器阅读理解.md ├── 2019_语言与智能技术竞赛_知识驱动对话.md ├── AI_Challenger_2018_细粒度用户评论情感分析.md ├── AI_Challenger_2018_英中文本机器翻译.md ├── AI_Challenger_2018_观点型阅读理解.md ├── ATEC_问题相似度匹配.md ├── ByteCup_2018_国际机器学习竞赛_自动标题生成.md ├── DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md ├── DataFountain_AIIA杯_国际安全事件关系发现.md ├── DataFountain_健康医疗问答系统构建与实现.md ├── DataFountain_垃圾短信基于文本内容识别.md ├── DataFountain_基于主题的文本情感分析.md ├── DataFountain_基于大数据的未知病原检测方法构建.md ├── DataFountain_基于机构实体的智能摘要和风险等级识别.md ├── DataFountain_基于视角的领域情感分析.md ├── DataFountain_机器写作与人类写作的巅峰对决_文本分类.md ├── DataFountain_汽车行业_用户观点及情感识别.md ├── DataFountain_让AI当法官.md ├── Kaggle_Gendered_Pronoun_Resolution.md ├── Kaggle_Quora_Insincere_Questions_Classification.md ├── Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md ├── Kesci_PaddlePaddle_AI大赛_智能问答.md ├── Kesci_默克杯逆合成反应预测大赛.md ├── NLPCC2019_成语阅读理解大赛.md ├── README.md ├── WSDM_Cup_2019_真假新闻甄别.md ├── biendata_"达观杯"文本智能信息抽取挑战赛.md ├── references ├── .DS_Store ├── AI_Word_Cup攻略_刘辉_新华智云.pdf └── WSDM2019_Fake_News_Classification │ ├── report1.pdf │ ├── report2.pdf │ └── report3.pdf ├── “中国法研杯”司法人工智能挑战赛.md ├── “莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md ├── “达观”杯文本智能处理挑战赛.md ├── 全国并行应用挑战赛_PAC2017_情感分类.md ├── 天池平台_2019_Future_Food_Challenge.md ├── 天池平台_2019_首届中文NL2SQL挑战赛.md ├── 天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛.md ├── 天池平台_CIKM_AnalytiCup_2018_跨语言_短文本匹配大赛.md ├── 天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md └── 第三届魔镜杯大赛_问题相似度匹配.md /.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/.DS_Store -------------------------------------------------------------------------------- /.github/FUNDING.yml: -------------------------------------------------------------------------------- 1 | # These are supported funding model platforms 2 | 3 | github: # Replace with up to 4 GitHub Sponsors-enabled usernames e.g., [user1, user2] 4 | patreon: # Replace with a single Patreon username 5 | open_collective: # Replace with a single Open Collective username 6 | ko_fi: # Replace with a single Ko-fi username 7 | tidelift: # Replace with a single Tidelift platform-name/package-name e.g., npm/babel 8 | custom: # Replace with a single custom sponsorship URL 9 | -------------------------------------------------------------------------------- /2017_知乎看山杯机器学习竞赛_多标签文本分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/2017_知乎看山杯机器学习竞赛_多标签文本分类.md -------------------------------------------------------------------------------- /2018_机器阅读理解技术竞赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/2018_机器阅读理解技术竞赛.md -------------------------------------------------------------------------------- /2019_CCKS_全国知识图谱与语义计算大会.md: -------------------------------------------------------------------------------- 1 | ## 全国知识图谱与语义计算大会-赛道 2 | 3 | (1)[面向中文短文本的实体链指](https://biendata.com/competition/ccks_2019_el/) 4 | 5 | 面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking),是NLP领域的基础任务之一,即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。 6 | 7 | 传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下: 8 | 9 | (1)口语化严重,导致实体歧义消解困难; 10 | 11 | (2)短文本上下文语境不丰富,须对上下文语境进行精准理解; 12 | 13 | (3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。 14 | 15 | 输入: 16 | 输入文件包括若干行中文短文本。 17 | 18 | 输出: 19 | 输出文本每一行包括此中文短文本的实体识别与链指结果,需识别出文本中所有mention(包括实体与概念),每个mention包含信息如下:mention在给定知识库中的ID,mention名和在中文短文本中的位置偏移。 20 | 21 | **示例:** 22 | 23 | **输入:** 24 | 25 | ``` 26 | { 27 | "text_id":"1", 28 | "text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia" 29 | } 30 | ``` 31 | 32 | **输出:** 33 | 34 | ``` 35 | { 36 | "text_id":"1", 37 | "text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia" 38 | "mention_data":[ 39 | { 40 | "kb_id":"278410", 41 | "mention":"比特币", 42 | "offset":"0" 43 | }, 44 | { 45 | "kb_id":"199602", 46 | "mention":"央行", 47 | "offset":"9" 48 | }, 49 | { 50 | "kb_id":"215472", 51 | "mention":"界面新闻", 52 | "offset":"18" 53 | } 54 | ] 55 | } 56 | ``` 57 | 说明: 58 | 对于实体有歧义的查询 ,系统应该有能力来区分知识库中链接的候选实体中哪个实体为正确链指的实体结果。例如,知识库中有3个不同的实体都可能是『比特币』的正确链指结果,但在给定的上下文中,有足够的信息去区分这些候选实体哪个才是应该被关联的结果。 59 | 60 | [具体数据介绍](https://biendata.com/competition/ccks_2019_el/data/) 61 | 62 | (2)[人物关系抽取](https://biendata.com/competition/ccks_2019_ipre/) 63 | 64 | **关于评测方案:** 65 | 66 | 给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。从以下两个方面进行评测: 67 | 68 | 1. Sent-Track:从句子级别上根据给定句子预测给定人物实体对的关系 69 | 输入:一组人物实体对和包含该实体对的一个句子 70 | 输出:该人物实体对的关系 71 | 样例一: 72 | 输入:贾玲\t冯巩\t贾玲,80后相声新秀,师承中国著名相声表演艺术家冯巩。 73 | 输出:人物关系/师生关系/老师 74 | 75 | 2. Bag-Track:从包级别上根据给定句子集合预测给定人物实体对的关系 76 | 输入:一组人物实体对和包含该实体对的若干句子 77 | 输出:该人物实体对的关系 78 | 样例二: 79 | 输入: 80 | - 袁汤\t袁安\t从袁安起,几代位列三公(司徒、司空、太尉),出过诸如袁汤、袁绍、袁术等历史上著名人物。 81 | - 袁汤\t袁安\t袁汤(公元67年—153年),字仲河,河南汝阳(今河南商水西南人,名臣袁安之孙,其家族为东汉时期的汝南袁氏。 82 | 输出: 83 | 袁汤\t袁安\t人物关系/亲属关系/血亲/自然血亲/祖父母/爷爷 NA 84 | 85 | 说明:若有多个关系,则输出多个关系。 86 | 87 | **关于数据集:** 88 | 89 | 评测数据主要来源于互联网网页文本,其中验证集和测试集是通过人工进行标注的,而训练集是通过远程监督(Distant Supervision)自动生成的。 90 | 91 | 92 | 93 | (3)[中文知识图谱问答](https://biendata.com/competition/ccks_2019_6/) 94 | 95 | **输入:** 96 | 97 | 输入文件包含若干行中文问句。 98 | 99 | **输出:** 100 | 101 | 输出文件每一行对应一个问题的答案列表,列表内元素以\t分隔。 102 | 103 | **示例** 104 | 105 | **输入:** 106 | 107 | q1:徐峥和黄渤共同出演的电影有哪些? 108 | 109 | q2:俄罗斯的首都有多少人口? 110 | 111 | q3:北京亦庄投资控股有限公司持股京东方科技集团股份有限公司的比例是多少? 112 | 113 | **输出:** 114 | 115 | <人再囧途之泰囧>\t<疯狂的石头>\t<印囧> 116 | 117 | "14150000" 118 | 119 | "3.57%" 120 | 121 | 这个比赛,个人比较感兴趣的是知识库。任务中使用PKU BASE作为指定知识图谱。PKU BASE用于该任务的版本下载地址为:https://pan.baidu.com/s/1MOv9PCTcALVIiodUP4bQ2Q 密码:hcu8。参赛选手可以下载数据集后使用相应的知识库管理系统(例如gStore系统:http://gstore-pku.com/ )进行存储和查询。同时,为方便参赛选手完成任务,我们也提供PKU BASE的在线查询终端,选手可以通过浏览器或调用API进行SPARQL查询。详情访问http://pkubase.gstore-pku.com/。 122 | 123 | [关于SPARQL的介绍](https://www.w3.org/TR/rdf-sparql-query/),类似于SQL语句,实现对以三元组形式存储的知识图谱进行查询。 124 | 125 | 126 | 127 | 128 | (4)[面向金融领域的事件主题抽取](https://biendata.com/competition/ccks_2019_4/) 129 | 130 | 本次评测任务的主要目标是从**真实的新闻语料**中,抽取**特定事件类型的主体**。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。 131 | 132 | 输入:一段文本,事件类型S 133 | 134 | 输出:事件主体 135 | 136 | 示例: 137 | 样例1 138 | 输入:”公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”, “产品出现问题” 139 | 输出: “公司A” 140 | 141 | 样例2 142 | 输入:“公司A高管涉嫌违规减持”,“交易违规” 143 | 输出: “公司A” 144 | 145 | (5)[公众公司公告信息抽取](https://biendata.com/competition/ccks_2019_5/) 146 | 147 | 任务一:表格中的信息点提取 148 | 149 | 输入:公共公司的年报**pdf文件** 150 | 151 | 输出:该表格所对应的结构化数据(json格式) 152 | 153 | 任务二:文本段落中的信息点提取 154 | 155 | 输入:人事变动类公告**pdf文件** 156 | 157 | 输出:包含离职高管信息和继任者信息的结构化数据(json格式) -------------------------------------------------------------------------------- /2019_中国法研杯.md: -------------------------------------------------------------------------------- 1 | ## 赛道 2 | 3 | [大赛地址](http://cail.cipsc.org.cn/index.html) 4 | 5 | (1)阅读理解 6 | 7 | 篇章片段抽取型阅读理解比赛,为了增加问题的多样性,参考英文阅读理解比赛SQuAD和CoQA,本比赛**增加了拒答以及是否类(YES/NO)问题**。 8 | 9 | 训练集约包含4万个问题,开发集和测试集各约5000个问题。 10 | 对于开发集和测试集,每个问题包含3个人工标注参考答案。 11 | 12 | 提供了两组基线模型,包括BiDAF模型和基于BERT的基线模型 13 | 14 | (2)要素识别 15 | 16 | 三种类型的法律文书,多标签分类,提供了基于SVM实现的基线模型。 17 | 18 | 19 | (3)相似案例匹配 20 | 21 | **训练数据:** 22 | 23 | 每份数据由三篇法律文书组成。 24 | 25 | 对于每篇法律文书,我们仅提供事实描述。 26 | 27 | 对于每份数据,我们用(d, d1, d2)来代表该组数据,其中d,d1,d2均对应某一篇文书。 28 | 29 | 对于训练数据,我们保证,我们的文书数据d与d1的相似度是大于d与d2的相似度的,即sim(d, d1) > sim(d, d2)。 30 | 31 | 我们的数据总共涉及三万组文书三元对,所有的文书三元组对都一定属于民间借贷、知识产权纠纷和海商海事案件中的某一种。 32 | 33 | **测试数据:** 34 | 35 | 每组测试数据的形式与训练数据一致为(d1, d2, d3)但是此时我们不再保证sim(d, d1) > sim(d, d2)。 36 | 选手需要预测最终的结果是sim(d, d1) > sim(d, d2)还是sim(d, d1) < sim(d, d2)。 37 | 如果预测正确,那么该测试点选手可以得到1分,否则是0分。 38 | 39 | 提供了两组基线模型,包括基于tf-idf的基线模型和基于bert的语言基线模型。 40 | -------------------------------------------------------------------------------- /2019_全国社交媒体处理大_拓尔思杯中文隐式情感分析评测.md: -------------------------------------------------------------------------------- 1 | ### 赛题背景 2 | 3 | [赛题地址](http://biendata.com/competition/smpecisa2019/) 4 | 5 | 显式情感分析已经得到了非常多的研究,但是隐式情感分析并没有。 6 | 7 | 赛方将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。 8 | 9 | 为什么这个问题是重要的?根据赛方对收集的文本数据的标注结果,隐式情感句占总情感句的**15%-20%**左右。 10 | 11 | ### 样例分析 12 | 13 | 例1: 14 | 15 | 你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感) 16 | 17 | 例2: 18 | 19 | 有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感) 20 | 21 | 例3: 22 | 23 | 我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感) 24 | 25 | ### 数据介绍 26 | 27 | 数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。 28 | 29 | 训练集: 30 | 31 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 32 | |------|------|------|------|------| 33 | |12664|14774|3828|3957|6989| 34 | 35 | 验证集: 36 | 37 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 38 | |------|------|------|------|------| 39 | |4391|5143|1232|1358|2553| 40 | 41 | 测试集: 42 | 43 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 44 | |------|------|------|------|------| 45 | |6380|3800|919|979|1902| 46 | 47 | ### 评价指标 48 | 49 | 宏平均准确率(P)、召回率(R)及F1值。 50 | 51 | 52 | ### 思考 53 | 54 | (1)长尾问题处理。很多传统的问题具有较为丰富的研究,但是长尾问题的研究比较少,例如这种隐式情感分析的问题。挖掘现有任务中的长尾场景着重研究,确实是一个方向。正如搜索场景下,对长尾问题的处理是搜索硬实力的体现。 55 | 56 | (2)问题的可分性,难易度。虽然第一直觉可能是建模为分类,但是由于问题内在的特性,导致传统的方法可能不是非常有效,需要对问题本身做针对性的思考和处理。这正是建模中可能最有趣的部分。 57 | 58 | -------------------------------------------------------------------------------- /2019_全国社交媒体处理大会_第二届文本溯源技术评测.md: -------------------------------------------------------------------------------- 1 | [大赛地址](https://biendata.com/competition/smpetst2019/) 2 | 3 | ## 比赛内容 4 | 5 | 文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。可以应用在学术诚信检测、搜索引擎优化等领域。 6 | 7 | 2018年,比赛围绕句子级的文本溯源评测,即给定一个待查句子和一个源句子集S,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。 8 | 9 | 2019年,在2018年句子级文本溯源评测的基础上,开展文档级文本溯源。 10 | 11 | ## 文本改编 12 | 13 | 对抄袭文本的改编包括但不限于: 14 | 15 | 1)文本操作,对文本进行混排、删除、插入词或短语等方式生成新文本; 16 | 17 | 2)语义词汇变换,进行同义词、反义词等替换该词生成新文本; 18 | 19 | 3)句法变换,即通过句法变换的方式进行改写; 20 | 21 | 4)释义修改,即要求志愿者在理解的基础上重新撰写。 22 | 23 | ## 文本溯源的一般流程 24 | 25 | ![img](https://biendata-cdn.b0.upaiyun.com/media/competition/2019/05/14/etst.png) 26 | 27 | -------------------------------------------------------------------------------- /2019_搜狐校园算法大赛_内容识别.md: -------------------------------------------------------------------------------- 1 | ### 比赛内容 2 | 3 | 给定若干文章,判断文章的核心实体(每篇文章识别最多三个核心实体)以及对核心实体的情感态度(积极、中立、消极三种)。其中,实体词是指人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的词。而核心实体则是文章主要描述,或担任文章主要角色的实体词。因此,该任务可以简单理解为命名实体识别相关任务+情感分析,处理的上下文是整篇文章而非一句话或者几句话形成的段落。 4 | 5 | ### 数据介绍 6 | 7 | |文章ID|主实体1|主实体2|主实体3|态度1|态度2|态度3| 8 | |------|------|------|------|------|------|------| 9 | |1|搜狐|||积极|| 10 | 11 | ### 评测方案 12 | 13 | Score(Final) = 0.5\*Score(Entity)+0.5\*Score(Sentiment),其中Score(Entity/Sentiment)均为F1得分 14 | 15 | ### 赛前分析 16 | 17 | 实体分析区别于传统的人名,地名和机构名的识别,粒度更细,种类更多,这是难点和特色之一; 18 | 19 | 针对实体的情感分析也是特色,相关任务包括面向切面的情感分析,基于视角的情感分析等,在该Repo中也有相关比赛出现; 20 | 21 | 篇章级的分析,和天池瑞金比赛的复赛阶段任务-关系分类,情景类似,在处理的时候需要处理好篇章上下文的问题; 22 | 23 | 模型的问题,除了尝试BERT之外,百度最近的ERNIE仍旧是非常值得一试的预训练模型; 24 | 25 | 分析至此,静等比赛结束,进行方案复盘。 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_信息抽取.md: -------------------------------------------------------------------------------- 1 | ### 前言 2 | 3 | 这个比赛和[天池平台\_瑞金医院MMC人工智能辅助构建知识图谱大赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E5%B9%B3%E5%8F%B0_%E7%91%9E%E9%87%91%E5%8C%BB%E9%99%A2MMC%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E8%BE%85%E5%8A%A9%E6%9E%84%E5%BB%BA%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%A4%A7%E8%B5%9B.md)的解决思路类似。主要特色在于数据集,官方提到该数据集是业界规模最大的基于schema的中文信息抽取数据集,数据集中的句子来自百度百科和百度信息流文本。 4 | 5 | ### 数据分析 6 | 7 | 43万三元组数据,21万中文句子和50个已经定义好的schema。官方已经划分了训练集/验证集/测试集,统计如下表: 8 | 9 | |训练集|验证集|测试集| 10 | |------|------|------| 11 | |17W|2W|2W| 12 | 13 | ### 赛前想法 14 | 15 | 正值比赛期间百度放出ERNIE的工作,训练数据相比BERT,由三类组成:百科类,新闻资讯类,对话类。而且BERT用于句子分类比赛,目前已经可以看到在多个比赛任务上取得优秀的成绩。因此,基于ERNIE或者BERT做FineTuning,依然是一个值得尝试的思路。 -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_机器阅读理解.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/2019_语言与智能技术竞赛_机器阅读理解.md -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_知识驱动对话.md: -------------------------------------------------------------------------------- 1 | ### baseline分析 2 | 3 | 官方提供了基于检索式的实现(PaddlePaddle)和基于生成式的实现(PyTorch),这部分主要讨论生成式的方案。 4 | 5 | #### 1.数据构建 6 | 7 | ![img1](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g15pmhur6oj20sg0lcjy3.jpg) 8 | 9 | #### 2.源码结构 10 | 11 | ![img2](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g15pm1ydy9j20mi0bbac1.jpg) -------------------------------------------------------------------------------- /AI_Challenger_2018_细粒度用户评论情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/AI_Challenger_2018_细粒度用户评论情感分析.md -------------------------------------------------------------------------------- /AI_Challenger_2018_英中文本机器翻译.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/AI_Challenger_2018_英中文本机器翻译.md -------------------------------------------------------------------------------- /AI_Challenger_2018_观点型阅读理解.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/AI_Challenger_2018_观点型阅读理解.md -------------------------------------------------------------------------------- /ATEC_问题相似度匹配.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/ATEC_问题相似度匹配.md -------------------------------------------------------------------------------- /ByteCup_2018_国际机器学习竞赛_自动标题生成.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/ByteCup_2018_国际机器学习竞赛_自动标题生成.md -------------------------------------------------------------------------------- /DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md: -------------------------------------------------------------------------------- 1 | 2 | 该比赛任务定义简单,问题经典。但是目前只能看到部分解决方案的分享,主要包括比赛的第三名(部分分享)和第五名的方案,借此可以简单梳理一下经典的统计机器学习方法。 3 | 4 | ### 背景 5 | 6 | 电力行业积累了大量的文本数据,这些数据包括电力科技论文,项目报告,电力规程,电力操作手册等。虽然数据类型丰富,但是电力行业还没有建立较全的电力主题词典。 7 | 8 | ### 任务 9 | 10 | 对给定的电力文本数据,利用专业领域词发现算法来挖掘电力专业词汇。 11 | 12 | ### 数据 13 | 14 | 包含10000篇电力科技论文(已打乱顺序)的文本数据,其中每行为文献中的一句话且句子间已经被无序打乱。 15 | 16 | ### 评测 17 | 18 | ROUGE = 用户提交的正确词汇去重后的总数 / 人工抽取的电力领域词汇总数 19 | 20 | ### 建模思路 21 | 22 | 或许可以采用监督学习的思路,可以建模为一个命名实体识别的任务。但是比赛方提供的数据没有标签,因此需要解决的第一个问题是标签哪里来的问题?一种方法是将电力领域的科技论文的关键词(摘要下侧)作为实体。 23 | 24 | 官方提供的数据没有标注信息,因此采用无监督的思路或许也是一个方法。比如新词发现任务,借助传统统计机器学习的方法。 25 | 26 | ### 方案复盘(第五名,目前能看到的) 27 | 28 | ![img2](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g1h6yhe85lj20j10gojtt.jpg) 29 | 30 | 该方案是无监督的方案。可以将种子词理解为“搜索词”,候选词集理解为“召回集”,相似度计算对应一个“排序过程”,这样就可以理解的相对清晰了,模型的优点和缺点也容易分析。该框架不仅可以适用于电力领域,也可以适用于其他领域的词汇挖掘。在数据量较大的前提下,如果将模型层的一些方法替换成DL的方法,或许可以进一步提升。 31 | 32 | ### 补充 33 | 34 | 目前只能找到第三名和第五名的方案,第三名的方案如下: 35 | 36 | ![img](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g1h671ltvtj20fe0bjwpu.jpg) 37 | 38 | 除此之外,还可以看到一些方案。通过构建一个二分类器(给定一个词,判断是否是电力领域专业词汇)的实现,通过构建大量的特征来进行讨论,这也是一个思路,但是仍然要回到有监督学习问题中标签的构建问题。标签不一定要比赛方提供,存在于互联网上的大量数据本来就可以当做一种标签。 39 | 40 | ### 参考 41 | 42 | 1.[第五名](https://zhuanlan.zhihu.com/p/54375522) 43 | 44 | 2.[某参赛者的一个实现](https://github.com/yizt/aiia_elec_miner) 45 | 46 | 3.[新词发现的信息熵方法与实现](https://spaces.ac.cn/archives/3491) -------------------------------------------------------------------------------- /DataFountain_AIIA杯_国际安全事件关系发现.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_AIIA杯_国际安全事件关系发现.md -------------------------------------------------------------------------------- /DataFountain_健康医疗问答系统构建与实现.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_健康医疗问答系统构建与实现.md -------------------------------------------------------------------------------- /DataFountain_垃圾短信基于文本内容识别.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_垃圾短信基于文本内容识别.md -------------------------------------------------------------------------------- /DataFountain_基于主题的文本情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_基于主题的文本情感分析.md -------------------------------------------------------------------------------- /DataFountain_基于大数据的未知病原检测方法构建.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_基于大数据的未知病原检测方法构建.md -------------------------------------------------------------------------------- /DataFountain_基于机构实体的智能摘要和风险等级识别.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_基于机构实体的智能摘要和风险等级识别.md -------------------------------------------------------------------------------- /DataFountain_基于视角的领域情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_基于视角的领域情感分析.md -------------------------------------------------------------------------------- /DataFountain_机器写作与人类写作的巅峰对决_文本分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_机器写作与人类写作的巅峰对决_文本分类.md -------------------------------------------------------------------------------- /DataFountain_汽车行业_用户观点及情感识别.md: -------------------------------------------------------------------------------- 1 | ### 比赛背景 2 | 3 | 数据为用户在汽车论坛中对汽车相关内容的讨论和评价,典型的如汽车之家(该平台是一个大的数据来源地,值得注意)。 4 | 5 | ### 数据说明 6 | 7 | |字段名称|类型|描述|说明| 8 | |------|------|------|------| 9 | |content_id|Int|数据ID|/| 10 | |content|String|文本内容|/| 11 | |subject|String|主题|提取或者依据上下文归纳出来的主题| 12 | |sentiment_value|Int|情感分析|分析出的情感| 13 | |sentiment_word|String|情感词|情感词| 14 | 15 | 其中subject包括10类:动力,价格,内饰,配置,安全性,外观,操控,油耗,空间,舒适性。 16 | 17 | sentiment\_value包括三类:中立(0),正向(1)和负向(-1)。 18 | 19 | 每个content\_id可能对应多个subject,每个subject一行记录。 20 | 21 | sentiment\_word大部分为空。 22 | 23 | 测试时的输入字段为content\_id和content,输出字段包括subject,sentiment\_value和sentiment\_word。 24 | 25 | ### 评估指标 26 | 27 | F1得分,只对subject和sentiment\_value进行评估,忽略sentiment\_word。 28 | 29 | ### 思路分析 30 | 31 | 已经给定了主题的种类和数目,同时一个content可能对应多个subject。一种典型的建模思路是多标签分类。给定content和subject,接下来就是情感分类了(多分类问题),可以将content和subject嵌入后直接分类。 32 | 33 | ### 方案复盘 34 | 35 | #### 1.模型 36 | 37 | 冠军方案的思路和上述思路分析一致,模型上主要采用BERT,以及CNN/RNN等其他模型,借助LR以Stacking的方式融合多个模型。具体方案如下: 38 | 39 | ![topic](http://wx3.sinaimg.cn/mw690/aba7d18bgy1g1g00d2nbfj20fk0f1tak.jpg) 40 | 41 | 其中,Multi-Label Multi-Attention Model中的Multi-Attention是指第一:Lable Embedding做一个Attention,目的是建立Label之间的关系;第二,每个Label也有一个Attention过程,目的是学习到Label对应的句子表示。 42 | 43 | ![sent](http://wx3.sinaimg.cn/mw690/aba7d18bgy1g1fzztadt8j20le0f1jts.jpg) 44 | 45 | 上图中,AT\_LSTM在自己的2017年的一个比赛中也用到,单模型做到了排名第二的成绩。HEAT和GCAE也分别是两个模型,关于模型细节就不多说了,可以参考具体文献。 46 | 47 | #### 2.词向量(多种) 48 | 49 | 具体包括:[Chinese-Word-Vectors](https://github.com/Embedding/Chinese-Word-Vectors),[Word vectors for 157 languages](https://fasttext.cc/docs/en/crawl-vectors.html),[Tencent AI Lab Embedding Corpus for Chinese Words and Phrases](https://ai.tencent.com/ailab/nlp/embedding.html),[HIT-SCIR,ELMoForManyLangs](https://github.com/HIT-SCIR/ELMoForManyLangs) 50 | 51 | 上述其实是一个中文预训练词向量的列表,可以用在很多地方,冠军方案中用了这四种。 52 | 53 | #### 3.思考 54 | 55 | 赛题还是一个分类问题。从作者的开源代码Readme中,作者说单模型BERT的评估指标就已经很好了,和融合方案的差距很小,再次证明BERT的强大。冠军用了很多新的工作,要开放心态,做新模型和新方法的尝试。 56 | 57 | 58 | ### 参考 59 | 60 | 1.[冠军方案,代码](https://github.com/yilirin/BDCI_Car_2018) 61 | 62 | 63 | 64 | 65 | -------------------------------------------------------------------------------- /DataFountain_让AI当法官.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/DataFountain_让AI当法官.md -------------------------------------------------------------------------------- /Kaggle_Gendered_Pronoun_Resolution.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/Kaggle_Gendered_Pronoun_Resolution.md -------------------------------------------------------------------------------- /Kaggle_Quora_Insincere_Questions_Classification.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/Kaggle_Quora_Insincere_Questions_Classification.md -------------------------------------------------------------------------------- /Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md -------------------------------------------------------------------------------- /Kesci_PaddlePaddle_AI大赛_智能问答.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/Kesci_PaddlePaddle_AI大赛_智能问答.md -------------------------------------------------------------------------------- /Kesci_默克杯逆合成反应预测大赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/Kesci_默克杯逆合成反应预测大赛.md -------------------------------------------------------------------------------- /NLPCC2019_成语阅读理解大赛.md: -------------------------------------------------------------------------------- 1 | ## 比赛简介 2 | 3 | 解决的问题比较有意思,个人比较喜欢的一个比赛。[比赛地址](https://www.biendata.com/competition/idiom/) 4 | 5 | 本次竞赛将基于**选词填空**的任务形式,提供大规模的**成语填空训练语料**。在给定若干段文本下,选手需要在提供的候选项中,依次选出填入文本中的空格处最恰当的成语。 6 | 7 | 许多成语的含义**并非简单字面意义的拼接或合成**,而是可能来源于历史故事或具有隐喻含义等,这导致了成语往往不能“望文生义”。同时,相近词之间的细微差别也经常导致成语被误用,如「侃侃而谈」和「口若悬河」,尽管这两个成语都表示说话又多又长,但前者侧重描述说话者的神情,而后者则用以描述说话者的口才。由此可见,对成语有很好的理解和表示,对于中文领域的机器阅读理解将有很好的促进意义,并且对于中文机器翻译、汉语成语推荐系统等实际应用场景也会有所帮助。 8 | 9 | ## 数据来源 10 | 11 | 数据集的语料来源于论文《ChID: A Large-scale Chinese IDiom Dataset for Cloze Test》(ACL 2019) 12 | 13 | **具体示例如下:** 14 | 15 | 比赛数据中,每条数据由若干段文本和一组固定长度的候选项构成,每段文本被挖去了若干个空格(每个空格都有唯一的编号),选手需要从候选项中选出每个空的答案。注意同一条数据的文本的填空答案在词义或语境上可能是相近的。保证每一条数据中,各个空的答案互不相同。数据样例如下(来自train): 16 | 17 | ``` 18 | 19 | { 20 | "content": [ 21 | # 文段0 22 | "……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。", 23 | # 文段1 24 | "在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。", 25 | # 文段2 26 | "最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……", 27 | # 文段3 28 | "“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。", 29 | # 文段4 30 | "从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 31 | # 文段5 32 | "……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"], 33 | "candidates": [ 34 | "百尺竿头", 35 | "随波逐流", 36 | "方兴未艾", 37 | "身体力行", 38 | "一日千里", 39 | "三十而立", 40 | "逆水行舟", 41 | "日新月异", 42 | "百花齐放", 43 | "沧海一粟" 44 | ] 45 | } 46 | 47 | 对应的答案如下,其中第二列表示正确答案在候选项中的索引: 48 | 49 | 50 | 51 | #idiom000378#,0 52 | #idiom000379#,1 53 | #idiom000380#,6 54 | #idiom000381#,4 55 | #idiom000382#,7 56 | #idiom000383#,2 57 | #idiom000384#,8 58 | 59 | 60 | 可以看出,对于文段2所需要填空的#idiom000381#,选项中「方兴未艾」、「一日千里」、「日新月异」都比较符合语境,并且彼此词义相近。但考虑到文段3中的#idiom000382#只能填「日新月异」,文段4中的#idiom000383#只能填「方兴未艾」,因此根据排除法,#idiom000381#也就只有「一日千里」可以填入。 61 | 62 | ``` 63 | ## 评价方法 64 | 65 | 填空正确率。 -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # nlp-competitions-list-review 2 | 3 | ### 目的 4 | 5 | 建立一个**只专注于NLP比赛**的方案分享讨论的项目,讨论时期不限,可包括赛前分析,赛中讨论,赛后复盘,其中以赛后复盘为主。 6 | 7 | ### 内容 8 | 9 | 讨论比赛平台,赛题背景,数据格式,主要思路,技术实现,模型设计,框架选择,评估指标等方面梳理NLP比赛。 10 | 11 | ### 进度列表(自己有时间就会更新,同时欢迎感兴趣同学的不定时更新) 12 | 13 | |序号|题目|进度(拟进行/进行中/完成)| 14 | |------|------|------| 15 | |8|[DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_AIIA%E6%9D%AF_%E5%9B%BD%E5%AE%B6%E7%94%B5%E7%BD%91_%E7%94%B5%E5%8A%9B%E4%B8%93%E4%B8%9A%E9%A2%86%E5%9F%9F%E8%AF%8D%E6%B1%87%E6%8C%96%E6%8E%98.md)|完成| 16 | |7|[DataFountain_汽车行业_用 户观点及情感识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_%E6%B1%BD%E8%BD%A6%E8%A1%8C%E4%B8%9A_%E7%94%A8%E6%88%B7%E8%A7%82%E7%82%B9%E5%8F%8A%E6%83%85%E6%84%9F%E8%AF%86%E5%88%AB.md)|完成| 17 | |6|[2019_搜狐校园算法大赛_内容识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E6%90%9C%E7%8B%90%E6%A0%A1%E5%9B%AD%E7%AE%97%E6%B3%95%E5%A4%A7%E8%B5%9B_%E5%86%85%E5%AE%B9%E8%AF%86%E5%88%AB.md)|进行中| 18 | |5|[天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E5%B9%B3%E5%8F%B0_AI_WordCup_2018_%E4%B8%96%E7%95%8C%E6%9D%AF%E6%96%B0%E9%97%BB%E6%99%BA%E8%83%BD%E5%88%9B%E4%BD%9C%E6%9E%81%E9%99%90%E6%8C%91%E6%88%98%E8%B5%9B.md)|完成| 19 | |4|[2019_语言与智能技术竞赛_信息抽取](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E8%AF%AD%E8%A8%80%E4%B8%8E%E6%99%BA%E8%83%BD%E6%8A%80%E6%9C%AF%E7%AB%9E%E8%B5%9B_%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96.md)|进行中| 20 | |3|[2019_语言与智能技术竞赛_知识驱动对话](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E8%AF%AD%E8%A8%80%E4%B8%8E%E6%99%BA%E8%83%BD%E6%8A%80%E6%9C%AF%E7%AB%9E%E8%B5%9B_%E7%9F%A5%E8%AF%86%E9%A9%B1%E5%8A%A8%E5%AF%B9%E8%AF%9D.md)|进行中| 21 | |2|[第三届魔镜杯大赛_问题相似度匹配](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E7%AC%AC%E4%B8%89%E5%B1%8A%E9%AD%94%E9%95%9C%E6%9D%AF%E5%A4%A7%E8%B5%9B_%E9%97%AE%E9%A2%98%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%8C%B9%E9%85%8D.md)|完成| 22 | |1|[WSDM_Cup_2019_真假新闻甄别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/WSDM_Cup_2019_%E7%9C%9F%E5%81%87%E6%96%B0%E9%97%BB%E7%94%84%E5%88%AB.md)|完成| 23 | 24 | 25 | -------------------------------------------------------------------------------- /WSDM_Cup_2019_真假新闻甄别.md: -------------------------------------------------------------------------------- 1 | ## WSDM2019-虚假新闻检测比赛 2 | 3 | 前言: 这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。 4 | 5 | ### 一.背景 6 | 7 | 从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。 8 | 9 | ### 二.数据介绍 10 | 11 | 训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下: 12 | 13 | |一致|不一致|无关| 14 | |------|------|------| 15 | |29.0%|2.6%|68.4%| 16 | 17 | 由上表可以得出结论:类别严重不平衡。 18 | 19 | ### 三.数据预处理和数据增强 20 | 21 | #### 1.数据预处理 22 | 23 | 结合数据特点,使用各种数据预处理方法。例如繁简转换,停用词过滤等,相关技术可以参考[博客](https://zhpmatrix.github.io/2019/03/08/preprocess-augmentation-in-nlp/)。 24 | 25 | #### 2.数据增强 26 | 27 | ##### (a)标签传播 28 | 29 | 标签传播的思想作为一种数据增强手段,用处较多。在拍拍贷-问题相似度比赛中,仍旧可以采用该方法做数据增强。 30 | 31 | 假设A和B是一致的,A和C是一致的,显然B和C应该是一致的; 32 | 33 | 假设A和B是一致的,A和D是不一致的,则B和D也是不一致的; 34 | 35 | ##### (b)位置交换 36 | 37 | A和B是一致的,则B和A也是一致的。 38 | 39 | ### 四.模型选择 40 | 41 | BERT为主,辅助SVM,LR,KNN,NB 42 | 43 | ### 五.策略设计 44 | 45 | 模型融合,设计三层。第一层:25个BERT基模型;第二层:SVM/KNN/NB等传统数据挖掘模型;第三层:LR模型 46 | 47 | ### 六.评估指标 48 | 49 | 带有权重的分类准确率。其中,具体权重分配如下表: 50 | 51 | |一致|不一致|无关| 52 | |------|------|------| 53 | |1/15|1/5|1/16| 54 | 55 | 结论:少数类样本,权重大。通过这种方式,引导模型去关注少数类样本或者说希望选择一个对少数类关注度较高的模型。 56 | 57 | ### 七.线上结果 58 | 59 | |Model|Weighted Acc on Private LB| 60 | |------|------| 61 | |单模型|0.86750| 62 | |25个BERT平均|0.87700| 63 | |25个BERT加权平均|0.87702| 64 | |三层模型融合|0.88156| 65 | 66 | ### 八.反思 67 | 68 | 官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。关于ERNIE的讨论可以参照知乎的一个讨论,[如何评价百度新发布的NLP预训练模型ERNIE? 69 | ](https://www.zhihu.com/question/316140575/answer/624096104),其中自己给出了一个回答如下: 70 | 71 | ``` 72 | 还没来得及读代码,从官方README文件,PaddlePaddle/LARK,读到的信息如下: 73 | 74 | 改进: 75 | 76 | (1)mask的粒度:字(BERT)->词(ERNIE),不过输入仍旧是字。 77 | 78 | (2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。 79 | 80 | 意义: 81 | 82 | (1)个人觉得更加符合中文应用场景(分词的需求)。 83 | 84 | (2)官方放出了代码+预训练模型+训练数据(估计民间PyTorch的wrapper,PyTorch的实现马上就会来的,不要着急)。 85 | 86 | (3)对语义知识建模的手段相信可以继续深化,此处赞刘知远老师的回答。 87 | 88 | 总之,是良心的工作,赞。 89 | 90 | ``` 91 | 92 | ### 九.后续方案讨论 93 | 94 | ![img](http://wx2.sinaimg.cn/mw690/aba7d18bgy1g14wp6x1eoj20n30a2q4n.jpg) 95 | 96 | 从上图可以基本看到,该比赛是头条主办的。同时上图给出了第一名和第三名的答辩题目。第一名和第三名仍旧是基于BERT的方案设计,第一名加了一些手工特征。从三者的分享方案可以看到,两个句子作为输入的分类问题,比如句子相似度匹配,比如自然语言推理等任务,对相似性传递的分析策略较多,也是一个比较有趣的点。同时,该任务也再次证明了BERT的强大。 97 | 98 | ### 十.相关补充(SemEval2019 Task 8 on Fact-Checking in Community Forums) 99 | 100 | 该[赛道](https://competitions.codalab.org/competitions/20022)分为两个子任务,分别是问题分类和答案分类。其中,答案分类赛道上,国内的汽车之家的团队拿到了冠军,冠军方案如下: 101 | 102 | ![img2](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g15osw73maj20gz07mgou.jpg) 103 | 104 | 三个虚线框分别代表三种方案,简单的基于BERT做FineTuning时,只需要T\[CLS\],但是融合T\[CLS\]到T\[SEP\]再到TN,也是一种思路,类似RNN的HiddenState的融合策略。该方案的线上结果是**82%**。 105 | 106 | ### 参考: 107 | 108 | 1.[虚假新闻检测数据集](https://blog.csdn.net/Totoro1745/article/details/84678858) 109 | 110 | 2.虚假新闻检测任务的综述文章,《Fake News Detection on Social Media: A Data Mining Perspective》 111 | 112 | 3.虚假新闻检测的一个专用平台,[Fake News Challenge](http://www.fakenewschallenge.org/) 113 | 114 | 4.[第二名方案分享-来自美团](references/WSDM2019_Fake_News_Classification/report2.pdf) 115 | 116 | 5.[第一名方案分享](references/WSDM2019_Fake_News_Classification/report2.pdf) 117 | 118 | 6.[第三名方案分享](references/WSDM2019_Fake_News_Classification/report2.pdf) 119 | 120 | 7.[SemEval2019-事实分类-汽车之家方案](https://tech.china.com/article/20190307/kejiyuan0129249545.html) 121 | 122 | 8.[Lessons Learned from Applying Deep Learning for NLP Without Big Data](https://towardsdatascience.com/lessons-learned-from-applying-deep-learning-for-nlp-without-big-data-d470db4f27bf) 123 | 124 | 小数据场景下的分类Trick总结,有些Trick很有意思。 125 | 126 | -------------------------------------------------------------------------------- /biendata_"达观杯"文本智能信息抽取挑战赛.md: -------------------------------------------------------------------------------- 1 | ## 比赛简介 2 | 3 | [比赛地址](https://www.biendata.com/competition/datagrand/data/) 4 | 5 | ## 数据介绍 6 | 7 | 训练集有17000条,在训练集上标注了3个字段,共有字段a 9281处,字段b 14704处,字段c 9097处。预测集有3000条。 8 | 9 | ## 比赛分析 10 | 11 | 数据还没看到,应该是一个命名实体识别任务。 -------------------------------------------------------------------------------- /references/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/references/.DS_Store -------------------------------------------------------------------------------- /references/AI_Word_Cup攻略_刘辉_新华智云.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/references/AI_Word_Cup攻略_刘辉_新华智云.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/references/WSDM2019_Fake_News_Classification/report1.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report2.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/references/WSDM2019_Fake_News_Classification/report2.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report3.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/references/WSDM2019_Fake_News_Classification/report3.pdf -------------------------------------------------------------------------------- /“中国法研杯”司法人工智能挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/“中国法研杯”司法人工智能挑战赛.md -------------------------------------------------------------------------------- /“莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/“莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md -------------------------------------------------------------------------------- /“达观”杯文本智能处理挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/“达观”杯文本智能处理挑战赛.md -------------------------------------------------------------------------------- /全国并行应用挑战赛_PAC2017_情感分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/全国并行应用挑战赛_PAC2017_情感分类.md -------------------------------------------------------------------------------- /天池平台_2019_Future_Food_Challenge.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/天池平台_2019_Future_Food_Challenge.md -------------------------------------------------------------------------------- /天池平台_2019_首届中文NL2SQL挑战赛.md: -------------------------------------------------------------------------------- 1 | ## 天池平台-首届中文NL2SQL挑战赛 2 | 3 | [比赛地址](https://tianchi.aliyun.com/competition/entrance/231716/information) 4 | 5 | ### 一.背景 6 | 7 | 一般与数据库系统的交互有两种方式:第一是通过写SQL语句;第二是通过用户界面。那么能够有第三种方式?通过自然语言的方式。围绕该任务的研究,学术界已经有一些成果,具体可以进行调研。 8 | 9 | ### 二.数据介绍 10 | 11 | 该比赛通过使用金融和通用领域的表格数据作为数据源,提供在此基础上标注的自然语言和SQL语句的匹配对。 12 | 13 | |训练集|测试集1|测试集2| 14 | |------|------|------| 15 | |4w|0.5w|0.5w| 16 | 17 | 训练数据的一个样本如下: 18 | 19 | ``` 20 | { 21 | "nl": "((项目名称) 等于世茂茂悦府 并且(容积率) 大于 1) 套均面积 是多少", # 基于模板自动生成的自然语句 22 | "table_id": "a1b2c3d4", # 相应表格的id 23 | "question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?", # 自然语言问句 24 | "sql":{ # 真实SQL 25 | "sel": [7], # SQL选择的列 26 | "agg": [0], # 选择的列相应的聚合函数, '0'代表无 27 | "cond_conn_op": 0, # 条件之间的关系 28 | "conds": [ 29 | [1,2,"世茂茂悦府"], # 条件列, 条件类型, 条件值,col_1 == "世茂茂悦府" 30 | [6,0,1] 31 | ] 32 | }, 33 | "sql_nl": "SELECT col_8 FROM Table WHERE (col_2 == '世茂茂悦府' and col_7 > 1)" # 真实SQL的字符串形式 34 | } 35 | ``` 36 | 37 | 其中,测试数据的输入只有**table\_id**和**question**两个字段。在训练数据中,需要重点关注**nl**字段应该怎样使用? 38 | 39 | ### 比赛的评分标准 40 | 41 | (1)Logic Form Accuracy:预测完全正确的SQL语句,其中,表的列的顺序并不影响准确率的计算。 42 | 43 | (2)Execution Accuracy: 预测的SQL的执行结果与真实的SQL的执行结果一致。 -------------------------------------------------------------------------------- /天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛.md: -------------------------------------------------------------------------------- 1 | 这篇博客主要复盘这次比赛的冠军方案。个人对文本生成的相关工作中,最看好的是data2text类任务,也即是从结构化文本到自然文本的过程。可以用于天气预报,金融报告,新闻生成等众多任务中。 2 | 3 | ### 赛题背景 4 | 5 | 针对2018年的俄罗斯足球世界杯,实时性产生新闻。 6 | 7 | ### 赛题认识 8 | 9 | 属于文本生成领域的data2text子任务,但是该比赛的data层面包含了文本,表格数据和图集数据,比起传统的data2text任务,在输入端更加的丰富。具体来说,一篇新闻报道的产生包含:新闻事件数据(实时),新闻图集数据和历史足球比赛新闻原文数据。 10 | 11 | ### 数据分析 12 | 13 | #### 1.新闻事件数据 14 | 15 | 新闻事件包括伤停补时,开球等多个事件,针对每个事件给出了尽可能详细的信息,包括事件的关联人,主客队的信息,发生的时间,原因等。 16 | 17 | #### 2.新闻图集数据 18 | 19 | 图集数据包含:比赛场次,图片描述和图片的下载地址。 20 | 21 | #### 3.历史新闻数据 22 | 23 | 历史新闻数据的字段包括:新闻标题,新闻内容,新闻发布时间,新闻中出现的实体信息(人名/组织/地名),新闻图片链接,从新闻中提取的关键词(关键词之间使用逗号分隔)。 24 | 25 | ### 比赛形式 26 | 27 | 这次比赛是开放性赛题,也就是赛题形式不限。主办方建议的比赛形式:对应场次的比赛详情描述,球队历史战况分析,比赛结果预测和球队各位置的球员历史表现。 28 | 29 | ### 评审标准 30 | 31 | 全网用户阅读PV统计+评委评分,其中评委评分维度包括:新闻专业度(新闻的准确性,时效性,描写是否生动,分析角度是否独特)+数据角度+算法角度。全网用户阅读的PV统计是直接将生成的稿件放在面向用户的平台,统计PV。这也是个人觉得该比赛比较酷的一个地方。 32 | 33 | ### 比赛方案(新闻生成) 34 | 35 | #### 1.基于模板 36 | 37 | 设计模板,例如时间+人物+事件。从结构化的表格数据中直接提取对应字段的值填入模板。显然,这种方法生成的新闻千篇一律,单调无趣,但是不会出现事实性错误。 38 | 39 | #### 2.基于摘要 40 | 41 | “历史总是惊人的相似”。既然有历史新闻数据可用,为什么不用呢?可以从历史新闻原文数据中提取与实时新闻事件数据相关的关键句,这些关键句可以直接作为摘要,也可以作为实时新闻生成的辅助数据。怎样找到关键句?设置实时新闻事件数据的关键词(国家队名+重要球员名+自定义关键字),提取历史新闻文本中的关键词(TextRank),两类关键词进行查询匹配,得到关键句。 42 | 43 | 反思这种思路,其实是做了基于检索式的方案。用一种模糊查询的方式,搜出一些历史报道的文本,继承自历史文本数据,生成的摘要则更加的灵活,但是多个查询结构如何逻辑通顺的衔接在一块是一个重要问题。 44 | 45 | #### 3.基于seq2seq 46 | 47 | 实时事件文本和历史新闻数据文本相比的区别在哪里?后者有更多的定语和状语,连接词等修饰语。既然是这样,那么从实时事件文本到新闻数据要去做的事情就很清楚了。可以将历史新闻数据中的描述性词语mask掉作为输入文本,将对应的原始文本作为目标文本。这样模型学习到的就是怎样给只有实体词的文本添加修饰语了。当测试的时候,也就是给出实时事件文本的时候,直接将实体词进行拼接,同时加上mask的标志位就可以了。这样的话,mask标志位相当于一种占位作用,当然可以直接删除,只要训练数据的输入和测试数据的输入格式保持一致就行。 48 | 49 | 在最终的方案中,冠军采用了mask占位符的方案,但是这里有两个困难: 50 | 51 | 第一:如果保留mask标志位,由于测试时,实体词和标志位的组合方式较多,需要做筛选; 52 | 53 | 第二:如果保留mask标志位,需要避免模型学习到一个占位符对应一个单词的模式,因此可以对训练数据中的相邻占位符合并。 54 | 55 | 采用这种思路不仅可以从结构化文本中生成对应的描述新闻,同时也可以对非结构化文本进行文本复述和改写。 56 | 57 | ### 专家组评价 58 | 59 | “在将结构化数据转换为自然语言的过程中,第一名并没有使用传统的人工预定义的模板方法,而是富有创造性地先将数据字段转化为对应的实词,再利用赛事提供的语料训练出的深度神经网络将这些实词之间的状语,定语补齐,由此巧妙地解决了机器自动生成中的衔接连贯问题。” 60 | 61 | ### 参考文献 62 | 63 | 1.[AI Word Cup攻略](references/AI_Word_Cup攻略_刘辉_新华智云.pdf) 64 | 65 | 2.[冠军比赛方案](https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.3.2db024ddZShYhb&postId=10854) 66 | 67 | -------------------------------------------------------------------------------- /天池平台_CIKM_AnalytiCup_2018_跨语言_短文本匹配大赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/天池平台_CIKM_AnalytiCup_2018_跨语言_短文本匹配大赛.md -------------------------------------------------------------------------------- /天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ami66/nlp-competitions-list-review/a5a1922478b38570d8835ac81b64e7baadcf0c39/天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md -------------------------------------------------------------------------------- /第三届魔镜杯大赛_问题相似度匹配.md: -------------------------------------------------------------------------------- 1 | 2 | ### 背景 3 | 4 | 智能客服聊天机器人场景中,计算客户提出问题和知识库问题的相似度。在基于检索的问答系统中,第一步定位出最相似问题,再对问题给出答案。 5 | 6 | ### 数据 7 | 8 | 数据脱敏。原始文本信息编码为单字和单词序列,同时给出单字和单词的300维的词向量(基于Google的Word2Vec训练得到)。数据主要分为两块:第一是标注后的文本;第二是没有标注的文本;其中第一部分出现的文本一定在第二部分中。 9 | 10 | ### 评测指标 11 | 12 | logloss。虽然是一个二分类问题,但是针对分类问题,除了常用的评测指标,例如精度和召回等,直接用损失函数作为评测指标也是常见的,印象中在天池的某个比赛中也是直接使用损失函数,在某些论文中也会看到类似评测方式。 13 | 14 | ### 预处理 15 | 16 | #### (1)前言 17 | 18 | 既然是分类问题,自然要去可以考虑不平衡的问题,典型的方式标签传播等。此处可以参照[WSDM2019_真假新闻甄别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/WSDM_Cup_2019_%E7%9C%9F%E5%81%87%E6%96%B0%E9%97%BB%E7%94%84%E5%88%AB.md)。 19 | 20 | #### (2)mixup 21 | 22 | mixup是CVPR2018的一篇文章,一种数据增强的手段,简单有效。比如,一张狗的图片A和一张猫的图片B,mixup的结果可以是0.5A+0.5B后的一张新的图片,分类损失函数的构成也是0.5Loss(A)+0.5Loss(B),那么映射到文本中,则是对文本Embedding后的文本表示进行操作。但是这样看似是合理的,由于文本是离散的,两个句子混合后可能语义层面就会发生较大的变化。因此,一种可能的方式是,假设A1,A2是相同极性的文本,B1,B2是相同极性的文本,则可以分别对A和B进行mixup,从理论上可以减少语义改变的风险。 23 | 24 | 25 | ### 模型选择 26 | 27 | 比赛方案多数整体上围绕Siamese RNN来进行,这个比赛进行的时候,BERT等系列工作还没有出现。模型架构如下: 28 | 29 | ![img](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g17468af0kj20r40hwq83.jpg) 30 | 31 | ### 相关比赛 32 | 33 | [Kaggle-Quora Question Pairs](https://www.kaggle.com/c/quora-question-pairs),[ATEC-NLP之问题相似度计算](https://dc.cloud.alipay.com/index#/topic/intro?id=8),[天池-CIKM2018-AnalytiCup](https://tianchi.aliyun.com/competition/entrance/231661/introduction),部分比赛的复盘会在其他文章中给出。参考资料中同时给出了名次较好的同学的推荐的论文,更多的论文可以参照NLI领域的文章。 34 | 35 | ### 总结 36 | 37 | 问题相似度问题可以建模为一个句子对输入的问题,NLP中典型的任务场景是自然语言推理(NLI)。围绕该任务,相关工作已经非常多了,由于任务的简单性和模型的简洁性,Github相关的实现也非常多。适合拿该任务进行代码练习和建立对NLP任务的直觉。虽然这样讲,大概率情况下,这些工作应该比不过BERT。因为比赛的时候,BERT没有出现,所以方案中多数选择了一些传统的DL模型。 38 | 39 | 40 | ### 参考资料 41 | 42 | 1.[Applying Deep Learning to Answer Selection: A Study And An Open Task](https://arxiv.org/pdf/1508.01585.pdf) 43 | 44 | 2.[Learning Text Similarity with Siamese Recurrent Networks](http://www.aclweb.org/anthology/W16-1617) 45 | 46 | 3.[The Stanford Natural Language Inference Corpus](https://nlp.stanford.edu/projects/snli/) 47 | 48 | 4.《DR-BiLSTM: Dependent Reading Bidirectional LSTM for Natural Language Inference》 49 | 50 | 5.《Bilateral Multi-Perspective Matching for Natural Language Sentences》 --------------------------------------------------------------------------------