├── .DS_Store ├── .github └── FUNDING.yml ├── 2017_知乎看山杯机器学习竞赛_多标签文本分类.md ├── 2018_机器阅读理解技术竞赛.md ├── 2019_CCF大数据与计算智能大赛.md ├── 2019_CCKS_全国知识图谱与语义计算大会.md ├── 2019_中国法研杯.md ├── 2019_全国社交媒体处理大_拓尔思杯中文隐式情感分析评测.md ├── 2019_全国社交媒体处理大会_第二届文本溯源技术评测.md ├── 2019_搜狐校园算法大赛_内容识别.md ├── 2019_语言与智能技术竞赛_信息抽取.md ├── 2019_语言与智能技术竞赛_机器阅读理解.md ├── 2019_语言与智能技术竞赛_知识驱动对话.md ├── 2020_CCKS2020_基于标题的大规模商品实体检索.md ├── 2020_科大讯飞_事件抽取挑战赛.md ├── 2022_全球人工智能技术创新大赛_商品标题实体识别.md ├── 2022_厦门大数据安全开放创新应用大赛-食品安全专题 ├── 2022_搜狐校园算法大赛.md ├── 2023_ATEC_大模型的工具学习.md ├── 2023_CCL23古籍命名实体识别竞赛.md ├── 2023_CHIP2023_YIER医疗大模型.md ├── 2023_CHIP2023_中文糖尿病问题分类.md ├── 2023_CHIP2023_医疗论文PICOS关键信息抽取任务.md ├── 2023_CHIP2023_药品纸质文档识别与实体关系抽取.md ├── 2023_SMP_金融智能挑战赛.md ├── 2023_afac_金融文档知识抽取.md ├── 2023_afac_金融行情观点生成和合规检测.md ├── 2023_“达观杯”智能文档版面分析算法竞赛.md ├── 2023全球智能汽车AI挑战赛——赛道一AI大模型检索问答.md ├── 2024_ACM_ICAIF_FinanceRAG.md ├── 2024_AFAC挑战赛.md ├── 2024_CCAC(第四届中国情感计算大会).md ├── 2024_KDD_CUP_LLM(两道题).md ├── 2024_WSDM_对话式多文档QA.md ├── 2024_博金大模型挑战赛.md ├── 2024_基于检索增强的运维知识问答挑战赛.md ├── 2024_数字中国创新大赛_大模型用于肝病场景下的问答助手.md ├── 2024_第三届琶洲算法大赛.md ├── AIOPS_2024_CCF国际AIOps挑战赛.md ├── AI_Challenger_2018_细粒度用户评论情感分析.md ├── AI_Challenger_2018_英中文本机器翻译.md ├── AI_Challenger_2018_观点型阅读理解.md ├── ATEC_问题相似度匹配.md ├── Biendata_CCKS2017_评测二_电子病历结构化.md ├── ByteCup_2018_国际机器学习竞赛_自动标题生成.md ├── CCIR_2019_基于电子病历的数据查询类问答.md ├── CCKS_2018_面向中文电子病历的命名实体识别.md ├── CCKS_2019_医疗命名实体识别.md ├── CCKS_2019_医疗实体及属性抽取_跨院迁移.md ├── CCKS_2020_新冠知识图谱构建与问答评测.md ├── CCKS_2020_面向中文电子病历的医疗实体及事件抽取_事件抽取.md ├── CCKS_2020_面向中文电子病历的医疗实体及事件抽取_实体识别.md ├── CCKS_2024_评测任务集.md ├── CHIP_2018_医疗健康领域的问答匹配.md ├── DC_产品评论观点抽取比赛 ├── DataFoundatain_2021数字中国创新大赛_肝癌病理解析.md ├── DataFountain_2019CCF_BDCI相关比赛.md ├── DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md ├── DataFountain_AIIA杯_国际安全事件关系发现.md ├── DataFountain_健康医疗问答系统构建与实现.md ├── DataFountain_垃圾短信基于文本内容识别.md ├── DataFountain_基于主题的文本情感分析.md ├── DataFountain_基于大数据的未知病原检测方法构建.md ├── DataFountain_基于机构实体的智能摘要和风险等级识别.md ├── DataFountain_基于视角的领域情感分析.md ├── DataFountain_机器写作与人类写作的巅峰对决_文本分类.md ├── DataFountain_汽车行业_用户观点及情感识别.md ├── DataFountain_让AI当法官.md ├── IEEE_Healthcom_2020_MODMA.md ├── Kaggle_Gendered_Pronoun_Resolution.md ├── Kaggle_Quora_Insincere_Questions_Classification.md ├── Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md ├── Kesci_PaddlePaddle_AI大赛_智能问答.md ├── Kesci_默克杯逆合成反应预测大赛.md ├── NLPCC2019_成语阅读理解大赛.md ├── README.md ├── WSDM_Cup_2019_真假新闻甄别.md ├── biendata_"达观杯"文本智能信息抽取挑战赛.md ├── biendata_关于科研论文的三个比赛.md ├── references ├── .DS_Store ├── AI_Word_Cup攻略_刘辉_新华智云.pdf └── WSDM2019_Fake_News_Classification │ ├── report1.pdf │ ├── report2.pdf │ └── report3.pdf ├── “中国法研杯”司法人工智能挑战赛.md ├── “莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md ├── “达观”杯文本智能处理挑战赛.md ├── 中文医学文本命名实体识别.md ├── 中文医学文本实体关系抽取.md ├── 全国并行应用挑战赛_PAC2017_情感分类.md ├── 天池平台_2019_Future_Food_Challenge.md ├── 天池平台_2019_首届中文NL2SQL挑战赛.md ├── 天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛.md ├── 天池平台_CIKM_AnalytiCup_2018_跨语言_短文本匹配大赛.md ├── 天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md ├── 天池精准医疗大赛_人工智能辅助糖尿病遗传风险预测.md ├── 平安医疗科技疾病问答迁移学习比赛.md ├── 科大讯飞_事件抽取挑战赛 ├── 第三届魔镜杯大赛_问题相似度匹配.md └── 链想家计算科技大赛:COVID-19 知识图谱构建_赛道二.md /.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/.DS_Store -------------------------------------------------------------------------------- /.github/FUNDING.yml: -------------------------------------------------------------------------------- 1 | # These are supported funding model platforms 2 | 3 | github: # Replace with up to 4 GitHub Sponsors-enabled usernames e.g., [user1, user2] 4 | patreon: # Replace with a single Patreon username 5 | open_collective: # Replace with a single Open Collective username 6 | ko_fi: # Replace with a single Ko-fi username 7 | tidelift: # Replace with a single Tidelift platform-name/package-name e.g., npm/babel 8 | custom: # Replace with a single custom sponsorship URL 9 | -------------------------------------------------------------------------------- /2017_知乎看山杯机器学习竞赛_多标签文本分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/2017_知乎看山杯机器学习竞赛_多标签文本分类.md -------------------------------------------------------------------------------- /2018_机器阅读理解技术竞赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/2018_机器阅读理解技术竞赛.md -------------------------------------------------------------------------------- /2019_CCF大数据与计算智能大赛.md: -------------------------------------------------------------------------------- 1 | ### 比赛介绍 2 | 3 | [比赛地址](https://www.datafountain.cn/special/bdci2019/competition), 提供了传统数据挖掘(tabular data), CV和NLP相关比赛,**其中以NLP的比赛居多**。 4 | 5 | ### 赛题一 6 | 7 | [金融信息负面及主体判定](https://www.datafountain.cn/competitions/353/datasets) 8 | 9 | 给定金融类相关消息的title和content,判断消息的情感极性(正和负),抽取正负情感对应的实体词。 10 | 11 | 数据规模:**训练集数据量1万条,测试集数据量1万条。** 12 | 13 | ### 赛题二 14 | 15 | [识别文本中新兴金融实体](https://www.datafountain.cn/competitions/361/datasets) 16 | 17 | 数据示例: 18 | 19 | ``` 20 | “text”:“赚赚熊是什么?买的便宜,赚的容易!自购省钱,分享赚钱!它是一款集CPS+CPA+社区拼购+淘宝+京东+自营商城+本地生活服务+教育+金融+旅游+实体连锁店等的App,零投资,零囤货,不改变任何人的消费习惯,让既省身,又赚钱,花你本该花的钱,赚你原本赚不到的钱由会坤集团全力打造的赚赚熊平台,不需”, 21 | 22 | ​“unknownEntities”:[“赚赚熊”,“会坤集团”] 23 | ``` 24 | 数据规模:**训练集数据量1万条,测试集数据量1万条。** 25 | 26 | ### 赛题三 27 | 28 | [互联网新闻情感分析](https://www.datafountain.cn/competitions/350) 29 | 30 | 数据来源:新闻网,微信,博客,贴吧等。 31 | 32 | 数据规模:**没有明确提及数据规模。** 33 | 34 | ### 赛题四 35 | 36 | [“技术需求”与“技术成果”项目之间关联度计算模型](https://www.datafountain.cn/competitions/359) 37 | 38 | 输入: 39 | 40 | 技术成果的标题+技术成果的具体内容 41 | 42 | 技术需求的标题+技术需求的具体内容 43 | 44 | 关联度:无相关/弱相关/较强相关/强相关 45 | 46 | ### 思路分析 47 | 48 | 赛题一:**数据量应该是够的;大胆的用BERT吧(不一定要CRF);情感分析和实体识别是两件事件,直观上分析joint的方式可能并不一定有效;** 49 | 50 | 赛题二:**赛题一处理情感分类的部分,命名实体识别的模型可以尝试用于该题,有惊喜;(我不会告诉你我是怎么知道的)** 51 | 52 | 赛题三:**没啥可以讲的。如果数据集规模较大,还是比较有价值的;** 53 | 54 | 赛题四:**传统句子matching的问题;** 55 | 56 | 强调一下:对于多数比赛,可选建模方式固定。所以,真正的挑战可能并不在于建模方式,而是在于对数据(业务)本身的理解。如果考虑到落地,那么将面临来自真实场景下的数据的更大的挑战。 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | -------------------------------------------------------------------------------- /2019_CCKS_全国知识图谱与语义计算大会.md: -------------------------------------------------------------------------------- 1 | ## 全国知识图谱与语义计算大会-赛道 2 | 3 | 分成两个部分,第一个部分简述比赛内容;第二个部分复盘比赛。 4 | 5 | ### 六个赛道任务 6 | 7 | (1)[面向中文短文本的实体链指](https://biendata.com/competition/ccks_2019_el/) 8 | 9 | 面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking),是NLP领域的基础任务之一,即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。 10 | 11 | 传统的实体链指任务主要是针对长文档,长文档拥有在写的上下文信息能辅助实体的歧义消解并完成链指。相比之下,针对中文短文本的实体链指存在很大的挑战,主要原因如下: 12 | 13 | (1)口语化严重,导致实体歧义消解困难; 14 | 15 | (2)短文本上下文语境不丰富,须对上下文语境进行精准理解; 16 | 17 | (3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。 18 | 19 | 输入: 20 | 输入文件包括若干行中文短文本。 21 | 22 | 输出: 23 | 输出文本每一行包括此中文短文本的实体识别与链指结果,需识别出文本中所有mention(包括实体与概念),每个mention包含信息如下:mention在给定知识库中的ID,mention名和在中文短文本中的位置偏移。 24 | 25 | **示例:** 26 | 27 | **输入:** 28 | 29 | ``` 30 | { 31 | "text_id":"1", 32 | "text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia" 33 | } 34 | ``` 35 | 36 | **输出:** 37 | 38 | ``` 39 | { 40 | "text_id":"1", 41 | "text":"比特币吸粉无数,但央行的心另有所属|界面新闻 · jmedia" 42 | "mention_data":[ 43 | { 44 | "kb_id":"278410", 45 | "mention":"比特币", 46 | "offset":"0" 47 | }, 48 | { 49 | "kb_id":"199602", 50 | "mention":"央行", 51 | "offset":"9" 52 | }, 53 | { 54 | "kb_id":"215472", 55 | "mention":"界面新闻", 56 | "offset":"18" 57 | } 58 | ] 59 | } 60 | ``` 61 | 说明: 62 | 对于实体有歧义的查询 ,系统应该有能力来区分知识库中链接的候选实体中哪个实体为正确链指的实体结果。例如,知识库中有3个不同的实体都可能是『比特币』的正确链指结果,但在给定的上下文中,有足够的信息去区分这些候选实体哪个才是应该被关联的结果。 63 | 64 | [具体数据介绍](https://biendata.com/competition/ccks_2019_el/data/) 65 | 66 | (2)[人物关系抽取](https://biendata.com/competition/ccks_2019_ipre/) 67 | 68 | **关于评测方案:** 69 | 70 | 给定一组人物实体对和包含该实体对的句子,找出给定实体对在已知关系表中的关系。从以下两个方面进行评测: 71 | 72 | 1. Sent-Track:从句子级别上根据给定句子预测给定人物实体对的关系 73 | 输入:一组人物实体对和包含该实体对的一个句子 74 | 输出:该人物实体对的关系 75 | 样例一: 76 | 输入:贾玲\t冯巩\t贾玲,80后相声新秀,师承中国著名相声表演艺术家冯巩。 77 | 输出:人物关系/师生关系/老师 78 | 79 | 2. Bag-Track:从包级别上根据给定句子集合预测给定人物实体对的关系 80 | 输入:一组人物实体对和包含该实体对的若干句子 81 | 输出:该人物实体对的关系 82 | 样例二: 83 | 输入: 84 | - 袁汤\t袁安\t从袁安起,几代位列三公(司徒、司空、太尉),出过诸如袁汤、袁绍、袁术等历史上著名人物。 85 | - 袁汤\t袁安\t袁汤(公元67年—153年),字仲河,河南汝阳(今河南商水西南人,名臣袁安之孙,其家族为东汉时期的汝南袁氏。 86 | 输出: 87 | 袁汤\t袁安\t人物关系/亲属关系/血亲/自然血亲/祖父母/爷爷 NA 88 | 89 | 说明:若有多个关系,则输出多个关系。 90 | 91 | **关于数据集:** 92 | 93 | 评测数据主要来源于互联网网页文本,其中验证集和测试集是通过人工进行标注的,而训练集是通过远程监督(Distant Supervision)自动生成的。 94 | 95 | 96 | 97 | (3)[中文知识图谱问答](https://biendata.com/competition/ccks_2019_6/) 98 | 99 | **输入:** 100 | 101 | 输入文件包含若干行中文问句。 102 | 103 | **输出:** 104 | 105 | 输出文件每一行对应一个问题的答案列表,列表内元素以\t分隔。 106 | 107 | **示例** 108 | 109 | **输入:** 110 | 111 | q1:徐峥和黄渤共同出演的电影有哪些? 112 | 113 | q2:俄罗斯的首都有多少人口? 114 | 115 | q3:北京亦庄投资控股有限公司持股京东方科技集团股份有限公司的比例是多少? 116 | 117 | **输出:** 118 | 119 | <人再囧途之泰囧>\t<疯狂的石头>\t<印囧> 120 | 121 | "14150000" 122 | 123 | "3.57%" 124 | 125 | 这个比赛,个人比较感兴趣的是知识库。任务中使用PKU BASE作为指定知识图谱。PKU BASE用于该任务的版本下载地址为:https://pan.baidu.com/s/1MOv9PCTcALVIiodUP4bQ2Q 密码:hcu8。参赛选手可以下载数据集后使用相应的知识库管理系统(例如gStore系统:http://gstore-pku.com/ )进行存储和查询。同时,为方便参赛选手完成任务,我们也提供PKU BASE的在线查询终端,选手可以通过浏览器或调用API进行SPARQL查询。详情访问http://pkubase.gstore-pku.com/。 126 | 127 | [关于SPARQL的介绍](https://www.w3.org/TR/rdf-sparql-query/),类似于SQL语句,实现对以三元组形式存储的知识图谱进行查询。 128 | 129 | 130 | 131 | 132 | (4)[面向金融领域的事件主题抽取](https://biendata.com/competition/ccks_2019_4/) 133 | 134 | 本次评测任务的主要目标是从**真实的新闻语料**中,抽取**特定事件类型的主体**。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。 135 | 136 | 输入:一段文本,事件类型S 137 | 138 | 输出:事件主体 139 | 140 | 示例: 141 | 样例1 142 | 输入:”公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”, “产品出现问题” 143 | 输出: “公司A” 144 | 145 | 样例2 146 | 输入:“公司A高管涉嫌违规减持”,“交易违规” 147 | 输出: “公司A” 148 | 149 | (5)[公众公司公告信息抽取](https://biendata.com/competition/ccks_2019_5/) 150 | 151 | 任务一:表格中的信息点提取 152 | 153 | 输入:公共公司的年报**pdf文件** 154 | 155 | 输出:该表格所对应的结构化数据(json格式) 156 | 157 | 任务二:文本段落中的信息点提取 158 | 159 | 输入:人事变动类公告**pdf文件** 160 | 161 | 输出:包含离职高管信息和继任者信息的结构化数据(json格式) 162 | 163 | ### 比赛复盘 164 | 165 | 任务一:面向中文电子病历的命名实体识别(六篇文章) 166 | 167 | 识别的实体类型包括:**疾病和诊断**,**影像检查**,**实验室检验**,**手术**,**药物**以及**解剖部位**共六种。 168 | 169 | 主要思路:BERT+CRF;除此之外,BiLSTM+CRF仍旧是一个很强的baseline; 170 | 171 | 任务五:公众公司公告信息抽取(七篇文章) 172 | 173 | 分为**表格中的信息点抽取**和**文本段落中的信息点抽取**。 174 | 175 | 主要思路:PDF解析(基于结构的,基于CV的)和序列标注。 176 | 177 | 任务四:面向金融领域的事件主体抽取(七篇文章) 178 | 179 | 主要思路:阅读理解框架+序列标注 180 | 181 | 任务三:人物关系抽取 182 | 183 | 主要思路:标准的神经关系抽取 184 | 185 | 任务二:面向中文短文本的实体链指任务 186 | 187 | 主要思路:实体识别+候选实体选择+两类实体的匹配 188 | 189 | 任务六:中文知识图谱问答 190 | 191 | 主要思路:指称识别+实体链接+模型匹配+路径排序 192 | 193 | 参考: 194 | 195 | 1.[2019全国知识图谱与语义计算大会评测论文集](https://conference.bj.bcebos.com/ccks2019/eval/webpage/index.html) -------------------------------------------------------------------------------- /2019_中国法研杯.md: -------------------------------------------------------------------------------- 1 | ## 赛道 2 | 3 | [大赛地址](http://cail.cipsc.org.cn/index.html) 4 | 5 | (1)阅读理解 6 | 7 | 篇章片段抽取型阅读理解比赛,为了增加问题的多样性,参考英文阅读理解比赛SQuAD和CoQA,本比赛**增加了拒答以及是否类(YES/NO)问题**。 8 | 9 | 训练集约包含4万个问题,开发集和测试集各约5000个问题。 10 | 对于开发集和测试集,每个问题包含3个人工标注参考答案。 11 | 12 | 提供了两组基线模型,包括BiDAF模型和基于BERT的基线模型 13 | 14 | (2)要素识别 15 | 16 | 三种类型的法律文书,多标签分类,提供了基于SVM实现的基线模型。 17 | 18 | 19 | (3)相似案例匹配 20 | 21 | **训练数据:** 22 | 23 | 每份数据由三篇法律文书组成。 24 | 25 | 对于每篇法律文书,我们仅提供事实描述。 26 | 27 | 对于每份数据,我们用(d, d1, d2)来代表该组数据,其中d,d1,d2均对应某一篇文书。 28 | 29 | 对于训练数据,我们保证,我们的文书数据d与d1的相似度是大于d与d2的相似度的,即sim(d, d1) > sim(d, d2)。 30 | 31 | 我们的数据总共涉及三万组文书三元对,所有的文书三元组对都一定属于民间借贷、知识产权纠纷和海商海事案件中的某一种。 32 | 33 | **测试数据:** 34 | 35 | 每组测试数据的形式与训练数据一致为(d1, d2, d3)但是此时我们不再保证sim(d, d1) > sim(d, d2)。 36 | 选手需要预测最终的结果是sim(d, d1) > sim(d, d2)还是sim(d, d1) < sim(d, d2)。 37 | 如果预测正确,那么该测试点选手可以得到1分,否则是0分。 38 | 39 | 提供了两组基线模型,包括基于tf-idf的基线模型和基于bert的语言基线模型。 40 | -------------------------------------------------------------------------------- /2019_全国社交媒体处理大_拓尔思杯中文隐式情感分析评测.md: -------------------------------------------------------------------------------- 1 | ### 赛题背景 2 | 3 | [赛题地址](http://biendata.com/competition/smpecisa2019/) 4 | 5 | 显式情感分析已经得到了非常多的研究,但是隐式情感分析并没有。 6 | 7 | 赛方将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。 8 | 9 | 为什么这个问题是重要的?根据赛方对收集的文本数据的标注结果,隐式情感句占总情感句的**15%-20%**左右。 10 | 11 | ### 样例分析 12 | 13 | 例1: 14 | 15 | 你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感) 16 | 17 | 例2: 18 | 19 | 有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感) 20 | 21 | 例3: 22 | 23 | 我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感) 24 | 25 | ### 数据介绍 26 | 27 | 数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。 28 | 29 | 训练集: 30 | 31 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 32 | |------|------|------|------|------| 33 | |12664|14774|3828|3957|6989| 34 | 35 | 验证集: 36 | 37 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 38 | |------|------|------|------|------| 39 | |4391|5143|1232|1358|2553| 40 | 41 | 测试集: 42 | 43 | |篇章|标注数据|褒义隐式情感句|贬义隐式情感句|不含情感句| 44 | |------|------|------|------|------| 45 | |6380|3800|919|979|1902| 46 | 47 | ### 评价指标 48 | 49 | 宏平均准确率(P)、召回率(R)及F1值。 50 | 51 | 52 | ### 思考 53 | 54 | (1)长尾问题处理。很多传统的问题具有较为丰富的研究,但是长尾问题的研究比较少,例如这种隐式情感分析的问题。挖掘现有任务中的长尾场景着重研究,确实是一个方向。正如搜索场景下,对长尾问题的处理是搜索硬实力的体现。 55 | 56 | (2)问题的可分性,难易度。虽然第一直觉可能是建模为分类,但是由于问题内在的特性,导致传统的方法可能不是非常有效,需要对问题本身做针对性的思考和处理。这正是建模中可能最有趣的部分。 57 | 58 | -------------------------------------------------------------------------------- /2019_全国社交媒体处理大会_第二届文本溯源技术评测.md: -------------------------------------------------------------------------------- 1 | [大赛地址](https://biendata.com/competition/smpetst2019/) 2 | 3 | ## 比赛内容 4 | 5 | 文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。可以应用在学术诚信检测、搜索引擎优化等领域。 6 | 7 | 2018年,比赛围绕句子级的文本溯源评测,即给定一个待查句子和一个源句子集S,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。 8 | 9 | 2019年,在2018年句子级文本溯源评测的基础上,开展文档级文本溯源。 10 | 11 | ## 文本改编 12 | 13 | 对抄袭文本的改编包括但不限于: 14 | 15 | 1)文本操作,对文本进行混排、删除、插入词或短语等方式生成新文本; 16 | 17 | 2)语义词汇变换,进行同义词、反义词等替换该词生成新文本; 18 | 19 | 3)句法变换,即通过句法变换的方式进行改写; 20 | 21 | 4)释义修改,即要求志愿者在理解的基础上重新撰写。 22 | 23 | ## 文本溯源的一般流程 24 | 25 | ![img](https://biendata-cdn.b0.upaiyun.com/media/competition/2019/05/14/etst.png) 26 | 27 | -------------------------------------------------------------------------------- /2019_搜狐校园算法大赛_内容识别.md: -------------------------------------------------------------------------------- 1 | ### 比赛内容 2 | 3 | 给定若干文章,判断文章的核心实体(每篇文章识别最多三个核心实体)以及对核心实体的情感态度(积极、中立、消极三种)。其中,实体词是指人、物、地区、机构、团体、企业、行业、某一特定事件等固定存在,且可以作为文章主体的词。而核心实体则是文章主要描述,或担任文章主要角色的实体词。因此,该任务可以简单理解为命名实体识别相关任务+情感分析,处理的上下文是整篇文章而非一句话或者几句话形成的段落。 4 | 5 | ### 数据介绍 6 | 7 | |文章ID|主实体1|主实体2|主实体3|态度1|态度2|态度3| 8 | |------|------|------|------|------|------|------| 9 | |1|搜狐|||积极|| 10 | 11 | ### 评测方案 12 | 13 | Score(Final) = 0.5\*Score(Entity)+0.5\*Score(Sentiment),其中Score(Entity/Sentiment)均为F1得分 14 | 15 | ### 赛前分析 16 | 17 | 实体分析区别于传统的人名,地名和机构名的识别,粒度更细,种类更多,这是难点和特色之一; 18 | 19 | 针对实体的情感分析也是特色,相关任务包括面向切面的情感分析,基于视角的情感分析等,在该Repo中也有相关比赛出现; 20 | 21 | 篇章级的分析,和天池瑞金比赛的复赛阶段任务-关系分类,情景类似,在处理的时候需要处理好篇章上下文的问题; 22 | 23 | 模型的问题,除了尝试BERT之外,百度最近的ERNIE仍旧是非常值得一试的预训练模型; 24 | 25 | 分析至此,静等比赛结束,进行方案复盘。 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_信息抽取.md: -------------------------------------------------------------------------------- 1 | ### 前言 2 | 3 | 这个比赛和[天池平台\_瑞金医院MMC人工智能辅助构建知识图谱大赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E5%B9%B3%E5%8F%B0_%E7%91%9E%E9%87%91%E5%8C%BB%E9%99%A2MMC%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E8%BE%85%E5%8A%A9%E6%9E%84%E5%BB%BA%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%A4%A7%E8%B5%9B.md)的解决思路类似。主要特色在于数据集,官方提到该数据集是业界规模最大的基于schema的中文信息抽取数据集,数据集中的句子来自百度百科和百度信息流文本。 4 | 5 | ### 数据分析 6 | 7 | 43万三元组数据,21万中文句子和50个已经定义好的schema。官方已经划分了训练集/验证集/测试集,统计如下表: 8 | 9 | |训练集|验证集|测试集| 10 | |------|------|------| 11 | |17W|2W|2W| 12 | 13 | ### 赛前想法 14 | 15 | 正值比赛期间百度放出ERNIE的工作,训练数据相比BERT,由三类组成:百科类,新闻资讯类,对话类。而且BERT用于句子分类比赛,目前已经可以看到在多个比赛任务上取得优秀的成绩。因此,基于ERNIE或者BERT做FineTuning,依然是一个值得尝试的思路。 -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_机器阅读理解.md: -------------------------------------------------------------------------------- 1 | **任务** 2 | 3 | 对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,对问题及候选文档进行分析,输出能够满足问题的文本答案a。 4 | 5 | **数据** 6 | 7 | 任务数据集包含约28万来自百度搜索的真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。数据集划分为包含27万个问题的训练集、3000个问题的开发集和7000个问题的测试集。 8 | 9 | **评价方法** 10 | 11 | 基于测试集的人工标注答案,采用ROUGE-L和BLEU-4作为评价指标。 12 | 13 | **基线系统** 14 | 15 | 竞赛提供两个开源的阅读理解基线系统BiDAF和Match-LSTM。分别由:PaddlePaddle和TensorFlow2个框架实现,基线系统的实现及结果评价请参考:[开源系统](https://github.com/baidu/DuReader) 16 | 17 | https://github.com/baidu/DuReader和数据集[论文https://arxiv.org/abs/1711.05073](https://arxiv.org/abs/1711.05073)。百度AI Studio提供免费GPU集群和[基线示例](http://aistudio.baidu.com/aistudio/#/projectdetail/44827)。 18 | 19 | **Rank2模型** 20 | 21 | MRC系统分两个步骤回答问题: 22 | 23 | 文本预处理:对文档进行预处理,并检索与问题相关的段落。 24 | 25 | 多任务学习理解模型:对问题和检索到的文章进行处理以获得答案。 26 | 27 | 文本清理: 28 | 29 | 不切分URL(URL添加到Jieba的定制字典中)、删除html标签和文档标题的网站名称、对口头文本纠正拼写错误的单词、删除重复的单词或标点、删除空字符串、删除空段落和重复段落。 30 | 31 | 特征构建: 32 | 33 | Word-level embedding、POS tag embedding、Keyword feature、Word-in-question feature(单词计算一个二元特征,将关键字特征与问题中词特征相乘,以表明关键字是否出现在问题中)、Question category feature(将问题分类为粗粒度和细粒度,粗粒度类别包括实体(Entity)、描述(Description)和YesNo。细粒度的分类包括何时、什么、谁、哪里、为什么、如何、多长时间、级别、解决方案等等。每一类被映射到一个m维嵌入) 34 | 35 | ![img](D:\duominuo\weixinobU7VjlxVTDz6HO47W1i7HUDaN7A\716550b0ebd94171a21dc28335f42a10\clipboard.png) 36 | 37 | **类似信息资源** 38 | 39 | https://ai.baidu.com/broad/leaderboard?dataset=dureader 40 | 41 | https://github.com/baidu/DuReader 42 | 43 | https://www.kesci.com/home/competition/5ad56e667238515d80b53704/content 44 | -------------------------------------------------------------------------------- /2019_语言与智能技术竞赛_知识驱动对话.md: -------------------------------------------------------------------------------- 1 | ### baseline分析 2 | 3 | 官方提供了基于检索式的实现(PaddlePaddle)和基于生成式的实现(PyTorch),这部分主要讨论生成式的方案。 4 | 5 | #### 1.数据构建 6 | 7 | ![img1](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g15pmhur6oj20sg0lcjy3.jpg) 8 | 9 | #### 2.源码结构 10 | 11 | ![img2](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g15pm1ydy9j20mi0bbac1.jpg) -------------------------------------------------------------------------------- /2020_CCKS2020_基于标题的大规模商品实体检索.md: -------------------------------------------------------------------------------- 1 | [第一名方案](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650802422&idx=3&sn=1d816b0657962e2cfb8d8d62df6327da&chksm=84e5cc88b392459ea97be4a6eaf79abe26d21bf4eaa65490d26d409bda5ff8dc19545c7154e3&mpshare=1&scene=23&srcid=1115eSKdOwqEB7Ld1wqmhWqh&sharer_sharetime=1605419285789&sharer_shareid=0e8353dcb5f53b85da8e0afe73a0021b%23rd) 2 | 3 | 4 | #### 任务背景 5 | 6 | 给定一个商品标题,基于该标题在给定商品库中找到对应的商品实体。 7 | 8 | #### 技术思路 9 | 10 | IR的建模任务。分为召回+粗排+精排的方案。比较有意思的是:在该工作中,每个阶段均采用动态负采样的方式。 11 | -------------------------------------------------------------------------------- /2020_科大讯飞_事件抽取挑战赛.md: -------------------------------------------------------------------------------- 1 | **背景** 2 | 3 | 事件抽取是将非结构化文本中的事件信息展现为结构化形式应用广泛,然而,由于现实文本中可能存在句式复杂,主被动转换,多事件主客体共享等难点,因此“事件抽取”是一项极具挑战的抽取任务。 4 | 5 | **任务** 6 | 7 | 初赛任务:事件触发词及论元抽取 8 | 9 | 该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。 10 | 11 | ![img](D:\duominuo\weixinobU7VjlxVTDz6HO47W1i7HUDaN7A\f969ef2702fb48319f16dd8d195c884f\clipboard.png) 12 | 13 | 复赛任务:事件属性抽取 14 | 15 | 该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否 16 | 17 | 定、可能;时态分为:过去、现在、将来、其他。 18 | 19 | ![img](D:\duominuo\weixinobU7VjlxVTDz6HO47W1i7HUDaN7A\7be8ef34c427455285df048f99391e09\clipboard.png) 20 | 21 | **数据** 22 | 23 | \1. 初赛数据说明: 24 | 25 | 6958条中文句子,及其9644条提取结果(存在一对多的情况): 26 | 27 | 1.1训练集:共5758条句子,包含句子中对应的触发词、论元等,用于竞赛模型训练。 28 | 29 | 1.2测试集:共1200条句子。 30 | 31 | \2. 复赛数据说明: 32 | 33 | 3335条中文句子,及其3384条提取结果(存在一对多的情况): 34 | 35 | 2.1训练集:共2456条句子,包含句子中对应的触发词、论元及其角色、事件属性等,用于竞赛模型训练。 36 | 37 | 2.2测试集:共879条句子。 38 | 39 | **评价指标** 40 | 41 | 初赛指标: 42 | 43 | 采用F值进行评价,论元F值为严格F值与松弛F值的平均得分。 44 | 45 | 严格F值:预测论元与标注论元必须完全匹配(类型必须正确) 46 | 47 | 论元准确率Pspan = 预测论元和标注论元匹配的个数 / 预测论元个数 48 | 49 | 论元召回率Rspan = 预测论元和标注论元匹配的个数 / 标注论元个数 50 | 51 | 论元F值 F1span = 2 *Pspan* Rspan /( Pspan + Rspan) 52 | 53 | 松弛F值:预测论元与标注论元存在字符级别匹配也能得到部分分数(类型必须正确) 54 | 55 | 论元准确率Pchar = 预测论元和标注论元匹配的字符数 / 预测论元字符数 56 | 57 | 论元召回率Rchar = 预测论元和标注论元匹配的字符数 / 标注论元字符数 58 | 59 | 论元F值 F1char = 2 *Pchar* Rchar /( Pchar + Rchar) 60 | 61 | 最终得分:F1 = (F1span + F1char) / 2 62 | 63 | 复赛评价指标: 64 | 65 | 使用F值进行评价。 66 | 67 | 属性准确率P = 预测属性和标注属性匹配的个数/ 预测属性个数 68 | 69 | 属性召回率R = 预测属性和标注属性匹配的个数 / 标注属性个数 70 | 71 | 属性F值 F1= 2 *P* R /( P+ R) 72 | 73 | **第一名方案** 74 | 75 | https://github.com/WuHuRestaurant/xf_event_extraction2020Top1) 76 | -------------------------------------------------------------------------------- /2022_全球人工智能技术创新大赛_商品标题实体识别.md: -------------------------------------------------------------------------------- 1 | 一等奖的方案:https://mp.weixin.qq.com/s/7lLGGPxCHFUi_YM2iJI3MA 2 | -------------------------------------------------------------------------------- /2022_厦门大数据安全开放创新应用大赛-食品安全专题: -------------------------------------------------------------------------------- 1 | #### 赛题类型 2 | 3 | + 算法分析题:食品安全信息抽取模型建立 4 | + 创意分析题:食品安全风险预警分析 5 | 6 | #### 比赛地址 7 | 8 | https://data.xm.gov.cn/contest-series/period/#/5/competition_data 9 | -------------------------------------------------------------------------------- /2022_搜狐校园算法大赛.md: -------------------------------------------------------------------------------- 1 | #### 比赛介绍 2 | 3 | 面向切面的情感分析赛题,在之前的比赛中,比较常见。该比赛的亮点在于情感极性和强度的设定(五种情况):极正向,正向,中立,负向,极负向。 4 | 5 | 在技术上的亮点:采用类似Prompt的方式做任务。任务和方法上相似的一个[比赛](https://mp.weixin.qq.com/s/hiiFNjMuCeGVdnzyckMl9Q)。 6 | 7 | 与该比赛相关的另外一个比赛是:科大讯飞的某次的事件抽取比赛,在该比赛中,对事件的属性做了细分。 8 | 9 | 10 | #### 比赛方案 11 | 12 | [复赛第一名方案](https://zhuanlan.zhihu.com/p/533808475) -------------------------------------------------------------------------------- /2023_ATEC_大模型的工具学习.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.atecup.cn/matchHomeDetails/100001/100002) 4 | 5 | #### 比赛介绍 6 | 7 | 本赛道以老年人在支付宝上常用的生活类场景(如交通服务、天气服务、医疗服务、红包社交等)为切入点,探索如何在安全及隐私保护的前提下,借助大模型提供的自然语言交互的方式,使得老年人无需学习繁琐的App操作方式,即可便捷地完成想要的操作。 8 | 9 | 本赛题需要通过大模型来理解用户Query,并利用外部API的结果与用户进行多轮交互,最终帮助用户完成某个具体的任务。每个API的功能和所需要的参数都预先提供,大模型需要根据当前对话状态,选择合适的API,并提取对应的参数或进行反问。 10 | 11 | 除了最终效果外,选手还需要特别关注大模型的高效微调方法,即如何使用有限的卡时训练出效果较好的大模型。在模型效果相当的情况下,卡时使用较少的会获得更高的排名。 12 | 13 | #### 比赛数据 14 | 15 | 1.本赛道数据集包含训练集和测试集。数据来自于用户和Agent之间的对话(符合数据安全规范),包含对话内容、API列表和对应输出的Action和Service Call。除此之外还会提供全场景API列表和参数的说明文档。 16 | 17 | 18 | 2.本赛道所有相关数据(包括但不限于训练数据集)不得以任何形式下载, 仅限在主办方提供的本地服务器及含GPU的公有池服务器上、以比赛为目的使用,选手操作全程审计,违者将被视作“获取未授权数据”,将依照大赛规则,作禁赛处理。同时,本赛道允许选手基于给定的数据集进行数据增强,但禁止选手使用额外数据集,违反将做成绩作废处理。 19 | 20 | -------------------------------------------------------------------------------- /2023_CCL23古籍命名实体识别竞赛.md: -------------------------------------------------------------------------------- 1 | https://mp.weixin.qq.com/s/4J2JR2h6J3PNmOKoqY6kzg 2 | -------------------------------------------------------------------------------- /2023_CHIP2023_YIER医疗大模型.md: -------------------------------------------------------------------------------- 1 | #### 比赛内容 2 | 3 | 中文医疗大模型的评估: 4 | 5 | + 模型需要精准理解和合理推演医疗领域的术语和知识 6 | 7 | + 模型须能基于医学公式进行计算和推导,准确把握患者症状,并提供恰如其分的专业临床诊疗知识 8 | 9 | 10 | #### 比赛地址 11 | 12 | https://tianchi.aliyun.com/competition/entrance/532156/information 13 | 14 | #### 比赛思路 15 | 16 | 正常大模型评估的思路 17 | 18 | #### 数据集 19 | ``` 20 | { 21 | "context": str, 22 | "question": str, 23 | "selection": [str1, str2, str3, str4], 24 | "answer_choices": [str2, str4], 25 | "sample_id": str, 26 | "source": str 27 | } 28 | ``` 29 | 30 | + context: 是指医学文本,部分题型无医学文本时请忽略。 31 | + question: 是指题干问题。 32 | + selection: 是指题干对应的候选文本项。 33 | + answer_choices: 答案内容,来自于 selection 的一个或者多个。 34 | + sample_id: 是指评测团队拟定的题号。 35 | + source: 是指该题的来源途径,如执业医师真题、临床考验真题、医学专家自拟题。 36 | 37 | 可联系repo维护者 -------------------------------------------------------------------------------- /2023_CHIP2023_中文糖尿病问题分类.md: -------------------------------------------------------------------------------- 1 | #### 比赛内容 2 | 3 | 评测数据集包含的中文糖尿病问题一共分为6类,包括诊断、治疗、常识、健康生活方式、流行病学、其他。数据以 6:1:1 的比例划分为训练集、验证集和测试集。总计6000条数据。数据集都是以 .txt 格式存储。训练集、验证集和测试集包含question和label,分类数据集包含class和label。 4 | 5 | 参赛者需要预测测试集中糖尿病问题对应的分类,预测完成后需将测试数据集空缺的类别标签数据进行填充。 6 | 7 | #### 比赛地址 8 | 9 | https://tianchi.aliyun.com/competition/entrance/532153/information 10 | 11 | #### 比赛思路 12 | 13 | 特定场景下的分类问题 14 | 15 | #### 数据集 16 | 17 | 可联系repo维护者 -------------------------------------------------------------------------------- /2023_CHIP2023_医疗论文PICOS关键信息抽取任务.md: -------------------------------------------------------------------------------- 1 | #### 比赛内容 2 | 3 | PICOS原则简介 4 | 5 | P(Population):研究对象,患有某种疾病的特定人群 6 | 7 | I(Intervention):干预措施,干预组的治疗方案或暴露因素 8 | 9 | C(Comparison):对照措施。对照组的治疗方案或暴露因素 10 | 11 | O(Outcome):结局,重要临床结局,如有效性、生存率 12 | 13 | S(Study design):研究类型,即研究设计是什么,随机对照研究还是其他 14 | 15 | 学术搜索中大部分的搜索其实是关键字检索的, 这里面其实设计到2个比较关键的关键字角色信息 16 | 17 | 1.研究的医学意图(S): 标题的分类 18 | 19 | 2.关键词的决策信息(PICO): 标题的Mention识别 20 | 21 | #### 比赛地址 22 | 23 | https://tianchi.aliyun.com/competition/entrance/532156/information 24 | 25 | #### 比赛思路 26 | 27 | 特定场景下的经典序列标注问题 28 | 29 | #### 数据集 30 | 31 | 可联系repo维护者 -------------------------------------------------------------------------------- /2023_CHIP2023_药品纸质文档识别与实体关系抽取.md: -------------------------------------------------------------------------------- 1 | #### 比赛内容 2 | 3 | 按照药监局管理规定,药品说明书必须注明药品名称、成分、适应症、用法用量,不良反应等内容。本任务的目标既要求针对药品说明书的扫描件进行OCR识别,提取规定段落,形成结构化的数据,同时也需要从指定段落的非结构化文本中,将核心实体和关系挖掘出来。 4 | 5 | #### 比赛地址 6 | 7 | https://tianchi.aliyun.com/competition/entrance/532156/information 8 | 9 | #### 比赛思路 10 | 11 | 特定场景下的OCR识别问题,需要传统信息抽取的方法。 12 | 13 | #### 数据集 14 | 15 | 可联系repo维护者(暂时没有) -------------------------------------------------------------------------------- /2023_SMP_金融智能挑战赛.md: -------------------------------------------------------------------------------- 1 | #### 比赛内容 2 | 3 | 初级:数据基本查询(40分) 4 | 5 | 参赛者需要利用提供的ChatGLM2-6B开源模型和上市公司年报原始数据,并以此为基础创建信息问答系统。系统需能够解决基本查询,如:某公司2021年的研发费用是多少?等问题。 6 | 7 | 中级:数据统计分析查询(30分) 8 | 9 | 在初级阶段的基础上,参赛者需要进行金融数据的统计分析和关联指标查询。系统需基于各类指标,提供问题和答案,如:某公司2021年研发费用增长率为多少?等问题。 10 | 11 | 高级:开放性问题(30分) 12 | 13 | 如:某公司2021年主要研发项目是否涉及国家创新领域,如新能源技术、人工智能等? 14 | 15 | #### 比赛地址 16 | 17 | https://tianchi.aliyun.com/competition/entrance/532126/information 18 | 19 | #### 冠军比赛方案 20 | 21 | + https://mp.weixin.qq.com/s/FML3mx7McW735Qt0pgy6TQ(其中提供了非常多的pdf解析技术) 22 | 23 | + https://mp.weixin.qq.com/s/-eA2yfcutjE-kinFb1XdGg 24 | -------------------------------------------------------------------------------- /2023_afac_金融文档知识抽取.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [比赛地址](https://tianchi.aliyun.com/competition/entrance/532088/information),实体识别任务 4 | -------------------------------------------------------------------------------- /2023_afac_金融行情观点生成和合规检测.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [比赛地址](https://tianchi.aliyun.com/competition/entrance/532091/introduction?spm=a2c22.28258124.0.0.1fca4b68QEf9rt) 4 | 5 | #### 6 | 7 | 输入:基金信息+知识库+观点库 8 | 9 | 输出:表达维度-话术对 10 | 11 | 比如: 12 | 13 | 低估值:该医药行业基金估值低,此时买入该行业安全边际高,未来下跌空间小; 14 | 15 | 利好事件:当前国家卫健委放宽大型医用设备配置审批,将明显降低大型医用设备进入医疗机构的阻力,对医药行业将是重大利好,建议适度配置医药行业基金; 16 | 17 | #### 18 | 19 | 基于大模型的基金推荐话术生成 20 | 21 | #### 22 | 23 | [第一名解决方案](https://mp.weixin.qq.com/s/l3prOyWzClSdtUTYuqe23g) 24 | -------------------------------------------------------------------------------- /2023_“达观杯”智能文档版面分析算法竞赛.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | (pr稿地址)https://mp.weixin.qq.com/s/3WCo-J8bYcsP8dOnV8pc3w 4 | 5 | (比赛地址)https://challenge.datacastle.cn/v3/cmptDetail.html?id=824 6 | 7 | #### 比赛内容 8 | 9 | 给定图片格式的PDF文档进行版面分析,支持的格式包括:文本,标题,图像,图像标题,表格,表格标题,目录,页眉,页脚,公式,脚注。 10 | 11 | #### 数据介绍 12 | 13 | 初赛(A榜)训练集包含**3000张**左右的图片和对应的版面分析标注以及OCR标注; 14 | 15 | 初赛(A榜)测试集包含**1000张**左右的图片和对应的OCR标注。 16 | 17 | 复赛(B榜)测试集包含**1000张**左右的图片和对应的OCR标注。 18 | 19 | 其中,OCR标注为通过OCR服务获得的图片中的文字位置和文字内容,未经过人工清洗。 20 | 21 | 版面分析标注参照COCO数据集,为json格式 22 | 23 | #### 数据下载 24 | 25 | 【repo作者有数据备份,如有需要,可自行联系】 26 | -------------------------------------------------------------------------------- /2023全球智能汽车AI挑战赛——赛道一AI大模型检索问答.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://tianchi.aliyun.com/competition/entrance/532154/customize410) 4 | 5 | 6 | #### 比赛介绍 7 | 8 | 赛题:基于大模型的文档检索问答 9 | 10 | 任务:本次比赛要求参赛选手以大模型为中心制作一个问答系统,回答用户的汽车相关问题。参赛选手需要根据问题,在文档中定位相关信息的位置,并根据文档内容通过大模型生成相应的答案。本次比赛涉及的问题主要围绕汽车使用、维修、保养等方面,具体可参考下面的例子: 11 | 12 | 问题1:怎么打开危险警告灯? 13 | 答案1:危险警告灯开关在方向盘下方,按下开关即可打开危险警告灯。 14 | 15 | 问题2:车辆如何保养? 16 | 答案2:为了保持车辆处于最佳状态,建议您定期关注车辆状态,包括定期保养、洗车、内部清洁、外部清洁、轮胎的保养、低压蓄电池的保养等。 17 | 18 | 问题3:靠背太热怎么办? 19 | 答案3:您好,如果您的座椅靠背太热,可以尝试关闭座椅加热功能。在多媒体显示屏上依次点击空调开启按键→座椅→加热,在该界面下可以关闭座椅加热。 20 | 21 | 【补充】: 22 | 23 | (CarBook汽车说明书和汽车保养手册PDF版大全)[https://www.carobook.com/sms.html] 24 | -------------------------------------------------------------------------------- /2024_ACM_ICAIF_FinanceRAG.md: -------------------------------------------------------------------------------- 1 | #### 比赛介绍 2 | 3 | https://www.kaggle.com/competitions/icaif-24-finance-rag-challenge/overview 4 | 5 | #### 数据集 6 | 7 | https://huggingface.co/datasets/Linq-AI-Research/FinanceRAG 8 | 9 | #### 解决方案 10 | 11 | (1)[Multi-Reranker: Maximizing performance of retrieval-augmented generation in the FinanceRAG challenge](https://github.com/cv-lee/FinanceRAG) 12 | 13 | ![image](https://github.com/user-attachments/assets/ff0ec43e-539c-4cf6-a6f7-ab84d991e38c) 14 | 15 | 16 | 主要工作: 17 | 18 | + query侧做了扩展,包含3类。原始query,query中抽取的关键词,hyde 19 | 20 | + 二次rerank(jina+bge) 21 | 22 | + generation时按照token长度进行路由 23 | 24 | 25 | (2)[Contextual RAG System with Hybrid Search and Reranking](https://github.com/chatterjeesaurabh/Contextual-RAG-System-with-Hybrid-Search-and-Reranking) 26 | 27 | ![image](https://github.com/user-attachments/assets/ecf3cf49-077a-4c30-aaf9-e116057ed810) 28 | 29 | 采用标准的混合搜索方案,其中基于RRF进行融合的策略如下: 30 | 31 | **从每种方法中获取排名前5的结果;将两种方法的分数归一化到一个共同的范围(0-1);使用权重参数对两种结果集中都出现的文档进行加权组合,并聚合分数。** 32 | 33 | 这样的逻辑是局部最优的。 34 | 35 | -------------------------------------------------------------------------------- /2024_AFAC挑战赛.md: -------------------------------------------------------------------------------- 1 | #### 赛题介绍 2 | 3 | + [金融工具学习](https://tianchi.aliyun.com/competition/entrance/532193?spm=a2c22.12281949.0.0.7e923b74DzEM2r) 4 | 5 | 根据用户Query,从API集合中筛选出合适的API列表,生成正确的api调用逻辑和答案。参赛者可以充分利用给定的数据集,使用大模型设计最优指令以得到最好的生成结果。 6 | 7 | 主要思路:llm的function call能力+RAG能力。 8 | 9 | 补充[冠军方案](https://mp.weixin.qq.com/s/1RzkfAUK12KHWCKBChfjyA) 10 | 11 | + [基于保险条款的问答](https://tianchi.aliyun.com/competition/entrance/532194/information) 12 | 13 | 主要思路:qa的标准逻辑。 14 | 15 | + [AIGC金融多模态研究报告智能生成](https://tianchi.aliyun.com/competition/entrance/532200?spm=a2c22.12281949.0.0.7e923b74DzEM2r) 16 | 17 | 基于开放数据,实现个股研报生成和行业研报生成,在生成的时候,要给出参考依据。 18 | 19 | 难点:多模态。 20 | 21 | + [金融规则长文本中的矛盾识别与漏洞发现](https://tianchi.aliyun.com/competition/entrance/532209?spm=a2c22.12281949.0.0.7e923b74DzEM2r) 22 | 23 | 错误类型包括常识错误、数值单位错误、逻辑矛盾、时间矛盾、数值前后矛盾、数据不完整、计算错误、语句重复等8种错误。 24 | 25 | 难点:推理能力要求高。 26 | 27 | 补充:[官方整理的比赛方案合集](https://github.com/AFAC2024/AFAC2024-Advanced-Fintech-AI-Competition) 28 | -------------------------------------------------------------------------------- /2024_CCAC(第四届中国情感计算大会).md: -------------------------------------------------------------------------------- 1 | #### 比赛介绍 2 | 3 | [比赛地址](https://mp.weixin.qq.com/s/h9su2gMc9iwWvl8mXwXNZQ) 4 | 5 | #### 比赛任务 6 | 7 | 任务一:大模型安全的双重防线:少样本文本内容安全挑战赛 8 | 评测赛道一:少样本用户问询安全检测 9 | 评测赛道一:少样本用户问询安全检测 10 | 11 | 任务二:第四届智慧论辩评测 12 | 阶段一:LLM基础论辩能力评测 13 | 阶段二:LLM综合论辩表现评测 14 | 15 | 任务三:结合用户画像信息中文情绪分类评测 16 | 评测任务:结合用户画像信息中文情绪分类 17 | 18 | 19 | 任务四:微表情自动识别 20 | 任务五:中文讽刺计算 21 | -------------------------------------------------------------------------------- /2024_KDD_CUP_LLM(两道题).md: -------------------------------------------------------------------------------- 1 | #### 题目描述 2 | 3 | [Meta LLMs RAG挑战赛](https://mp.weixin.qq.com/s/5nEz-DlO6So4Fyy6vw7dmA) 4 | 5 | ![image](https://github.com/zhpmatrix/nlp-competitions-list-review/assets/4077026/2f676ae2-74b8-4511-9659-8f078911de93) 6 | 7 | 具体介绍见[这里](https://mp.weixin.qq.com/s/lEm0stYqAuW8ZCiHse6oVw) 8 | 9 | #### 前排方案 10 | 11 | 12 | [冠军方案](https://mp.weixin.qq.com/s/CUKw1_c6fpcddmhWM5eQCw) 13 | 14 | [A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning](https://mp.weixin.qq.com/s/gx04y9GRMDZ1QvdRZjrOuQ) 15 | 16 | ``` 17 | We participated in Meta CRAG KDD Cup 2024 as Team ElectricSheep, securing third place in Task 1 and achieving first place in five of the seven question types in Task 2 among over 2, 000 participants and 5, 500 submissions 18 | ``` 19 | 20 | [WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs](https://mp.weixin.qq.com/s/OBj322clGq4UPbcBcBZCOw) 21 | 22 | [《MARAGS: A Multi-Adapter System for Multi-Task Retrieval Augmented Generation Question Answering》](https://mp.weixin.qq.com/s/iw0DYT5AqK0sKOK_41ys_Q) 23 | 24 | [Amazon比赛的解决方案](https://mp.weixin.qq.com/s/iLZfo4QkptYdNjEgk646mQ) 25 | 26 | 27 | 相关赛题以及解决方案: 28 | 29 | [LLM Science Exam](https://mp.weixin.qq.com/s/tYIBHJ5zuiw-o1-DF0_Jow) 30 | 31 | [Kaggle Prompt Recovery](https://mp.weixin.qq.com/s/PdNKfK2CNLFoBaDhHC74Sw) 32 | -------------------------------------------------------------------------------- /2024_WSDM_对话式多文档QA.md: -------------------------------------------------------------------------------- 1 | #### 比赛介绍 2 | 3 | https://sites.google.com/view/wsdm24-docqa 4 | 5 | #### 冠军方案介绍 6 | 7 | [wsdm 2024,基于大模型进行多文档问答](https://mp.weixin.qq.com/s/wKjpVYx21SDthwk7ZJ5r1Q) 8 | 9 | tricks: 10 | 11 | + SOLAR-10.7B-Instruct model作为基干模型 12 | + hybrid training:utilize a well-trained model to produce (pseudo) answers for the eval dataset before adding them to the original training set to finetune a new model from scratch 13 | + 噪音数据过滤:提升数据的质量 14 | + model ensemble 15 | 16 | #### 数据样例介绍 17 | 18 | 相比其他场景下的数据,增加了**history**的数据。 19 | 20 | ``` 21 | { 22 | "uuid": "xxxxx", 23 | "history": [ 24 | {"question": xxx, "history": xxx}, 25 | {"question": xxx, "history": xxx}, 26 | ... 27 | ], 28 | "documents": 29 | [ 30 | "Jun 17th through Fri the 21st, 2024 at the Seattle Convention Center, Vancouver Convention Center.", "Workshops within a “track” will take place in the same room (or be co-located), and workshop organizers will be asked to work closely with others in their track ...", 31 | ... 32 | ], 33 | "question": "Where will CVPR 2024 happen?", 34 | "answer": "CVPR 2024 will happen at the Seattle Convention Center, Vancouver.", 35 | "keywords": # Will not be given. 36 | [ 37 | "Vancouver", "CVPR 2024", "Seattle Convention Center" 38 | ] 39 | } 40 | ``` 41 | -------------------------------------------------------------------------------- /2024_博金大模型挑战赛.md: -------------------------------------------------------------------------------- 1 | #### 项目地址 2 | 3 | [项目地址](https://tianchi.aliyun.com/competition/entrance/532164) 4 | 5 | #### 模型 6 | 7 | qwen开源了金融大模型 8 | 9 | #### 亮点 10 | 11 | 开放了比赛的TOP方案 12 | -------------------------------------------------------------------------------- /2024_基于检索增强的运维知识问答挑战赛.md: -------------------------------------------------------------------------------- 1 | #### 赛题介绍 2 | 3 | [介绍](https://competition.aiops-challenge.com/home/competition/1780211530478944282) 4 | 5 | 设置两个赛道: 6 | 7 | + GLM4 8 | 9 | + 开源大模型 10 | 11 | 2023和2024类似以RAG为核心的比赛较多。 12 | -------------------------------------------------------------------------------- /2024_数字中国创新大赛_大模型用于肝病场景下的问答助手.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | https://www.dcic-china.com/competitions/10090 4 | 5 | #### 比赛内容 6 | 7 | 属于cdss的范畴,建立一个问答助手,阅读病人的个性化病历数据,回答该病人在**关键医疗场景中提出的关键问题**。 8 | 9 | #### 数据内容 10 | 11 | 1、训练数据集:训练数据集由**病历数据、问题和标准答案**构成。病历数据由120份模拟真实场景的肝癌病人的病历数据通过脱敏脱密和必要的数据安全处理机制处理后生成。每份病历数据属于4个医疗场景中的1个(医疗场景为:①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前;④出院时)。每份病历数据的字数在2000个汉字以内,使用标准的txt格式。每份病历数据有对应的问题(病人在该应用场景最常问的15个问题)和对问题的标准答案(由评审专家共同评审后得出)。 12 | 13 | 2、评测数据集:评测数据集由初赛评测数据集(60份病历数据)和决赛评测数据集(60份病历数据)组成,每份病历数据属于4个医疗场景中的1个(医疗场景为:①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前;④出院时)。每份病历数据的字数在2000个汉字以内,使用标准的txt格式。每份病历数据有对应的问题(病人在最常问的15个问题),但没有答案。 14 | 15 | 3、**知识集**: 包括肝病和肝癌的权威知识,覆盖外科,内科、护理、影像、病理等多个医疗部门。 16 | 17 | 4、**基座模型**:训练的基座大模型考虑到医院真实环境中算力基础设施的局限性和安全合规要求,采用清华的ChatGLM2-6B开源大模型。 18 | 19 | #### 评测方式 20 | 21 | 主办方提供评测病历数据共60份,并提供模型运行环境,选手提供运行代码并生成答案,由评审专家打分后产生排名,分值计算规则和初赛相同。 22 | 23 | #### 基本思路 24 | 25 | 整体上采用fine-tuning和rag的结合,具体如下: 26 | 27 | (1)基座模型的continue pretraining 28 | 29 | (2)基座模型的sft 30 | 31 | (3)利用知识集,做rag 32 | 33 | 可以结合实际需求,把gpt4用于问答助手构建的各个具体阶段中。 34 | 35 | 补充具体方案设计: 36 | ![liver_solution_v0 1 drawio](https://github.com/zhpmatrix/nlp-competitions-list-review/assets/4077026/a1df7818-ee0c-4d5c-9c69-9c6c66aa9c7e) 37 | 38 | 相关数据分析: 39 | 40 | https://zhpmatrix.notion.site/zhpmatrix/2024-04416033e59e4f46a27237dd652921ec 41 | 42 | 43 | #### 其他 44 | 45 | 福建医科大学孟超肝胆医院、福建人工智能计算中心、福州大学医工交叉研究院联合主办,上一次比赛是肝癌病理金数据,做文本结构化的,非常不错。 46 | -------------------------------------------------------------------------------- /2024_第三届琶洲算法大赛.md: -------------------------------------------------------------------------------- 1 | #### 赛题介绍 2 | 3 | + [GLM法律行业大模型挑战赛](https://www.aicompetition-pz.com/topic_detail/13) 4 | 5 | 参赛者需基于 GLM-4 模型,制定技术方案。方案应利用大语言模型的**语义理解和函数调用**功能,准确解析用户查询,并通过**访问相关法律数据库或API**,提供服务,包括**解答法律问题、查询案件信息、检索历史案件和分析司法数据**。 6 | 7 | + [政务服务行业大模型挑战赛](https://www.aicompetition-pz.com/topic_detail/12) 8 | 9 | 以盘古大模型为底座,制定技术方案。构建一个能够与**用户进行交互的政务服务办事咨询助手**,比拼回答的准确性和完整性。通过数据工程,RAG检索增强生成、提示词工程等多种技术方式融合,提升政务大模型场景应用能力 10 | -------------------------------------------------------------------------------- /AIOPS_2024_CCF国际AIOps挑战赛.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里(官网通知)](https://competition.aiops-challenge.com/home/competition) 4 | 5 | 6 | #### 赛道一 7 | 8 | 赛道一(Qwen1.5-14B):基于检索增强的运维知识问答挑战赛 9 | 10 | 11 | #### 赛道二 12 | 13 | 赛道二(GLM4):基于检索增强的运维知识问答挑战赛 14 | 15 | [季军方案](https://mp.weixin.qq.com/s/uHXuZv92ILKNjaX5hXo4HQ) 16 | 17 | -------------------------------------------------------------------------------- /AI_Challenger_2018_细粒度用户评论情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/AI_Challenger_2018_细粒度用户评论情感分析.md -------------------------------------------------------------------------------- /AI_Challenger_2018_英中文本机器翻译.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/AI_Challenger_2018_英中文本机器翻译.md -------------------------------------------------------------------------------- /AI_Challenger_2018_观点型阅读理解.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/AI_Challenger_2018_观点型阅读理解.md -------------------------------------------------------------------------------- /ATEC_问题相似度匹配.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/ATEC_问题相似度匹配.md -------------------------------------------------------------------------------- /Biendata_CCKS2017_评测二_电子病历结构化.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/CCKS2017_2/data/) 4 | 5 | #### 数据特点 6 | 7 | 截止这篇文档形成的时候,比赛已经结束,暂时拿不到数据,可以从其他渠道获取数据。数据特色在于数据的组成,如下: 8 | 9 | (1)数据类型 10 | 11 | 一般项目,病史特征,诊疗过程,出院情况 12 | 13 | (2)病区 14 | 15 | |病区|病例数| 16 | |------|------| 17 | |老年病科病房|120| 18 | |心血管内科病房|115| 19 | |泌尿外科病房|109| 20 | |胃肠外科病房|78| 21 | |儿科病房|66| 22 | |康复科病房|66| 23 | |骨伤科病房|56| 24 | |神经外科病房|52| 25 | |骨病科病房|47| 26 | |肝胆外科病房|22| 27 | |神经内科病房|21| 28 | |中医一科病房|15| 29 | |妇科组病房|10| 30 | |心胸外科病房|7| 31 | |消化内科病房|6| 32 | |眼科病房|5| 33 | |肛肠外科病房|3| 34 | |中医科病房|1| 35 | |口腔科病房|1| 36 | 37 | #### 评测指标(可以结合实际情况,合理设计相关指标) 38 | 39 | [地址](https://www.biendata.xyz/competition/CCKS2017_2/evaluation/) 40 | 41 | 指标分为两种: 42 | 43 | + strict metrics: 序列标注比赛常用的指标,严格匹配 44 | + relaxed metrics: 给出了一个形式化的定义。在保证类别相同的前提下,max(prediction.begin, golden.begin) <= min(prediction.end, golden.end)。其中,relaxed metrics >= strict metrics 45 | 46 | -------------------------------------------------------------------------------- /ByteCup_2018_国际机器学习竞赛_自动标题生成.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/ByteCup_2018_国际机器学习竞赛_自动标题生成.md -------------------------------------------------------------------------------- /CCIR_2019_基于电子病历的数据查询类问答.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccir2019/data/) 4 | 5 | #### 输入和输出 6 | 7 | 输入:自然语言描述的查询语句 8 | 9 | 输出:查询答案(两种类型:数值 或者 图谱中的资源标识符) 10 | 11 | ``` 12 | 13 | 示例: 14 | 15 | 样例1: 16 | 17 | 输入:总共有多少个患者? 18 | 19 | 输出:304 20 | 21 | 22 | 23 | 样例2: 24 | 25 | 输入:同时做了磷和肌酸激酶检验的病人有哪些? 26 | 27 | 输出:peg-r:1, peg-r:29 28 | 29 | ``` 30 | 31 | #### 数据分析 32 | 33 | 自然语言描述的查询语句+SPARQL+答案 34 | 35 | 使用的开源病人图谱:http://www.openkg.cn/dataset/peg,具体内容:使用**三家上海三甲医院**的电子病历数据,构建了包括**3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念**链接的医疗数据集 36 | 37 | 38 | #### 特色分析 39 | 40 | 提供了SPARQL作为中间查询语言,提供了新的建模的可能性。 41 | 42 | (1)基于Text2SQL的建模方案 43 | 44 | (2)直接建立自然语言查询到图谱的映射关系(KBQA) 45 | 46 | 两种方案在工业界的问答系统中都有看到。 47 | 48 | #### 比赛分析 49 | 50 | 参赛人数非常少,没有看到量化结果。 51 | -------------------------------------------------------------------------------- /CCKS_2018_面向中文电子病历的命名实体识别.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/CCKS2018_1/) 4 | 5 | #### 标注类型 6 | 7 | + 症状 8 | + 解剖部位 9 | + 症状描述 10 | + 独立症状 11 | + 药物 12 | + 手术 13 | 14 | 分析:共三大类,五小类。这道题目的特色在于:如何处理类别层次,用于更好的建模。 15 | 16 | |类型|数量| 17 | |------|------| 18 | |train|600个现病史文档| 19 | |test|200-400个现病史文档| 20 | 21 | #### 数据说明 22 | 23 | 电子病历主要有两类,即门诊病历和住院病历。门诊病历通常较短,包含信息较少,也缺乏对患者治疗情况的跟踪,因此本任务仅考虑住院病历。住院病历内容包括住院病案首页,入院记录,病程记录,医嘱单,辅助检查报告单,病理资料等。入院记录记录了患者入院后经诊治医师通过问诊,查体,辅助检查等获得的相关资料,具体内容包括一般项目,主诉,现病史,既往史,个人史,家族史,月经婚育史,体格检查,辅助检查,诊断等,其中,现病史的英文住院病历的重点内容,着重于了解患者本次疾病的发生,演变,诊疗经过,蕴含了更丰富的医疗信息,因此,次本评测主要面向现病史部分进行医疗命名实体的识别和抽取。如下: 24 | 25 | ![img](https://ftp.bmp.ovh/imgs/2021/03/94765b7830d9ce21.png) 26 | 27 | #### 评测指标 28 | 29 | strict metrics + relaxed metrics 30 | -------------------------------------------------------------------------------- /CCKS_2019_医疗命名实体识别.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccks_2019_1/) 4 | 5 | #### 任务类型 6 | 7 | 实体识别。 8 | 9 | #### 数据分析(需要详细了解实体类型) 10 | 11 | 整体上和CCKS2018年度的实体识别任务类似,不过实体类型不完全相同。具体如下: 12 | 13 | + 疾病和诊断:医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断 14 | + 检查:影像检查(X线、CT、MR、PETCT等)+造影+超声+心电图,未避免检查操作与手术操作过多冲突,不包含此外其它的诊断性操作,如胃镜、肠镜等 15 | + 检验:在实验室进行的物理或化学检查,本期特指临床工作中检验科进行的化验,不含免疫组化等广义实验室检查 16 | + 手术:医生在患者身体局部进行的切除、缝合等治疗,是外科的主要治疗方法 17 | + 药物 18 | + 解剖部位:用指疾病、症状和体征发生的人体解剖学部位 19 | -------------------------------------------------------------------------------- /CCKS_2019_医疗实体及属性抽取_跨院迁移.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccks_2019_1_2/) 4 | 5 | #### 任务类型 6 | 7 | 在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务 8 | 9 | #### 数据分析 10 | 11 | + 肿瘤原发部位 12 | + 肿瘤病灶大小 13 | + 肿瘤转移部位 14 | 15 | #### 建模思路 16 | 17 | 序列标注任务 18 | 19 | #### 比赛想法 20 | 21 | 跨院迁移是由于医疗体系本身的结构性问题带来的技术问题。一方面,需要打破医疗机构之间的数据独立问题;另一方面,短期可能要适配这种已经存在的结构性问题。 22 | 23 | 由于业务倒逼技术,因此,在技术上要做好跨院迁移的技术架构设计准备。 24 | -------------------------------------------------------------------------------- /CCKS_2020_新冠知识图谱构建与问答评测.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccks_2020_7_1/data/) 4 | 5 | 6 | #### 任务一 7 | 8 | 新冠百科知识图谱类型推断 9 | 10 | #### 任务二 11 | 12 | 概念的上下位关系预测 13 | 14 | #### 任务三 15 | 16 | 链接预测 17 | 18 | #### 任务四 19 | 20 | 知识图谱的自然语言问答 21 | -------------------------------------------------------------------------------- /CCKS_2020_面向中文电子病历的医疗实体及事件抽取_事件抽取.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccks_2020_2_2/) 4 | -------------------------------------------------------------------------------- /CCKS_2020_面向中文电子病历的医疗实体及事件抽取_实体识别.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/ccks_2020_2_1/) 4 | 5 | #### 数据集 6 | 7 | 由于是医渡云赞助的,数据和之前的比赛类似 8 | -------------------------------------------------------------------------------- /CCKS_2024_评测任务集.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里(官网通知)](https://sigkg.cn/ccks-ijckg2024/evaluation/) 4 | 5 | 6 | #### 任务一 7 | 8 | 任务一:大模型知识编辑评测 9 | [CCKS2024大模型知识编辑评测](https://tianchi.aliyun.com/competition/entrance/532182) 10 | 11 | #### 任务二 12 | 13 | 任务二:大模型零样本知识抽取评测 14 | [CCKS2024大模型零样本知识抽取评测](https://tianchi.aliyun.com/competition/entrance/532183) 15 | 16 | #### 任务三 17 | 18 | 任务三:人物知识图谱复杂问答推理评测 19 | [CCKS2024人物知识图谱复杂问答推理评测](https://tianchi.aliyun.com/competition/entrance/532196) 20 | 21 | #### 任务四 22 | 23 | 任务四:中医知识理解与推理能力评测 24 | 25 | #### 任务五 26 | 27 | 任务五:开放领域的知识图谱问答评测 28 | [CCKS2024开放领域知识图谱问答评测](https://tianchi.aliyun.com/competition/entrance/532197) 29 | 30 | #### 任务六 31 | 32 | 任务六:基于图数据库的自定义图分析算法评测 33 | 34 | #### 任务七 35 | 36 | 任务七:数字金融领域大模型能力评测 37 | 38 | #### 任务八 39 | 40 | 任务八:面向篇章级文本的突发事件关系抽取 41 | [CCKS2024面向篇章级文本的突发事件关系抽取评测](https://tianchi.aliyun.com/competition/entrance/532189) 42 | 43 | #### 任务九 44 | 45 | 任务九:面向篇章级文本的突发事件摘要生成 46 | [CCKS2024面向篇章级文本的突发事件摘要生成任务评测](https://tianchi.aliyun.com/competition/entrance/532190) 47 | 48 | #### 任务十 49 | 50 | 任务十:基于大模型的军事装备领域问答生成技术评测 -------------------------------------------------------------------------------- /CHIP_2018_医疗健康领域的问答匹配.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/chip2018/) 4 | 5 | #### 数据集 6 | 7 | 数据需要加入比赛QQ群中获取。 8 | -------------------------------------------------------------------------------- /DC_产品评论观点抽取比赛: -------------------------------------------------------------------------------- 1 | #### 比赛题目 2 | 3 | [产品评论观点提取赛题一等奖](https://mp.weixin.qq.com/s/hiiFNjMuCeGVdnzyckMl9Q) 4 | 5 | 主要内容:赛题提供了一个银行业产品评价文本内容,要求判断评论文本的情感倾向(负面,正面,中立),并能进一步通过语义分析和实体识别, 6 | 标识出评论所讨论的银行,产品,用户评论名词,用户评论形容词实体。 7 | 8 | 比赛的特色:基于prompt的解决方案验证。 9 | -------------------------------------------------------------------------------- /DataFoundatain_2021数字中国创新大赛_肝癌病理解析.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.datafountain.cn/competitions/498) 4 | 5 | ### 特色分析 6 | 7 | + 训练数据需要自己标注 8 | + 增加选手的医学知识 9 | + 帮助主办方做高质量的数据标注 10 | + 帮助参赛者熟悉标注工具(个人经验,推荐的标注工具) 11 | + brat:比较经典的工具,支持分类,序列标注和关系抽取等,天池瑞金比赛官方使用的标注工具 12 | + doccano:风格比较清新,支持分类,序列标注,文本生成等,此外,亮点是支持多人系统标注 13 | 14 | 15 | + 特定病种的结构化任务 16 | + 专注肝癌,与主办方来自福建医科大学孟超肝胆医院有关 17 | 18 | #### 数据分析 19 | 20 | |类型|数量|备注| 21 | |------|------|------| 22 | |train|1000份病历|需要比赛选手自己标注(比赛特色)| 23 | |参考train标注样本|100份病历|5人标注,一致通过;不一致,需协商确定| 24 | |test|1050份病历|| 25 | |实体类型|10种|有对应的解释| 26 | 27 | #### 建模分析 28 | 29 | 标准的序列标注任务 30 | 31 | #### 评测指标 32 | 33 | P/R/F1 34 | -------------------------------------------------------------------------------- /DataFountain_2019CCF_BDCI相关比赛.md: -------------------------------------------------------------------------------- 1 | ### 一.O2O商铺食品安全相关评论发现 2 | 3 | [比赛地址](https://www.datafountain.cn/competitions/370),二分类,提供了一个数据集。 4 | 5 | ### 二.文本实体识别及关系抽取 6 | 7 | [比赛地址](https://www.datafountain.cn/competitions/371) 8 | 9 | 基于SemEval 2010 Task8 Dataset,该数据集原本是用于神经关系抽取(NRE)的基础数据集。NRE任务的设定是给定context和context中的实体,判断实体之间的关系。该赛道第一步需要做一个实体识别的模型,其实这也是真实场景下关系抽取的应用场景,主要用于信息抽取。[自己在该数据集上的一个实现工作](https://github.com/zhpmatrix/BERTem) 10 | 11 | 类似比赛最近一段时间较多,可以看下**2019语言与智能技术竞赛**相关的比赛和“之江杯”的电商评论情感分析赛道。具体方案不多聊了,在该repo下应该也可以找到。 12 | 13 | ### 三.汽车论坛消费者用车体验内容的判别与标注 14 | 15 | 这个比赛不是CCF的,暂且放在这里。[比赛地址](https://www.datafountain.cn/competitions/365/datasets) 16 | 17 | **比赛简介**:比赛用数据集来自**国内三大知名汽车论坛**,2017年至2018年期间,6款指定汽车车型子论坛的网友发帖内容;数据通过网络爬虫而得。数据经过内容语义分析处理后,标记出是否为真实汽车消费者发布内容,如果是则后续进一步标引其内容类别归属,如:空间、动力、座椅、舒适性、油耗、价格等(本次比赛暂不涉及此步骤)。通过标引后的内容,汽车业务部门会根据消费者反馈意见及其比例分布,用于改进后续车型设计开发和质量优化提升等工作。 18 | 19 | 一个分类任务,提供了一个数据集。关于汽车类的相关比赛,在该比赛平台上较多。同科研论文领域类似,汽车相关的文本分析也是一个非常棒的技术场景,具体上可以展开很多技术。比如,同样可以基于该数据做信息抽取等子任务。 20 | -------------------------------------------------------------------------------- /DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘.md: -------------------------------------------------------------------------------- 1 | 2 | 该比赛任务定义简单,问题经典。但是目前只能看到部分解决方案的分享,主要包括比赛的第三名(部分分享)和第五名的方案,借此可以简单梳理一下经典的统计机器学习方法。 3 | 4 | ### 背景 5 | 6 | 电力行业积累了大量的文本数据,这些数据包括电力科技论文,项目报告,电力规程,电力操作手册等。虽然数据类型丰富,但是电力行业还没有建立较全的电力主题词典。 7 | 8 | ### 任务 9 | 10 | 对给定的电力文本数据,利用专业领域词发现算法来挖掘电力专业词汇。 11 | 12 | ### 数据 13 | 14 | 包含10000篇电力科技论文(已打乱顺序)的文本数据,其中每行为文献中的一句话且句子间已经被无序打乱。 15 | 16 | ### 评测 17 | 18 | ROUGE = 用户提交的正确词汇去重后的总数 / 人工抽取的电力领域词汇总数 19 | 20 | ### 建模思路 21 | 22 | 或许可以采用监督学习的思路,可以建模为一个命名实体识别的任务。但是比赛方提供的数据没有标签,因此需要解决的第一个问题是标签哪里来的问题?一种方法是将电力领域的科技论文的关键词(摘要下侧)作为实体。 23 | 24 | 官方提供的数据没有标注信息,因此采用无监督的思路或许也是一个方法。比如新词发现任务,借助传统统计机器学习的方法。 25 | 26 | ### 方案复盘(第五名,目前能看到的) 27 | 28 | ![img2](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g1h6yhe85lj20j10gojtt.jpg) 29 | 30 | 该方案是无监督的方案。可以将种子词理解为“搜索词”,候选词集理解为“召回集”,相似度计算对应一个“排序过程”,这样就可以理解的相对清晰了,模型的优点和缺点也容易分析。该框架不仅可以适用于电力领域,也可以适用于其他领域的词汇挖掘。在数据量较大的前提下,如果将模型层的一些方法替换成DL的方法,或许可以进一步提升。 31 | 32 | ### 补充 33 | 34 | 目前只能找到第三名和第五名的方案,第三名的方案如下: 35 | 36 | ![img](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g1h671ltvtj20fe0bjwpu.jpg) 37 | 38 | 除此之外,还可以看到一些方案。通过构建一个二分类器(给定一个词,判断是否是电力领域专业词汇)的实现,通过构建大量的特征来进行讨论,这也是一个思路,但是仍然要回到有监督学习问题中标签的构建问题。标签不一定要比赛方提供,存在于互联网上的大量数据本来就可以当做一种标签。 39 | 40 | ### 参考 41 | 42 | 1.[第五名](https://zhuanlan.zhihu.com/p/54375522) 43 | 44 | 2.[某参赛者的一个实现](https://github.com/yizt/aiia_elec_miner) 45 | 46 | 3.[新词发现的信息熵方法与实现](https://spaces.ac.cn/archives/3491) -------------------------------------------------------------------------------- /DataFountain_AIIA杯_国际安全事件关系发现.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_AIIA杯_国际安全事件关系发现.md -------------------------------------------------------------------------------- /DataFountain_健康医疗问答系统构建与实现.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_健康医疗问答系统构建与实现.md -------------------------------------------------------------------------------- /DataFountain_垃圾短信基于文本内容识别.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_垃圾短信基于文本内容识别.md -------------------------------------------------------------------------------- /DataFountain_基于主题的文本情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_基于主题的文本情感分析.md -------------------------------------------------------------------------------- /DataFountain_基于大数据的未知病原检测方法构建.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_基于大数据的未知病原检测方法构建.md -------------------------------------------------------------------------------- /DataFountain_基于机构实体的智能摘要和风险等级识别.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_基于机构实体的智能摘要和风险等级识别.md -------------------------------------------------------------------------------- /DataFountain_基于视角的领域情感分析.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_基于视角的领域情感分析.md -------------------------------------------------------------------------------- /DataFountain_机器写作与人类写作的巅峰对决_文本分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_机器写作与人类写作的巅峰对决_文本分类.md -------------------------------------------------------------------------------- /DataFountain_汽车行业_用户观点及情感识别.md: -------------------------------------------------------------------------------- 1 | ### 比赛背景 2 | 3 | 数据为用户在汽车论坛中对汽车相关内容的讨论和评价,典型的如汽车之家(该平台是一个大的数据来源地,值得注意)。 4 | 5 | ### 数据说明 6 | 7 | |字段名称|类型|描述|说明| 8 | |------|------|------|------| 9 | |content_id|Int|数据ID|/| 10 | |content|String|文本内容|/| 11 | |subject|String|主题|提取或者依据上下文归纳出来的主题| 12 | |sentiment_value|Int|情感分析|分析出的情感| 13 | |sentiment_word|String|情感词|情感词| 14 | 15 | 其中subject包括10类:动力,价格,内饰,配置,安全性,外观,操控,油耗,空间,舒适性。 16 | 17 | sentiment\_value包括三类:中立(0),正向(1)和负向(-1)。 18 | 19 | 每个content\_id可能对应多个subject,每个subject一行记录。 20 | 21 | sentiment\_word大部分为空。 22 | 23 | 测试时的输入字段为content\_id和content,输出字段包括subject,sentiment\_value和sentiment\_word。 24 | 25 | ### 评估指标 26 | 27 | F1得分,只对subject和sentiment\_value进行评估,忽略sentiment\_word。 28 | 29 | ### 思路分析 30 | 31 | 已经给定了主题的种类和数目,同时一个content可能对应多个subject。一种典型的建模思路是多标签分类。给定content和subject,接下来就是情感分类了(多分类问题),可以将content和subject嵌入后直接分类。 32 | 33 | ### 方案复盘 34 | 35 | #### 1.模型 36 | 37 | 冠军方案的思路和上述思路分析一致,模型上主要采用BERT,以及CNN/RNN等其他模型,借助LR以Stacking的方式融合多个模型。具体方案如下: 38 | 39 | ![topic](http://wx3.sinaimg.cn/mw690/aba7d18bgy1g1g00d2nbfj20fk0f1tak.jpg) 40 | 41 | 其中,Multi-Label Multi-Attention Model中的Multi-Attention是指第一:Lable Embedding做一个Attention,目的是建立Label之间的关系;第二,每个Label也有一个Attention过程,目的是学习到Label对应的句子表示。 42 | 43 | ![sent](http://wx3.sinaimg.cn/mw690/aba7d18bgy1g1fzztadt8j20le0f1jts.jpg) 44 | 45 | 上图中,AT\_LSTM在自己的2017年的一个比赛中也用到,单模型做到了排名第二的成绩。HEAT和GCAE也分别是两个模型,关于模型细节就不多说了,可以参考具体文献。 46 | 47 | #### 2.词向量(多种) 48 | 49 | 具体包括:[Chinese-Word-Vectors](https://github.com/Embedding/Chinese-Word-Vectors),[Word vectors for 157 languages](https://fasttext.cc/docs/en/crawl-vectors.html),[Tencent AI Lab Embedding Corpus for Chinese Words and Phrases](https://ai.tencent.com/ailab/nlp/embedding.html),[HIT-SCIR,ELMoForManyLangs](https://github.com/HIT-SCIR/ELMoForManyLangs) 50 | 51 | 上述其实是一个中文预训练词向量的列表,可以用在很多地方,冠军方案中用了这四种。 52 | 53 | #### 3.思考 54 | 55 | 赛题还是一个分类问题。从作者的开源代码Readme中,作者说单模型BERT的评估指标就已经很好了,和融合方案的差距很小,再次证明BERT的强大。冠军用了很多新的工作,要开放心态,做新模型和新方法的尝试。 56 | 57 | 58 | ### 参考 59 | 60 | 1.[冠军方案,代码](https://github.com/yilirin/BDCI_Car_2018) 61 | 62 | 63 | 64 | 65 | -------------------------------------------------------------------------------- /DataFountain_让AI当法官.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/DataFountain_让AI当法官.md -------------------------------------------------------------------------------- /IEEE_Healthcom_2020_MODMA.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/modma/leaderboard/) 4 | 5 | #### 比赛建模 6 | 7 | 数据挖掘比赛+二分类(是否是抑郁症) 8 | -------------------------------------------------------------------------------- /Kaggle_Gendered_Pronoun_Resolution.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/Kaggle_Gendered_Pronoun_Resolution.md -------------------------------------------------------------------------------- /Kaggle_Quora_Insincere_Questions_Classification.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/Kaggle_Quora_Insincere_Questions_Classification.md -------------------------------------------------------------------------------- /Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/Kesci_PaddlePaddle_AI产业应用赛_汽车大师问答摘要与推理.md -------------------------------------------------------------------------------- /Kesci_PaddlePaddle_AI大赛_智能问答.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/Kesci_PaddlePaddle_AI大赛_智能问答.md -------------------------------------------------------------------------------- /Kesci_默克杯逆合成反应预测大赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/Kesci_默克杯逆合成反应预测大赛.md -------------------------------------------------------------------------------- /NLPCC2019_成语阅读理解大赛.md: -------------------------------------------------------------------------------- 1 | ## 比赛简介 2 | 3 | 解决的问题比较有意思,个人比较喜欢的一个比赛。[比赛地址](https://www.biendata.com/competition/idiom/) 4 | 5 | 本次竞赛将基于**选词填空**的任务形式,提供大规模的**成语填空训练语料**。在给定若干段文本下,选手需要在提供的候选项中,依次选出填入文本中的空格处最恰当的成语。 6 | 7 | 许多成语的含义**并非简单字面意义的拼接或合成**,而是可能来源于历史故事或具有隐喻含义等,这导致了成语往往不能“望文生义”。同时,相近词之间的细微差别也经常导致成语被误用,如「侃侃而谈」和「口若悬河」,尽管这两个成语都表示说话又多又长,但前者侧重描述说话者的神情,而后者则用以描述说话者的口才。由此可见,对成语有很好的理解和表示,对于中文领域的机器阅读理解将有很好的促进意义,并且对于中文机器翻译、汉语成语推荐系统等实际应用场景也会有所帮助。 8 | 9 | ## 数据来源 10 | 11 | 数据集的语料来源于论文《ChID: A Large-scale Chinese IDiom Dataset for Cloze Test》(ACL 2019) 12 | 13 | **具体示例如下:** 14 | 15 | 比赛数据中,每条数据由若干段文本和一组固定长度的候选项构成,每段文本被挖去了若干个空格(每个空格都有唯一的编号),选手需要从候选项中选出每个空的答案。注意同一条数据的文本的填空答案在词义或语境上可能是相近的。保证每一条数据中,各个空的答案互不相同。数据样例如下(来自train): 16 | 17 | ``` 18 | 19 | { 20 | "content": [ 21 | # 文段0 22 | "……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。", 23 | # 文段1 24 | "在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。", 25 | # 文段2 26 | "最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……", 27 | # 文段3 28 | "“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。", 29 | # 文段4 30 | "从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 31 | # 文段5 32 | "……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"], 33 | "candidates": [ 34 | "百尺竿头", 35 | "随波逐流", 36 | "方兴未艾", 37 | "身体力行", 38 | "一日千里", 39 | "三十而立", 40 | "逆水行舟", 41 | "日新月异", 42 | "百花齐放", 43 | "沧海一粟" 44 | ] 45 | } 46 | 47 | 对应的答案如下,其中第二列表示正确答案在候选项中的索引: 48 | 49 | 50 | 51 | #idiom000378#,0 52 | #idiom000379#,1 53 | #idiom000380#,6 54 | #idiom000381#,4 55 | #idiom000382#,7 56 | #idiom000383#,2 57 | #idiom000384#,8 58 | 59 | 60 | 可以看出,对于文段2所需要填空的#idiom000381#,选项中「方兴未艾」、「一日千里」、「日新月异」都比较符合语境,并且彼此词义相近。但考虑到文段3中的#idiom000382#只能填「日新月异」,文段4中的#idiom000383#只能填「方兴未艾」,因此根据排除法,#idiom000381#也就只有「一日千里」可以填入。 61 | 62 | ``` 63 | ## 评价方法 64 | 65 | 填空正确率。 -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # nlp-competitions-list-review 2 | 3 | ### 目的 4 | 5 | 建立一个**只专注于NLP比赛**的方案分享讨论的项目,讨论时期不限,可包括赛前分析,赛中讨论,赛后复盘,其中以赛后复盘为主。 6 | 7 | 8 | ### 内容 9 | 10 | 讨论比赛平台,赛题背景,数据格式,主要思路,技术实现,模型设计,框架选择,评估指标等方面梳理NLP比赛。 11 | 12 | ### 医学相关汇总 13 | 14 | |序号|赛题|备注| 15 | |------|------|------| 16 | |29|[2024数字中国创新大赛-大模型作为肝病场景下的医疗助手](https://www.dcic-china.com/competitions/10090)|面向病历文书的问答系统| 17 | |28|[2023“域见杯”医检人工智能开发者大赛(赛题一:智能临床咨询模型)](https://competition.huaweicloud.com/information/1000041928/html11?utm_source=dd55ff57f7634a89a26bcac3c73382c8&share=c7f6851ae992497fa218db4722395be6)|| 18 | |27|[中文医疗教学视频问答](https://mp.weixin.qq.com/s/uPdqhDKclHaalztMFo2xwQ)|| 19 | |26|[2023-全球人工智能技术创新大赛](https://mp.weixin.qq.com/s/mUaZekvgk1m8kxgOuGpeOg)|医学影像诊断报告生成| 20 | |25|[医疗语音,翻译和意图识别](https://www.kaggle.com/datasets/paultimothymooney/medical-speech-transcription-and-intent)|| 21 | |24|[智能分诊](http://challenge.xfyun.cn/topic/info?type=disease-claims-2022&ch=ds22-dw-sq03)|2022-科大讯飞的比赛,举办方:好大夫,共计19个科室,我们自己做了38个科室(通用版),骨科专科版做了10+的科室| 22 | |23|[中文医疗信息处理挑战榜](https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.22060218.J_2657303350.1.70e81343ffdz3p&dataId=95414)(收录了下述部分赛题,同时有更多的医疗NLP领域的经典任务)|更多数据可以参考[天池数据集](https://tianchi.aliyun.com/dataset),漠沙老师为了天池的发展,真是操碎了心......| 23 | |22|[CCKS2021:医疗科普知识答非所问识别](https://www.biendata.xyz/competition/ccks_2021_tencentmedical_2/)|NLI任务| 24 | |21|[CCKS2021:蕴含实体的中文医疗对话生成](https://www.biendata.xyz/competition/ccks_2021_mdg/)|梁晓丹老师组的工作,该数据集也在其他比赛平台被用到| 25 | |20|[医学数据挖掘算法评测大赛](https://www.heywhale.com/home/competition/5f2d0ea1b4ac2e002c164d82/content)|健康问句分类| 26 | |19|[CCKS2021:医疗科普知识阅读理解](https://www.biendata.xyz/competition/ccks_2021_tencentmedical_1/)|MRC任务| 27 | |18|[第一届智能对话诊疗比赛](http://www.fudan-disc.com/sharedtask/imcs21/index.html)|智能对话结构化+智能对话诊疗| 28 | |17|[Kesci医学相关数据集](https://www.kesci.com/home/dataset)|非常丰富的医学场景数据| 29 | |16|[北京数智医保创新大赛](https://www.kesci.com/home/competition/5eb3c4baa05545002d2163f8/content/2)|初赛没有数据,提交资质验证;复赛10G->1T的数据,非公网环境| 30 | |15|[ICLR2021:医疗对话生成和自动医疗诊断](https://mp.weixin.qq.com/s?__biz=MzIwNzc2NTk0NQ==&mid=2247511995&idx=2&sn=a58fd6548df5448de63daa75eb8fdb9a&chksm=970f876da0780e7b950a39029bdd5de120e191e514c64c064c3c5099b59e1e1801c937ae3956&mpshare=1&scene=23&srcid=0309mKW8AwybsntYw9vfi7zq&sharer_sharetime=1615304183246&sharer_shareid=0e8353dcb5f53b85da8e0afe73a0021b%23rd)|| 31 | |14|[链想家计算科技大赛:COVID-19 知识图谱构建_赛道二](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E9%93%BE%E6%83%B3%E5%AE%B6%E8%AE%A1%E7%AE%97%E7%A7%91%E6%8A%80%E5%A4%A7%E8%B5%9B%EF%BC%9ACOVID-19%20%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E6%9E%84%E5%BB%BA_%E8%B5%9B%E9%81%93%E4%BA%8C.md)||| 32 | |13|[天池精准医疗大赛_人工智能辅助糖尿病遗传风险预测](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E7%B2%BE%E5%87%86%E5%8C%BB%E7%96%97%E5%A4%A7%E8%B5%9B_%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E8%BE%85%E5%8A%A9%E7%B3%96%E5%B0%BF%E7%97%85%E9%81%97%E4%BC%A0%E9%A3%8E%E9%99%A9%E9%A2%84%E6%B5%8B.md)||| 33 | |12|[CHIP_2018_医疗健康领域的问答匹配](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CHIP_2018_%E5%8C%BB%E7%96%97%E5%81%A5%E5%BA%B7%E9%A2%86%E5%9F%9F%E7%9A%84%E9%97%AE%E7%AD%94%E5%8C%B9%E9%85%8D.md)|| 34 | |11|[CCKS_2020_面向中文电子病历的医疗实体及事件抽取_实体识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2020_%E9%9D%A2%E5%90%91%E4%B8%AD%E6%96%87%E7%94%B5%E5%AD%90%E7%97%85%E5%8E%86%E7%9A%84%E5%8C%BB%E7%96%97%E5%AE%9E%E4%BD%93%E5%8F%8A%E4%BA%8B%E4%BB%B6%E6%8A%BD%E5%8F%96_%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB.md)|| 35 | |10|[CCKS_2020_面向中文电子病历的医疗实体及事件抽取_事件抽取](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2020_%E9%9D%A2%E5%90%91%E4%B8%AD%E6%96%87%E7%94%B5%E5%AD%90%E7%97%85%E5%8E%86%E7%9A%84%E5%8C%BB%E7%96%97%E5%AE%9E%E4%BD%93%E5%8F%8A%E4%BA%8B%E4%BB%B6%E6%8A%BD%E5%8F%96_%E4%BA%8B%E4%BB%B6%E6%8A%BD%E5%8F%96.md)|| 36 | |9|[CCKS_2020_新冠知识图谱构建与问答评测](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2020_%E6%96%B0%E5%86%A0%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E6%9E%84%E5%BB%BA%E4%B8%8E%E9%97%AE%E7%AD%94%E8%AF%84%E6%B5%8B.md)|全流程图谱构建,值得关注| 37 | |8|[CCKS_2019_医疗实体及属性抽取_跨院迁移](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2019_%E5%8C%BB%E7%96%97%E5%AE%9E%E4%BD%93%E5%8F%8A%E5%B1%9E%E6%80%A7%E6%8A%BD%E5%8F%96_%E8%B7%A8%E9%99%A2%E8%BF%81%E7%A7%BB.md)|| 38 | |7|[CCKS_2019_医疗命名实体识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2019_%E5%8C%BB%E7%96%97%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB.md)|| 39 | |6|[CCKS_2018_面向中文电子病历的命名实体识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCKS_2018_%E9%9D%A2%E5%90%91%E4%B8%AD%E6%96%87%E7%94%B5%E5%AD%90%E7%97%85%E5%8E%86%E7%9A%84%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB.md)|| 40 | |5|[CCIR_2019_基于电子病历的数据查询类问答](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/CCIR_2019_%E5%9F%BA%E4%BA%8E%E7%94%B5%E5%AD%90%E7%97%85%E5%8E%86%E7%9A%84%E6%95%B0%E6%8D%AE%E6%9F%A5%E8%AF%A2%E7%B1%BB%E9%97%AE%E7%AD%94.md)|| 41 | |4|[天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E5%B9%B3%E5%8F%B0_%E7%91%9E%E9%87%91%E5%8C%BB%E9%99%A2MMC%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E8%BE%85%E5%8A%A9%E6%9E%84%E5%BB%BA%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%A4%A7%E8%B5%9B.md)|| 42 | |3|[DataFountain_基于大数据的未知病原检测方法构建](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_%E5%9F%BA%E4%BA%8E%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E6%9C%AA%E7%9F%A5%E7%97%85%E5%8E%9F%E6%A3%80%E6%B5%8B%E6%96%B9%E6%B3%95%E6%9E%84%E5%BB%BA.md)||| 43 | |2|[DataFountain_健康医疗问答系统构建与实现](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_%E5%81%A5%E5%BA%B7%E5%8C%BB%E7%96%97%E9%97%AE%E7%AD%94%E7%B3%BB%E7%BB%9F%E6%9E%84%E5%BB%BA%E4%B8%8E%E5%AE%9E%E7%8E%B0.md)|| 44 | |1|[DataFoundatain_2021数字中国创新大赛_肝癌病理解析](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFoundatain_2021%E6%95%B0%E5%AD%97%E4%B8%AD%E5%9B%BD%E5%88%9B%E6%96%B0%E5%A4%A7%E8%B5%9B_%E8%82%9D%E7%99%8C%E7%97%85%E7%90%86%E8%A7%A3%E6%9E%90.md)|训练数据需要参赛者自己标注| 45 | 46 | ### 进度列表(####自己有时间就会更新,同时欢迎感兴趣同学的不定时更新####) 47 | 48 | |序号|题目|进度(拟进行/进行中/完成)| 49 | |------|------|------| 50 | |13|ALT2023-第一届楔形文字机器翻译评测|将苏美尔语和古汉语两种古老的语言自动翻译为今天的语言| 51 | |12|[第二届古汉语分析评测](https://mp.weixin.qq.com/s/bbJiv3r0RJSlpBfmIPG-9w)|古汉语翻译成现代文;古汉语翻译成英文等任务| 52 | |11|[中文空间语义理解评测](https://170.106.8.194/repo/2030NLP/SpaCE2021)|识别语义中含有的空间信息,纯正NLP问题研究| 53 | |10|[2019\_CCF大数据与计算智能大赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_CCF大数据与计算智能大赛.md)|完成| 54 | |9|[2019之江杯的电商评论观点挖掘问题](https://zhpmatrix.github.io/2019/07/22/how-to-modeling/)|完成| 55 | |8|[DataFountain_AIIA杯_国家电网_电力专业领域词汇挖掘](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_AIIA%E6%9D%AF_%E5%9B%BD%E5%AE%B6%E7%94%B5%E7%BD%91_%E7%94%B5%E5%8A%9B%E4%B8%93%E4%B8%9A%E9%A2%86%E5%9F%9F%E8%AF%8D%E6%B1%87%E6%8C%96%E6%8E%98.md)|完成| 56 | |7|[DataFountain_汽车行业_用 户观点及情感识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/DataFountain_%E6%B1%BD%E8%BD%A6%E8%A1%8C%E4%B8%9A_%E7%94%A8%E6%88%B7%E8%A7%82%E7%82%B9%E5%8F%8A%E6%83%85%E6%84%9F%E8%AF%86%E5%88%AB.md)|完成| 57 | |6|[2019_搜狐校园算法大赛_内容识别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E6%90%9C%E7%8B%90%E6%A0%A1%E5%9B%AD%E7%AE%97%E6%B3%95%E5%A4%A7%E8%B5%9B_%E5%86%85%E5%AE%B9%E8%AF%86%E5%88%AB.md)|进行中| 58 | |5|[天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E5%A4%A9%E6%B1%A0%E5%B9%B3%E5%8F%B0_AI_WordCup_2018_%E4%B8%96%E7%95%8C%E6%9D%AF%E6%96%B0%E9%97%BB%E6%99%BA%E8%83%BD%E5%88%9B%E4%BD%9C%E6%9E%81%E9%99%90%E6%8C%91%E6%88%98%E8%B5%9B.md)|完成| 59 | |4|[2019_语言与智能技术竞赛_信息抽取](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E8%AF%AD%E8%A8%80%E4%B8%8E%E6%99%BA%E8%83%BD%E6%8A%80%E6%9C%AF%E7%AB%9E%E8%B5%9B_%E4%BF%A1%E6%81%AF%E6%8A%BD%E5%8F%96.md)|进行中| 60 | |3|[2019_语言与智能技术竞赛_知识驱动对话](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/2019_%E8%AF%AD%E8%A8%80%E4%B8%8E%E6%99%BA%E8%83%BD%E6%8A%80%E6%9C%AF%E7%AB%9E%E8%B5%9B_%E7%9F%A5%E8%AF%86%E9%A9%B1%E5%8A%A8%E5%AF%B9%E8%AF%9D.md)|进行中| 61 | |2|[第三届魔镜杯大赛_问题相似度匹配](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/%E7%AC%AC%E4%B8%89%E5%B1%8A%E9%AD%94%E9%95%9C%E6%9D%AF%E5%A4%A7%E8%B5%9B_%E9%97%AE%E9%A2%98%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%8C%B9%E9%85%8D.md)|完成| 62 | |1|[WSDM_Cup_2019_真假新闻甄别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/WSDM_Cup_2019_%E7%9C%9F%E5%81%87%E6%96%B0%E9%97%BB%E7%94%84%E5%88%AB.md)|完成| 63 | 64 | 补充: 65 | 66 | [中文相似度匹配比赛汇总](https://github.com/ShuaichiLi/Chinese-sentence-similarity-task) 67 | 68 | [55个大模型比赛汇总](https://mp.weixin.qq.com/s/306YeHrU1XjcWIwUz-vB_g) 69 | 70 | -------------------------------------------------------------------------------- /WSDM_Cup_2019_真假新闻甄别.md: -------------------------------------------------------------------------------- 1 | ## WSDM2019-虚假新闻检测比赛 2 | 3 | 前言: 这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。 4 | 5 | ### 一.背景 6 | 7 | 从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。 8 | 9 | ### 二.数据介绍 10 | 11 | 训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下: 12 | 13 | |一致|不一致|无关| 14 | |------|------|------| 15 | |29.0%|2.6%|68.4%| 16 | 17 | 由上表可以得出结论:类别严重不平衡。 18 | 19 | ### 三.数据预处理和数据增强 20 | 21 | #### 1.数据预处理 22 | 23 | 结合数据特点,使用各种数据预处理方法。例如繁简转换,停用词过滤等,相关技术可以参考[博客](https://zhpmatrix.github.io/2019/03/08/preprocess-augmentation-in-nlp/)。 24 | 25 | #### 2.数据增强 26 | 27 | ##### (a)标签传播 28 | 29 | 标签传播的思想作为一种数据增强手段,用处较多。在拍拍贷-问题相似度比赛中,仍旧可以采用该方法做数据增强。 30 | 31 | 假设A和B是一致的,A和C是一致的,显然B和C应该是一致的; 32 | 33 | 假设A和B是一致的,A和D是不一致的,则B和D也是不一致的; 34 | 35 | ##### (b)位置交换 36 | 37 | A和B是一致的,则B和A也是一致的。 38 | 39 | ### 四.模型选择 40 | 41 | BERT为主,辅助SVM,LR,KNN,NB 42 | 43 | ### 五.策略设计 44 | 45 | 模型融合,设计三层。第一层:25个BERT基模型;第二层:SVM/KNN/NB等传统数据挖掘模型;第三层:LR模型 46 | 47 | ### 六.评估指标 48 | 49 | 带有权重的分类准确率。其中,具体权重分配如下表: 50 | 51 | |一致|不一致|无关| 52 | |------|------|------| 53 | |1/15|1/5|1/16| 54 | 55 | 结论:少数类样本,权重大。通过这种方式,引导模型去关注少数类样本或者说希望选择一个对少数类关注度较高的模型。 56 | 57 | ### 七.线上结果 58 | 59 | |Model|Weighted Acc on Private LB| 60 | |------|------| 61 | |单模型|0.86750| 62 | |25个BERT平均|0.87700| 63 | |25个BERT加权平均|0.87702| 64 | |三层模型融合|0.88156| 65 | 66 | ### 八.反思 67 | 68 | 官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。关于ERNIE的讨论可以参照知乎的一个讨论,[如何评价百度新发布的NLP预训练模型ERNIE? 69 | ](https://www.zhihu.com/question/316140575/answer/624096104),其中自己给出了一个回答如下: 70 | 71 | ``` 72 | 还没来得及读代码,从官方README文件,PaddlePaddle/LARK,读到的信息如下: 73 | 74 | 改进: 75 | 76 | (1)mask的粒度:字(BERT)->词(ERNIE),不过输入仍旧是字。 77 | 78 | (2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。 79 | 80 | 意义: 81 | 82 | (1)个人觉得更加符合中文应用场景(分词的需求)。 83 | 84 | (2)官方放出了代码+预训练模型+训练数据(估计民间PyTorch的wrapper,PyTorch的实现马上就会来的,不要着急)。 85 | 86 | (3)对语义知识建模的手段相信可以继续深化,此处赞刘知远老师的回答。 87 | 88 | 总之,是良心的工作,赞。 89 | 90 | ``` 91 | 92 | ### 九.后续方案讨论 93 | 94 | ![img](http://wx2.sinaimg.cn/mw690/aba7d18bgy1g14wp6x1eoj20n30a2q4n.jpg) 95 | 96 | 从上图可以基本看到,该比赛是头条主办的。同时上图给出了第一名和第三名的答辩题目。第一名和第三名仍旧是基于BERT的方案设计,第一名加了一些手工特征。从三者的分享方案可以看到,两个句子作为输入的分类问题,比如句子相似度匹配,比如自然语言推理等任务,对相似性传递的分析策略较多,也是一个比较有趣的点。同时,该任务也再次证明了BERT的强大。 97 | 98 | ### 十.相关补充(SemEval2019 Task 8 on Fact-Checking in Community Forums) 99 | 100 | 该[赛道](https://competitions.codalab.org/competitions/20022)分为两个子任务,分别是问题分类和答案分类。其中,答案分类赛道上,国内的汽车之家的团队拿到了冠军,冠军方案如下: 101 | 102 | ![img2](http://wx4.sinaimg.cn/mw690/aba7d18bgy1g15osw73maj20gz07mgou.jpg) 103 | 104 | 三个虚线框分别代表三种方案,简单的基于BERT做FineTuning时,只需要T\[CLS\],但是融合T\[CLS\]到T\[SEP\]再到TN,也是一种思路,类似RNN的HiddenState的融合策略。该方案的线上结果是**82%**。 105 | 106 | ### 参考: 107 | 108 | 1.[虚假新闻检测数据集](https://blog.csdn.net/Totoro1745/article/details/84678858) 109 | 110 | 2.虚假新闻检测任务的综述文章,《Fake News Detection on Social Media: A Data Mining Perspective》 111 | 112 | 3.虚假新闻检测的一个专用平台,[Fake News Challenge](http://www.fakenewschallenge.org/) 113 | 114 | 4.[第二名方案分享-来自美团](references/WSDM2019_Fake_News_Classification/report2.pdf) 115 | 116 | 5.[第一名方案分享](references/WSDM2019_Fake_News_Classification/report2.pdf) 117 | 118 | 6.[第三名方案分享](references/WSDM2019_Fake_News_Classification/report2.pdf) 119 | 120 | 7.[SemEval2019-事实分类-汽车之家方案](https://tech.china.com/article/20190307/kejiyuan0129249545.html) 121 | 122 | 8.[Lessons Learned from Applying Deep Learning for NLP Without Big Data](https://towardsdatascience.com/lessons-learned-from-applying-deep-learning-for-nlp-without-big-data-d470db4f27bf) 123 | 124 | 小数据场景下的分类Trick总结,有些Trick很有意思。 125 | 126 | -------------------------------------------------------------------------------- /biendata_"达观杯"文本智能信息抽取挑战赛.md: -------------------------------------------------------------------------------- 1 | ## 比赛简介 2 | 3 | [比赛地址](https://www.biendata.com/competition/datagrand/data/) 4 | 5 | ## 数据介绍 6 | 7 | 训练集有17000条,在训练集上标注了3个字段,共有字段a 9281处,字段b 14704处,字段c 9097处。预测集有3000条。 8 | 9 | ## 比赛分析 10 | 11 | 数据还没看到,应该是一个命名实体识别任务。 -------------------------------------------------------------------------------- /biendata_关于科研论文的三个比赛.md: -------------------------------------------------------------------------------- 1 | ### 一.DigSci科学数据挖掘大赛2019 2 | 3 | [比赛地址](https://biendata.com/competition/digsci2019/) 4 | 5 | **任务定义**: 给定候选论文集,根据一句或一段科研描述,匹配3篇最相关的论文。 6 | 7 | **比赛意义**: 直观地讲,写论文找参考文献很令人头疼,这个比赛可以帮你找参考文献。进一步地讲,在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。 8 | 9 | 如果我们可以自动地理解、识别描述对应的被引论文,不仅可以**加深对科研脉络的理解**,还能在**科研知识图谱**、**科研自动问答系统**和**自动摘要系统**等领域有所进步。 10 | 11 | 12 | **想法延伸**: 给定多篇论文,给出motivation的血缘谱系图。自己很早就有这个想法,在前几天也看到AMiner的唐杰组的同学类似的想法,如下: 13 | 14 | ![img](https://wx1.sinaimg.cn/mw690/aba7d18bly1g7otaamzn6j216u0re195.jpg) 15 | 16 | ### 二.OAG-WhoIsWho:论文的冷启动消歧 17 | 18 | [比赛地址](https://www.biendata.com/competition/aminer2019/) 19 | 20 | **任务定义**: 给定一堆拥有同名作者的论文,要求返回一组论文聚类,使得一个聚类内部的论文都是一个人的,不同聚类间的论文不属于一个人。 21 | 22 | 23 | ### 三.OAG-WhoIsWho:论文的增量消歧 24 | 25 | [比赛地址](https://biendata.com/competition/aminer2019_2/) 26 | 27 | **任务定义**: 给定一批新增论文以及系统已有的作者论文集,最终目的是把新增论文分配到正确的作者档案中。 28 | 29 | **总结**: 30 | 31 | 类似于AMiner,机器之心SOTA等关于科研的智能工具有一些,但是感觉这块的潜力还没有被充分挖掘出来,当然高质量的论文库是原因之一。每年一个科研单位为一些论文库支付的费用是非常昂贵的,但是服务的方式也多半是检索,这种利用的方式显然还不够高效。 32 | 33 | 此外,科研相关智能引擎为NLP技术的应用也提供了丰富的场景。知识图谱,自动问答,摘要等技术都可以用到。因此,自己也从很早就关注到这块内容。一方面是帮助自己解决问题,另一方面是帮助他人解决问题。 34 | 35 | 比如两个具体的问题: 36 | 37 | (1)我老板经常吐槽,他的Google Scholar中的文章有些都不是他的。 38 | 39 | (2)自己维护了一个[PaperReading](https://github.com/zhpmatrix/PaperReading)的repo,也就是说即使读论文,也需要自己一篇一篇地去看,在现今论文爆炸的年代,需要精读的文章不多,因此借助机器的力量自动检索,提取,可以帮助自己解决一些问题。这只是解决“读”的问题,“写”的问题,正是我司目前正在研究的问题。 40 | -------------------------------------------------------------------------------- /references/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/references/.DS_Store -------------------------------------------------------------------------------- /references/AI_Word_Cup攻略_刘辉_新华智云.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/references/AI_Word_Cup攻略_刘辉_新华智云.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/references/WSDM2019_Fake_News_Classification/report1.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report2.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/references/WSDM2019_Fake_News_Classification/report2.pdf -------------------------------------------------------------------------------- /references/WSDM2019_Fake_News_Classification/report3.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/references/WSDM2019_Fake_News_Classification/report3.pdf -------------------------------------------------------------------------------- /“中国法研杯”司法人工智能挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/“中国法研杯”司法人工智能挑战赛.md -------------------------------------------------------------------------------- /“莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/“莱斯杯”全国第一届“军事智能-机器阅读”挑战赛.md -------------------------------------------------------------------------------- /“达观”杯文本智能处理挑战赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/“达观”杯文本智能处理挑战赛.md -------------------------------------------------------------------------------- /中文医学文本命名实体识别.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/chip_2020_1/) 4 | 5 | #### 实体类型 6 | 7 | 疾病,临床表现,药物,医疗设备,医疗程序,身体,医学检验项目,微生物类,科室共九大类。 8 | -------------------------------------------------------------------------------- /中文医学文本实体关系抽取.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/chip_2020_2/data/) 4 | 5 | #### 数据特点 6 | 7 | 数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。 8 | 9 | 具体schema的定义见比赛地址。 10 | -------------------------------------------------------------------------------- /全国并行应用挑战赛_PAC2017_情感分类.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/全国并行应用挑战赛_PAC2017_情感分类.md -------------------------------------------------------------------------------- /天池平台_2019_Future_Food_Challenge.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/天池平台_2019_Future_Food_Challenge.md -------------------------------------------------------------------------------- /天池平台_2019_首届中文NL2SQL挑战赛.md: -------------------------------------------------------------------------------- 1 | ## 天池平台-首届中文NL2SQL挑战赛 2 | 3 | [比赛地址](https://tianchi.aliyun.com/competition/entrance/231716/information) 4 | 5 | ### 一.背景 6 | 7 | 一般与数据库系统的交互有两种方式:第一是通过写SQL语句;第二是通过用户界面。那么能够有第三种方式?通过自然语言的方式。围绕该任务的研究,学术界已经有一些成果,具体可以进行调研。 8 | 9 | ### 二.数据介绍 10 | 11 | 该比赛通过使用金融和通用领域的表格数据作为数据源,提供在此基础上标注的自然语言和SQL语句的匹配对。 12 | 13 | |训练集|测试集1|测试集2| 14 | |------|------|------| 15 | |4w|0.5w|0.5w| 16 | 17 | 训练数据的一个样本如下: 18 | 19 | ``` 20 | { 21 | "nl": "((项目名称) 等于世茂茂悦府 并且(容积率) 大于 1) 套均面积 是多少", # 基于模板自动生成的自然语句 22 | "table_id": "a1b2c3d4", # 相应表格的id 23 | "question": "世茂茂悦府新盘容积率大于1,请问它的套均面积是多少?", # 自然语言问句 24 | "sql":{ # 真实SQL 25 | "sel": [7], # SQL选择的列 26 | "agg": [0], # 选择的列相应的聚合函数, '0'代表无 27 | "cond_conn_op": 0, # 条件之间的关系 28 | "conds": [ 29 | [1,2,"世茂茂悦府"], # 条件列, 条件类型, 条件值,col_1 == "世茂茂悦府" 30 | [6,0,1] 31 | ] 32 | }, 33 | "sql_nl": "SELECT col_8 FROM Table WHERE (col_2 == '世茂茂悦府' and col_7 > 1)" # 真实SQL的字符串形式 34 | } 35 | ``` 36 | 37 | 其中,测试数据的输入只有**table\_id**和**question**两个字段。在训练数据中,需要重点关注**nl**字段应该怎样使用? 38 | 39 | ### 比赛的评分标准 40 | 41 | (1)Logic Form Accuracy:预测完全正确的SQL语句,其中,表的列的顺序并不影响准确率的计算。 42 | 43 | (2)Execution Accuracy: 预测的SQL的执行结果与真实的SQL的执行结果一致。 -------------------------------------------------------------------------------- /天池平台_AI_WordCup_2018_世界杯新闻智能创作极限挑战赛.md: -------------------------------------------------------------------------------- 1 | 这篇博客主要复盘这次比赛的冠军方案。个人对文本生成的相关工作中,最看好的是data2text类任务,也即是从结构化文本到自然文本的过程。可以用于天气预报,金融报告,新闻生成等众多任务中。 2 | 3 | ### 赛题背景 4 | 5 | 针对2018年的俄罗斯足球世界杯,实时性产生新闻。 6 | 7 | ### 赛题认识 8 | 9 | 属于文本生成领域的data2text子任务,但是该比赛的data层面包含了文本,表格数据和图集数据,比起传统的data2text任务,在输入端更加的丰富。具体来说,一篇新闻报道的产生包含:新闻事件数据(实时),新闻图集数据和历史足球比赛新闻原文数据。 10 | 11 | ### 数据分析 12 | 13 | #### 1.新闻事件数据 14 | 15 | 新闻事件包括伤停补时,开球等多个事件,针对每个事件给出了尽可能详细的信息,包括事件的关联人,主客队的信息,发生的时间,原因等。 16 | 17 | #### 2.新闻图集数据 18 | 19 | 图集数据包含:比赛场次,图片描述和图片的下载地址。 20 | 21 | #### 3.历史新闻数据 22 | 23 | 历史新闻数据的字段包括:新闻标题,新闻内容,新闻发布时间,新闻中出现的实体信息(人名/组织/地名),新闻图片链接,从新闻中提取的关键词(关键词之间使用逗号分隔)。 24 | 25 | ### 比赛形式 26 | 27 | 这次比赛是开放性赛题,也就是赛题形式不限。主办方建议的比赛形式:对应场次的比赛详情描述,球队历史战况分析,比赛结果预测和球队各位置的球员历史表现。 28 | 29 | ### 评审标准 30 | 31 | 全网用户阅读PV统计+评委评分,其中评委评分维度包括:新闻专业度(新闻的准确性,时效性,描写是否生动,分析角度是否独特)+数据角度+算法角度。全网用户阅读的PV统计是直接将生成的稿件放在面向用户的平台,统计PV。这也是个人觉得该比赛比较酷的一个地方。 32 | 33 | ### 比赛方案(新闻生成) 34 | 35 | #### 1.基于模板 36 | 37 | 设计模板,例如时间+人物+事件。从结构化的表格数据中直接提取对应字段的值填入模板。显然,这种方法生成的新闻千篇一律,单调无趣,但是不会出现事实性错误。 38 | 39 | #### 2.基于摘要 40 | 41 | “历史总是惊人的相似”。既然有历史新闻数据可用,为什么不用呢?可以从历史新闻原文数据中提取与实时新闻事件数据相关的关键句,这些关键句可以直接作为摘要,也可以作为实时新闻生成的辅助数据。怎样找到关键句?设置实时新闻事件数据的关键词(国家队名+重要球员名+自定义关键字),提取历史新闻文本中的关键词(TextRank),两类关键词进行查询匹配,得到关键句。 42 | 43 | 反思这种思路,其实是做了基于检索式的方案。用一种模糊查询的方式,搜出一些历史报道的文本,继承自历史文本数据,生成的摘要则更加的灵活,但是多个查询结构如何逻辑通顺的衔接在一块是一个重要问题。 44 | 45 | #### 3.基于seq2seq 46 | 47 | 实时事件文本和历史新闻数据文本相比的区别在哪里?后者有更多的定语和状语,连接词等修饰语。既然是这样,那么从实时事件文本到新闻数据要去做的事情就很清楚了。可以将历史新闻数据中的描述性词语mask掉作为输入文本,将对应的原始文本作为目标文本。这样模型学习到的就是怎样给只有实体词的文本添加修饰语了。当测试的时候,也就是给出实时事件文本的时候,直接将实体词进行拼接,同时加上mask的标志位就可以了。这样的话,mask标志位相当于一种占位作用,当然可以直接删除,只要训练数据的输入和测试数据的输入格式保持一致就行。 48 | 49 | 在最终的方案中,冠军采用了mask占位符的方案,但是这里有两个困难: 50 | 51 | 第一:如果保留mask标志位,由于测试时,实体词和标志位的组合方式较多,需要做筛选; 52 | 53 | 第二:如果保留mask标志位,需要避免模型学习到一个占位符对应一个单词的模式,因此可以对训练数据中的相邻占位符合并。 54 | 55 | 采用这种思路不仅可以从结构化文本中生成对应的描述新闻,同时也可以对非结构化文本进行文本复述和改写。 56 | 57 | ### 专家组评价 58 | 59 | “在将结构化数据转换为自然语言的过程中,第一名并没有使用传统的人工预定义的模板方法,而是富有创造性地先将数据字段转化为对应的实词,再利用赛事提供的语料训练出的深度神经网络将这些实词之间的状语,定语补齐,由此巧妙地解决了机器自动生成中的衔接连贯问题。” 60 | 61 | ### 参考文献 62 | 63 | 1.[AI Word Cup攻略](references/AI_Word_Cup攻略_刘辉_新华智云.pdf) 64 | 65 | 2.[冠军比赛方案](https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.3.2db024ddZShYhb&postId=10854) 66 | 67 | -------------------------------------------------------------------------------- /天池平台_CIKM_AnalytiCup_2018_跨语言_短文本匹配大赛.md: -------------------------------------------------------------------------------- 1 | **阿里小蜜机器人跨语言短文本匹配算法竞赛** 2 | 3 | **任务** 4 | 5 | 基于聊天机器人中最常见的文本匹配算法,利用语言适应技术构建跨语言的短文本匹配模型 6 | 7 | **数据** 8 | 9 | 源语言为英语,目标语言为西班牙语 10 | 11 | 提供训练数据集包含两种语言。20000个标注好的英语问句对作为源数据,1400个标注好的西班牙语问句对,以及55669个未标注的西班牙语问句。 12 | 13 | 数据格式: 14 | 15 | 英语问句对,有匹配标注: 16 | 17 | 英语问句1,西班牙语翻译1,英语问句2,西班牙语翻译2,匹配标注。 18 | 19 | 标注为1表示两个问句语义相同,0表示不同。 20 | 21 | 西班牙问句对,有匹配标注: 22 | 23 | 西班牙语问句1,英语翻译1,西班牙语问句2,英语翻译2,匹配标注。 24 | 25 | 标注为1表示两个问句语义相同,0表示不同。 26 | 27 | 无标注西班牙语问句对: 28 | 29 | 西班牙语问句1,英语翻译1,西班牙语问句2,英语翻译2 30 | 31 | 不同字段以”\t”符号分隔。 32 | 33 | **评测指标** 34 | 35 | 使用 $\log loss$ 来评估性能。 36 | 37 | 假设 $y_*{i}$ 是标注答案,$p_*{i}$ 是样本 $x_{i}$ 的预测概率,那么可以定义 $\log loss$ 为: 38 | 39 | ![img](D:\duominuo\weixinobU7VjlxVTDz6HO47W1i7HUDaN7A\51288d68cbec4609a0f5178bd742638a\a.tfsprivate.png) 40 | 41 | **top2方案思路** 42 | 43 | 1.特征工程: 44 | 45 | 最终使用三种特征:距离特征,主题特征和文本特征 46 | 47 | 距离特征,用三种方式构建: 48 | 49 | Bag-of-words模型 50 | 51 | 带有TF/IDF的词袋模型 52 | 53 | 基于TF/IDF的加权平均词嵌入 54 | 55 | 主题特征:使用LDA和LSI对句子进行了矢量化,并用余弦距离比较两者的差异来捕捉 56 | 57 | 文本特征:文本特征都与句子的性质有关,例如: 58 | 59 | 句子的长度:句子越长,概率越低。 60 | 61 | 停止词和唯一词数:显示冗余程度。 62 | 63 | 词汇的多样性:它通常反映了一个诉求的复杂性。 64 | 65 | 2.模型构建: 66 | 67 | 使用三种模型:Decomposable attention、CPRNN、DACNN 68 | 69 | Decomposable attention两个缺点: 70 | 71 | 抛弃了单词的顺序,意味着丢失了词组或单词之间的依赖关系等信息。因为比赛禁止使用任何其他外部数据。依赖关系信息一旦消失,就再也找不回来了 72 | 73 | 冷启动。发现谷歌译者倾向于将一些相似的概念概括成一个单一的概念,这导致训练数据缺乏词汇的多样性。然而,测试数据是原始的西班牙语句子,并不是那么简单。 74 | 75 | 因此,提出了另外两个模型CPRNN和DACNN。RNN模型用于重建依赖关系,CNN模型用于捕获区域语义表示 76 | 77 | Compare-Propagare Recurrent Neural Network: 78 | 79 | 用MLP替换FM层,并将所有交互特性混合为一个向量。 80 | 81 | 由于对称的体系结构是泛化的关键,但在创建交互特征时,总是应用连接操作破坏了对称性,而连接特征对模型的性能起着至关重要的作用。因此, 为了同时掌握对称和连接特征,作者做了两次连接操作。第一次是[Sent1, Sent2],第二次是[Sent2, Sent1]。最后,求这两个结果的平均值。 82 | 83 | Densely Augmented Convolutional Neural Network: 84 | 85 | 设计了一个comparison loop,并将结果与原始嵌入重复连接,就像DenseNet一样。这是一个很好的特征重用和正则化的想法,使DACNN的运行速度比CPRNN快3倍,性能几乎相同。 86 | 87 | CPRNN和DACNN模型输入: 88 | 89 | Word level input、Character level input、Word level input with meta-features 90 | 91 | 实验发现bagging以上三种输入,使log loss显著有提升 92 | 93 | ![img](D:\duominuo\weixinobU7VjlxVTDz6HO47W1i7HUDaN7A\556175b7406f4ed28048fceb38f923e2\clipboard.png) 94 | 95 | **参考** 96 | 97 | 第二名方案详解[https://tianchi.aliyun.com/forum/postDetailspm=5176.12586969.1002.3.316a7097TgUs3y&postId=11157](https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.3.316a7097TgUs3y&postId=11157) 98 | -------------------------------------------------------------------------------- /天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/zhpmatrix/nlp-competitions-list-review/e7fedce2368aaea7acb77ad51aee7652d9dbacb3/天池平台_瑞金医院MMC人工智能辅助构建知识图谱大赛.md -------------------------------------------------------------------------------- /天池精准医疗大赛_人工智能辅助糖尿病遗传风险预测.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://tianchi.aliyun.com/competition/entrance/231638/information) 4 | 5 | #### 比赛建模(基于表格数据的分析) 6 | 7 | (1)血糖值预测(回归问题) 8 | (2)每个人是否患妊娠糖尿病(分类问题) 9 | -------------------------------------------------------------------------------- /平安医疗科技疾病问答迁移学习比赛.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/chip2019/data/) 4 | 5 | -------------------------------------------------------------------------------- /科大讯飞_事件抽取挑战赛: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [冠军方案分析](http://www.360doc.com/content/21/0115/19/7673502_957165925.shtml) 4 | 5 | 该比赛的特色在于增加了对事件的时态和极性的识别: 6 | 7 | 极性:肯定+否定+可能 8 | 9 | 时态:过去+现在+未来+无法确定 10 | -------------------------------------------------------------------------------- /第三届魔镜杯大赛_问题相似度匹配.md: -------------------------------------------------------------------------------- 1 | 2 | ### 背景 3 | 4 | 智能客服聊天机器人场景中,计算客户提出问题和知识库问题的相似度。在基于检索的问答系统中,第一步定位出最相似问题,再对问题给出答案。 5 | 6 | ### 数据 7 | 8 | 数据脱敏。原始文本信息编码为单字和单词序列,同时给出单字和单词的300维的词向量(基于Google的Word2Vec训练得到)。数据主要分为两块:第一是标注后的文本;第二是没有标注的文本;其中第一部分出现的文本一定在第二部分中。 9 | 10 | ### 评测指标 11 | 12 | logloss。虽然是一个二分类问题,但是针对分类问题,除了常用的评测指标,例如精度和召回等,直接用损失函数作为评测指标也是常见的,印象中在天池的某个比赛中也是直接使用损失函数,在某些论文中也会看到类似评测方式。 13 | 14 | ### 预处理 15 | 16 | #### (1)前言 17 | 18 | 既然是分类问题,自然要去可以考虑不平衡的问题,典型的方式标签传播等。此处可以参照[WSDM2019_真假新闻甄别](https://github.com/zhpmatrix/nlp-competitions-list-review/blob/master/WSDM_Cup_2019_%E7%9C%9F%E5%81%87%E6%96%B0%E9%97%BB%E7%94%84%E5%88%AB.md)。 19 | 20 | #### (2)mixup 21 | 22 | mixup是CVPR2018的一篇文章,一种数据增强的手段,简单有效。比如,一张狗的图片A和一张猫的图片B,mixup的结果可以是0.5A+0.5B后的一张新的图片,分类损失函数的构成也是0.5Loss(A)+0.5Loss(B),那么映射到文本中,则是对文本Embedding后的文本表示进行操作。但是这样看似是合理的,由于文本是离散的,两个句子混合后可能语义层面就会发生较大的变化。因此,一种可能的方式是,假设A1,A2是相同极性的文本,B1,B2是相同极性的文本,则可以分别对A和B进行mixup,从理论上可以减少语义改变的风险。 23 | 24 | 25 | ### 模型选择 26 | 27 | 比赛方案多数整体上围绕Siamese RNN来进行,这个比赛进行的时候,BERT等系列工作还没有出现。模型架构如下: 28 | 29 | ![img](http://wx1.sinaimg.cn/mw690/aba7d18bgy1g17468af0kj20r40hwq83.jpg) 30 | 31 | ### 相关比赛 32 | 33 | [Kaggle-Quora Question Pairs](https://www.kaggle.com/c/quora-question-pairs),[ATEC-NLP之问题相似度计算](https://dc.cloud.alipay.com/index#/topic/intro?id=8),[天池-CIKM2018-AnalytiCup](https://tianchi.aliyun.com/competition/entrance/231661/introduction),部分比赛的复盘会在其他文章中给出。参考资料中同时给出了名次较好的同学的推荐的论文,更多的论文可以参照NLI领域的文章。 34 | 35 | ### 总结 36 | 37 | 问题相似度问题可以建模为一个句子对输入的问题,NLP中典型的任务场景是自然语言推理(NLI)。围绕该任务,相关工作已经非常多了,由于任务的简单性和模型的简洁性,Github相关的实现也非常多。适合拿该任务进行代码练习和建立对NLP任务的直觉。虽然这样讲,大概率情况下,这些工作应该比不过BERT。因为比赛的时候,BERT没有出现,所以方案中多数选择了一些传统的DL模型。 38 | 39 | 40 | ### 参考资料 41 | 42 | 1.[Applying Deep Learning to Answer Selection: A Study And An Open Task](https://arxiv.org/pdf/1508.01585.pdf) 43 | 44 | 2.[Learning Text Similarity with Siamese Recurrent Networks](http://www.aclweb.org/anthology/W16-1617) 45 | 46 | 3.[The Stanford Natural Language Inference Corpus](https://nlp.stanford.edu/projects/snli/) 47 | 48 | 4.《DR-BiLSTM: Dependent Reading Bidirectional LSTM for Natural Language Inference》 49 | 50 | 5.《Bilateral Multi-Perspective Matching for Natural Language Sentences》 -------------------------------------------------------------------------------- /链想家计算科技大赛:COVID-19 知识图谱构建_赛道二.md: -------------------------------------------------------------------------------- 1 | #### 比赛地址 2 | 3 | [点击这里](https://www.biendata.xyz/competition/chaindream_knowledgegraph_19_task2/rules/?next_url=/competition/chaindream_knowledgegraph_19_task2/data/) 4 | 5 | #### 任务一 6 | 7 | 医学论文实体识别,参赛选⼿需要从中抽取出指定类型的实体(例如疾病、症状、病毒、基因、药物等) 8 | 9 | #### 任务二 10 | 11 | 医学论文关系抽取,参赛选手需要判断论文中的实体之间的语义关系(如致病、治疗、副作⽤等) 12 | 13 | #### 数据 14 | 15 | 数据可以下载 16 | --------------------------------------------------------------------------------