└── README.md /README.md: -------------------------------------------------------------------------------- 1 | CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务 2 | 3 | 数据集介绍 4 | ------------------------------------------------------------------------- 5 | Winograd Scheme Challenge(WSC)是一类代词消歧的任务。 6 | 7 | 即判断句子中的代词指代的是哪个名词。题目以真假判别的方式出现,如: 8 | 9 | 句子:这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。需要判断“它”指代的是“床”、“枕头”,还是“手机”? 10 | 11 | 数据来源:数据有CLUE benchmark提供,从中国现当代作家文学作品中抽取,再经语言专家人工挑选、标注。 12 | 13 | 数据形式: 14 | 15 | {"target": 16 | {"span2_index": 37, 17 | "span1_index": 5, 18 | "span1_text": "床", 19 | "span2_text": "它"}, 20 | "idx": 261, 21 | "label": "false", 22 | "text": "这时候放在床上枕头旁边的手机响了,我感到奇怪,因为欠费已被停机两个月,现在它突然响了。"} 23 | "true"表示代词确实是指代span1_text中的名词的,"false"代表不是。 24 | 数据集大小: 25 | 26 | 训练集:1244 27 | 28 | 开发集:304 29 | 30 | CLUEWSC2020数据集下载 31 | 32 | 模型效果 33 | ------------------------------------------------------------------------- 34 | 35 | 36 | | 模型 | dev| test | 37 | |:-------------:|:-----:|:-----:| 38 | | Bert-base | 77.63% |:-----:| 39 | | RoBERTa-large-clue |85.53% |:-----:| 40 | 41 | 基线模型 42 | ------------------------------------------------------------------------- 43 | 添加基线模型 44 | --------------------------------------------------------------------------------