├── .gitignore ├── README.md ├── data ├── data_stats.py ├── firefly_data_format.py ├── spo.json └── triples_distribution.png ├── evaluate ├── evaluate_data.xlsx ├── model_eval.py └── pred.json └── visualize ├── index.html └── single_chat_server_spo.py /.gitignore: -------------------------------------------------------------------------------- 1 | .idea 2 | data/spo.jsonl 3 | visualize/html/*.html -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | 本项目使用大语言模型(LLM)进行开放领域三元组抽取。 2 | 3 | ### 数据集 4 | 5 | 参考`data/spo.json`,三元组数量分布图如下: 6 | 7 | ![](https://raw.githubusercontent.com/percent4/llm_open_triplet_extraction/main/data/triples_distribution.png) 8 | 9 | 数据已上传至HuggingFace,网址为: [https://huggingface.co/datasets/jclian91/open_domain_triple_extraction](https://huggingface.co/datasets/jclian91/open_domain_triple_extraction) 10 | 11 | ### 模型训练 12 | 13 | 基座模型为`Baichuan2-13B-Base`,训练框架采用`Firefly`. 14 | 15 | 参数如下: 16 | 17 | ```json 18 | { 19 | "output_dir": "output/firefly-baichuan2-13b-spo", 20 | "model_name_or_path": "/workspace/Baichuan2-13B-Base", 21 | "train_file": "./data/spo.jsonl", 22 | "num_train_epochs": 10, 23 | "per_device_train_batch_size": 4, 24 | "gradient_accumulation_steps": 2, 25 | "learning_rate": 1e-4, 26 | "max_seq_length": 550, 27 | "logging_steps": 100, 28 | "save_steps": 100, 29 | "save_total_limit": 1, 30 | "lr_scheduler_type": "constant_with_warmup", 31 | "warmup_steps": 300, 32 | "lora_rank": 64, 33 | "lora_alpha": 16, 34 | "lora_dropout": 0.05, 35 | 36 | "gradient_checkpointing": true, 37 | "disable_tqdm": false, 38 | "optim": "paged_adamw_32bit", 39 | "seed": 42, 40 | "fp16": true, 41 | "report_to": "tensorboard", 42 | "dataloader_num_workers": 0, 43 | "save_strategy": "steps", 44 | "weight_decay": 0, 45 | "max_grad_norm": 0.3, 46 | "remove_unused_columns": false 47 | } 48 | ``` 49 | 50 | ### 模型测试 51 | 52 | 参考`evaluate`文件夹。 53 | 54 | 个人收集的来自各个网站的新闻、小说中的三元组,文件为`evaluate_data.xlsx`,前几行如下: 55 | 56 | | 文本 | 真实三元组 | 来源 | 网址 | 57 | |----|-------|------|----| 58 | |新华社杭州9月24日电(记者姬烨、董意行)国际奥委会主席巴赫23日在杭州出席了第19届亚运会开幕式,他称赞这场开幕式是数字创新和人文风采的完美结合。|(新华社,记者,姬烨)(新华社,记者,董意行)(国际奥委会,主席,巴赫)| 新华网 |https://www.news.cn/sports/2023-09/24/c_1212274341.htm| 59 | |2022年11月,法国总统马克龙访问泰国,受到泰国国王哇集拉隆功接见。希里婉瓦丽出现在父亲身边。|(法国,总统,马克龙)(泰国,国王,哇集拉隆功)| 网易新闻 |https://www.163.com/dy/article/IFDIJR03051283GO.html| 60 | |“这位是红岸基地的雷志成政委。我是杨卫宁,基地的总工程师。离降落还有一个小时,你休息吧。”|(红岸基地,政委,雷志成)(基地,总工程师,杨卫宁)|鲲弩小说|https://www.kunnu.com/santi/26653.htm| 61 | 62 | 评估脚本为`model_eval.py`,评估结果如下: 63 | 64 | f1: 0.84831, precision: 0.90419, recall: 0.79894: : 100it [04:12, 2.52s/it] 65 | 66 | 具体的评估结果可参考`pred.json`. 67 | 68 | ### 抽取结果可视化 69 | 70 | 参考`visualize`文件夹。 71 | 72 | #### 例子1 73 | 74 | 来源网址:[https://www.chinanews.com/cj/2023/09-25/10083719.shtml](https://www.chinanews.com/cj/2023/09-25/10083719.shtml) 75 | 76 | 抽取结果: 77 | 78 | ![](https://s2.loli.net/2023/09/27/NMKr6adWeQh39XL.png) 79 | 80 | 图谱展示: 81 | 82 | ![](https://s2.loli.net/2023/09/27/Xj1DHU2d7pLEKfJ.png) 83 | 84 | #### 例子2 85 | 86 | 来源网址:[https://www.jjxw.cn/xinwen/jjsz/202309/t20230926_6225481.html](https://www.jjxw.cn/xinwen/jjsz/202309/t20230926_6225481.html) 87 | 88 | 抽取结果: 89 | 90 | ![](https://s2.loli.net/2023/09/27/nEchIxVk6MAXf8S.png) 91 | 92 | 图谱展示: 93 | 94 | ![](https://s2.loli.net/2023/09/27/7sxWpgQeF9JXwAT.png) 95 | 96 | -------------------------------------------------------------------------------- /data/data_stats.py: -------------------------------------------------------------------------------- 1 | # -*- coding: utf-8 -*- 2 | # @place: Pudong, Shanghai 3 | # @file: data_stats.py 4 | # @time: 2023/8/16 22:25 5 | import matplotlib.pyplot as plt 6 | import json 7 | from operator import itemgetter 8 | from collections import defaultdict 9 | 10 | # data stats 11 | cnt_dict = defaultdict(int) 12 | with open('spo.json', 'r') as f: 13 | content = json.loads(f.read()) 14 | 15 | for text, triples in content.items(): 16 | cnt_dict[len(triples)] += 1 17 | 18 | sorted_cnt_dict = sorted(cnt_dict.items(), key=itemgetter(0)) 19 | 20 | # bar plot 21 | x_list = [_[0] for _ in sorted_cnt_dict] 22 | y_list = [_[1] for _ in sorted_cnt_dict] 23 | 24 | plt.bar(x_list, y_list, color=['r', 'g', 'b']) 25 | plt.xlabel('number of triples') 26 | plt.ylabel('number of samples') 27 | for a, b in zip(x_list, y_list): 28 | plt.text(a, b, b, ha='center', va='bottom') 29 | 30 | plt.savefig('triples_distribution.png') 31 | -------------------------------------------------------------------------------- /data/firefly_data_format.py: -------------------------------------------------------------------------------- 1 | # -*- coding: utf-8 -*- 2 | # @place: Pudong, Shanghai 3 | # @file: firefly_data_format.py 4 | # @time: 2023/8/10 23:38 5 | import json 6 | import jsonlines 7 | 8 | with open('spo.json', 'r', encoding='utf-8') as f: 9 | spo_list = json.loads(f.read()) 10 | 11 | i = 0 12 | max_length = 0 13 | for content, spos in spo_list.items(): 14 | i += 1 15 | message = {"conversation_id": i, 16 | "category": "IE", 17 | "conversation": [{"human": f'给定以下文本,请分析并提取其中的关系三元组。每个三元组应该包括主体(人物、组织或物体)、' 18 | f'关系和客体(人物、地点或物体)。如果文本中没有明显的关系,请返回空字符串。\n\n' 19 | f'文本: "{content}"\n\n请按照以下格式提取关系三元组列表:\n- (主体,关系,客体)' 20 | f'\n- (主体,关系,客体)\n\n如果没有可识别的关系,请返回空字符串。', 21 | "assistant": '\n'.join([f"({_[0]},{_[1]},{_[2]})" for _ in spos]) if spos else ''}], 22 | "dataset": "spo" 23 | } 24 | max_length = max(max_length, len(message["conversation"][0]["human"] + message["conversation"][0]["assistant"])) 25 | print(message) 26 | with jsonlines.open("spo.jsonl", 'a') as w: 27 | w.write(message) 28 | 29 | print(max_length) 30 | print(i) 31 | -------------------------------------------------------------------------------- /data/triples_distribution.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/percent4/llm_open_triplet_extraction/000418c27176f492b88c7040a82eb588c142b8ca/data/triples_distribution.png -------------------------------------------------------------------------------- /evaluate/evaluate_data.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/percent4/llm_open_triplet_extraction/000418c27176f492b88c7040a82eb588c142b8ca/evaluate/evaluate_data.xlsx -------------------------------------------------------------------------------- /evaluate/model_eval.py: -------------------------------------------------------------------------------- 1 | # -*- coding: utf-8 -*- 2 | # @place: Pudong, Shanghai 3 | # @file: model_eval.py 4 | # @time: 2023/9/29 23:18 5 | import json 6 | 7 | import pandas as pd 8 | from tqdm import tqdm 9 | from transformers import AutoTokenizer 10 | import torch 11 | 12 | # place it into Firefly script dir 13 | import sys 14 | sys.path.append("../../..") 15 | from component.utils import ModelUtils 16 | 17 | 18 | def extract_spoes(text): 19 | text = text.strip() 20 | text = f'给定以下文本,请分析并提取其中的关系三元组。每个三元组应该包括主体(人物、组织或物体)、' \ 21 | f'关系和客体(人物、地点或物体)。如果文本中没有明显的关系,请返回空字符串。\n\n' \ 22 | f'文本: "{text}"\n\n请按照以下格式提取关系三元组列表:\n- (主体,关系,客体)' \ 23 | f'\n- (主体,关系,客体)\n\n如果没有可识别的关系,请返回空字符串。' 24 | text = f'{text}' 25 | 26 | input_ids = tokenizer(text, return_tensors="pt", add_special_tokens=False).input_ids.to(device) 27 | bos_token_id = torch.tensor([[tokenizer.bos_token_id]], dtype=torch.long).to(device) 28 | eos_token_id = torch.tensor([[tokenizer.eos_token_id]], dtype=torch.long).to(device) 29 | input_ids = torch.concat([bos_token_id, input_ids, eos_token_id], dim=1) 30 | with torch.no_grad(): 31 | outputs = model.generate( 32 | input_ids=input_ids, max_new_tokens=max_new_tokens, do_sample=True, 33 | top_p=top_p, temperature=temperature, repetition_penalty=repetition_penalty, 34 | eos_token_id=tokenizer.eos_token_id 35 | ) 36 | outputs = outputs.tolist()[0][len(input_ids[0]):] 37 | response = tokenizer.decode(outputs) 38 | response = response.strip().replace(tokenizer.eos_token, "").strip() 39 | return [_[1:-1].split(',') for _ in response.split('\n')] 40 | 41 | 42 | class SPO(tuple): 43 | def __init__(self, spo): 44 | self.spox = tuple(spo) 45 | 46 | def __hash__(self): 47 | return self.spox.__hash__() 48 | 49 | def __eq__(self, spo): 50 | return self.spox == spo.spox 51 | 52 | 53 | def evaluate(data): 54 | X, Y, Z = 1e-10, 1e-10, 1e-10 55 | f1, precision, recall = 0, 0, 0 56 | f = open('pred.json', 'w', encoding='utf-8') 57 | pbar = tqdm() 58 | for d in data: 59 | R = set([SPO(spo) for spo in extract_spoes(d['text'])]) 60 | T = set([SPO(spo) for spo in d['spo_list']]) 61 | X += len(R & T) 62 | Y += len(R) 63 | Z += len(T) 64 | f1, precision, recall = 2 * X / (Y + Z), X / Y, X / Z 65 | pbar.update() 66 | pbar.set_description( 67 | 'f1: %.5f, precision: %.5f, recall: %.5f' % (f1, precision, recall) 68 | ) 69 | s = json.dumps({ 70 | 'text': d['text'], 71 | 'spo_list_true': list(T), 72 | 'spo_list_pred': list(R), 73 | 'new': list(R - T), 74 | 'lack': list(T - R)}, 75 | ensure_ascii=False, 76 | indent=4) 77 | f.write(s + '\n') 78 | pbar.close() 79 | f.close() 80 | return f1, precision, recall 81 | 82 | 83 | if __name__ == '__main__': 84 | # 使用合并后的模型进行推理 85 | model_name_or_path = '/workspace/Firefly/script/checkpoint/firefly-baichuan2-13b-spo-merge' 86 | adapter_name_or_path = None 87 | 88 | # 是否使用4bit进行推理,能够节省很多显存,但效果可能会有一定的下降 89 | load_in_4bit = False 90 | # 生成超参配置 91 | max_new_tokens = 150 92 | top_p = 0.9 93 | temperature = 0.01 94 | repetition_penalty = 1.0 95 | device = 'cuda:0' 96 | # # 加载模型 97 | model = ModelUtils.load_model( 98 | model_name_or_path, 99 | load_in_4bit=load_in_4bit, 100 | adapter_name_or_path=adapter_name_or_path 101 | ).eval() 102 | tokenizer = AutoTokenizer.from_pretrained( 103 | model_name_or_path, 104 | trust_remote_code=True, 105 | # llama不支持fast 106 | use_fast=False if model.config.model_type == 'llama' else True 107 | ) 108 | 109 | df = pd.read_excel("evaluate_data.xlsx") 110 | pred_data = [] 111 | for i, row in df.fillna('').iloc[:100].iterrows(): 112 | print(i, row['文本'], row['真实三元组']) 113 | pred_text, tuple_string = row['文本'], row['真实三元组'] 114 | true_tuples = [_[1:-1].split(',') for _ in tuple_string.split('\n')] 115 | pred_data.append({'text': pred_text, 'spo_list': true_tuples}) 116 | 117 | from pprint import pprint 118 | pprint(pred_data) 119 | 120 | evaluate(pred_data) 121 | -------------------------------------------------------------------------------- /evaluate/pred.json: -------------------------------------------------------------------------------- 1 | { 2 | "text": "又一国领导人宣布不参加美国主导的峰会!据澳大利亚《悉尼先驱晨报》24日报道,所罗门群岛总理索加瓦雷拒绝出席25日由美国总统拜登在白宫主持的第二届“美国—太平洋岛国峰会”。此前,瓦努阿图总理已经表示不会出席该会议。", 3 | "spo_list_true": [ 4 | [ 5 | "美国", 6 | "总统", 7 | "拜登" 8 | ], 9 | [ 10 | "所罗门群岛", 11 | "总理", 12 | "索加瓦雷" 13 | ] 14 | ], 15 | "spo_list_pred": [ 16 | [ 17 | "所罗门群岛", 18 | "总理", 19 | "索加瓦雷" 20 | ] 21 | ], 22 | "new": [], 23 | "lack": [ 24 | [ 25 | "美国", 26 | "总统", 27 | "拜登" 28 | ] 29 | ] 30 | }, 31 | { 32 | "text": "朝中社25日发布题为“政治门外汉、外交白痴的歇斯底里妄言”文章,强烈谴责韩国总统尹锡悦日前在第78届联合国大会场合上“恶意诋毁和污蔑朝鲜与俄罗斯的关系”。", 33 | "spo_list_true": [ 34 | [ 35 | "韩国", 36 | "总统", 37 | "尹锡悦" 38 | ] 39 | ], 40 | "spo_list_pred": [ 41 | [ 42 | "韩国", 43 | "总统", 44 | "尹锡悦" 45 | ] 46 | ], 47 | "new": [], 48 | "lack": [] 49 | }, 50 | { 51 | "text": "新华社杭州9月24日电(记者姬烨、董意行)国际奥委会主席巴赫23日在杭州出席了第19届亚运会开幕式,他称赞这场开幕式是数字创新和人文风采的完美结合。", 52 | "spo_list_true": [ 53 | [ 54 | "国际奥委会", 55 | "主席", 56 | "巴赫" 57 | ], 58 | [ 59 | "新华社", 60 | "记者", 61 | "姬烨" 62 | ], 63 | [ 64 | "新华社", 65 | "记者", 66 | "董意行" 67 | ] 68 | ], 69 | "spo_list_pred": [ 70 | [ 71 | "国际奥委会", 72 | "主席", 73 | "巴赫" 74 | ], 75 | [ 76 | "新华社", 77 | "记者", 78 | "姬烨" 79 | ], 80 | [ 81 | "新华社", 82 | "记者", 83 | "董意行" 84 | ] 85 | ], 86 | "new": [], 87 | "lack": [] 88 | }, 89 | { 90 | "text": "据法新社报道,亚美尼亚总理尼科尔·帕什尼扬9月24日含蓄地批评了该国的长期盟友俄罗斯,并称亚美尼亚现有的外部安全体系是“无效的”。就在几天前,阿塞拜疆在纳戈尔诺-卡拉巴赫(纳卡)地区的军事行动取得了胜利。", 91 | "spo_list_true": [ 92 | [ 93 | "亚美尼亚", 94 | "总理", 95 | "尼科尔·帕什尼扬" 96 | ], 97 | [ 98 | "亚美尼亚", 99 | "长期盟友", 100 | "俄罗斯" 101 | ] 102 | ], 103 | "spo_list_pred": [ 104 | [ 105 | "亚美尼亚", 106 | "总理", 107 | "尼科尔·帕什尼扬" 108 | ] 109 | ], 110 | "new": [], 111 | "lack": [ 112 | [ 113 | "亚美尼亚", 114 | "长期盟友", 115 | "俄罗斯" 116 | ] 117 | ] 118 | }, 119 | { 120 | "text": "据报道,国际刑事法院此前对俄罗斯总统普京及俄总统儿童权利全权代表玛丽亚·利沃娃-别洛娃发出逮捕令,指控他们“非法驱逐”乌克兰儿童。克里姆林宫否认国际刑事法院的指控,并称针对普京的逮捕令是无效的。", 121 | "spo_list_true": [ 122 | [ 123 | "俄总统", 124 | "儿童权利全权代表", 125 | "玛丽亚·利沃娃-别洛娃" 126 | ], 127 | [ 128 | "俄罗斯", 129 | "总统", 130 | "普京" 131 | ] 132 | ], 133 | "spo_list_pred": [ 134 | [ 135 | "俄总统", 136 | "儿童权利全权代表", 137 | "玛丽亚·利沃娃-别洛娃" 138 | ], 139 | [ 140 | "俄罗斯", 141 | "总统", 142 | "普京" 143 | ] 144 | ], 145 | "new": [], 146 | "lack": [] 147 | }, 148 | { 149 | "text": "据台湾联合新闻网9月24日报道,台湾进口蛋引发争议,除保质期疑虑、改标,还引爆食安危机。台北市蛋商公会理事长林天来9月24日证实,由于民众对进口蛋购买意愿下降,本地蛋出现抢购潮,供不应求,因此宣布下周蛋价将调涨2元,从25日起,产地价涨至45.5元新台币(1元新台币约合0.23元人民币——本网注)、批发价涨至55元。这是9月3日调涨3元后,第二度调涨,重回蛋价历史新高。", 150 | "spo_list_true": [ 151 | [ 152 | "台北市蛋商公会", 153 | "理事长", 154 | "林天来" 155 | ] 156 | ], 157 | "spo_list_pred": [ 158 | [ 159 | "台北市蛋商公会", 160 | "理事长", 161 | "林天来" 162 | ] 163 | ], 164 | "new": [], 165 | "lack": [] 166 | }, 167 | { 168 | "text": "司尔特9月20日晚间公告称,公司董事会于2023年9月19日收到副总经理文继兵提交的书面辞职报告,文继兵因个人原因申请辞去公司副总经理职务及其在公司各分公司、子公司担任的全部职务,辞职后将不再担任公司任何职务。", 169 | "spo_list_true": [ 170 | [ 171 | "司尔特", 172 | "副总经理", 173 | "文继兵" 174 | ] 175 | ], 176 | "spo_list_pred": [ 177 | [ 178 | "司尔特", 179 | "副总经理", 180 | "文继兵" 181 | ] 182 | ], 183 | "new": [], 184 | "lack": [] 185 | }, 186 | { 187 | "text": "“我们去年投资9122万元,升级白酒废水处理设施设备,完善废水收集管网,提高废水处理能力。”仁怀市水务净水有限责任公司总经理陈明富说,改造后既能缓解高峰期的处理压力,又能满足白酒产能适度增长的需要,近两年赤水河珍稀鱼类、鸟类的种群和数量逐渐增多,生态进一步好转。", 188 | "spo_list_true": [ 189 | [ 190 | "仁怀市水务净水有限责任公司", 191 | "总经理", 192 | "陈明富" 193 | ] 194 | ], 195 | "spo_list_pred": [ 196 | [ 197 | "仁怀市水务净水有限责任公司", 198 | "总经理", 199 | "陈明富" 200 | ] 201 | ], 202 | "new": [], 203 | "lack": [] 204 | }, 205 | { 206 | "text": "仁怀市茅台镇党委书记王远强介绍,市政府在集中修建工业污水处理厂的基础上,针对重点溪沟分散布局区域性污水处理厂,并要求年产能达2000千升以上的白酒生产企业自建污水处理设施,实现全域污水收集处理全覆盖。在兰家湾白酒产业综合治理试点片区,通过将35家小散乱企业兼并重组成3家优强企业,年产能从3200千升增加到2万千升,实现企业由多变少、由弱变强的综合治理目标。", 207 | "spo_list_true": [ 208 | [ 209 | "仁怀市茅台镇党委", 210 | "书记", 211 | "王远强" 212 | ] 213 | ], 214 | "spo_list_pred": [ 215 | [ 216 | "仁怀市茅台镇党委", 217 | "书记", 218 | "王远强" 219 | ] 220 | ], 221 | "new": [], 222 | "lack": [] 223 | }, 224 | { 225 | "text": "美国印太司令部司令阿奎利诺和菲律宾武装部队总参谋长布劳纳9月14日就曾针对进一步增加对美开放基地的数量进行讨论。阿奎利诺在当天的记者会上表示:“布劳纳将军和我可能会向我们国家的领导人提出建议,以考虑增加军事基地,但在得到答案之前仍有工作要做。”据《日经亚洲》报道,美国企业研究所资深研究员扎克·库珀还给美增加获准进驻菲基地找借口,声称随着对台海潜在冲突的担忧日益加剧,菲律宾和日本都是美国“最优先”合作的国家。中国军队“可以依赖境内的大量作战地点”,而美国则仅限于东亚的少数几个主要基地。", 226 | "spo_list_true": [ 227 | [ 228 | "美国印太司令部", 229 | "司令", 230 | "阿奎利诺" 231 | ], 232 | [ 233 | "美国企业研究所", 234 | "资深研究员", 235 | "扎克·库珀" 236 | ], 237 | [ 238 | "菲律宾武装部队", 239 | "总参谋长", 240 | "布劳纳" 241 | ] 242 | ], 243 | "spo_list_pred": [ 244 | [ 245 | "美国印太司令部", 246 | "司令", 247 | "阿奎利诺" 248 | ], 249 | [ 250 | "菲律宾武装部队", 251 | "总参谋长", 252 | "布劳纳" 253 | ] 254 | ], 255 | "new": [], 256 | "lack": [ 257 | [ 258 | "美国企业研究所", 259 | "资深研究员", 260 | "扎克·库珀" 261 | ] 262 | ] 263 | }, 264 | { 265 | "text": "另据日本共同社报道,就在美菲军事合作可能进一步扩大的前夕,美国国务卿布林肯、日本外相上川阳子和菲外长马纳洛22日在联合国大会场边举行三边会议,就中国持续在东海和南海活动,讨论提高威慑力。", 266 | "spo_list_true": [ 267 | [ 268 | "美国", 269 | "国务卿", 270 | "布林肯" 271 | ], 272 | [ 273 | "日本", 274 | "外相", 275 | "上川阳子" 276 | ], 277 | [ 278 | "菲律宾", 279 | "外长", 280 | "马纳洛" 281 | ] 282 | ], 283 | "spo_list_pred": [ 284 | [ 285 | "美国", 286 | "国务卿", 287 | "布林肯" 288 | ], 289 | [ 290 | "日本", 291 | "外相", 292 | "上川阳子" 293 | ], 294 | [ 295 | "菲律宾", 296 | "外长", 297 | "马纳洛" 298 | ] 299 | ], 300 | "new": [], 301 | "lack": [] 302 | }, 303 | { 304 | "text": "9月13日,印尼总统佐科来到雅万高铁最大车站雅加达哈利姆站进行其第二个总统任期内的第四次考察,并第一次乘坐雅万高铁,从哈利姆站乘坐G5901次高铁列车赴帕达拉朗站。这条铁路连接印尼首都雅加达和西爪哇名城万隆,全长142.3公里,最高运营时速350公里,是印尼乃至整个东南亚地区第一条高速铁路。", 305 | "spo_list_true": [ 306 | [ 307 | "印尼", 308 | "首都", 309 | "雅加达" 310 | ], 311 | [ 312 | "印尼", 313 | "总统", 314 | "佐科" 315 | ], 316 | [ 317 | "西爪哇", 318 | "名城", 319 | "万隆" 320 | ] 321 | ], 322 | "spo_list_pred": [ 323 | [ 324 | "印尼", 325 | "总统", 326 | "佐科" 327 | ] 328 | ], 329 | "new": [], 330 | "lack": [ 331 | [ 332 | "印尼", 333 | "首都", 334 | "雅加达" 335 | ], 336 | [ 337 | "西爪哇", 338 | "名城", 339 | "万隆" 340 | ] 341 | ] 342 | }, 343 | { 344 | "text": "中新网9月25日电 综合美媒报道,美国前总统吉米·卡特和妻子罗莎琳·卡特当地时间23日罕见现身位于佐治亚州的家乡普莱恩斯(Plains)。此前,由于健康问题,吉米·卡特在很大程度上淡出了公众视线。", 345 | "spo_list_true": [ 346 | [ 347 | "吉米·卡特", 348 | "妻子", 349 | "罗莎琳·卡特" 350 | ], 351 | [ 352 | "美国", 353 | "前总统", 354 | "吉米·卡特" 355 | ], 356 | [ 357 | "吉米·卡特", 358 | "家乡", 359 | "普莱恩斯" 360 | ] 361 | ], 362 | "spo_list_pred": [ 363 | [ 364 | "吉米·卡特", 365 | "妻子", 366 | "罗莎琳·卡特" 367 | ], 368 | [ 369 | "美国", 370 | "前总统", 371 | "吉米·卡特" 372 | ] 373 | ], 374 | "new": [], 375 | "lack": [ 376 | [ 377 | "吉米·卡特", 378 | "家乡", 379 | "普莱恩斯" 380 | ] 381 | ] 382 | }, 383 | { 384 | "text": "工业和信息化部消费品工业司司长何亚琼在近期的国务院政策例行会议上表示,今年5月,国内智能手机等大宗电子产品销售已经出现大幅反弹。", 385 | "spo_list_true": [ 386 | [ 387 | "工业和信息化部消费品工业司", 388 | "司长", 389 | "何亚琼" 390 | ] 391 | ], 392 | "spo_list_pred": [ 393 | [ 394 | "工业和信息化部消费品工业司", 395 | "司长", 396 | "何亚琼" 397 | ] 398 | ], 399 | "new": [], 400 | "lack": [] 401 | }, 402 | { 403 | "text": "荣耀CEO赵明在今年上海世界移动通信大会期间不断强调“全新创新周期将会带领行业跨越当前的经济周期”。在他看来,智能手机的下一个创新周期即将到来,AI就是重要的机会点。尽管AI完全“重新定义”智能手机尚需时日,但小米、荣耀等头部手机企业均已开始用AI提升智能手机消费体验,并开始进行新一轮技术升级。", 404 | "spo_list_true": [ 405 | [ 406 | "荣耀", 407 | "CEO", 408 | "赵明" 409 | ] 410 | ], 411 | "spo_list_pred": [ 412 | [ 413 | "荣耀", 414 | "CEO", 415 | "赵明" 416 | ] 417 | ], 418 | "new": [], 419 | "lack": [] 420 | }, 421 | { 422 | "text": "苏州大学一法学院学生王同学在上海迪士尼乐园游玩时被拍下照片,被工作人员以118元的价格出售给自己。他认为园方在未经自己同意的情况下拍摄照片,侵犯了自己的肖像权和隐私权,将对方起诉。近日,此案在上海市浦东新区人民法院开庭,双方进行了证据交换。", 423 | "spo_list_true": [ 424 | [ 425 | "苏州大学法学院", 426 | "学生", 427 | "王同学" 428 | ] 429 | ], 430 | "spo_list_pred": [ 431 | [ 432 | "苏州大学一法学院", 433 | "学生", 434 | "王同学" 435 | ] 436 | ], 437 | "new": [ 438 | [ 439 | "苏州大学一法学院", 440 | "学生", 441 | "王同学" 442 | ] 443 | ], 444 | "lack": [ 445 | [ 446 | "苏州大学法学院", 447 | "学生", 448 | "王同学" 449 | ] 450 | ] 451 | }, 452 | { 453 | "text": "据说,在希里婉瓦丽小时候,高僧给她算过命,称她是“镇国神兽”。也正是这个原因,希里婉瓦丽的爷爷,泰国老国王普密蓬将其从英国接回,住进大皇宫,让她接受皇家精英教育。", 454 | "spo_list_true": [ 455 | [ 456 | "希里婉瓦丽", 457 | "爷爷", 458 | "普密蓬" 459 | ], 460 | [ 461 | "泰国", 462 | "老国王", 463 | "普密蓬" 464 | ] 465 | ], 466 | "spo_list_pred": [ 467 | [ 468 | "泰国", 469 | "老国王", 470 | "普密蓬" 471 | ] 472 | ], 473 | "new": [], 474 | "lack": [ 475 | [ 476 | "希里婉瓦丽", 477 | "爷爷", 478 | "普密蓬" 479 | ] 480 | ] 481 | }, 482 | { 483 | "text": "2022年11月,法国总统马克龙访问泰国,受到泰国国王哇集拉隆功接见。希里婉瓦丽出现在父亲身边。", 484 | "spo_list_true": [ 485 | [ 486 | "泰国", 487 | "国王", 488 | "哇集拉隆功" 489 | ], 490 | [ 491 | "法国", 492 | "总统", 493 | "马克龙" 494 | ] 495 | ], 496 | "spo_list_pred": [ 497 | [ 498 | "泰国", 499 | "国王", 500 | "哇集拉隆功" 501 | ], 502 | [ 503 | "法国", 504 | "总统", 505 | "马克龙" 506 | ] 507 | ], 508 | "new": [], 509 | "lack": [] 510 | }, 511 | { 512 | "text": "对此,中国人民大学法学院教授刘俊海表示,预制菜企业要把好食品安全关,制定一套专门的食品安全标准,提升消费者满意度;还要保证商品运输条件,提高配送效率。\n安全只是底线,安全之上还要健康。有专家指出,预制菜中可能存在高盐高脂的情况,且相较于现制现烧的菜,预制菜存在一定程度上的营养流失,这主要是因为生产加工过程中的损耗,以及消费者购买预制菜后对菜品进行二次加热。", 513 | "spo_list_true": [ 514 | [ 515 | "中国人民大学法学院", 516 | "教授", 517 | "刘俊海" 518 | ] 519 | ], 520 | "spo_list_pred": [ 521 | [ 522 | "中国人民大学法学院", 523 | "教授", 524 | "刘俊海" 525 | ] 526 | ], 527 | "new": [], 528 | "lack": [] 529 | }, 530 | { 531 | "text": "当地时间25日,泰国总理赛塔携多位内阁部长前往素万那普国际机场,迎接免签政策实施首日的第一批赴泰中国游客。该批中国游客乘坐泰国亚洲航空航班从上海起飞,于当地时间10时10分飞抵曼谷。", 532 | "spo_list_true": [ 533 | [ 534 | "泰国", 535 | "总理", 536 | "赛塔" 537 | ] 538 | ], 539 | "spo_list_pred": [ 540 | [ 541 | "泰国", 542 | "总理", 543 | "赛塔" 544 | ] 545 | ], 546 | "new": [], 547 | "lack": [] 548 | }, 549 | { 550 | "text": "9月25日,第36届东京国际电影节(TIFF)正式宣布,中国导演顾晓刚被授予2023年度“黑泽明奖”(Kurosawa Akira Award)特别荣誉。这也成为继侯孝贤及陈凯歌之后,第三位摘得此国际奖项的华语导演。顾晓刚也成为东京国际电影节“黑泽明奖”历史上,最年轻的获得者。他以其独树一帜的山水叙事设计,细腻的人文眷注及创作洞察,使中国东方诗意的影像美学,于国际电影业界,备受瞩目。", 551 | "spo_list_true": [ 552 | [ 553 | "中国", 554 | "导演", 555 | "顾晓刚" 556 | ] 557 | ], 558 | "spo_list_pred": [ 559 | [ 560 | "中国", 561 | "导演", 562 | "顾晓刚" 563 | ] 564 | ], 565 | "new": [], 566 | "lack": [] 567 | }, 568 | { 569 | "text": "据台媒报道,台军耗费1402亿元新台币的“F16A/B战机性能提升”计划,原本办理期程至今年年底完成。但台立法机构预算中心有报告指出,因弹药等装备筹获进度不如预期,该计划将延后至2026年度。", 570 | "spo_list_true": [ 571 | [ 572 | "" 573 | ] 574 | ], 575 | "spo_list_pred": [ 576 | [ 577 | "" 578 | ] 579 | ], 580 | "new": [], 581 | "lack": [] 582 | }, 583 | { 584 | "text": "据日本放送协会(NHK)报道,22日,日本东京都知事小池百合子针对流感疫情警告称,东京可能在4周内出现流感大流行,呼吁民众做好预防措施。", 585 | "spo_list_true": [ 586 | [ 587 | "日本东京都", 588 | "知事", 589 | "小池百合子" 590 | ] 591 | ], 592 | "spo_list_pred": [ 593 | [ 594 | "日本东京都", 595 | "知事", 596 | "小池百合子" 597 | ] 598 | ], 599 | "new": [], 600 | "lack": [] 601 | }, 602 | { 603 | "text": "长江产业经济研究院苏州研究中心主任,苏州科技大学教授徐天舒分析指出,升格为特大城市不仅意味着苏州对于外来人口的吸引力持续增强,更意味着苏州掌握了更多的发展主动权。", 604 | "spo_list_true": [ 605 | [ 606 | "长江产业经济研究院苏州研究中心", 607 | "主任", 608 | "徐天舒" 609 | ], 610 | [ 611 | "苏州科技大学", 612 | "教授", 613 | "徐天舒" 614 | ] 615 | ], 616 | "spo_list_pred": [ 617 | [ 618 | "长江产业经济研究院苏州研究中心", 619 | "主任", 620 | "徐天舒" 621 | ], 622 | [ 623 | "苏州科技大学", 624 | "教授", 625 | "徐天舒" 626 | ] 627 | ], 628 | "new": [], 629 | "lack": [] 630 | }, 631 | { 632 | "text": "近日,85岁重庆“前首富”、力帆集团创始人尹明善入住养老机构引发关注,甚至被外界怀疑其晚景凄凉。", 633 | "spo_list_true": [ 634 | [ 635 | "重庆", 636 | "前首富", 637 | "尹明善" 638 | ], 639 | [ 640 | "力帆集团", 641 | "创始人", 642 | "尹明善" 643 | ] 644 | ], 645 | "spo_list_pred": [ 646 | [ 647 | "重庆", 648 | "前首富", 649 | "尹明善" 650 | ], 651 | [ 652 | "力帆集团", 653 | "创始人", 654 | "尹明善" 655 | ] 656 | ], 657 | "new": [], 658 | "lack": [] 659 | }, 660 | { 661 | "text": "屏东明扬国际工厂爆炸案,屏东县消防局长许美雪第一时间称消防员射水后爆炸引发争议,事后改口“未射水就发生连续爆炸”,遭外界质疑其专业性。对此,中山大学政治所荣誉教授廖达琪分析许美雪硕士和博士论文,直言“与真正的消防本业无关”,并称许究竟怎么做到消防局长,“就让大家尽情猜测”。", 662 | "spo_list_true": [ 663 | [ 664 | "屏东县消防", 665 | "局长", 666 | "许美雪" 667 | ], 668 | [ 669 | "中山大学政治所", 670 | "荣誉教授", 671 | "廖达琪" 672 | ] 673 | ], 674 | "spo_list_pred": [ 675 | [ 676 | "屏东县", 677 | "消防局长", 678 | "许美雪" 679 | ], 680 | [ 681 | "中山大学政治所", 682 | "荣誉教授", 683 | "廖达琪" 684 | ] 685 | ], 686 | "new": [ 687 | [ 688 | "屏东县", 689 | "消防局长", 690 | "许美雪" 691 | ] 692 | ], 693 | "lack": [ 694 | [ 695 | "屏东县消防", 696 | "局长", 697 | "许美雪" 698 | ] 699 | ] 700 | }, 701 | { 702 | "text": "据美国有线电视新闻网(CNN)24日报道,当地时间23日晚,美国佛罗里达州希尔斯伯勒县一列火车在经过铁路口时与一辆SUV汽车相撞,造成6人遇难,其中包括3名儿童。", 703 | "spo_list_true": [ 704 | [ 705 | "" 706 | ] 707 | ], 708 | "spo_list_pred": [ 709 | [ 710 | "" 711 | ] 712 | ], 713 | "new": [], 714 | "lack": [] 715 | }, 716 | { 717 | "text": "据报道,当天,希尔斯伯勒县警长查德·克罗尼斯特在新闻发布会上表示,这辆载有7人的汽车当时正以超过每小时55英里(约88公里)的速度行驶。", 718 | "spo_list_true": [ 719 | [ 720 | "希尔斯伯勒县", 721 | "警长", 722 | "查德·克罗尼斯特" 723 | ] 724 | ], 725 | "spo_list_pred": [ 726 | [ 727 | "希尔斯伯勒县", 728 | "警长", 729 | "查德·克罗尼斯特" 730 | ] 731 | ], 732 | "new": [], 733 | "lack": [] 734 | }, 735 | { 736 | "text": "接报后,应急管理部部长王祥喜立即作出部署,并派应急管理部党委委员、国家矿山安监局局长黄锦生带工作组紧急赶赴现场指导救援处置,要求全力指导帮助地方做好搜救工作,严防次生灾害,进一步核清情况,全力做好家属安抚、善后处理等各项处置工作。同时,要指导督促各地举一反三,狠抓责任措施落实,深入排查整治安全风险隐患,坚决防范重特大事故发生。", 737 | "spo_list_true": [ 738 | [ 739 | "应急管理部", 740 | "部长", 741 | "王祥喜" 742 | ], 743 | [ 744 | "国家矿山安监局", 745 | "局长", 746 | "黄锦生" 747 | ], 748 | [ 749 | "应急管理部", 750 | "党委委员", 751 | "黄锦生" 752 | ] 753 | ], 754 | "spo_list_pred": [ 755 | [ 756 | "应急管理部", 757 | "部长", 758 | "王祥喜" 759 | ], 760 | [ 761 | "国家矿山安监局", 762 | "局长", 763 | "黄锦生" 764 | ], 765 | [ 766 | "应急管理部", 767 | "党委委员", 768 | "黄锦生" 769 | ] 770 | ], 771 | "new": [], 772 | "lack": [] 773 | }, 774 | { 775 | "text": "2010年3月,中国第一家视频平台土豆网的创始人王微,与东方卫视前主播杨蕾的婚姻走到了尽头。", 776 | "spo_list_true": [ 777 | [ 778 | "土豆网", 779 | "创始人", 780 | "王微" 781 | ], 782 | [ 783 | "东方卫视", 784 | "前主播", 785 | "杨蕾" 786 | ] 787 | ], 788 | "spo_list_pred": [ 789 | [ 790 | "土豆网", 791 | "创始人", 792 | "王微" 793 | ], 794 | [ 795 | "东方卫视", 796 | "前主播", 797 | "杨蕾" 798 | ] 799 | ], 800 | "new": [], 801 | "lack": [] 802 | }, 803 | { 804 | "text": "中共中央政治局委员、国务院副总理张国清作总结讲话。上汽集团党委书记、董事长陈虹作为企业代表出席会议。陈虹表示,推进新型工业化是做强、做优、做大实体经济,建设制造强国的关键支撑,也是推动汽车产业实现高质量发展的重要抓手。上汽将以创建世界一流示范企业为契机,加快向高端化、绿色化、智能化转型升级。", 805 | "spo_list_true": [ 806 | [ 807 | "国务院", 808 | "副总理", 809 | "张国清" 810 | ], 811 | [ 812 | "上汽集团", 813 | "党委书记", 814 | "陈虹" 815 | ], 816 | [ 817 | "中共中央政治局", 818 | "委员", 819 | "张国清" 820 | ], 821 | [ 822 | "上汽集团", 823 | "董事长", 824 | "陈虹" 825 | ] 826 | ], 827 | "spo_list_pred": [ 828 | [ 829 | "国务院", 830 | "副总理", 831 | "张国清" 832 | ], 833 | [ 834 | "上汽集团", 835 | "党委书记", 836 | "陈虹" 837 | ], 838 | [ 839 | "中共中央政治局", 840 | "委员", 841 | "张国清" 842 | ], 843 | [ 844 | "上汽集团", 845 | "董事长", 846 | "陈虹" 847 | ] 848 | ], 849 | "new": [], 850 | "lack": [] 851 | }, 852 | { 853 | "text": "在采访中,不少基层干部和专家学者提到,与全国不少省份一样,安徽人口发展也面临区域差异较大、生育率下降、老年抚养比上升等挑战,一些城市也存在不同程度的人口流失现象。安徽大学人口研究所所长、安徽省人口学会副会长兼秘书长孙中锋建议,借鉴阜阳、亳州等地吸引农民工返乡就业创业的做法,推广“养人合肥”“紫云英人才计划”等新模式,在人口自然增长率、机械增长率均较低的地区建立人口预警机制,通过中心集镇和县城集纳等途径,缓解区域人口“失血”,实现更加均衡、适应现代化进程的人口高质量发展。", 854 | "spo_list_true": [ 855 | [ 856 | "安徽大学人口研究所", 857 | "所长", 858 | "孙中锋" 859 | ], 860 | [ 861 | "安徽省人口学会", 862 | "副会长", 863 | "孙中锋" 864 | ], 865 | [ 866 | "安徽省人口学会", 867 | "秘书长", 868 | "孙中锋" 869 | ] 870 | ], 871 | "spo_list_pred": [ 872 | [ 873 | "安徽大学人口研究所", 874 | "所长", 875 | "孙中锋" 876 | ], 877 | [ 878 | "安徽省人口学会", 879 | "副会长", 880 | "孙中锋" 881 | ], 882 | [ 883 | "安徽省人口学会", 884 | "秘书长", 885 | "孙中锋" 886 | ] 887 | ], 888 | "new": [], 889 | "lack": [] 890 | }, 891 | { 892 | "text": "9月25日上午,滨海新区管委会主任、越城区委书记徐军带队深入绍兴棒垒球体育文化中心、部分学校、酒店以及街道社区,督导主题教育并开展亚运安全检查。区领导金均海、程许东、谷丰等参加。", 893 | "spo_list_true": [ 894 | [ 895 | "滨海新区管委会", 896 | "主任", 897 | "徐军" 898 | ], 899 | [ 900 | "越城区委", 901 | "书记", 902 | "徐军" 903 | ], 904 | [ 905 | "滨海新区", 906 | "领导", 907 | "金均海" 908 | ], 909 | [ 910 | "滨海新区", 911 | "领导", 912 | "谷丰" 913 | ], 914 | [ 915 | "滨海新区", 916 | "领导", 917 | "程许东" 918 | ] 919 | ], 920 | "spo_list_pred": [ 921 | [ 922 | "滨海新区管委会", 923 | "主任", 924 | "徐军" 925 | ], 926 | [ 927 | "越城区委", 928 | "书记", 929 | "徐军" 930 | ] 931 | ], 932 | "new": [], 933 | "lack": [ 934 | [ 935 | "滨海新区", 936 | "领导", 937 | "金均海" 938 | ], 939 | [ 940 | "滨海新区", 941 | "领导", 942 | "谷丰" 943 | ], 944 | [ 945 | "滨海新区", 946 | "领导", 947 | "程许东" 948 | ] 949 | ] 950 | }, 951 | { 952 | "text": "九江新闻网讯(九江日报全媒记者 汪良红)9月23日至24日,全国人大常委会委员、宪法和法律委员会副主任委员,九三学社中央副主席,中国工程院院士丛斌率队赴我市开展“规范司法权力运行 健全错案防范纠正机制”课题调研座谈。省人大常委会副主任、九三学社江西省委会主委张伟,省政协副秘书长、九三学社江西省委会专职副主委肖礼庆出席会议。", 953 | "spo_list_true": [ 954 | [ 955 | "省人大常委会", 956 | "副主任", 957 | "张伟" 958 | ], 959 | [ 960 | "全国人大常委会", 961 | "委员", 962 | "丛斌" 963 | ], 964 | [ 965 | "九三学社江西省委会", 966 | "专职副主委", 967 | "肖礼庆" 968 | ], 969 | [ 970 | "九江日报", 971 | "记者", 972 | "汪良红" 973 | ], 974 | [ 975 | "宪法和法律委员会", 976 | "副主任委员", 977 | "丛斌" 978 | ], 979 | [ 980 | "九三学社江西省委会", 981 | "主委", 982 | "张伟" 983 | ], 984 | [ 985 | "九三学社中央", 986 | "副主席", 987 | "丛斌" 988 | ], 989 | [ 990 | "省政协", 991 | "副秘书长", 992 | "肖礼庆" 993 | ], 994 | [ 995 | "中国工程院", 996 | "院士", 997 | "丛斌" 998 | ] 999 | ], 1000 | "spo_list_pred": [ 1001 | [ 1002 | "省人大常委会", 1003 | "副主任", 1004 | "张伟" 1005 | ], 1006 | [ 1007 | "全国人大常委会", 1008 | "委员", 1009 | "丛斌" 1010 | ], 1011 | [ 1012 | "九三学社江西省委会", 1013 | "专职副主委", 1014 | "肖礼庆" 1015 | ], 1016 | [ 1017 | "宪法和法律委员会", 1018 | "副主任委员", 1019 | "丛斌" 1020 | ], 1021 | [ 1022 | "九三学社江西省委会", 1023 | "主委", 1024 | "张伟" 1025 | ], 1026 | [ 1027 | "九三学社中央", 1028 | "副主席", 1029 | "丛斌" 1030 | ], 1031 | [ 1032 | "中国工程院", 1033 | "院士", 1034 | "丛斌" 1035 | ], 1036 | [ 1037 | "省政协", 1038 | "副秘书长", 1039 | "肖礼庆" 1040 | ], 1041 | [ 1042 | "九江日报全媒", 1043 | "记者", 1044 | "汪良红" 1045 | ] 1046 | ], 1047 | "new": [ 1048 | [ 1049 | "九江日报全媒", 1050 | "记者", 1051 | "汪良红" 1052 | ] 1053 | ], 1054 | "lack": [ 1055 | [ 1056 | "九江日报", 1057 | "记者", 1058 | "汪良红" 1059 | ] 1060 | ] 1061 | }, 1062 | { 1063 | "text": "樊健军是江西省作协副主席、九江市作协副主席,2021年《通往天堂的夜航船》由《小说月报・原创版》第12期刊发。天瑞说符是九江市网络作协主席,2021年6月《我们生活在南京》在阅文集团起点中文网开始连载,2022年12月由中信出版集团出版。", 1064 | "spo_list_true": [ 1065 | [ 1066 | "江西省作协", 1067 | "副主席", 1068 | "樊健军" 1069 | ], 1070 | [ 1071 | "九江市作协", 1072 | "副主席", 1073 | "樊健军" 1074 | ], 1075 | [ 1076 | "九江市网络作协", 1077 | "主席", 1078 | "天瑞说符" 1079 | ] 1080 | ], 1081 | "spo_list_pred": [ 1082 | [ 1083 | "江西省作协", 1084 | "副主席", 1085 | "樊健军" 1086 | ], 1087 | [ 1088 | "九江市作协", 1089 | "副主席", 1090 | "樊健军" 1091 | ], 1092 | [ 1093 | "九江市网络作协", 1094 | "主席", 1095 | "天瑞说符" 1096 | ] 1097 | ], 1098 | "new": [], 1099 | "lack": [] 1100 | }, 1101 | { 1102 | "text": "在昨日的华为秋季全场景新品发布会上,华为常务董事、终端 BG CEO、智能汽车解决方案 BU 董事长余承东表示:华为 Mate60 系列开启先锋计划以来,广受消费者喜爱,目前正在加班加点紧急生产。另外,他透露,HarmonyOS4 目前升级设备数达 6000 万,每天增加 120 万用户。在发布会的尾声,余承东宣布,鸿蒙下一个版本 HarmonyOS NEXT 蓄势待发,鸿蒙原生应用全面启动。鸿蒙原生应用将带来移动应用生态的历史性跨越,更流畅、更智能、更安全。", 1103 | "spo_list_true": [ 1104 | [ 1105 | "智能汽车解决方案 BU", 1106 | "董事长", 1107 | "余承东" 1108 | ], 1109 | [ 1110 | "华为", 1111 | "常务董事", 1112 | "余承东" 1113 | ], 1114 | [ 1115 | "终端 BG", 1116 | "CEO", 1117 | "余承东" 1118 | ] 1119 | ], 1120 | "spo_list_pred": [ 1121 | [ 1122 | "智能汽车解决方案 BU", 1123 | "董事长", 1124 | "余承东" 1125 | ], 1126 | [ 1127 | "华为", 1128 | "常务董事", 1129 | "余承东" 1130 | ], 1131 | [ 1132 | "终端 BG", 1133 | "CEO", 1134 | "余承东" 1135 | ] 1136 | ], 1137 | "new": [], 1138 | "lack": [] 1139 | }, 1140 | { 1141 | "text": "吉利控股集团相关负责人在接受《证券日报》记者采访时表示,这是人类历史上第一次废碳再生、零碳甲醇点燃亚运主火炬,也是大型体育赛事首次使用燃烧高效、排放清洁、可再生、运输便捷的甲醇燃料,充分体现杭州亚运会“绿色、智能、节俭、文明”的办赛理念。", 1142 | "spo_list_true": [ 1143 | [ 1144 | "" 1145 | ] 1146 | ], 1147 | "spo_list_pred": [ 1148 | [ 1149 | "" 1150 | ] 1151 | ], 1152 | "new": [], 1153 | "lack": [] 1154 | }, 1155 | { 1156 | "text": "中国乘用车产业联盟秘书长张秀阳表示,任何一种单独的能源都不可能是唯一的碳中和解决方案,绿色甲醇在能源多元化体系中的作用仍需得到各方的进一步关注", 1157 | "spo_list_true": [ 1158 | [ 1159 | "中国乘用车产业联盟", 1160 | "秘书长", 1161 | "张秀阳" 1162 | ] 1163 | ], 1164 | "spo_list_pred": [ 1165 | [ 1166 | "中国乘用车产业联盟", 1167 | "秘书长", 1168 | "张秀阳" 1169 | ] 1170 | ], 1171 | "new": [], 1172 | "lack": [] 1173 | }, 1174 | { 1175 | "text": "随着铿锵有力的打击乐声响起,灯光闪烁,武生们拳脚相加,衣袂翻飞。在粤剧《武松大闹狮子楼》表演中,中国戏剧梅花奖获得者、广东粤剧院一级演员彭庆华独门绝技“奔腾”重出江湖。电光石火之间,两名演员在台脚上完成空翻和穿越,高难度的绝技让观众拍案叫绝。\n", 1176 | "spo_list_true": [ 1177 | [ 1178 | "广东粤剧院", 1179 | "一级演员", 1180 | "彭庆华" 1181 | ], 1182 | [ 1183 | "中国戏剧梅花奖", 1184 | "获得者", 1185 | "彭庆华" 1186 | ] 1187 | ], 1188 | "spo_list_pred": [ 1189 | [ 1190 | "广东粤剧院", 1191 | "一级演员", 1192 | "彭庆华" 1193 | ], 1194 | [ 1195 | "中国戏剧梅花奖", 1196 | "获得者", 1197 | "彭庆华" 1198 | ] 1199 | ], 1200 | "new": [], 1201 | "lack": [] 1202 | }, 1203 | { 1204 | "text": "今天是首个全国生态日,我们邀请到了一位有着20年在广州在地自然观察与自然研学经验的嘉宾谢辅宇,来和我们漫谈广州的自然生态。谢辅宇同时也是广州市中学生劳动技术学校的教师,最近出版了新书《广州二十四节气自然笔记》,从二十四节气的时间点进入,来观察广州。在接下来的南国书香节上,他也会进行相关内容的分享。", 1205 | "spo_list_true": [ 1206 | [ 1207 | "广州市中学生劳动技术学校", 1208 | "教师", 1209 | "谢辅宇" 1210 | ] 1211 | ], 1212 | "spo_list_pred": [ 1213 | [ 1214 | "广州市中学生劳动技术学校", 1215 | "教师", 1216 | "谢辅宇" 1217 | ] 1218 | ], 1219 | "new": [], 1220 | "lack": [] 1221 | }, 1222 | { 1223 | "text": "谢辅宇:在接下来的一两个月广州的气温还是比较高的。外出还是找树多,溪流多的凉快地方。如果你想避暑可以往从化、增城、花都山区里面跑。广州整体上是南低北高。从化、增城、花都山高林密,山中溪流多是休闲玩水和自然观察的好去处。同时也可以尝尝龙眼、山里的大竹笋。广州到十月开始适合登高,蝴蝶也多。也可以考虑徒步的线路如木强水库、南昆山等等。", 1224 | "spo_list_true": [ 1225 | [ 1226 | "" 1227 | ] 1228 | ], 1229 | "spo_list_pred": [ 1230 | [ 1231 | "" 1232 | ] 1233 | ], 1234 | "new": [], 1235 | "lack": [] 1236 | }, 1237 | { 1238 | "text": "在2016年的一项研究中,研究人员要求志愿者听劳拉·希伦布兰德写的一本关于二战的非小说类书籍《坚不可摧》的部分内容,而第二组人则在电子阅读器上阅读相同的部分,第三组则同时阅读和聆听。之后,每个志愿者都参加了一个测试他们的理解力和记忆力的实验。结果发现,阅读、听书之间没有显著差异。", 1239 | "spo_list_true": [ 1240 | [ 1241 | "" 1242 | ] 1243 | ], 1244 | "spo_list_pred": [ 1245 | [ 1246 | "" 1247 | ] 1248 | ], 1249 | "new": [], 1250 | "lack": [] 1251 | }, 1252 | { 1253 | "text": "遗憾的是,在清朝末年,藏经洞出土文物得不到保护,大部被西方列强劫掠而走,流散于英国、法国、俄国、印度、日本等十余个国家的三十多个博物馆、图书馆,还有一些散存在国内的三十多个博物馆、图书馆。藏经洞文物发现后,随着文物的流散,在世界上诞生了以敦煌藏经洞出土文献和莫高窟艺术为研究对象的“敦煌学”。世界十多个国家的一些学者都在从事敦煌学研究,成为国际汉学中的显学。", 1254 | "spo_list_true": [ 1255 | [ 1256 | "" 1257 | ] 1258 | ], 1259 | "spo_list_pred": [ 1260 | [ 1261 | "" 1262 | ] 1263 | ], 1264 | "new": [], 1265 | "lack": [] 1266 | }, 1267 | { 1268 | "text": "但是不知道为什么,A580始终没有正式发布上市,而在上周的技术创新大会期间,Intel也完全没有提及Arc显卡,没有传说中的Alchemist+升级版,也没有明年的第二代Battlemage。", 1269 | "spo_list_true": [ 1270 | [ 1271 | "" 1272 | ] 1273 | ], 1274 | "spo_list_pred": [ 1275 | [ 1276 | "" 1277 | ] 1278 | ], 1279 | "new": [], 1280 | "lack": [] 1281 | }, 1282 | { 1283 | "text": "9月26日消息,我国首个“大熊猫学院”现在已经正式成立,由四川省林业和草原局(大熊猫国家公园四川省管理局)与西华师范大学共建而成。", 1284 | "spo_list_true": [ 1285 | [ 1286 | "" 1287 | ] 1288 | ], 1289 | "spo_list_pred": [ 1290 | [ 1291 | "" 1292 | ] 1293 | ], 1294 | "new": [], 1295 | "lack": [] 1296 | }, 1297 | { 1298 | "text": "昨日下午,“数字驱动生态·共建智慧海洋”福建省智慧海洋联合实验室签约仪式在位于福州软件园的海洋经济科创高地举办。福建省海洋与渔业局(以下简称“省海渔局”)党组成员、总工程师罗志涛,省海渔局防灾减灾处处长陈少毅,中国电信福建分公司副总经理林晓武,中国电信福建分公司政企事业群副主任、实验室主任李峰,福建理工大学校长童昕,福州市鼓楼区政府副区长张玉佩,集美大学、达华智能公司、福信富通、南威软件等参加活动。", 1299 | "spo_list_true": [ 1300 | [ 1301 | "福建省海洋与渔业局", 1302 | "党组成员", 1303 | "罗志涛" 1304 | ], 1305 | [ 1306 | "福建理工大学", 1307 | "校长", 1308 | "童昕" 1309 | ], 1310 | [ 1311 | "福建省海洋与渔业局", 1312 | "总工程师", 1313 | "罗志涛" 1314 | ], 1315 | [ 1316 | "福建省海洋与渔业局防灾减灾处", 1317 | "处长", 1318 | "陈少毅" 1319 | ], 1320 | [ 1321 | "中国电信福建分公司", 1322 | "副总经理", 1323 | "林晓武" 1324 | ], 1325 | [ 1326 | "中国电信福建分公司政企事业群", 1327 | "实验室主任", 1328 | "李峰" 1329 | ], 1330 | [ 1331 | "中国电信福建分公司政企事业群", 1332 | "副主任", 1333 | "李峰" 1334 | ], 1335 | [ 1336 | "福州市鼓楼区政府", 1337 | "副区长", 1338 | "张玉佩" 1339 | ] 1340 | ], 1341 | "spo_list_pred": [ 1342 | [ 1343 | "福建省海洋与渔业局", 1344 | "党组成员", 1345 | "罗志涛" 1346 | ], 1347 | [ 1348 | "福建理工大学", 1349 | "校长", 1350 | "童昕" 1351 | ], 1352 | [ 1353 | "中国电信福建分公司", 1354 | "政企事业群副主任", 1355 | "李峰" 1356 | ], 1357 | [ 1358 | "福建省海洋与渔业局", 1359 | "总工程师", 1360 | "罗志涛" 1361 | ], 1362 | [ 1363 | "省海渔局防灾减灾处", 1364 | "处长", 1365 | "陈少毅" 1366 | ], 1367 | [ 1368 | "中国电信福建分公司", 1369 | "副总经理", 1370 | "林晓武" 1371 | ], 1372 | [ 1373 | "福州市鼓楼区政府", 1374 | "副区长", 1375 | "张玉佩" 1376 | ] 1377 | ], 1378 | "new": [ 1379 | [ 1380 | "省海渔局防灾减灾处", 1381 | "处长", 1382 | "陈少毅" 1383 | ], 1384 | [ 1385 | "中国电信福建分公司", 1386 | "政企事业群副主任", 1387 | "李峰" 1388 | ] 1389 | ], 1390 | "lack": [ 1391 | [ 1392 | "福建省海洋与渔业局防灾减灾处", 1393 | "处长", 1394 | "陈少毅" 1395 | ], 1396 | [ 1397 | "中国电信福建分公司政企事业群", 1398 | "实验室主任", 1399 | "李峰" 1400 | ], 1401 | [ 1402 | "中国电信福建分公司政企事业群", 1403 | "副主任", 1404 | "李峰" 1405 | ] 1406 | ] 1407 | }, 1408 | { 1409 | "text": "“唱游武夷”、非遗进景区“宋风雅韵”情景茶文化展演、印象·市集、环国家公园风景道健步行、“关注森林 探秘武夷”全国青少年国家公园自然教育研学、3D裸眼、《开学第一课》生物多样性文创产品上新等一系列活动将在节日期间陆续上演,让市民和游客乐享文艺大餐,感受浓浓节日氛围。", 1410 | "spo_list_true": [ 1411 | [ 1412 | "" 1413 | ] 1414 | ], 1415 | "spo_list_pred": [ 1416 | [ 1417 | "" 1418 | ] 1419 | ], 1420 | "new": [], 1421 | "lack": [] 1422 | }, 1423 | { 1424 | "text": "新华社柏林9月25日电(张雨花)德国伊弗经济研究所25日公布的数据显示,经季节调整后,德国9月商业景气指数从上月终值85.8点微降至85.7点,为连续第五个月环比下降。数据显示,构成商业景气指数的四项指标中,制造业和贸易指标当月环比微升,服务业指标连续第六个月环比下降,建筑业指标降至2009年1月以来最低值。伊弗经济研究所所长克莱门斯·菲斯特表示,受访企业对行业现状的满意度再次下降,但对未来几个月的悲观情绪略有缓解。伊弗商业景气指数被视为德国经济发展的风向标,对观察德国经济形势具有重要参考价值。", 1425 | "spo_list_true": [ 1426 | [ 1427 | "德国伊弗经济研究所", 1428 | "所长", 1429 | "克莱门斯·菲斯特" 1430 | ] 1431 | ], 1432 | "spo_list_pred": [ 1433 | [ 1434 | "德国伊弗经济研究所", 1435 | "所长", 1436 | "克莱门斯·菲斯特" 1437 | ] 1438 | ], 1439 | "new": [], 1440 | "lack": [] 1441 | }, 1442 | { 1443 | "text": "在帕洛阿尔托的一场小型晚宴上,阿尔特曼和马斯克决定创办一个非营利性的人工智能研究实验室,他们将其命名为“OpenAI”。实验室的软件是开源的,实验室将努力对抗谷歌在这一领域日渐强大的主导地位。蒂尔和霍夫曼与马斯克一起投入了资金。“我们希望有一种类似于 Linux 版本的人工智能,不受任何个人或公司的控制。”马斯克说,“我们的目标是提升人工智能安全发展的概率,人类将从中受益。”他们在晚餐时讨论的一个问题是,由大公司控制的少量人工智能系统更安全,还是大量独立系统更安全。他们的结论是,大量彼此竞争的系统能相互制衡,这样会更好。就像人类集体协作能抵御人类恶霸一样,一大批独立的人工智能机器人也会努力阻止邪恶机器人的行径。对马斯克来说,让 OpenAI 真正开放的原因就是要让许许多多的人能根据其源代码建立各自的系统。他对《连线》杂志记者史蒂文·利维说:“我认为,防止人类滥用人工智能的最佳防火墙就是让尽可能多的人都拥有人工智能。”", 1444 | "spo_list_true": [ 1445 | [ 1446 | "《连线》杂志", 1447 | "记者", 1448 | "史蒂文·利维" 1449 | ] 1450 | ], 1451 | "spo_list_pred": [ 1452 | [ 1453 | "" 1454 | ] 1455 | ], 1456 | "new": [ 1457 | [ 1458 | "" 1459 | ] 1460 | ], 1461 | "lack": [ 1462 | [ 1463 | "《连线》杂志", 1464 | "记者", 1465 | "史蒂文·利维" 1466 | ] 1467 | ] 1468 | }, 1469 | { 1470 | "text": "与马斯克和阿尔特曼共进晚餐的人中有一位谷歌的研究工程师,他就是伊尔亚·苏茨克维。他们用 190 万美元的工资和保底奖金把他挖了过来,让他担任新实验室的首席科学家。佩奇对此很愤怒,他昔日的好友、房客不仅成立了一个同他展开竞争的实验室,还挖走了谷歌的顶级科学家。", 1471 | "spo_list_true": [ 1472 | [ 1473 | "谷歌", 1474 | "研究工程师", 1475 | "伊尔亚·苏茨克维" 1476 | ] 1477 | ], 1478 | "spo_list_pred": [ 1479 | [ 1480 | "谷歌", 1481 | "研究工程师", 1482 | "伊尔亚·苏茨克维" 1483 | ] 1484 | ], 1485 | "new": [], 1486 | "lack": [] 1487 | }, 1488 | { 1489 | "text": "9月19日,据香港联交所披露,美团CEO王兴在9月12日-15日,四度减持理想汽车港股,共套现3.1亿港元(约合2.9亿元人民币)。这并不是王兴今年第一次减持理想汽车。据同花顺数据,早在今年3月20日至3月30日,王兴就曾多次减持理想汽车。作为仅次于创始人李想的第二大股东,王兴频频减持理想股票究竟是为什么呢?我们通过对比“蔚小理”三家造车新势力公布出来的三组财务数据,来分析一下理想的现状。", 1490 | "spo_list_true": [ 1491 | [ 1492 | "理想汽车", 1493 | "第二大股东", 1494 | "王兴" 1495 | ], 1496 | [ 1497 | "理想汽车", 1498 | "创始人", 1499 | "李想" 1500 | ], 1501 | [ 1502 | "美团", 1503 | "CEO", 1504 | "王兴" 1505 | ] 1506 | ], 1507 | "spo_list_pred": [ 1508 | [ 1509 | "理想汽车", 1510 | "第二大股东", 1511 | "王兴" 1512 | ], 1513 | [ 1514 | "理想汽车", 1515 | "创始人", 1516 | "李想" 1517 | ], 1518 | [ 1519 | "美团", 1520 | "CEO", 1521 | "王兴" 1522 | ] 1523 | ], 1524 | "new": [], 1525 | "lack": [] 1526 | }, 1527 | { 1528 | "text": "1837年6月20日,威廉四世辞世,他的侄女维多利亚即位。", 1529 | "spo_list_true": [ 1530 | [ 1531 | "威廉四世", 1532 | "侄女", 1533 | "维多利亚" 1534 | ] 1535 | ], 1536 | "spo_list_pred": [ 1537 | [ 1538 | "威廉四世", 1539 | "侄女", 1540 | "维多利亚" 1541 | ] 1542 | ], 1543 | "new": [], 1544 | "lack": [] 1545 | }, 1546 | { 1547 | "text": "孙杨的妈妈叫杨明,孙杨的名字后面一个字也是来源于她的名字。", 1548 | "spo_list_true": [ 1549 | [ 1550 | "孙杨", 1551 | "妈妈", 1552 | "杨明" 1553 | ] 1554 | ], 1555 | "spo_list_pred": [ 1556 | [ 1557 | "孙杨", 1558 | "妈妈", 1559 | "杨明" 1560 | ] 1561 | ], 1562 | "new": [], 1563 | "lack": [] 1564 | }, 1565 | { 1566 | "text": "中国足球协会原党委副书记、主席陈戌源涉嫌受贿案,由湖北省监察委员会调查终结,移送检察机关审查起诉。经湖北省人民检察院指定,由黄石市人民检察院审查起诉。近日,黄石市人民检察院已依法向黄石市中级人民法院提起公诉。", 1567 | "spo_list_true": [ 1568 | [ 1569 | "中国足球协会", 1570 | "原党委副书记", 1571 | "陈戌源" 1572 | ], 1573 | [ 1574 | "中国足球协会", 1575 | "主席", 1576 | "陈戌源" 1577 | ] 1578 | ], 1579 | "spo_list_pred": [ 1580 | [ 1581 | "中国足球协会", 1582 | "原党委副书记", 1583 | "陈戌源" 1584 | ], 1585 | [ 1586 | "中国足球协会", 1587 | "主席", 1588 | "陈戌源" 1589 | ] 1590 | ], 1591 | "new": [], 1592 | "lack": [] 1593 | }, 1594 | { 1595 | "text": "旧厂街老旧的家属楼楼道里十分昏暗,高启强抱着彩电满头大汗地到了家门口。几声“咚咚”的踢门声后,屋内温馨的光亮透了出来,弟弟高启盛和妹妹高启兰露出脑袋,惊喜地替哥哥接过彩电——家里老掉牙的东芝彩电显像管老化,消色严重,彩色的已经快成黑白的了。", 1596 | "spo_list_true": [ 1597 | [ 1598 | "高启强", 1599 | "妹妹", 1600 | "高启兰" 1601 | ], 1602 | [ 1603 | "高启强", 1604 | "弟弟", 1605 | "高启盛" 1606 | ] 1607 | ], 1608 | "spo_list_pred": [ 1609 | [ 1610 | "高启强", 1611 | "妹妹", 1612 | "高启兰" 1613 | ], 1614 | [ 1615 | "高启强", 1616 | "弟弟", 1617 | "高启盛" 1618 | ] 1619 | ], 1620 | "new": [], 1621 | "lack": [] 1622 | }, 1623 | { 1624 | "text": "清晨的阳光洒在干净偌大的操场上,整个操场上只有两个人影。一个是穿着笔挺警服的安欣,而另一个是市公安局副局长安长林。安长林与孟德海年纪相仿,人显得更精干一些,多年部队生活的痕迹深深地刻在他身体的每一寸肌理中。和孟德海一样,安长林也是安欣父亲的老战友,安欣父亲在牺牲前将儿子托付给了安长林和孟德海。看着眼前这个老战友的遗孤终究如宿命般也身穿警服,头顶警徽,安长林居然有一瞬间的失神。\n", 1625 | "spo_list_true": [ 1626 | [ 1627 | "市公安局", 1628 | "副局长", 1629 | "安长林" 1630 | ] 1631 | ], 1632 | "spo_list_pred": [ 1633 | [ 1634 | "安欣", 1635 | "父亲", 1636 | "安长林" 1637 | ] 1638 | ], 1639 | "new": [ 1640 | [ 1641 | "安欣", 1642 | "父亲", 1643 | "安长林" 1644 | ] 1645 | ], 1646 | "lack": [ 1647 | [ 1648 | "市公安局", 1649 | "副局长", 1650 | "安长林" 1651 | ] 1652 | ] 1653 | }, 1654 | { 1655 | "text": "整个春节假期刑警支队的人都没闲着,把黄翠翠生前活动的街区和老家挨个走访了一遍。她已经三年没回过老家,老家的母亲带着黄翠翠留下的五六岁的女儿黄瑶艰难生活,甚至不知道黄翠翠死亡的消息。安欣一直游荡在旧厂街的出租房中,黄翠翠的同居男性不固定,但他最终锁定了几个人,正在逐一排查当中。向局长和副局长汇报完工作,安欣开着车来到了看守所。", 1656 | "spo_list_true": [ 1657 | [ 1658 | "黄翠翠", 1659 | "女儿", 1660 | "黄瑶" 1661 | ] 1662 | ], 1663 | "spo_list_pred": [ 1664 | [ 1665 | "黄翠翠", 1666 | "同居男性", 1667 | "不固定" 1668 | ], 1669 | [ 1670 | "黄翠翠", 1671 | "女儿", 1672 | "黄瑶" 1673 | ] 1674 | ], 1675 | "new": [ 1676 | [ 1677 | "黄翠翠", 1678 | "同居男性", 1679 | "不固定" 1680 | ] 1681 | ], 1682 | "lack": [] 1683 | }, 1684 | { 1685 | "text": "陈海上前与高育良握手,低声说:老师好!高育良年近六十,保养得法,满面红光,且笑口常开,看上去像一个擅长太极功夫的官场老手。其实呢,他是一位学者型干部,法学家,早年曾任H大学政法系主任。陈海是他教出来的,公安厅厅长祁同伟和远在北京的侯亮平,也都是他的得意门生。高书记抑或是高老师的弟子遍天下呢。", 1686 | "spo_list_true": [ 1687 | [ 1688 | "H大学政法系", 1689 | "主任", 1690 | "高育良" 1691 | ], 1692 | [ 1693 | "高育良", 1694 | "得意门生", 1695 | "侯亮平" 1696 | ], 1697 | [ 1698 | "公安厅", 1699 | "厅长", 1700 | "祁同伟" 1701 | ], 1702 | [ 1703 | "高育良", 1704 | "得意门生", 1705 | "祁同伟" 1706 | ] 1707 | ], 1708 | "spo_list_pred": [ 1709 | [ 1710 | "H大学政法系", 1711 | "主任", 1712 | "高育良" 1713 | ], 1714 | [ 1715 | "高育良", 1716 | "弟子", 1717 | "侯亮平" 1718 | ], 1719 | [ 1720 | "高育良", 1721 | "弟子", 1722 | "祁同伟" 1723 | ] 1724 | ], 1725 | "new": [ 1726 | [ 1727 | "高育良", 1728 | "弟子", 1729 | "侯亮平" 1730 | ], 1731 | [ 1732 | "高育良", 1733 | "弟子", 1734 | "祁同伟" 1735 | ] 1736 | ], 1737 | "lack": [ 1738 | [ 1739 | "高育良", 1740 | "得意门生", 1741 | "侯亮平" 1742 | ], 1743 | [ 1744 | "高育良", 1745 | "得意门生", 1746 | "祁同伟" 1747 | ], 1748 | [ 1749 | "公安厅", 1750 | "厅长", 1751 | "祁同伟" 1752 | ] 1753 | ] 1754 | }, 1755 | { 1756 | "text": "季昌明扼要汇报情况。高育良和李达康神情严肃地听着。气氛沉重压抑。陈海很清楚,每位领导肚子里都有一本难念的经,但表面上千篇一律,永远都是没有表情的表情。陈海在政治上特别小心,这是因为他总结了父亲陈岩石一生的教训——老革命的父亲,省人民检察院前常务副检察长,外号“老石头”,跟前任省委书记赵立春斗了大半辈子,结果离休时仍然是个厅级干部,硬是没能享受上副省级待遇。而人家赵立春却调到北京,进入了党和国家领导人序列。也正因为老爹常在家里纵论江山,才使陈海对H省的政治路线图烂熟于心。比如,眼前这位李达康,原是赵立春的大秘,传言他乃秘书帮帮主;老师高育良是政法系的领袖,政法系统的官员,都跟他有千丝万缕的关系。陈海不愿重蹈父亲的覆辙,也不愿违心处事,因而和谁都保持距离,连对老师高育良也敬而远之。但他心里得有数,心如明镜,才不会出大的差错。", 1757 | "spo_list_true": [ 1758 | [ 1759 | "陈海", 1760 | "老师", 1761 | "陈岩石" 1762 | ], 1763 | [ 1764 | "省委", 1765 | "书记", 1766 | "赵立春" 1767 | ], 1768 | [ 1769 | "秘书帮", 1770 | "帮主", 1771 | "李达康" 1772 | ], 1773 | [ 1774 | "省人民检察院", 1775 | "前常务副检察长", 1776 | "陈岩石" 1777 | ], 1778 | [ 1779 | "政法系", 1780 | "领袖", 1781 | "高育良" 1782 | ], 1783 | [ 1784 | "赵立春", 1785 | "大秘", 1786 | "李达康" 1787 | ], 1788 | [ 1789 | "陈海", 1790 | "父亲", 1791 | "陈岩石" 1792 | ] 1793 | ], 1794 | "spo_list_pred": [ 1795 | [ 1796 | "赵立春", 1797 | "大秘", 1798 | "李达康" 1799 | ] 1800 | ], 1801 | "new": [], 1802 | "lack": [ 1803 | [ 1804 | "陈海", 1805 | "老师", 1806 | "陈岩石" 1807 | ], 1808 | [ 1809 | "省委", 1810 | "书记", 1811 | "赵立春" 1812 | ], 1813 | [ 1814 | "秘书帮", 1815 | "帮主", 1816 | "李达康" 1817 | ], 1818 | [ 1819 | "省人民检察院", 1820 | "前常务副检察长", 1821 | "陈岩石" 1822 | ], 1823 | [ 1824 | "政法系", 1825 | "领袖", 1826 | "高育良" 1827 | ], 1828 | [ 1829 | "陈海", 1830 | "父亲", 1831 | "陈岩石" 1832 | ] 1833 | ] 1834 | }, 1835 | { 1836 | "text": "李达康最早感到了寒流的凉意。“九一六”事件发生后,沙瑞金虽然没有让他在常委会上做检讨,也没有直接点名批评他,但对事件的定性异乎寻常的严厉——严重腐败引发的恶性暴力事件,是一些干部的腐败行为激发和激化了普遍存在的社会矛盾——这样的判断真让李达康承受不了,想想都要冒冷汗。更要命的是,现在妻子欧阳菁也有腐败嫌疑,还不肯离婚,怎么办?拖下去?拖到炸弹爆炸?赌上自己的政治前途?不,事已如此,他得争取主动,得让沙瑞金了解他真实的婚姻状况。这也许是摆脱困境的最佳途径。当然,也可能被高育良们视为欲盖弥彰。但无论如何,他必须采取行动,不能再拖了。", 1837 | "spo_list_true": [ 1838 | [ 1839 | "李达康", 1840 | "妻子", 1841 | "欧阳菁" 1842 | ] 1843 | ], 1844 | "spo_list_pred": [ 1845 | [ 1846 | "李达康", 1847 | "妻子", 1848 | "欧阳菁" 1849 | ] 1850 | ], 1851 | "new": [], 1852 | "lack": [] 1853 | }, 1854 | { 1855 | "text": "9月25日至26日,以“可持续交通:携手合作助力全球发展”为主题的全球可持续交通高峰论坛(2023)在北京举行,国家铁路局局长费东斌出席论坛开幕式及全体会议,并在主题为“创新驱动——人享其行、物畅其流,拥抱全球智慧交通美好未来”的论坛第三场主题会议和“数字轨道交通、绿色智能发展”边会上致辞。", 1856 | "spo_list_true": [ 1857 | [ 1858 | "国家铁路局", 1859 | "局长", 1860 | "费东斌" 1861 | ] 1862 | ], 1863 | "spo_list_pred": [ 1864 | [ 1865 | "国家铁路局", 1866 | "局长", 1867 | "费东斌" 1868 | ] 1869 | ], 1870 | "new": [], 1871 | "lack": [] 1872 | }, 1873 | { 1874 | "text": "9月25日,全球可持续交通高峰论坛在北京开幕,论坛的主题是“可持续交通:携手合作助力全球发展”。国家主席习近平向全球可持续交通高峰论坛致贺信。国务院副总理何立峰在开幕式上宣读贺信并发表致辞。中国交通运输部部长李小鹏出席论坛全体会议并作主旨讲话。", 1875 | "spo_list_true": [ 1876 | [ 1877 | "国务院", 1878 | "副总理", 1879 | "何立峰" 1880 | ], 1881 | [ 1882 | "中国交通运输部", 1883 | "部长", 1884 | "李小鹏" 1885 | ] 1886 | ], 1887 | "spo_list_pred": [ 1888 | [ 1889 | "国务院", 1890 | "副总理", 1891 | "何立峰" 1892 | ], 1893 | [ 1894 | "中国交通运输部", 1895 | "部长", 1896 | "李小鹏" 1897 | ] 1898 | ], 1899 | "new": [], 1900 | "lack": [] 1901 | }, 1902 | { 1903 | "text": "如果预期的进展保持不变,则到2030年将只有60个国家和地区(覆盖儿童人数约占全球儿童总人口的25%)能够实现相关目标,而生活在140个国家和地区的约19亿名儿童将在这方面掉队。", 1904 | "spo_list_true": [ 1905 | [ 1906 | "" 1907 | ] 1908 | ], 1909 | "spo_list_pred": [ 1910 | [ 1911 | "" 1912 | ] 1913 | ], 1914 | "new": [], 1915 | "lack": [] 1916 | }, 1917 | { 1918 | "text": "“七年前,全世界许下承诺,消除贫困、饥饿和不平等,确保每个人、尤其是儿童,都能获得优质的基本服务。”联合国儿童基金会执行主任凯瑟琳·拉塞尔(Catherine Russell)表示,“但是,在落实2030年可持续发展议程的进程过半之际,我们能用来履行可持续发展目标承诺的时间已经所剩不多。如果这些目标无法实现,代价将是牺牲儿童的生命和地球的可持续发展。我们必须重回正轨,而首先要做的就是将儿童置于加速行动实现可持续发展目标的重要位置。”", 1919 | "spo_list_true": [ 1920 | [ 1921 | "联合国儿童基金会", 1922 | "执行主任", 1923 | "凯瑟琳·拉塞尔" 1924 | ] 1925 | ], 1926 | "spo_list_pred": [ 1927 | [ 1928 | "联合国儿童基金会", 1929 | "执行主任", 1930 | "凯瑟琳·拉塞尔" 1931 | ] 1932 | ], 1933 | "new": [], 1934 | "lack": [] 1935 | }, 1936 | { 1937 | "text": "联合国儿童权利委员会委员菲利普·雅费(Philip Jaffé)指出:“世界各地的儿童一直在引领应对气候变化的行动,他们呼吁各国政府和企业采取行动,保护地球家园和人类共同的未来。儿童权利委员会第26号一般性意见不仅集中反映了儿童的心声,还明确界定了儿童在环境方面所享有的权利。各缔约国急需共同采取行动,尊重、保护并实现儿童所享有的这些权利!”", 1938 | "spo_list_true": [ 1939 | [ 1940 | "联合国儿童权利委员会", 1941 | "委员", 1942 | "菲利普·雅费" 1943 | ] 1944 | ], 1945 | "spo_list_pred": [ 1946 | [ 1947 | "联合国儿童权利委员会", 1948 | "委员", 1949 | "菲利普·雅费" 1950 | ] 1951 | ], 1952 | "new": [], 1953 | "lack": [] 1954 | }, 1955 | { 1956 | "text": "9月26日,市人大常委会副主任、市总工会主席、市产改协调小组副组长张忠义出席2023年全市产业工人队伍建设改革现场推进会并讲话。参会人员实地观摩了市总工会工匠学院烘焙技术分院、大同宇林德石墨新材料股份有限公司推进产改工作情况,国网大同供电公司、大同宇林德石墨新材料股份有限公司、新荣区有关负责人分别围绕深入推进产改、服务企业和职工队伍发展进行了经验介绍。张忠义指出,今年以来,我市产改工作取得显著成效,全市产业结构和产业工人队伍建设总体发展良好。下一步,将全面摸清产业工人底数,提高产业工人政治地位,继续加大技能人才培养力度,积极拓展产业工人发展空间,提高农民工的产业工人认同感,力争实现我市产改新突破。", 1957 | "spo_list_true": [ 1958 | [ 1959 | "市产改协调小组", 1960 | "副组长", 1961 | "张忠义" 1962 | ], 1963 | [ 1964 | "市总工会", 1965 | "主席", 1966 | "张忠义" 1967 | ], 1968 | [ 1969 | "市人大常委会", 1970 | "副主任", 1971 | "张忠义" 1972 | ] 1973 | ], 1974 | "spo_list_pred": [ 1975 | [ 1976 | "市产改协调小组", 1977 | "副组长", 1978 | "张忠义" 1979 | ], 1980 | [ 1981 | "市总工会", 1982 | "主席", 1983 | "张忠义" 1984 | ], 1985 | [ 1986 | "市人大常委会", 1987 | "副主任", 1988 | "张忠义" 1989 | ] 1990 | ], 1991 | "new": [], 1992 | "lack": [] 1993 | }, 1994 | { 1995 | "text": "2022年1月10日,首都图书馆与北京鲁迅博物馆战略合作框架协议签署暨《阿Q正传笺注》图书捐赠仪式在首都图书馆B座十层天光会议室举行。北京鲁迅博物馆常务副馆长黄乔生,首都图书馆馆长、党委副书记毛雅君,首都图书馆党委书记肖维平等领导和嘉宾出席了仪式。", 1996 | "spo_list_true": [ 1997 | [ 1998 | "北京鲁迅博物馆", 1999 | "常务副馆长", 2000 | "黄乔生" 2001 | ], 2002 | [ 2003 | "首都图书馆", 2004 | "党委副书记", 2005 | "毛雅君" 2006 | ], 2007 | [ 2008 | "首都图书馆", 2009 | "党委书记", 2010 | "肖维平" 2011 | ], 2012 | [ 2013 | "首都图书馆", 2014 | "馆长", 2015 | "毛雅君" 2016 | ] 2017 | ], 2018 | "spo_list_pred": [ 2019 | [ 2020 | "北京鲁迅博物馆", 2021 | "常务副馆长", 2022 | "黄乔生" 2023 | ], 2024 | [ 2025 | "首都图书馆", 2026 | "党委副书记", 2027 | "肖维平" 2028 | ], 2029 | [ 2030 | "首都图书馆", 2031 | "馆长", 2032 | "毛雅君" 2033 | ] 2034 | ], 2035 | "new": [ 2036 | [ 2037 | "首都图书馆", 2038 | "党委副书记", 2039 | "肖维平" 2040 | ] 2041 | ], 2042 | "lack": [ 2043 | [ 2044 | "首都图书馆", 2045 | "党委副书记", 2046 | "毛雅君" 2047 | ], 2048 | [ 2049 | "首都图书馆", 2050 | "党委书记", 2051 | "肖维平" 2052 | ] 2053 | ] 2054 | }, 2055 | { 2056 | "text": "首都图书馆的历史可追溯至1913年,由鲁迅先生亲自参与倡建的京师图书分馆、京师通俗图书馆和中央公园图书阅览所,三馆几经合并演变而成。目前首都图书馆已成为北京市重要的知识信息枢纽和精神文明建设基地。鲁迅博物馆是国家一级博物馆,馆内有鲁迅旧居、鲁迅生平陈列展览以及鲁迅书店等创新型融合空间,致力于传承鲁迅精神,传播先进文化,丰富大众精神生活。", 2057 | "spo_list_true": [ 2058 | [ 2059 | "" 2060 | ] 2061 | ], 2062 | "spo_list_pred": [ 2063 | [ 2064 | "" 2065 | ] 2066 | ], 2067 | "new": [], 2068 | "lack": [] 2069 | }, 2070 | { 2071 | "text": "据西班牙《世界报》网站9月28日报道,斯洛伐克计划于本月30日提前举行的大选不但无法确保政坛稳定,反而会留下一场“肮脏的竞选活动”:前总理和前内政部长大打出手、高官被捕、新的腐败指控等。最重要的是,这些事件可能将让前总理罗伯特·菲佐重新回到政治舞台上。", 2072 | "spo_list_true": [ 2073 | [ 2074 | "斯洛伐克", 2075 | "前总理", 2076 | "罗伯特·菲佐" 2077 | ] 2078 | ], 2079 | "spo_list_pred": [ 2080 | [ 2081 | "斯洛伐克", 2082 | "前内政部长", 2083 | "罗伯特·菲佐" 2084 | ], 2085 | [ 2086 | "斯洛伐克", 2087 | "前总理", 2088 | "罗伯特·菲佐" 2089 | ] 2090 | ], 2091 | "new": [ 2092 | [ 2093 | "斯洛伐克", 2094 | "前内政部长", 2095 | "罗伯特·菲佐" 2096 | ] 2097 | ], 2098 | "lack": [] 2099 | }, 2100 | { 2101 | "text": "崇明区新闻办提示,今天(9月29 日)是中秋、国庆假期首日,跟往年一样,这个时间点出行集中,就会出现客流较大情况。目前石洞口至崇明南门、新河方向的过江车辆出现较大客流,至中午十二点,等待过江车辆有7公里左右。呼吁广大市民出行前及时关注路况,倡导绿色出行。", 2102 | "spo_list_true": [ 2103 | [ 2104 | "" 2105 | ] 2106 | ], 2107 | "spo_list_pred": [ 2108 | [ 2109 | "" 2110 | ] 2111 | ], 2112 | "new": [], 2113 | "lack": [] 2114 | }, 2115 | { 2116 | "text": "据统计数据显示,截至目前,国庆档票房(含预售实时)已破亿元,由张艺谋执导的《坚如磐石》、陈凯歌执导的《志愿军:雄兵出击》等影片云集国庆档,聚焦现实主义题材、彰显家国情怀,国产电影继续保持票房领跑优势,拉动观众观影热情。", 2117 | "spo_list_true": [ 2118 | [ 2119 | "《坚如磐石》", 2120 | "导演", 2121 | "张艺谋" 2122 | ], 2123 | [ 2124 | "《志愿军:雄兵出击》", 2125 | "导演", 2126 | "陈凯歌" 2127 | ] 2128 | ], 2129 | "spo_list_pred": [ 2130 | [ 2131 | "《坚如磐石》", 2132 | "执导", 2133 | "张艺谋" 2134 | ], 2135 | [ 2136 | "《志愿军:雄兵出击》", 2137 | "执导", 2138 | "陈凯歌" 2139 | ] 2140 | ], 2141 | "new": [ 2142 | [ 2143 | "《坚如磐石》", 2144 | "执导", 2145 | "张艺谋" 2146 | ], 2147 | [ 2148 | "《志愿军:雄兵出击》", 2149 | "执导", 2150 | "陈凯歌" 2151 | ] 2152 | ], 2153 | "lack": [ 2154 | [ 2155 | "《坚如磐石》", 2156 | "导演", 2157 | "张艺谋" 2158 | ], 2159 | [ 2160 | "《志愿军:雄兵出击》", 2161 | "导演", 2162 | "陈凯歌" 2163 | ] 2164 | ] 2165 | }, 2166 | { 2167 | "text": "这句话一直被认为是法国文豪、哲学家伏尔泰的名言,经常被后人引用来倡导、争取言论自由。这句话的核心意思是,如果你坚信表达信念的权利,那么即使别人所言令你极度反感,完全反对,甚至觉得构成冒犯,你也会为之辩护。", 2168 | "spo_list_true": [ 2169 | [ 2170 | "法国", 2171 | "哲学家", 2172 | "伏尔泰" 2173 | ], 2174 | [ 2175 | "法国", 2176 | "文豪", 2177 | "伏尔泰" 2178 | ] 2179 | ], 2180 | "spo_list_pred": [ 2181 | [ 2182 | "法国", 2183 | "哲学家", 2184 | "伏尔泰" 2185 | ], 2186 | [ 2187 | "法国", 2188 | "文豪", 2189 | "伏尔泰" 2190 | ] 2191 | ], 2192 | "new": [], 2193 | "lack": [] 2194 | }, 2195 | { 2196 | "text": "埃德蒙·伯克(Edmund Burke)是英国18世纪哲学家、政治家和作家,当过20多年辉格党国会议员。这是最经常被提及、最广为人知的一句格言。", 2197 | "spo_list_true": [ 2198 | [ 2199 | "英国", 2200 | "哲学家", 2201 | "埃德蒙·伯克" 2202 | ], 2203 | [ 2204 | "辉格党", 2205 | "国会议员", 2206 | "埃德蒙·伯克" 2207 | ], 2208 | [ 2209 | "英国", 2210 | "政治家", 2211 | "埃德蒙·伯克" 2212 | ], 2213 | [ 2214 | "英国", 2215 | "作家", 2216 | "埃德蒙·伯克" 2217 | ] 2218 | ], 2219 | "spo_list_pred": [ 2220 | [ 2221 | "英国", 2222 | "哲学家", 2223 | "埃德蒙·伯克" 2224 | ], 2225 | [ 2226 | "英国", 2227 | "政治家", 2228 | "埃德蒙·伯克" 2229 | ], 2230 | [ 2231 | "英国", 2232 | "作家", 2233 | "埃德蒙·伯克" 2234 | ] 2235 | ], 2236 | "new": [], 2237 | "lack": [ 2238 | [ 2239 | "辉格党", 2240 | "国会议员", 2241 | "埃德蒙·伯克" 2242 | ] 2243 | ] 2244 | }, 2245 | { 2246 | "text": "玛丽·安托瓦内特(Marie Antoinette)是法王路易十六的王后,1789年法国大革命中被砍头。", 2247 | "spo_list_true": [ 2248 | [ 2249 | "路易十六", 2250 | "王后", 2251 | "玛丽·安托瓦内特" 2252 | ] 2253 | ], 2254 | "spo_list_pred": [ 2255 | [ 2256 | "法王路易十六", 2257 | "王后", 2258 | "玛丽·安托瓦内特" 2259 | ] 2260 | ], 2261 | "new": [ 2262 | [ 2263 | "法王路易十六", 2264 | "王后", 2265 | "玛丽·安托瓦内特" 2266 | ] 2267 | ], 2268 | "lack": [ 2269 | [ 2270 | "路易十六", 2271 | "王后", 2272 | "玛丽·安托瓦内特" 2273 | ] 2274 | ] 2275 | }, 2276 | { 2277 | "text": "联合国人权事务高级专员蒂尔克今天在日内瓦参与有关缅甸人权局势的互动对话时表示,现在无法指望缅甸军方从根本上做出改变,并打破数十年来其行动中凸显的有罪不罚现象。因此,国际社会也肩负责任去保护当地平民,同时恢复有利于和平与稳定的条件。", 2278 | "spo_list_true": [ 2279 | [ 2280 | "联合国", 2281 | "人权事务高级专员", 2282 | "蒂尔克" 2283 | ] 2284 | ], 2285 | "spo_list_pred": [ 2286 | [ 2287 | "联合国", 2288 | "人权事务高级专员", 2289 | "蒂尔克" 2290 | ] 2291 | ], 2292 | "new": [], 2293 | "lack": [] 2294 | }, 2295 | { 2296 | "text": "在报告所述期间,军方进行了687次空袭,是政变发生后前14个月内空袭次数的两倍多。另有可靠的消息来源证实,截至9月25日,至少有4108人死于军方及其附属机构之手。报告所证实的数据表明,军方越来越多地使用空中力量,以及重型武器和其他材料,这些装备只能从外国来源购买。在此情况下,蒂尔克欢迎近期为限制缅甸购买飞机燃料专门采取的措施,因为这些燃料会被用于军事目的。", 2297 | "spo_list_true": [ 2298 | [ 2299 | "" 2300 | ] 2301 | ], 2302 | "spo_list_pred": [ 2303 | [ 2304 | "" 2305 | ] 2306 | ], 2307 | "new": [], 2308 | "lack": [] 2309 | }, 2310 | { 2311 | "text": "“共享租房有着丰富的使用场景。”易观在线旅游行业研究中心资深分析师姜昕蔚说,在传统租赁市场上,租客租赁时间一般为半年到几年不等,共享租房可提供从1天到几个月的租赁服务,租期灵活,能满足更多样的住宿需求,“这两年,短租行业的市场增速都在60%以上。”", 2312 | "spo_list_true": [ 2313 | [ 2314 | "易观在线旅游行业研究中心", 2315 | "资深分析师", 2316 | "姜昕蔚" 2317 | ] 2318 | ], 2319 | "spo_list_pred": [ 2320 | [ 2321 | "易观在线旅游行业研究中心", 2322 | "资深分析师", 2323 | "姜昕蔚" 2324 | ] 2325 | ], 2326 | "new": [], 2327 | "lack": [] 2328 | }, 2329 | { 2330 | "text": "5月15日,国家信息中心分享经济研究中心发布的《中国共享住宿发展报告》 显示,2017年我国共享住宿交易规模约145亿元,比上年增长70.6%;共享住宿参与者约为7800万人,其中房客7600万人。参与共享住宿的房东具有年轻化、高学历等特点,女性房东成为主力军。房客主要是学生、上班族、自由职业者,18—30岁的房客占比超过70%。", 2331 | "spo_list_true": [ 2332 | [ 2333 | "" 2334 | ] 2335 | ], 2336 | "spo_list_pred": [ 2337 | [ 2338 | "" 2339 | ] 2340 | ], 2341 | "new": [], 2342 | "lack": [] 2343 | }, 2344 | { 2345 | "text": "近日,据美国《华盛顿邮报》报道,亚特兰大疾病控制预防中心发布的研究报告指出,过去近20年时间里,美国几乎每个州的自杀率都在上升,自杀是美国人十大死亡原因之一。研究报告发布时,正值纽约设计师凯特·丝蓓和名厨安东尼·波登自杀身亡,自杀问题一时间成为舆论焦点。", 2346 | "spo_list_true": [ 2347 | [ 2348 | "纽约", 2349 | "设计师", 2350 | "凯特·丝蓓" 2351 | ], 2352 | [ 2353 | "纽约", 2354 | "名厨", 2355 | "安东尼·波登" 2356 | ] 2357 | ], 2358 | "spo_list_pred": [ 2359 | [ 2360 | "纽约", 2361 | "设计师", 2362 | "凯特·丝蓓" 2363 | ], 2364 | [ 2365 | "纽约", 2366 | "名厨", 2367 | "安东尼·波登" 2368 | ] 2369 | ], 2370 | "new": [], 2371 | "lack": [] 2372 | }, 2373 | { 2374 | "text": "2017年《美国医学会精神病学》杂志发表的一篇文章表明,失业者的自杀率为1.15%,而拥有工作者自杀率为0.54%;家庭年收入在2万美元以下的人自杀率为1.67%,来自年收入高于2万美元的家庭的人自杀率为0.83%。", 2375 | "spo_list_true": [ 2376 | [ 2377 | "" 2378 | ] 2379 | ], 2380 | "spo_list_pred": [ 2381 | [ 2382 | "" 2383 | ] 2384 | ], 2385 | "new": [], 2386 | "lack": [] 2387 | }, 2388 | { 2389 | "text": "2008年北京奥运会,盛大的开幕式在岛内引发一片惊叹,却仍有台湾网友说“北京除了奥运村那一圈,其他地方都是破破烂烂的吧”。根深蒂固的刻板印象不是朝夕可改,唯有靠文化的力量潜移默化,水滴石穿。大陆剧和淘宝可能只是刚在旧观念上撕了一条窄缝,但只要台湾社会尤其是年轻人有了主动了解大陆的意愿,就是好的开端。", 2390 | "spo_list_true": [ 2391 | [ 2392 | "" 2393 | ] 2394 | ], 2395 | "spo_list_pred": [ 2396 | [ 2397 | "" 2398 | ] 2399 | ], 2400 | "new": [], 2401 | "lack": [] 2402 | }, 2403 | { 2404 | "text": "这些动作引起了一些TikTok在美员工的关切。知情人士透露,今年早些时候,一名TikTok员工向得州参议员克鲁兹(Ted Cruz)的工作人员报告了公司高层人事变动的情况,希望其共和党团队能够进行调查。", 2405 | "spo_list_true": [ 2406 | [ 2407 | "得州", 2408 | "参议员", 2409 | "克鲁兹" 2410 | ] 2411 | ], 2412 | "spo_list_pred": [ 2413 | [ 2414 | "得州", 2415 | "参议员", 2416 | "克鲁兹" 2417 | ] 2418 | ], 2419 | "new": [], 2420 | "lack": [] 2421 | }, 2422 | { 2423 | "text": "但最近的一系列人事变动后,一些员工对此产生了怀疑。有员工抱怨,说他们感觉TikTok首席执行官周受资年初在美国国会听证会上并未如实陈述TikTok与字节跳动的关系。", 2424 | "spo_list_true": [ 2425 | [ 2426 | "TikTok", 2427 | "首席执行官", 2428 | "周受资" 2429 | ] 2430 | ], 2431 | "spo_list_pred": [ 2432 | [ 2433 | "TikTok", 2434 | "首席执行官", 2435 | "周受资" 2436 | ] 2437 | ], 2438 | "new": [], 2439 | "lack": [] 2440 | }, 2441 | { 2442 | "text": "9月28日,国务院新闻办公室举行新闻发布会。发布会上,商务部副部长郭婷婷、广东省人民政府副省长张新和外交部、中国民用航空局有关负责人介绍了第134届中国进出口商品交易会(广交会)有关情况,并答记者问。记者获悉,第134届广交会将于10月15日至11月4日在广州举办,线上平台也将继续常态化运营。", 2443 | "spo_list_true": [ 2444 | [ 2445 | "商务部", 2446 | "副部长", 2447 | "郭婷婷" 2448 | ], 2449 | [ 2450 | "广东省人民政府", 2451 | "副省长", 2452 | "张新" 2453 | ] 2454 | ], 2455 | "spo_list_pred": [ 2456 | [ 2457 | "商务部", 2458 | "副部长", 2459 | "郭婷婷" 2460 | ], 2461 | [ 2462 | "广东省人民政府", 2463 | "副省长", 2464 | "张新" 2465 | ] 2466 | ], 2467 | "new": [], 2468 | "lack": [] 2469 | }, 2470 | { 2471 | "text": "肉厚清甜的增城荔枝、肥到流油的南沙青蟹、味道鲜美的白云黄鸡、清新扑鼻的沙田柠檬……广州的特色农产品,不仅让人“食过返寻味”,而且在打响品牌的同时,培育了众多特色鲜明、质量效益高的乡村产业。在农业科技、带货电商、快递物流等助力下,这些农产品走出村寨,跨越山海,远销国内外。9月23日是秋分,也是第六个中国农民丰收节,让我们一起来了解广州特色农产品吧!", 2472 | "spo_list_true": [ 2473 | [ 2474 | "" 2475 | ] 2476 | ], 2477 | "spo_list_pred": [ 2478 | [ 2479 | "" 2480 | ] 2481 | ], 2482 | "new": [], 2483 | "lack": [] 2484 | }, 2485 | { 2486 | "text": "加拿大议会纪念一名乌克兰纳粹老兵的丑闻引发了愤怒的波浪,总理贾斯汀·特鲁多(Justin Trudeau)不诚实地称这一事件“令人极为不安”。许多对这一事件感到愤怒的西方国家,比如波兰,正是向充斥着新纳粹分子的乌克兰军队输送武器的国家。", 2487 | "spo_list_true": [ 2488 | [ 2489 | "加拿大", 2490 | "总理", 2491 | "贾斯汀·特鲁多" 2492 | ] 2493 | ], 2494 | "spo_list_pred": [ 2495 | [ 2496 | "加拿大", 2497 | "总理", 2498 | "贾斯汀·特鲁多" 2499 | ] 2500 | ], 2501 | "new": [], 2502 | "lack": [] 2503 | }, 2504 | { 2505 | "text": "美国独立记者雷切尔·布莱文斯(Rachel Blevins)告诉俄罗斯卫星通讯社,加拿大政府向一名乌克兰纳粹老兵致敬的事件引发了众怒,这令人震惊。事实上,纳粹意识形态目前正在受到资助乌克兰的美国、加拿大和其他西方国家的纳税人的追捧。", 2506 | "spo_list_true": [ 2507 | [ 2508 | "美国", 2509 | "独立记者", 2510 | "雷切尔·布莱文斯" 2511 | ] 2512 | ], 2513 | "spo_list_pred": [ 2514 | [ 2515 | "美国", 2516 | "独立记者", 2517 | "雷切尔·布莱文斯" 2518 | ] 2519 | ], 2520 | "new": [], 2521 | "lack": [] 2522 | }, 2523 | { 2524 | "text": "俄罗斯卫星通讯社莫斯科9月29日电 俄罗斯国家技术集团新闻处发布消息表示,俄技术集团旗下企业俄罗斯电子控股公司研制出首批国产基于晶体的光电模块,用于制导高精度导弹,该模块可在一天中的任何时间“看到", 2525 | "spo_list_true": [ 2526 | [ 2527 | "俄技术集团", 2528 | "旗下企业", 2529 | "俄罗斯电子控股公司" 2530 | ] 2531 | ], 2532 | "spo_list_pred": [ 2533 | [ 2534 | "俄罗斯国家技术集团", 2535 | "企业", 2536 | "俄罗斯电子控股公司" 2537 | ] 2538 | ], 2539 | "new": [ 2540 | [ 2541 | "俄罗斯国家技术集团", 2542 | "企业", 2543 | "俄罗斯电子控股公司" 2544 | ] 2545 | ], 2546 | "lack": [ 2547 | [ 2548 | "俄技术集团", 2549 | "旗下企业", 2550 | "俄罗斯电子控股公司" 2551 | ] 2552 | ] 2553 | }, 2554 | { 2555 | "text": "9月27日晚,中国男足亚运队在杭州黄龙体育中心迎来16进8淘汰赛,在本场赛事中对战卡塔尔U23,以1:0战胜卡塔尔挺进8强。", 2556 | "spo_list_true": [ 2557 | [ 2558 | "" 2559 | ] 2560 | ], 2561 | "spo_list_pred": [ 2562 | [ 2563 | "" 2564 | ] 2565 | ], 2566 | "new": [], 2567 | "lack": [] 2568 | }, 2569 | { 2570 | "text": "目前,张江集聚1700余家生物医药创新主体,全球医药前10强中有7家入驻张江;全国百强药企中有32家在张江布局研发、运营、生产。张江集团党委副书记、副总经理韩国飚表示,人才是创新驱动的核心要素,目前张江生物医药产业聚集全球人才9万余人,是打造世界级的生物医药人才中心的驱动要素、核心力量。", 2571 | "spo_list_true": [ 2572 | [ 2573 | "张江集团", 2574 | "党委副书记", 2575 | "韩国飚" 2576 | ], 2577 | [ 2578 | "张江集团", 2579 | "副总经理", 2580 | "韩国飚" 2581 | ] 2582 | ], 2583 | "spo_list_pred": [ 2584 | [ 2585 | "张江集团", 2586 | "党委副书记", 2587 | "韩国飚" 2588 | ], 2589 | [ 2590 | "张江集团", 2591 | "副总经理", 2592 | "韩国飚" 2593 | ] 2594 | ], 2595 | "new": [], 2596 | "lack": [] 2597 | }, 2598 | { 2599 | "text": "为致敬假期辛勤出车的司机师傅,滴滴网约车“橙意保障计划”推出节日司机关怀系列行动,在广州、上海、成都、武汉等城市举办“百城司机中秋家宴”、“滴滴司机福利站”等活动,为司机送上节日礼物;同时滴滴今年还首次在行业创新尝试“司机节假日错峰休息奖励”,既保障节假日高峰时段的出行需求,又希望鼓励司机多多陪伴家人。", 2600 | "spo_list_true": [ 2601 | [ 2602 | "" 2603 | ] 2604 | ], 2605 | "spo_list_pred": [ 2606 | [ 2607 | "" 2608 | ] 2609 | ], 2610 | "new": [], 2611 | "lack": [] 2612 | }, 2613 | { 2614 | "text": "25日至26日,区党委副书记、自治区主席严金海深入日喀则市萨迦县、拉孜县、桑珠孜区、江孜县调研。他强调,要完整准确全面贯彻新发展理念,着力推动日喀则高质量发展,不断增强各族群众获得感幸福感安全感。", 2615 | "spo_list_true": [ 2616 | [ 2617 | "自治区", 2618 | "主席", 2619 | "严金海" 2620 | ], 2621 | [ 2622 | "区党委", 2623 | "副书记", 2624 | "严金海" 2625 | ] 2626 | ], 2627 | "spo_list_pred": [ 2628 | [ 2629 | "自治区", 2630 | "主席", 2631 | "严金海" 2632 | ], 2633 | [ 2634 | "区党委", 2635 | "副书记", 2636 | "严金海" 2637 | ] 2638 | ], 2639 | "new": [], 2640 | "lack": [] 2641 | }, 2642 | { 2643 | "text": "“四哥,益阳还没有办团练哩!”搭腔的是麟书的第三子国华,族中排第六。这位六爷已出抚给叔父为子,他虽然也披麻戴孝,但却跷起二郎腿在细细地品茶,与其说是个孝子,不如说是个茶客。他略带鄙夷地说,“四哥总是团勇团勇的,真正来了长毛,你那几个团勇能起什么作用?省城里提督、总兵带的那些吃皇粮的正经绿营都打不赢,长毛是好对付的?我看长沙早晚会落到长毛的手里。", 2644 | "spo_list_true": [ 2645 | [ 2646 | "麟书", 2647 | "第三子", 2648 | "国华" 2649 | ] 2650 | ], 2651 | "spo_list_pred": [ 2652 | [ 2653 | "麟书", 2654 | "第三子", 2655 | "国华" 2656 | ] 2657 | ], 2658 | "new": [], 2659 | "lack": [] 2660 | }, 2661 | { 2662 | "text": "从县城一回到家,曾国藩就看到由湖南巡抚衙门转递来的四封信。其中三封是儿女亲家的。一是安徽池州府知府陈源兖的,国藩的二女纪耀许给他的儿子远济。一是詹事府右赞善郭霈霖的,他的女儿许给国藩的次子纪鸿。一是翰林院侍讲学士袁芳瑛的,国藩的大女纪静许给他的儿子秉桢。这三封都是亲戚之间的慰问信,全是客套话。国藩看后,也就扔到一边了。另外一封,则给他带来意", 2663 | "spo_list_true": [ 2664 | [ 2665 | "詹事府", 2666 | "右赞善", 2667 | "郭霈霖" 2668 | ], 2669 | [ 2670 | "袁芳瑛", 2671 | "儿子", 2672 | "秉桢" 2673 | ], 2674 | [ 2675 | "曾国藩", 2676 | "二女", 2677 | "纪耀" 2678 | ], 2679 | [ 2680 | "曾国藩", 2681 | "次子", 2682 | "纪鸿" 2683 | ], 2684 | [ 2685 | "陈源兖", 2686 | "儿子", 2687 | "远济" 2688 | ], 2689 | [ 2690 | "安徽池州府", 2691 | "知府", 2692 | "陈源兖" 2693 | ], 2694 | [ 2695 | "曾国藩", 2696 | "大女", 2697 | "纪静" 2698 | ], 2699 | [ 2700 | "翰林院", 2701 | "侍讲学士", 2702 | "袁芳瑛" 2703 | ] 2704 | ], 2705 | "spo_list_pred": [ 2706 | [ 2707 | "翰林院", 2708 | "侍讲学士", 2709 | "袁芳瑛" 2710 | ], 2711 | [ 2712 | "曾国藩", 2713 | "二女", 2714 | "纪耀" 2715 | ], 2716 | [ 2717 | "曾国藩", 2718 | "次子", 2719 | "纪鸿" 2720 | ], 2721 | [ 2722 | "安徽池州府", 2723 | "知府", 2724 | "陈源兖" 2725 | ] 2726 | ], 2727 | "new": [], 2728 | "lack": [ 2729 | [ 2730 | "曾国藩", 2731 | "大女", 2732 | "纪静" 2733 | ], 2734 | [ 2735 | "陈源兖", 2736 | "儿子", 2737 | "远济" 2738 | ], 2739 | [ 2740 | "詹事府", 2741 | "右赞善", 2742 | "郭霈霖" 2743 | ], 2744 | [ 2745 | "袁芳瑛", 2746 | "儿子", 2747 | "秉桢" 2748 | ] 2749 | ] 2750 | }, 2751 | { 2752 | "text": "叶文洁拿起文件,在监室昏黄的灯光下翻看着。程代表没骗她,这份材料确实与她的案子无关,是关于她那已死去的父亲的。其中记载了父亲与一些人交往情况和谈话内容,文件的提供者是叶文洁的妹妹叶文雪。作为一名最激进的红卫兵,叶文雪积极主动地揭发父亲,写过大量的检举材料,其中的一些直接导致了父亲的惨死。但这一份材料文洁一眼就看出不是妹妹写的,文雪揭发父亲的材料文笔激烈,读那一行行字就像听着一挂挂炸响的鞭炮,但这份材料写得很冷静、很老到,内容翔实精确,谁谁谁哪年哪月哪日在哪里见了谁谁谁又谈了什么,外行人看去像一本平淡的流水账,但其中暗藏的杀机,绝非叶文雪那套小孩子把戏所能相比的。", 2753 | "spo_list_true": [ 2754 | [ 2755 | "叶文洁", 2756 | "妹妹", 2757 | "叶文雪" 2758 | ] 2759 | ], 2760 | "spo_list_pred": [ 2761 | [ 2762 | "叶文洁", 2763 | "妹妹", 2764 | "叶文雪" 2765 | ] 2766 | ], 2767 | "new": [], 2768 | "lack": [] 2769 | }, 2770 | { 2771 | "text": "“这位是红岸基地的雷志成政委。我是杨卫宁,基地的总工程师。离降落还有一个小时,你休息吧。”", 2772 | "spo_list_true": [ 2773 | [ 2774 | "红岸基地", 2775 | "政委", 2776 | "雷志成" 2777 | ], 2778 | [ 2779 | "基地", 2780 | "总工程师", 2781 | "杨卫宁" 2782 | ] 2783 | ], 2784 | "spo_list_pred": [ 2785 | [ 2786 | "红岸基地", 2787 | "政委", 2788 | "雷志成" 2789 | ], 2790 | [ 2791 | "基地", 2792 | "总工程师", 2793 | "杨卫宁" 2794 | ] 2795 | ], 2796 | "new": [], 2797 | "lack": [] 2798 | }, 2799 | { 2800 | "text": "叶哲泰的妻子,同系的物理学教授绍琳从台下的前排站起来,走上台。她身穿一件很不合体的草绿色衣服,显然想与红卫兵的色彩拉近距离,但熟悉绍琳的人联想到以前常穿精致旗袍讲课的她,总觉得别扭。", 2801 | "spo_list_true": [ 2802 | [ 2803 | "叶哲泰", 2804 | "妻子", 2805 | "绍琳" 2806 | ] 2807 | ], 2808 | "spo_list_pred": [ 2809 | [ 2810 | "叶哲泰", 2811 | "妻子", 2812 | "绍琳" 2813 | ] 2814 | ], 2815 | "new": [], 2816 | "lack": [] 2817 | }, 2818 | { 2819 | "text": "半个月后,戚长发带同徒儿狄云、女儿戚芳,来到了荆州。三人都穿了新衣,初来大城,土头土脑,都有点儿心虚胆怯,手足无措。打听“五云手”万震山的住处。途人说道:“万老英雄的家还用问?那边最大的屋子便是了。”", 2820 | "spo_list_true": [ 2821 | [ 2822 | "戚长发", 2823 | "徒儿", 2824 | "狄云" 2825 | ], 2826 | [ 2827 | "戚长发", 2828 | "女儿", 2829 | "戚芳" 2830 | ] 2831 | ], 2832 | "spo_list_pred": [ 2833 | [ 2834 | "戚长发", 2835 | "徒儿", 2836 | "狄云" 2837 | ], 2838 | [ 2839 | "戚长发", 2840 | "女儿", 2841 | "戚芳" 2842 | ] 2843 | ], 2844 | "new": [], 2845 | "lack": [] 2846 | }, 2847 | { 2848 | "text": "新华社北京9月28日电 美国高盛集团首席经济师兼全球投研部主管扬·哈丘斯预测,美国国会议员难以就新财政年度预算拨款法案达成协议,从10月1日新财年开始之日起,联邦政府部分机构将“关门”两至三周,民主、共和两党最终可能因国防和边检压力而妥协。", 2849 | "spo_list_true": [ 2850 | [ 2851 | "全球投研部", 2852 | "主管", 2853 | "扬·哈丘斯" 2854 | ], 2855 | [ 2856 | "美国高盛集团", 2857 | "首席经济师", 2858 | "扬·哈丘斯" 2859 | ] 2860 | ], 2861 | "spo_list_pred": [ 2862 | [ 2863 | "全球投研部", 2864 | "主管", 2865 | "扬·哈丘斯" 2866 | ], 2867 | [ 2868 | "美国高盛集团", 2869 | "首席经济师", 2870 | "扬·哈丘斯" 2871 | ] 2872 | ], 2873 | "new": [], 2874 | "lack": [] 2875 | }, 2876 | { 2877 | "text": "央视网消息:北京时间9月27日,杭州第19届亚运会滑板女子街式决赛,13岁中国选手崔宸曦夺得金牌,18岁中国选手曾文蕙获得银牌。", 2878 | "spo_list_true": [ 2879 | [ 2880 | "中国", 2881 | "选手", 2882 | "崔宸曦" 2883 | ], 2884 | [ 2885 | "中国", 2886 | "选手", 2887 | "曾文蕙" 2888 | ] 2889 | ], 2890 | "spo_list_pred": [ 2891 | [ 2892 | "中国", 2893 | "选手", 2894 | "崔宸曦" 2895 | ], 2896 | [ 2897 | "中国", 2898 | "选手", 2899 | "曾文蕙" 2900 | ] 2901 | ], 2902 | "new": [], 2903 | "lack": [] 2904 | }, 2905 | -------------------------------------------------------------------------------- /visualize/index.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | 190 | 191 | -------------------------------------------------------------------------------- /visualize/single_chat_server_spo.py: -------------------------------------------------------------------------------- 1 | # -*- coding: utf-8 -*- 2 | # @place: Pudong, Shanghai 3 | # @file: single_chat_server_spo.py 4 | # @time: 2023/7/25 22:27 5 | import os 6 | import json 7 | import gradio as gr 8 | from uuid import uuid4 9 | from transformers import AutoModelForCausalLM, AutoTokenizer 10 | import torch 11 | 12 | 13 | def predict(document): 14 | while '\n\n' in document.strip(): 15 | document = document.replace('\n\n', '\n') 16 | paras = document.split('\n') 17 | values = [] 18 | for i, original_text in enumerate(paras): 19 | original_text = original_text.strip() 20 | text = f'给定以下文本,请分析并提取其中的关系三元组。每个三元组应该包括主体(人物、组织或物体)、'\ 21 | f'关系和客体(人物、地点或物体)。如果文本中没有明显的关系,请返回空字符串。\n\n'\ 22 | f'文本: "{original_text}"\n\n请按照以下格式提取关系三元组列表:\n- (主体,关系,客体)'\ 23 | f'\n- (主体,关系,客体)\n\n如果没有可识别的关系,请返回空字符串。' 24 | text = '{}'.format(text) 25 | input_ids = tokenizer(text, return_tensors="pt", add_special_tokens=False).input_ids.to(device) 26 | with torch.no_grad(): 27 | outputs = model.generate( 28 | input_ids=input_ids, max_new_tokens=max_new_tokens, do_sample=True, 29 | top_p=top_p, temperature=temperature, repetition_penalty=repetition_penalty, 30 | eos_token_id=tokenizer.eos_token_id 31 | ) 32 | outputs = outputs.tolist()[0][len(input_ids[0]):] 33 | response = tokenizer.decode(outputs) 34 | response = response.strip().replace(text, "").replace('', "").replace('', "").strip() 35 | print('response: ', response) 36 | values.append([i, original_text, response.replace('\n', '
')]) 37 | return values 38 | 39 | 40 | def update(df): 41 | samples = [] 42 | for i in range(df.shape[0]): 43 | no, para, spo = df.iloc[i, :].tolist() 44 | try: 45 | if not spo: 46 | spo_dict = {para: []} 47 | else: 48 | spo_dict = {para: [_[1:-1].split(',') for _ in spo.split('
')]} 49 | samples.append(spo_dict) 50 | except Exception: 51 | pass 52 | with open(f'./doc_test/{uuid4()}.json', 'w', encoding='utf-8') as f: 53 | f.write(json.dumps(samples, ensure_ascii=False, indent=4) + '\n') 54 | return f'write {i+1} records.' 55 | 56 | 57 | def clear(data): 58 | return '' 59 | 60 | 61 | def kg_visualize(df): 62 | html_dir = "html" 63 | # remove html 64 | for file in os.listdir(html_dir): 65 | os.remove(os.path.join(html_dir, file)) 66 | # handle spo 67 | outputs = [] 68 | for i in range(df.shape[0]): 69 | no, para, spo_str = df.iloc[i, :].tolist() 70 | for line in spo_str.split('
'): 71 | try: 72 | spo = line[1:-1].split(',') 73 | outputs.append( 74 | json.dumps({"source": spo[0], "target": spo[2], 'rela': spo[1], 'type': "resolved"}, 75 | ensure_ascii=False)) 76 | except Exception: 77 | pass 78 | output_str = ',\n'.join(outputs).replace('"', "'") 79 | # write and show new html 80 | with open("index.html", "r") as f: 81 | content = f.readlines() 82 | content.insert(9, output_str) 83 | html_name = str(uuid4()) 84 | with open(f"{html_dir}/{html_name}.html", "w") as g: 85 | g.writelines(content) 86 | output_str = f"""""" 87 | return output_str 88 | 89 | 90 | if __name__ == '__main__': 91 | model_name = '~/Firefly/script/checkpoint/firefly-baichuan-7b-spo-merge' 92 | max_new_tokens = 150 93 | top_p = 0.9 94 | temperature = 0.01 95 | repetition_penalty = 1.0 96 | device = 'cuda:0' 97 | model = AutoModelForCausalLM.from_pretrained( 98 | model_name, 99 | trust_remote_code=True, 100 | low_cpu_mem_usage=True, 101 | torch_dtype=torch.float16, 102 | ).to(device).eval() 103 | tokenizer = AutoTokenizer.from_pretrained( 104 | model_name, 105 | trust_remote_code=True, 106 | # llama不支持fast 107 | use_fast=False if model.config.model_type == 'llama' else True 108 | ) 109 | print("model loaded!") 110 | 111 | with gr.Blocks() as demo: 112 | # 设置输入组件 113 | doc = gr.Textbox(label="Document", lines=5) 114 | # 设置输出组件 115 | output = gr.DataFrame(label='Predict_Result', 116 | headers=["no", "para", "spo"], 117 | datatype=["number", "str", "str"], 118 | interactive=True, 119 | wrap=True) 120 | # 设置按钮 121 | predict_btn = gr.Button("预测") 122 | # 设置按钮点击事件 123 | predict_btn.click(fn=predict, inputs=doc, outputs=output) 124 | # new button 125 | result = gr.Textbox(label="Results", lines=1) 126 | submit_btn = gr.Button("提交") 127 | submit_btn.click(fn=update, inputs=output, outputs=result) 128 | # clear button 129 | clear_btn = gr.ClearButton(value="清除") 130 | clear_btn.click(fn=clear, inputs=doc, outputs=doc) 131 | # kg visualize 132 | kg_output = gr.HTML(label="Kg_visualize") 133 | kg_btn = gr.Button("图谱可视化") 134 | kg_btn.click(fn=kg_visualize, inputs=output, outputs=kg_output) 135 | 136 | demo.launch(server_name='0.0.0.0', server_port=7800, share=True) 137 | --------------------------------------------------------------------------------