├── 1.wordfreq-没有同义词_testfile ├── add_word_list.txt ├── stopwordlist.txt ├── test.txt └── word_freq.xlsx ├── 2.wordfreq-合并同义词_testfile ├── add_word_list.txt ├── stopwordlist.txt ├── synonym_list.xlsx ├── test.txt └── word_freq1.xlsx ├── 3.wordfreq-合并同义词2_testfile ├── synonym_list.txt ├── word_freq.xlsx └── word_freq2.xlsx ├── Code_Davion ├── Wordfreq_Davion.ipynb └── Wordfreq_Davion.py └── README.md /1.wordfreq-没有同义词_testfile/add_word_list.txt: -------------------------------------------------------------------------------- 1 | 人工智能 n 2 | 商业智能 n 3 | 图像理解 n 4 | 投资决策辅助系统 n 5 | 智能数据分析 n 6 | 智能机器人 n 7 | 机器学习 n 8 | 深度学习 n 9 | 语义搜索 n 10 | 生物识别技术 n 11 | 人脸识别 n 12 | 语音识别 n 13 | 身份验证 n 14 | 自动驾驶 n 15 | 自然语言处理 n 16 | 大数据 n 17 | 数据挖掘 n 18 | 文本挖掘 n 19 | 数据可视化 n 20 | 异构数据 n 21 | 征信 n 22 | 增强现实 n 23 | 混合现实 n 24 | 虚拟现实 n 25 | 云计算 n 26 | 流计算 n 27 | 图计算 n 28 | 内存计算 n 29 | 多方安全计算 n 30 | 类脑计算 n 31 | 绿色计算 n 32 | 认知计算 n 33 | 融合架构 n 34 | 亿级并发 n 35 | EB级存储 n 36 | 物联网 n 37 | 信息物理系统 n 38 | 区块链 n 39 | 数字货币 n 40 | 分布式计算 n 41 | 差分隐私技术 n 42 | 智能金融合约 n 43 | 移动互联网 n 44 | 工业互联网 n 45 | 移动互联 n 46 | 互联网医疗 n 47 | 电子商务 n 48 | 移动支付 n 49 | 第三方支付 n 50 | NFC支付 n 51 | 智能能源 n 52 | B2B n 53 | B2C n 54 | C2B n 55 | C2C n 56 | O2O n 57 | 网联 n 58 | 智能穿戴 n 59 | 智慧农业 n 60 | 智能交通 n 61 | 智能医疗 n 62 | 智能客服 n 63 | 智能家居 n 64 | 智能投顾 n 65 | 智能文旅 n 66 | 智能环保 n 67 | 智能电网 n 68 | 智能营销 n 69 | 数字营销 n 70 | 无人零售 n 71 | 互联网金融 n 72 | 数字金融 n 73 | Fintech n 74 | 金融科技 n 75 | 量化金融 n 76 | 开放银行 n 77 | -------------------------------------------------------------------------------- /1.wordfreq-没有同义词_testfile/stopwordlist.txt: -------------------------------------------------------------------------------- 1 | ——— 2 | 》), 3 | )÷(1- 4 | ”, 5 | )、 6 | =( 7 | : 8 | → 9 | ℃ 10 | & 11 | * 12 | 一一 13 | ~~~~ 14 | ’ 15 | . 16 | 『 17 | .一 18 | ./ 19 | -- 20 | 』 21 | =″ 22 | 【 23 | [*] 24 | }> 25 | [⑤]] 26 | [①D] 27 | c] 28 | ng昉 29 | * 30 | // 31 | [ 32 | ] 33 | [②e] 34 | [②g] 35 | ={ 36 | } 37 | ,也 38 | ‘ 39 | A 40 | [①⑥] 41 | [②B] 42 | [①a] 43 | [④a] 44 | [①③] 45 | [③h] 46 | ③] 47 | 1. 48 | -- 49 | [②b] 50 | ’‘ 51 | ××× 52 | [①⑧] 53 | 0:2 54 | =[ 55 | [⑤b] 56 | [②c] 57 | [④b] 58 | [②③] 59 | [③a] 60 | [④c] 61 | [①⑤] 62 | [①⑦] 63 | [①g] 64 | ∈[ 65 | [①⑨] 66 | [①④] 67 | [①c] 68 | [②f] 69 | [②⑧] 70 | [②①] 71 | [①C] 72 | [③c] 73 | [③g] 74 | [②⑤] 75 | [②②] 76 | 一. 77 | [①h] 78 | .数 79 | [] 80 | [①B] 81 | 数/ 82 | [①i] 83 | [③e] 84 | [①①] 85 | [④d] 86 | [④e] 87 | [③b] 88 | [⑤a] 89 | [①A] 90 | [②⑧] 91 | [②⑦] 92 | [①d] 93 | [②j] 94 | 〕〔 95 | ][ 96 | :// 97 | ′∈ 98 | [②④ 99 | [⑤e] 100 | 12% 101 | b] 102 | ... 103 | ................... 104 | …………………………………………………③ 105 | ZXFITL 106 | [③F] 107 | 」 108 | [①o] 109 | ]∧′=[ 110 | ∪φ∈ 111 | ′| 112 | {- 113 | ②c 114 | } 115 | [③①] 116 | R.L. 117 | [①E] 118 | Ψ 119 | -[*]- 120 | ↑ 121 | .日 122 | [②d] 123 | [② 124 | [②⑦] 125 | [②②] 126 | [③e] 127 | [①i] 128 | [①B] 129 | [①h] 130 | [①d] 131 | [①g] 132 | [①②] 133 | [②a] 134 | f] 135 | [⑩] 136 | a] 137 | [①e] 138 | [②h] 139 | [②⑥] 140 | [③d] 141 | [②⑩] 142 | e] 143 | 〉 144 | 】 145 | 元/吨 146 | [②⑩] 147 | 2.3% 148 | 5:0 149 | [①] 150 | :: 151 | [②] 152 | [③] 153 | [④] 154 | [⑤] 155 | [⑥] 156 | [⑦] 157 | [⑧] 158 | [⑨] 159 | …… 160 | —— 161 | ? 162 | 、 163 | 。 164 | “ 165 | ” 166 | 《 167 | 》 168 | ! 169 | , 170 | : 171 | ; 172 | ? 173 | . 174 | , 175 | . 176 | ' 177 | ? 178 | · 179 | ——— 180 | ── 181 | ? 182 | — 183 | < 184 | > 185 | ( 186 | ) 187 | 〔 188 | 〕 189 | [ 190 | ] 191 | ( 192 | ) 193 | - 194 | + 195 | ~ 196 | × 197 | / 198 | / 199 | ① 200 | ② 201 | ③ 202 | ④ 203 | ⑤ 204 | ⑥ 205 | ⑦ 206 | ⑧ 207 | ⑨ 208 | ⑩ 209 | Ⅲ 210 | В 211 | " 212 | ; 213 | # 214 | @ 215 | γ 216 | μ 217 | φ 218 | φ. 219 | × 220 | Δ 221 | ■ 222 | ▲ 223 | sub 224 | exp 225 | sup 226 | sub 227 | Lex 228 | # 229 | % 230 | & 231 | ' 232 | + 233 | +ξ 234 | ++ 235 | - 236 | -β 237 | < 238 | <± 239 | <Δ 240 | <λ 241 | <φ 242 | << 243 | = 244 | = 245 | =☆ 246 | =- 247 | > 248 | >λ 249 | _ 250 | ~± 251 | ~+ 252 | [⑤f] 253 | [⑤d] 254 | [②i] 255 | ≈ 256 | [②G] 257 | [①f] 258 | LI 259 | ㈧ 260 | [- 261 | ...... 262 | 〉 263 | [③⑩] 264 | 第二 265 | 一番 266 | 一直 267 | 一个 268 | 一些 269 | 许多 270 | 种 271 | 有的是 272 | 也就是说 273 | 末##末 274 | 啊 275 | 阿 276 | 哎 277 | 哎呀 278 | 哎哟 279 | 唉 280 | 俺 281 | 俺们 282 | 按 283 | 按照 284 | 吧 285 | 吧哒 286 | 把 287 | 罢了 288 | 被 289 | 本 290 | 本着 291 | 比 292 | 比方 293 | 比如 294 | 鄙人 295 | 彼 296 | 彼此 297 | 边 298 | 别 299 | 别的 300 | 别说 301 | 并 302 | 并且 303 | 不比 304 | 不成 305 | 不单 306 | 不但 307 | 不独 308 | 不管 309 | 不光 310 | 不过 311 | 不仅 312 | 不拘 313 | 不论 314 | 不怕 315 | 不然 316 | 不如 317 | 不特 318 | 不惟 319 | 不问 320 | 不只 321 | 朝 322 | 朝着 323 | 趁 324 | 趁着 325 | 乘 326 | 冲 327 | 除 328 | 除此之外 329 | 除非 330 | 除了 331 | 此 332 | 此间 333 | 此外 334 | 从 335 | 从而 336 | 打 337 | 待 338 | 但 339 | 但是 340 | 当 341 | 当着 342 | 到 343 | 得 344 | 的 345 | 的话 346 | 等 347 | 等等 348 | 地 349 | 第 350 | 叮咚 351 | 对 352 | 对于 353 | 多 354 | 多少 355 | 而 356 | 而况 357 | 而且 358 | 而是 359 | 而外 360 | 而言 361 | 而已 362 | 尔后 363 | 反过来 364 | 反过来说 365 | 反之 366 | 非但 367 | 非徒 368 | 否则 369 | 嘎 370 | 嘎登 371 | 该 372 | 赶 373 | 个 374 | 各 375 | 各个 376 | 各位 377 | 各种 378 | 各自 379 | 给 380 | 根据 381 | 跟 382 | 故 383 | 故此 384 | 固然 385 | 关于 386 | 管 387 | 归 388 | 果然 389 | 果真 390 | 过 391 | 哈 392 | 哈哈 393 | 呵 394 | 和 395 | 何 396 | 何处 397 | 何况 398 | 何时 399 | 嘿 400 | 哼 401 | 哼唷 402 | 呼哧 403 | 乎 404 | 哗 405 | 还是 406 | 还有 407 | 换句话说 408 | 换言之 409 | 或 410 | 或是 411 | 或者 412 | 极了 413 | 及 414 | 及其 415 | 及至 416 | 即 417 | 即便 418 | 即或 419 | 即令 420 | 即若 421 | 即使 422 | 几 423 | 几时 424 | 己 425 | 既 426 | 既然 427 | 既是 428 | 继而 429 | 加之 430 | 假如 431 | 假若 432 | 假使 433 | 鉴于 434 | 将 435 | 较 436 | 较之 437 | 叫 438 | 接着 439 | 结果 440 | 借 441 | 紧接着 442 | 进而 443 | 尽 444 | 尽管 445 | 经 446 | 经过 447 | 就 448 | 就是 449 | 就是说 450 | 据 451 | 具体地说 452 | 具体说来 453 | 开始 454 | 开外 455 | 靠 456 | 咳 457 | 可 458 | 可见 459 | 可是 460 | 可以 461 | 况且 462 | 啦 463 | 来 464 | 来着 465 | 离 466 | 例如 467 | 哩 468 | 连 469 | 连同 470 | 两者 471 | 了 472 | 临 473 | 另 474 | 另外 475 | 另一方面 476 | 论 477 | 嘛 478 | 吗 479 | 慢说 480 | 漫说 481 | 冒 482 | 么 483 | 每 484 | 每当 485 | 们 486 | 莫若 487 | 某 488 | 某个 489 | 某些 490 | 拿 491 | 哪 492 | 哪边 493 | 哪儿 494 | 哪个 495 | 哪里 496 | 哪年 497 | 哪怕 498 | 哪天 499 | 哪些 500 | 哪样 501 | 那 502 | 那边 503 | 那儿 504 | 那个 505 | 那会儿 506 | 那里 507 | 那么 508 | 那么些 509 | 那么样 510 | 那时 511 | 那些 512 | 那样 513 | 乃 514 | 乃至 515 | 呢 516 | 能 517 | 你 518 | 你们 519 | 您 520 | 宁 521 | 宁可 522 | 宁肯 523 | 宁愿 524 | 哦 525 | 呕 526 | 啪达 527 | 旁人 528 | 呸 529 | 凭 530 | 凭借 531 | 其 532 | 其次 533 | 其二 534 | 其他 535 | 其它 536 | 其一 537 | 其余 538 | 其中 539 | 起 540 | 起见 541 | 起见 542 | 岂但 543 | 恰恰相反 544 | 前后 545 | 前者 546 | 且 547 | 然而 548 | 然后 549 | 然则 550 | 让 551 | 人家 552 | 任 553 | 任何 554 | 任凭 555 | 如 556 | 如此 557 | 如果 558 | 如何 559 | 如其 560 | 如若 561 | 如上所述 562 | 若 563 | 若非 564 | 若是 565 | 啥 566 | 上下 567 | 尚且 568 | 设若 569 | 设使 570 | 甚而 571 | 甚么 572 | 甚至 573 | 省得 574 | 时候 575 | 什么 576 | 什么样 577 | 使得 578 | 是 579 | 是的 580 | 首先 581 | 谁 582 | 谁知 583 | 顺 584 | 顺着 585 | 似的 586 | 虽 587 | 虽然 588 | 虽说 589 | 虽则 590 | 随 591 | 随着 592 | 所 593 | 所以 594 | 他 595 | 他们 596 | 他人 597 | 它 598 | 它们 599 | 她 600 | 她们 601 | 倘 602 | 倘或 603 | 倘然 604 | 倘若 605 | 倘使 606 | 腾 607 | 替 608 | 通过 609 | 同 610 | 同时 611 | 哇 612 | 万一 613 | 往 614 | 望 615 | 为 616 | 为何 617 | 为了 618 | 为什么 619 | 为着 620 | 喂 621 | 嗡嗡 622 | 我 623 | 我们 624 | 呜 625 | 呜呼 626 | 乌乎 627 | 无论 628 | 无宁 629 | 毋宁 630 | 嘻 631 | 吓 632 | 相对而言 633 | 像 634 | 向 635 | 向着 636 | 嘘 637 | 呀 638 | 焉 639 | 沿 640 | 沿着 641 | 要 642 | 要不 643 | 要不然 644 | 要不是 645 | 要么 646 | 要是 647 | 也 648 | 也罢 649 | 也好 650 | 一 651 | 一般 652 | 一旦 653 | 一方面 654 | 一来 655 | 一切 656 | 一样 657 | 一则 658 | 依 659 | 依照 660 | 矣 661 | 以 662 | 以便 663 | 以及 664 | 以免 665 | 以至 666 | 以至于 667 | 以致 668 | 抑或 669 | 因 670 | 因此 671 | 因而 672 | 因为 673 | 哟 674 | 用 675 | 由 676 | 由此可见 677 | 由于 678 | 有 679 | 有的 680 | 有关 681 | 有些 682 | 又 683 | 于 684 | 于是 685 | 于是乎 686 | 与 687 | 与此同时 688 | 与否 689 | 与其 690 | 越是 691 | 云云 692 | 哉 693 | 再说 694 | 再者 695 | 在 696 | 在下 697 | 咱 698 | 咱们 699 | 则 700 | 怎 701 | 怎么 702 | 怎么办 703 | 怎么样 704 | 怎样 705 | 咋 706 | 照 707 | 照着 708 | 者 709 | 这 710 | 这边 711 | 这儿 712 | 这个 713 | 这会儿 714 | 这就是说 715 | 这里 716 | 这么 717 | 这么点儿 718 | 这么些 719 | 这么样 720 | 这时 721 | 这些 722 | 这样 723 | 正如 724 | 吱 725 | 之 726 | 之类 727 | 之所以 728 | 之一 729 | 只是 730 | 只限 731 | 只要 732 | 只有 733 | 至 734 | 至于 735 | 诸位 736 | 着 737 | 着呢 738 | 自 739 | 自从 740 | 自个儿 741 | 自各儿 742 | 自己 743 | 自家 744 | 自身 745 | 综上所述 746 | 总的来看 747 | 总的来说 748 | 总的说来 749 | 总而言之 750 | 总之 751 | 纵 752 | 纵令 753 | 纵然 754 | 纵使 755 | 遵照 756 | 作为 757 | 兮 758 | 呃 759 | 呗 760 | 咚 761 | 咦 762 | 喏 763 | 啐 764 | 喔唷 765 | 嗬 766 | 嗯 767 | 嗳 -------------------------------------------------------------------------------- /1.wordfreq-没有同义词_testfile/word_freq.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DavionWu2018/Word_frequency/443db39bbd77f4537105bbf254de01655d1a1406/1.wordfreq-没有同义词_testfile/word_freq.xlsx -------------------------------------------------------------------------------- /2.wordfreq-合并同义词_testfile/add_word_list.txt: -------------------------------------------------------------------------------- 1 | 人工智能 n 2 | 商业智能 n 3 | 图像理解 n 4 | 投资决策辅助系统 n 5 | 智能数据分析 n 6 | 智能机器人 n 7 | 机器学习 n 8 | 深度学习 n 9 | 语义搜索 n 10 | 生物识别技术 n 11 | 人脸识别 n 12 | 语音识别 n 13 | 身份验证 n 14 | 自动驾驶 n 15 | 自然语言处理 n 16 | 大数据 n 17 | 数据挖掘 n 18 | 文本挖掘 n 19 | 数据可视化 n 20 | 异构数据 n 21 | 征信 n 22 | 增强现实 n 23 | 混合现实 n 24 | 虚拟现实 n 25 | 云计算 n 26 | 流计算 n 27 | 图计算 n 28 | 内存计算 n 29 | 多方安全计算 n 30 | 类脑计算 n 31 | 绿色计算 n 32 | 认知计算 n 33 | 融合架构 n 34 | 亿级并发 n 35 | EB级存储 n 36 | 物联网 n 37 | 信息物理系统 n 38 | 区块链 n 39 | 数字货币 n 40 | 分布式计算 n 41 | 差分隐私技术 n 42 | 智能金融合约 n 43 | 移动互联网 n 44 | 工业互联网 n 45 | 移动互联 n 46 | 互联网医疗 n 47 | 电子商务 n 48 | 移动支付 n 49 | 第三方支付 n 50 | NFC支付 n 51 | 智能能源 n 52 | B2B n 53 | B2C n 54 | C2B n 55 | C2C n 56 | O2O n 57 | 网联 n 58 | 智能穿戴 n 59 | 智慧农业 n 60 | 智能交通 n 61 | 智能医疗 n 62 | 智能客服 n 63 | 智能家居 n 64 | 智能投顾 n 65 | 智能文旅 n 66 | 智能环保 n 67 | 智能电网 n 68 | 智能营销 n 69 | 数字营销 n 70 | 无人零售 n 71 | 互联网金融 n 72 | 数字金融 n 73 | Fintech n 74 | 金融科技 n 75 | 量化金融 n 76 | 开放银行 n 77 | -------------------------------------------------------------------------------- /2.wordfreq-合并同义词_testfile/stopwordlist.txt: -------------------------------------------------------------------------------- 1 | ——— 2 | 》), 3 | )÷(1- 4 | ”, 5 | )、 6 | =( 7 | : 8 | → 9 | ℃ 10 | & 11 | * 12 | 一一 13 | ~~~~ 14 | ’ 15 | . 16 | 『 17 | .一 18 | ./ 19 | -- 20 | 』 21 | =″ 22 | 【 23 | [*] 24 | }> 25 | [⑤]] 26 | [①D] 27 | c] 28 | ng昉 29 | * 30 | // 31 | [ 32 | ] 33 | [②e] 34 | [②g] 35 | ={ 36 | } 37 | ,也 38 | ‘ 39 | A 40 | [①⑥] 41 | [②B] 42 | [①a] 43 | [④a] 44 | [①③] 45 | [③h] 46 | ③] 47 | 1. 48 | -- 49 | [②b] 50 | ’‘ 51 | ××× 52 | [①⑧] 53 | 0:2 54 | =[ 55 | [⑤b] 56 | [②c] 57 | [④b] 58 | [②③] 59 | [③a] 60 | [④c] 61 | [①⑤] 62 | [①⑦] 63 | [①g] 64 | ∈[ 65 | [①⑨] 66 | [①④] 67 | [①c] 68 | [②f] 69 | [②⑧] 70 | [②①] 71 | [①C] 72 | [③c] 73 | [③g] 74 | [②⑤] 75 | [②②] 76 | 一. 77 | [①h] 78 | .数 79 | [] 80 | [①B] 81 | 数/ 82 | [①i] 83 | [③e] 84 | [①①] 85 | [④d] 86 | [④e] 87 | [③b] 88 | [⑤a] 89 | [①A] 90 | [②⑧] 91 | [②⑦] 92 | [①d] 93 | [②j] 94 | 〕〔 95 | ][ 96 | :// 97 | ′∈ 98 | [②④ 99 | [⑤e] 100 | 12% 101 | b] 102 | ... 103 | ................... 104 | …………………………………………………③ 105 | ZXFITL 106 | [③F] 107 | 」 108 | [①o] 109 | ]∧′=[ 110 | ∪φ∈ 111 | ′| 112 | {- 113 | ②c 114 | } 115 | [③①] 116 | R.L. 117 | [①E] 118 | Ψ 119 | -[*]- 120 | ↑ 121 | .日 122 | [②d] 123 | [② 124 | [②⑦] 125 | [②②] 126 | [③e] 127 | [①i] 128 | [①B] 129 | [①h] 130 | [①d] 131 | [①g] 132 | [①②] 133 | [②a] 134 | f] 135 | [⑩] 136 | a] 137 | [①e] 138 | [②h] 139 | [②⑥] 140 | [③d] 141 | [②⑩] 142 | e] 143 | 〉 144 | 】 145 | 元/吨 146 | [②⑩] 147 | 2.3% 148 | 5:0 149 | [①] 150 | :: 151 | [②] 152 | [③] 153 | [④] 154 | [⑤] 155 | [⑥] 156 | [⑦] 157 | [⑧] 158 | [⑨] 159 | …… 160 | —— 161 | ? 162 | 、 163 | 。 164 | “ 165 | ” 166 | 《 167 | 》 168 | ! 169 | , 170 | : 171 | ; 172 | ? 173 | . 174 | , 175 | . 176 | ' 177 | ? 178 | · 179 | ——— 180 | ── 181 | ? 182 | — 183 | < 184 | > 185 | ( 186 | ) 187 | 〔 188 | 〕 189 | [ 190 | ] 191 | ( 192 | ) 193 | - 194 | + 195 | ~ 196 | × 197 | / 198 | / 199 | ① 200 | ② 201 | ③ 202 | ④ 203 | ⑤ 204 | ⑥ 205 | ⑦ 206 | ⑧ 207 | ⑨ 208 | ⑩ 209 | Ⅲ 210 | В 211 | " 212 | ; 213 | # 214 | @ 215 | γ 216 | μ 217 | φ 218 | φ. 219 | × 220 | Δ 221 | ■ 222 | ▲ 223 | sub 224 | exp 225 | sup 226 | sub 227 | Lex 228 | # 229 | % 230 | & 231 | ' 232 | + 233 | +ξ 234 | ++ 235 | - 236 | -β 237 | < 238 | <± 239 | <Δ 240 | <λ 241 | <φ 242 | << 243 | = 244 | = 245 | =☆ 246 | =- 247 | > 248 | >λ 249 | _ 250 | ~± 251 | ~+ 252 | [⑤f] 253 | [⑤d] 254 | [②i] 255 | ≈ 256 | [②G] 257 | [①f] 258 | LI 259 | ㈧ 260 | [- 261 | ...... 262 | 〉 263 | [③⑩] 264 | 第二 265 | 一番 266 | 一直 267 | 一个 268 | 一些 269 | 许多 270 | 种 271 | 有的是 272 | 也就是说 273 | 末##末 274 | 啊 275 | 阿 276 | 哎 277 | 哎呀 278 | 哎哟 279 | 唉 280 | 俺 281 | 俺们 282 | 按 283 | 按照 284 | 吧 285 | 吧哒 286 | 把 287 | 罢了 288 | 被 289 | 本 290 | 本着 291 | 比 292 | 比方 293 | 比如 294 | 鄙人 295 | 彼 296 | 彼此 297 | 边 298 | 别 299 | 别的 300 | 别说 301 | 并 302 | 并且 303 | 不比 304 | 不成 305 | 不单 306 | 不但 307 | 不独 308 | 不管 309 | 不光 310 | 不过 311 | 不仅 312 | 不拘 313 | 不论 314 | 不怕 315 | 不然 316 | 不如 317 | 不特 318 | 不惟 319 | 不问 320 | 不只 321 | 朝 322 | 朝着 323 | 趁 324 | 趁着 325 | 乘 326 | 冲 327 | 除 328 | 除此之外 329 | 除非 330 | 除了 331 | 此 332 | 此间 333 | 此外 334 | 从 335 | 从而 336 | 打 337 | 待 338 | 但 339 | 但是 340 | 当 341 | 当着 342 | 到 343 | 得 344 | 的 345 | 的话 346 | 等 347 | 等等 348 | 地 349 | 第 350 | 叮咚 351 | 对 352 | 对于 353 | 多 354 | 多少 355 | 而 356 | 而况 357 | 而且 358 | 而是 359 | 而外 360 | 而言 361 | 而已 362 | 尔后 363 | 反过来 364 | 反过来说 365 | 反之 366 | 非但 367 | 非徒 368 | 否则 369 | 嘎 370 | 嘎登 371 | 该 372 | 赶 373 | 个 374 | 各 375 | 各个 376 | 各位 377 | 各种 378 | 各自 379 | 给 380 | 根据 381 | 跟 382 | 故 383 | 故此 384 | 固然 385 | 关于 386 | 管 387 | 归 388 | 果然 389 | 果真 390 | 过 391 | 哈 392 | 哈哈 393 | 呵 394 | 和 395 | 何 396 | 何处 397 | 何况 398 | 何时 399 | 嘿 400 | 哼 401 | 哼唷 402 | 呼哧 403 | 乎 404 | 哗 405 | 还是 406 | 还有 407 | 换句话说 408 | 换言之 409 | 或 410 | 或是 411 | 或者 412 | 极了 413 | 及 414 | 及其 415 | 及至 416 | 即 417 | 即便 418 | 即或 419 | 即令 420 | 即若 421 | 即使 422 | 几 423 | 几时 424 | 己 425 | 既 426 | 既然 427 | 既是 428 | 继而 429 | 加之 430 | 假如 431 | 假若 432 | 假使 433 | 鉴于 434 | 将 435 | 较 436 | 较之 437 | 叫 438 | 接着 439 | 结果 440 | 借 441 | 紧接着 442 | 进而 443 | 尽 444 | 尽管 445 | 经 446 | 经过 447 | 就 448 | 就是 449 | 就是说 450 | 据 451 | 具体地说 452 | 具体说来 453 | 开始 454 | 开外 455 | 靠 456 | 咳 457 | 可 458 | 可见 459 | 可是 460 | 可以 461 | 况且 462 | 啦 463 | 来 464 | 来着 465 | 离 466 | 例如 467 | 哩 468 | 连 469 | 连同 470 | 两者 471 | 了 472 | 临 473 | 另 474 | 另外 475 | 另一方面 476 | 论 477 | 嘛 478 | 吗 479 | 慢说 480 | 漫说 481 | 冒 482 | 么 483 | 每 484 | 每当 485 | 们 486 | 莫若 487 | 某 488 | 某个 489 | 某些 490 | 拿 491 | 哪 492 | 哪边 493 | 哪儿 494 | 哪个 495 | 哪里 496 | 哪年 497 | 哪怕 498 | 哪天 499 | 哪些 500 | 哪样 501 | 那 502 | 那边 503 | 那儿 504 | 那个 505 | 那会儿 506 | 那里 507 | 那么 508 | 那么些 509 | 那么样 510 | 那时 511 | 那些 512 | 那样 513 | 乃 514 | 乃至 515 | 呢 516 | 能 517 | 你 518 | 你们 519 | 您 520 | 宁 521 | 宁可 522 | 宁肯 523 | 宁愿 524 | 哦 525 | 呕 526 | 啪达 527 | 旁人 528 | 呸 529 | 凭 530 | 凭借 531 | 其 532 | 其次 533 | 其二 534 | 其他 535 | 其它 536 | 其一 537 | 其余 538 | 其中 539 | 起 540 | 起见 541 | 起见 542 | 岂但 543 | 恰恰相反 544 | 前后 545 | 前者 546 | 且 547 | 然而 548 | 然后 549 | 然则 550 | 让 551 | 人家 552 | 任 553 | 任何 554 | 任凭 555 | 如 556 | 如此 557 | 如果 558 | 如何 559 | 如其 560 | 如若 561 | 如上所述 562 | 若 563 | 若非 564 | 若是 565 | 啥 566 | 上下 567 | 尚且 568 | 设若 569 | 设使 570 | 甚而 571 | 甚么 572 | 甚至 573 | 省得 574 | 时候 575 | 什么 576 | 什么样 577 | 使得 578 | 是 579 | 是的 580 | 首先 581 | 谁 582 | 谁知 583 | 顺 584 | 顺着 585 | 似的 586 | 虽 587 | 虽然 588 | 虽说 589 | 虽则 590 | 随 591 | 随着 592 | 所 593 | 所以 594 | 他 595 | 他们 596 | 他人 597 | 它 598 | 它们 599 | 她 600 | 她们 601 | 倘 602 | 倘或 603 | 倘然 604 | 倘若 605 | 倘使 606 | 腾 607 | 替 608 | 通过 609 | 同 610 | 同时 611 | 哇 612 | 万一 613 | 往 614 | 望 615 | 为 616 | 为何 617 | 为了 618 | 为什么 619 | 为着 620 | 喂 621 | 嗡嗡 622 | 我 623 | 我们 624 | 呜 625 | 呜呼 626 | 乌乎 627 | 无论 628 | 无宁 629 | 毋宁 630 | 嘻 631 | 吓 632 | 相对而言 633 | 像 634 | 向 635 | 向着 636 | 嘘 637 | 呀 638 | 焉 639 | 沿 640 | 沿着 641 | 要 642 | 要不 643 | 要不然 644 | 要不是 645 | 要么 646 | 要是 647 | 也 648 | 也罢 649 | 也好 650 | 一 651 | 一般 652 | 一旦 653 | 一方面 654 | 一来 655 | 一切 656 | 一样 657 | 一则 658 | 依 659 | 依照 660 | 矣 661 | 以 662 | 以便 663 | 以及 664 | 以免 665 | 以至 666 | 以至于 667 | 以致 668 | 抑或 669 | 因 670 | 因此 671 | 因而 672 | 因为 673 | 哟 674 | 用 675 | 由 676 | 由此可见 677 | 由于 678 | 有 679 | 有的 680 | 有关 681 | 有些 682 | 又 683 | 于 684 | 于是 685 | 于是乎 686 | 与 687 | 与此同时 688 | 与否 689 | 与其 690 | 越是 691 | 云云 692 | 哉 693 | 再说 694 | 再者 695 | 在 696 | 在下 697 | 咱 698 | 咱们 699 | 则 700 | 怎 701 | 怎么 702 | 怎么办 703 | 怎么样 704 | 怎样 705 | 咋 706 | 照 707 | 照着 708 | 者 709 | 这 710 | 这边 711 | 这儿 712 | 这个 713 | 这会儿 714 | 这就是说 715 | 这里 716 | 这么 717 | 这么点儿 718 | 这么些 719 | 这么样 720 | 这时 721 | 这些 722 | 这样 723 | 正如 724 | 吱 725 | 之 726 | 之类 727 | 之所以 728 | 之一 729 | 只是 730 | 只限 731 | 只要 732 | 只有 733 | 至 734 | 至于 735 | 诸位 736 | 着 737 | 着呢 738 | 自 739 | 自从 740 | 自个儿 741 | 自各儿 742 | 自己 743 | 自家 744 | 自身 745 | 综上所述 746 | 总的来看 747 | 总的来说 748 | 总的说来 749 | 总而言之 750 | 总之 751 | 纵 752 | 纵令 753 | 纵然 754 | 纵使 755 | 遵照 756 | 作为 757 | 兮 758 | 呃 759 | 呗 760 | 咚 761 | 咦 762 | 喏 763 | 啐 764 | 喔唷 765 | 嗬 766 | 嗯 767 | 嗳 -------------------------------------------------------------------------------- /2.wordfreq-合并同义词_testfile/synonym_list.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DavionWu2018/Word_frequency/443db39bbd77f4537105bbf254de01655d1a1406/2.wordfreq-合并同义词_testfile/synonym_list.xlsx -------------------------------------------------------------------------------- /2.wordfreq-合并同义词_testfile/word_freq1.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DavionWu2018/Word_frequency/443db39bbd77f4537105bbf254de01655d1a1406/2.wordfreq-合并同义词_testfile/word_freq1.xlsx -------------------------------------------------------------------------------- /3.wordfreq-合并同义词2_testfile/synonym_list.txt: -------------------------------------------------------------------------------- 1 | 公司 企业 集团 -------------------------------------------------------------------------------- /3.wordfreq-合并同义词2_testfile/word_freq.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DavionWu2018/Word_frequency/443db39bbd77f4537105bbf254de01655d1a1406/3.wordfreq-合并同义词2_testfile/word_freq.xlsx -------------------------------------------------------------------------------- /3.wordfreq-合并同义词2_testfile/word_freq2.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/DavionWu2018/Word_frequency/443db39bbd77f4537105bbf254de01655d1a1406/3.wordfreq-合并同义词2_testfile/word_freq2.xlsx -------------------------------------------------------------------------------- /Code_Davion/Wordfreq_Davion.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 1, 6 | "id": "038dfa04", 7 | "metadata": {}, 8 | "outputs": [ 9 | { 10 | "name": "stdout", 11 | "output_type": "stream", 12 | "text": [ 13 | "请输入当前文件夹路径:D:\\Davion\n", 14 | "请输入文件名字:test.txt\n" 15 | ] 16 | }, 17 | { 18 | "name": "stderr", 19 | "output_type": "stream", 20 | "text": [ 21 | "Building prefix dict from the default dictionary ...\n", 22 | "Loading model from cache C:\\Users\\Davion\\AppData\\Local\\Temp\\jieba.cache\n", 23 | "Loading model cost 0.580 seconds.\n", 24 | "Prefix dict has been built successfully.\n" 25 | ] 26 | }, 27 | { 28 | "name": "stdout", 29 | "output_type": "stream", 30 | "text": [ 31 | "done!\n" 32 | ] 33 | } 34 | ], 35 | "source": [ 36 | "# wordfreq-没有同义词\n", 37 | "\n", 38 | "import os\n", 39 | "import jieba\n", 40 | "import jieba.posseg as psg\n", 41 | "import re\n", 42 | "import pandas as pd\n", 43 | "def get_stop_dict(file):\n", 44 | " content = open(file,encoding=\"utf-8\")\n", 45 | " word_list = []\n", 46 | " for c in content:\n", 47 | " c = re.sub('\\n|\\r','',c)\n", 48 | " word_list.append(c)\n", 49 | " return word_list\n", 50 | "\n", 51 | "file_path = input(\"请输入当前文件夹路径:\")\n", 52 | "os.chdir(file_path)\n", 53 | "\n", 54 | "stop_file = \"stopwordlist.txt\"\n", 55 | "user_file = \"add_word_list.txt\"\n", 56 | "\n", 57 | "stop_words = get_stop_dict(stop_file)\n", 58 | "file_name = input(\"请输入文件名字:\")\n", 59 | "text = open(file_name,encoding=\"utf-8\").read()\n", 60 | "jieba.load_userdict(user_file)\n", 61 | "text_lines = text.split('\\n')\n", 62 | "\n", 63 | "flag_list = ['n','nz','vn']#a,形容词,v,形容词\n", 64 | "counts={}\n", 65 | "\n", 66 | "for line in text_lines:\n", 67 | " line_seg = psg.cut(line)\n", 68 | " for word_flag in line_seg:\n", 69 | " word = re.sub(\"[^\\u4e00-\\u9fa5]\",\"\",word_flag.word)\n", 70 | " if word_flag.flag in flag_list and len(word)>1 and word not in stop_words:\n", 71 | " counts[word]=counts.get(word,0)+1\n", 72 | "\n", 73 | "word_freq = pd.DataFrame({'word':list(counts.keys()),'freq':list(counts.values())})\n", 74 | "word_freq = word_freq.sort_values(by='freq',ascending=False)\n", 75 | "word_freq.to_excel(\"word_freq.xlsx\",index=False)\n", 76 | "\n", 77 | "print(\"done!\")" 78 | ] 79 | }, 80 | { 81 | "cell_type": "code", 82 | "execution_count": 4, 83 | "id": "7f9a8551", 84 | "metadata": {}, 85 | "outputs": [ 86 | { 87 | "name": "stdout", 88 | "output_type": "stream", 89 | "text": [ 90 | "请输入当前文件夹路径:D:\\Davion\n", 91 | "请输入文件名字:test.txt\n", 92 | "done!\n" 93 | ] 94 | } 95 | ], 96 | "source": [ 97 | "# wordfreq-合并同义词\n", 98 | "\n", 99 | "import os\n", 100 | "import jieba\n", 101 | "import jieba.posseg as psg\n", 102 | "import re\n", 103 | "import pandas as pd\n", 104 | "def get_stop_dict(file):\n", 105 | " content = open(file,encoding=\"utf-8\")\n", 106 | " word_list = []\n", 107 | " for c in content:\n", 108 | " c = re.sub('\\n|\\r','',c)\n", 109 | " word_list.append(c)\n", 110 | " return word_list\n", 111 | "\n", 112 | "file_path = input(\"请输入当前文件夹路径:\")\n", 113 | "os.chdir(file_path)\n", 114 | "\n", 115 | "stop_file = \"stopwordlist.txt\"\n", 116 | "user_file = \"add_word_list.txt\"\n", 117 | "#add_word_list.txt内容格式是\"单词\"+\"空格\"+\"n\",或者其他vn、a、nr等词性\n", 118 | "synonym_file = \"synonym_list.xlsx\"\n", 119 | "#第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语\n", 120 | "\n", 121 | "stop_words = get_stop_dict(stop_file)\n", 122 | "synonym_words = pd.read_excel(\"synonym_list.xlsx\")\n", 123 | "synonym_origin = list(synonym_words['origin'])\n", 124 | "synonym_new = list(synonym_words['new'])\n", 125 | "\n", 126 | "file_name = input(\"请输入文件名字:\")\n", 127 | "text = open(file_name,encoding=\"utf-8\").read()\n", 128 | "jieba.load_userdict(user_file)\n", 129 | "text_lines = text.split('\\n')\n", 130 | "\n", 131 | "\n", 132 | "flag_list = ['n','nz','vn']#a,形容词,v,形容词\n", 133 | "counts={}\n", 134 | "\n", 135 | "for line in text_lines:\n", 136 | " line_seg = psg.cut(line)\n", 137 | " for word_flag in line_seg:\n", 138 | " word = re.sub(\"[^\\u4e00-\\u9fa5]\",\"\",word_flag.word)\n", 139 | " if word_flag.flag in flag_list and len(word)>1 and word not in stop_words:\n", 140 | " if word in synonym_origin:\n", 141 | " index = synonym_origin.index(word)\n", 142 | " word = synonym_new[index]\n", 143 | " counts[word]=counts.get(word,0)+1\n", 144 | "\n", 145 | "word_freq = pd.DataFrame({'word':list(counts.keys()),'freq':list(counts.values())})\n", 146 | "word_freq = word_freq.sort_values(by='freq',ascending=False)\n", 147 | "word_freq.to_excel(\"word_freq1.xlsx\",index=False)\n", 148 | "\n", 149 | "print(\"done!\")" 150 | ] 151 | }, 152 | { 153 | "cell_type": "code", 154 | "execution_count": 5, 155 | "id": "8ebfb4c4", 156 | "metadata": {}, 157 | "outputs": [ 158 | { 159 | "name": "stdout", 160 | "output_type": "stream", 161 | "text": [ 162 | "请输入当前文件夹路径:D:\\Davion\n", 163 | "请输入词频excel文件名:word_freq.xlsx\n", 164 | "请输入同义词txt文件名:synonym_list.txt\n", 165 | "done!\n" 166 | ] 167 | } 168 | ], 169 | "source": [ 170 | "# wordfreq-合并同义词2\n", 171 | "\n", 172 | "import pandas as pd\n", 173 | "import os\n", 174 | "\n", 175 | "file_path = input(\"请输入当前文件夹路径:\")\n", 176 | "os.chdir(file_path)\n", 177 | "\n", 178 | "file_name = input(\"请输入词频excel文件名:\")#列名为word,freq\n", 179 | "df = pd.read_excel(file_name)\n", 180 | "syn_name = input(\"请输入同义词txt文件名:\")\n", 181 | "#每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”)\n", 182 | "txt = open(syn_name,encoding=\"utf-8\").read()\n", 183 | "txts = txt.split(\"\\n\")\n", 184 | "\n", 185 | "for line in txts:\n", 186 | " words = line.split(\" \")\n", 187 | " dic = {}\n", 188 | " for word in words:\n", 189 | " dic[word]=words[0]\n", 190 | " df['word']=df['word'].replace(dic)\n", 191 | "\n", 192 | "df['new_freq']=df.groupby(['word'], as_index=False).cumsum()\n", 193 | "df = df.drop_duplicates(subset=['word'], keep='last')\n", 194 | "df=df[['word','new_freq']]\n", 195 | "\n", 196 | "df.to_excel(\"word_freq2.xlsx\",index=False)#保存新的词频文件\n", 197 | "print(\"done!\")" 198 | ] 199 | }, 200 | { 201 | "cell_type": "code", 202 | "execution_count": null, 203 | "id": "23a31667", 204 | "metadata": {}, 205 | "outputs": [], 206 | "source": [] 207 | } 208 | ], 209 | "metadata": { 210 | "kernelspec": { 211 | "display_name": "Python 3 (ipykernel)", 212 | "language": "python", 213 | "name": "python3" 214 | }, 215 | "language_info": { 216 | "codemirror_mode": { 217 | "name": "ipython", 218 | "version": 3 219 | }, 220 | "file_extension": ".py", 221 | "mimetype": "text/x-python", 222 | "name": "python", 223 | "nbconvert_exporter": "python", 224 | "pygments_lexer": "ipython3", 225 | "version": "3.9.7" 226 | } 227 | }, 228 | "nbformat": 4, 229 | "nbformat_minor": 5 230 | } 231 | -------------------------------------------------------------------------------- /Code_Davion/Wordfreq_Davion.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # coding: utf-8 3 | 4 | # wordfreq-没有同义词 5 | 6 | import os 7 | import jieba 8 | import jieba.posseg as psg 9 | import re 10 | import pandas as pd 11 | def get_stop_dict(file): 12 | content = open(file,encoding="utf-8") 13 | word_list = [] 14 | for c in content: 15 | c = re.sub('\n|\r','',c) 16 | word_list.append(c) 17 | return word_list 18 | 19 | file_path = input("请输入当前文件夹路径:") 20 | os.chdir(file_path) 21 | 22 | stop_file = "stopwordlist.txt" 23 | user_file = "add_word_list.txt" 24 | 25 | stop_words = get_stop_dict(stop_file) 26 | file_name = input("请输入文件名字:") 27 | text = open(file_name,encoding="utf-8").read() 28 | jieba.load_userdict(user_file) 29 | text_lines = text.split('\n') 30 | 31 | flag_list = ['n','nz','vn']#a,形容词,v,形容词 32 | counts={} 33 | 34 | for line in text_lines: 35 | line_seg = psg.cut(line) 36 | for word_flag in line_seg: 37 | word = re.sub("[^\u4e00-\u9fa5]","",word_flag.word) 38 | if word_flag.flag in flag_list and len(word)>1 and word not in stop_words: 39 | counts[word]=counts.get(word,0)+1 40 | 41 | word_freq = pd.DataFrame({'word':list(counts.keys()),'freq':list(counts.values())}) 42 | word_freq = word_freq.sort_values(by='freq',ascending=False) 43 | word_freq.to_excel("word_freq.xlsx",index=False) 44 | 45 | print("done!") 46 | 47 | 48 | 49 | # wordfreq-合并同义词 50 | 51 | import os 52 | import jieba 53 | import jieba.posseg as psg 54 | import re 55 | import pandas as pd 56 | def get_stop_dict(file): 57 | content = open(file,encoding="utf-8") 58 | word_list = [] 59 | for c in content: 60 | c = re.sub('\n|\r','',c) 61 | word_list.append(c) 62 | return word_list 63 | 64 | file_path = input("请输入当前文件夹路径:") 65 | os.chdir(file_path) 66 | 67 | stop_file = "stopwordlist.txt" 68 | user_file = "add_word_list.txt" 69 | #add_word_list.txt内容格式是"单词"+"空格"+"n",或者其他vn、a、nr等词性 70 | synonym_file = "synonym_list.xlsx" 71 | #第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语 72 | 73 | stop_words = get_stop_dict(stop_file) 74 | synonym_words = pd.read_excel("synonym_list.xlsx") 75 | synonym_origin = list(synonym_words['origin']) 76 | synonym_new = list(synonym_words['new']) 77 | 78 | file_name = input("请输入文件名字:") 79 | text = open(file_name,encoding="utf-8").read() 80 | jieba.load_userdict(user_file) 81 | text_lines = text.split('\n') 82 | 83 | 84 | flag_list = ['n','nz','vn']#a,形容词,v,形容词 85 | counts={} 86 | 87 | for line in text_lines: 88 | line_seg = psg.cut(line) 89 | for word_flag in line_seg: 90 | word = re.sub("[^\u4e00-\u9fa5]","",word_flag.word) 91 | if word_flag.flag in flag_list and len(word)>1 and word not in stop_words: 92 | if word in synonym_origin: 93 | index = synonym_origin.index(word) 94 | word = synonym_new[index] 95 | counts[word]=counts.get(word,0)+1 96 | 97 | word_freq = pd.DataFrame({'word':list(counts.keys()),'freq':list(counts.values())}) 98 | word_freq = word_freq.sort_values(by='freq',ascending=False) 99 | word_freq.to_excel("word_freq1.xlsx",index=False) 100 | 101 | print("done!") 102 | 103 | 104 | # wordfreq-合并同义词2 105 | 106 | import pandas as pd 107 | import os 108 | 109 | file_path = input("请输入当前文件夹路径:") 110 | os.chdir(file_path) 111 | 112 | file_name = input("请输入词频excel文件名:")#列名为word,freq 113 | df = pd.read_excel(file_name) 114 | syn_name = input("请输入同义词txt文件名:") 115 | #每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”) 116 | txt = open(syn_name,encoding="utf-8").read() 117 | txts = txt.split("\n") 118 | 119 | for line in txts: 120 | words = line.split(" ") 121 | dic = {} 122 | for word in words: 123 | dic[word]=words[0] 124 | df['word']=df['word'].replace(dic) 125 | 126 | df['new_freq']=df.groupby(['word'], as_index=False).cumsum() 127 | df = df.drop_duplicates(subset=['word'], keep='last') 128 | df=df[['word','new_freq']] 129 | 130 | df.to_excel("word_freq2.xlsx",index=False)#保存新的词频文件 131 | print("done!") 132 | 133 | 134 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Project description: 2 | [数据+代码] 上市公司年报文本分词、关键词词频统计+数字化转型关键词表...可以根据“创新、数字化等关键词+Word2vec相似词扩充”计算词典的词频作为代理变量; 3 | 4 | # How to use: 5 | 1)根据1-3文件夹里面的数据将所需文件放在运行目录下面; 6 | 2)在Jupyter Notebook运行 Wordfreq_Davion.py 主程序; 7 | 8 | # Dataset description: 9 | 1)test.txt 文件存放上市公司文本数据,可以根据爬取的PDF文件转换为该纯文本格式; 10 | 2)stopwordlist.txt 文件为停用词词典; 11 | 3)add_word_list.txt 文件格式是"单词"+"空格"+"n",或者其他vn、a、nr等词性;针对词典可能存在的“专有名词、网络名词和歧义分割”等缺陷,定义用户词典,同时可以对词性进行过滤;该项目中存放了与上市公司数字化转型相关的关键词表; 12 | 4)synonym_list.xlsx 文件为同义词词典,需要用户自定义;第一列为'origin',第二列为'new',分别对应原始词语和替换后的词语; 13 | 5)synonym_list.txt 文件为同义词词典,需要用户自定义;每行为互为同义词的几个词语,空格隔开(公司 企业 集团),行首的词语为最终替换词语(最终全部合并为“公司”); 14 | 6)word_freq.xlsx 文件为不考虑同义词的词频结果;word_freq1.xlsx 文件为考虑同义词的词频结果;word_freq2.xlsx 文件为直接依据word_freq.xlsx 文件结果,进而考虑同义词的词频结果; 15 | 16 | # Contact me: 17 | 👋 Hi, I’m @DavionWu2018 18 | 👀 I’m interested in sustainable tourism, tourism firm management, text mining, and event study. 19 | 🌱 I’m currently learning tourism management. 20 | 💞️ I’m looking to collaborate on text mining of tourism big data. 21 | 📫 How to reach me: dwu@mail.nankai.edu.cn. 22 | --------------------------------------------------------------------------------