├── .gitignore ├── Doc ├── README_old.md └── feedback-2018-7-27.md ├── README.md ├── __init__.py ├── base64encode.py ├── bayes_text_classifie.py ├── bunch2tf_idf.py ├── corpus2bunch.py ├── data ├── StopWordsData │ ├── StopWords-hit.txt │ ├── StopWords.txt │ └── 同义词表.txt └── stop_words.txt ├── gensim_demo.py ├── jieba_demo.py ├── sensitive_word.py ├── stop_words.py ├── test ├── data │ ├── SensitiveWords │ │ ├── ad.txt │ │ ├── default.txt │ │ ├── dirty.txt │ │ ├── gun.txt │ │ ├── politics.txt │ │ ├── pron.txt │ │ └── website.txt │ ├── StopWordsData │ │ ├── StopWords-hit.txt │ │ ├── StopWords.txt │ │ └── 同义词表.txt │ ├── pub_banned_words.txt │ ├── pub_sms_banned_words.txt │ └── stop_words.txt ├── test.txt └── test_text_filter.py ├── text_categorization.py ├── text_classifie.py ├── text_filter.py ├── text_filter_simple.py ├── word_count.py └── word_segment.py /.gitignore: -------------------------------------------------------------------------------- 1 | *.log 2 | *.pyc 3 | .idea 4 | cmake-build-debug 5 | *.xml 6 | out 7 | *.iml 8 | *.conf 9 | *.ppt 10 | *.xls 11 | *.xlsx 12 | *.pptx 13 | *.exe 14 | *.class 15 | *.doc 16 | *.docx 17 | *.exe 18 | ~.* 19 | *.swp 20 | *.txt 21 | *.dat 22 | *.log -------------------------------------------------------------------------------- /Doc/README_old.md: -------------------------------------------------------------------------------- 1 | 文本审核模块 2 | ======== 3 | minitrill 文本审核模块 4 | 5 | ## 模块架构 6 | 基本模块架构如下 7 | 8 | ![minitrill 内容安全.png](https://upload-images.jianshu.io/upload_images/5617720-46bcdfceb971065b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 9 | #### 模块划分 10 | 整个文本审核主要分为两个模块 11 | 1. [文本处理模块](#文本处理)(基础) 12 | 2. [审核策略模块](#审核策略)(核心) 13 | 14 | ![](https://upload-images.jianshu.io/upload_images/5617720-0d28cd7c92a603b8.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 15 | 16 | #### 审核范围 17 | 审核范围包括所用用户产生的文字信息,按照重要程度主要分为以下三类 18 | - 发布内容(视频标题,用户简介,视频评论...) 19 | - 资料内容(用户名,视频简介...) 20 | - 其他内容(私信数据...) 21 | 22 | #### 核心思路 23 | 文本审核的核心思路是对数据进行**量化** 24 | 对于应用中出现恶意文本的场景,我们可以做以下分类 25 | 26 | - 频率 27 | - 因为与其他用户的争执而偶尔发生的谩骂(偶尔) 28 | - 非法组织在平台上的扩散与传播(频繁) 29 | - 因为背后利益驱动而发送垃圾广告,色情信息(非常频繁) 30 | - 分类/意图 31 | - 颠覆国家政权,调侃领导人(极其严重) 32 | - 政治,邪教,敏感言论(非常严重) 33 | - 色情,违法,广告(一般严重) 34 | - 谩骂,侮辱,谣言(轻微) 35 | - 传播范围 36 | - 意见领袖或者大V的恶意言论(影响力大) 37 | - 普通用户的恶意言论(影响力小) 38 | - 用户个人详细信息中的恶意信息(传播度小) 39 | - 用户头像,昵称中的恶意信息(传播度大) 40 | 41 | ```diff 42 | + 希望对于不同的场景不同的目标人群,采取不同的打击策略和应对手段 43 | + 在维护平台内容安全的前提下,尽可能提高用户体验 44 | + 鉴别和发现 [持续有害] 的用户进行打击 45 | - 可以防止粗暴的一刀切策略影响用户体验 46 | - 对于有些文本即使单单进行关键词过滤也无法阻止其生效或表达 47 | ``` 48 | 49 | ## 文本处理 50 | 本子模块主要用于处理文本,主动发现并量化恶意. 51 | 52 | ### 1. 基于敏感词的文本审核及过滤 53 | 基于DFA通过tire树实现了一个高效的敏感词过滤器,可发现文本中的所有敏感词及其类型 54 | 并根据发现的敏感词类型对语句分类,基于敏感词权重对语句进行恶意度判定 55 | 56 | #### 实现功能 57 | 1. 共收录了6类,共744个敏感词数据 58 | 2. 基于数据库或者txt文件初始化分类初始化敏感词列表 59 | 3. 支持动态添加敏感词及类别,并可以将当前数据持久化到文件中 60 | 4. 判别语句中是否含有敏感词(默认贪婪,匹配所有敏感词) 61 | 5. 过滤语句,可以自定义过滤字符 62 | 6. 基于语句中的敏感词对句子进行恶意类别判定及恶意度量化 63 | 64 | #### 使用方法 65 | 入口及使用方法详见 `text_filter.py` 66 | ```python 67 | from text_filter import TextFilter 68 | 69 | t = TextFilter() # 初始化 # 贪婪模式,匹配所有敏感词 70 | t.is_contain('气死我了,卧槽. 免费提供无抵押贷款') # 监测是否有敏感词, 71 | # 返回(敏感词在字符串的起始位置,敏感词,敏感词类型)构成的列表 72 | [(5, u'\u5367\u69fd', 'dirty'), (13, u'\u65e0\u62b5\u62bc\u8d37\u6b3e', 'ad')] 73 | t.filter('习近平修宪') # 敏感词过滤 str 74 | # ***修宪 75 | t.filter(u'卧槽,我真是草泥马') # 敏感词过滤 unicode 76 | # **,我真是*** 77 | t.filter(u'法论功大发好,真善忍好',replace_char=u'-') # 敏感词过滤,指定替换字符 78 | # ---大发好,真善忍好 79 | t.filter('高效低价英雄联盟代练') # 测试添加敏感词功能 80 | # 高效低价英雄联盟代练 81 | t.add_word(u'英雄联盟代练') 82 | t.filter('高效低价英雄联盟代练') 83 | # 高效低价****** 84 | # >>>t.classifie('气死我了,卧槽. 免.费提供.无抵押.贷款') # 基于敏感词的语句分类及恶意度量化(过滤无用字符) 85 | # {'massage type': 'ad', 86 | # 'malicious count': 15.0, 87 | # 'malicious info': {'dirty': 5.0, 'ad': 10.0}, 88 | # 'massage details':[(4, u'\u5367\u69fd', 'dirty', 5.0), 89 | # (10, u'\u65e0\u62b5\u62bc\u8d37\u6b3e', 'ad', 10.0)] 90 | # } 91 | ``` 92 | #### 性能测试 93 | 与python自建的in,replace性能比对 94 | 95 | **测试集1** 96 | 语句数量 10,000 97 | 敏感词数量 744 98 | 99 | | 文本过滤器 | 运行时间(s) | 语句平均运行时间(个/ms)| 100 | | :------ | :------ | :------ | 101 | | 基于DFA的文本过滤器 | 0.0590 | 0.0059 | 102 | | 朴素文本过滤器 | 0.2730 | 0.0273 | 103 | 104 | **测试集2** 105 | 语句数量 10000 106 | 敏感词数量 15000 107 | 108 | | 文本过滤器 | 运行时间(s) | 语句平均运行时间(个/ms)| 109 | | :------ | :------ | :------ | 110 | | 基于DFA的文本过滤器 | 0.420 | 0.042 | 111 | | 朴素文本过滤器 | 6.5060 | 0.6506 | 112 | 113 | 可以看到DFA方式的文本过滤器的速度基本是朴素写法的十倍左右 114 | 在敏感词数据量增加的情况下性能表现也更稳定. 115 | 116 | ### 2. 基于文本分类的审核 117 | 是基于TF-IDF通过sklearn的实现的文本分类器及停用词,数据集持久化相关功能 118 | 主要用于处理文本过滤时发现敏感词,但健康度数据介于处理与掠过区间的文本 119 | 判断完成文本类型后,判断的文本类型后将本条数据进行记录 120 | 121 | #### 使用说明 122 | 入口见```text_classifie.py``` 123 | ```python 124 | # 文本分类器初始化 125 | t = TextClassifie() # 初始化 126 | t.set_classifie_model() # 选择分类器模型 127 | t.init_clf() # 分类器初始化(支持6种分类器模型,并且可以指定模型参数) 128 | # 数据集构建 129 | d = DataSet() # 构建数据集 130 | d.set_labels(["人", "物"]) # 设置标签 131 | d.add_data("我叫jerry", 'train_data_1', data_labels='人') # 添加数据(文本,id,标签) 132 | d.add_data("这个是桌子", 'train_data_2', data_labels='物体') 133 | tarin_data = d.train2tf_idf() # 生成tf-idf向量数据 134 | # 数据集持久化,读取数据集 135 | train_data.save_tf_idf_data() # 保存数据到文件中 136 | train_data.read_tf_idf_data() # 从文件中读取数据 137 | # 分类模型训练及比较 138 | t.train(tarin_data) # 训练模型 139 | t.predicted(tarin_data) # 对数据进行文本分类(这里用训练数据代替) 140 | t.metrics_result() 141 | # 比对模型精度(只针对打好标签的训练集) 142 | ``` 143 | 144 | #### 实现功能 145 | * 数据集 146 | - 自定义数据集标签集,自主添加数据 147 | - 使用停用词集过滤分词后的数据,并保持原语句顺序 148 | - 分词数据转化为TF-IDF空间向量数据 149 | - 支持基于PCA算法对矩阵进行降维 150 | - 支持持久化到磁盘中/从磁盘中读取已经训练好的数据集 151 | 152 | * 分类器 153 | - 支持多种分类器模型进行文本分类 154 | - 支持持久化模型当前状态到磁盘中 155 | - 测试集精度及性能对比 156 | 157 | 158 | #### 性能测试 159 | 这里采用了 [文本分类语料库(复旦)测试语料](http://www.nlpir.org/?action-viewnews-itemid-103) 来进行文本分类测试 160 | 共 **20种** 文章分类, **9374篇** 文档,共约120M,按照**7:3划分训练/测试集**进行文本分类测试 161 | 基于 sklearn 和 TF-IDF 结合不同文本分类模型来进行文本分类测试 162 | 文本分类测试结果如下 163 | 164 | | 文本分类器 | 训练时间(s) | 分类时间(s) | 精度 | 召回 | f1 | 165 | | :------ | :------ | :------ | :------ | :------ | :------ | 166 | | 多项式贝叶斯(alpha=0.1) | 0.2850 | 0.0720 | 0.77723 | 0.78500 | 0.75392 | 167 | | 多项式贝叶斯(alpha=0.01) | 0.2810 | 0.0720 | 0.85151 | 0.85221 | 0.83334 | 168 | | 多项式贝叶斯(alpha=0.001) | 0.2950 | 0.0740 | 0.86374 | 0.87003 | 0.85894 | 169 | | 多项式贝叶斯(alpha=0.0001) | 0.2800 | 0.0710 | 0.86432 | 0.86929 | 0.85785 | 170 | | 支持向量机SVM | 182.2480 | 54.6420 | 0.03297 | 0.18158 | 0.05581 | 171 | | 决策树 | 13.9700 | 0.0410 | 0.84313 | 0.84033 | 0.84039 | 172 | | 逻辑回归 | 13.3400 | 0.0520 | 0.82730 | 0.86558 | 0.84040 | 173 | | 随机森林(n=10) | 4.1970 | 0.1100 | 0.77579 | 0.77089 | 0.75014 | 174 | | 随机森林(n=20) | 8.1570 | 0.1830 | 0.82469 | 0.81545 | 0.79146 | 175 | | 随机森林(n=25) | 10.6610 | 0.2110 | 0.83221 | 0.82436 | 0.80422 | 176 | | 随机森林(n=30) | 14.1020 | 0.2810 | 0.83121 | 0.81730 |0.79248 | 177 | | kNN聚类(n) | 0.0210 | 3.1180 | 0.84410 | 0.86075 | 0.84292 | 178 | | kNN聚类(n+1) | 0.0220 | 3.2940 | 0.84291 | 0.85964 | 0.84207 | 179 | | kNN聚类(n+2) | 0.0210 | 3.2700 | 0.84319 | 0.86038 | 0.84310 | 180 | | kNN聚类(2n) | 0.0210 | 3.1490 | 0.83054 | 0.84515 | 0.82371 | 181 | | GBDT(默认) | 1848.1790 | 0.1210 | 0.90521 | 0.90791 | 0.90005 | 182 | | GBDT(0.05,150) | 2871.2200 | 0.1640 | 0.90646 | 0.91125 | 0.90331 | 183 | 184 | 可见,经过简单调参之后GBDT的分类效果最好,可达 **90%+** 185 | 186 | ### 3. 针对于热度数据的人工审核接口 187 | 这里的可以视为对1,2方式的补足,主要针对以下场景. 并且审核数据可反馈1,2方式数据集 188 | 189 | #### 作用范围 190 | 1. 传播度非常大的言论 191 | 2. 被举报多次,无法被系统识别的言论 192 | 3. 及其隐晦的政治、敏感言论 193 | 194 | ### 接口提供辅助数据 195 | 审核接口在提供需要审核的文本时也会提供一些其他数据共审核者参考 196 | 197 | * 对于被审核文本的数据 198 | - 文本过滤结果 199 | - 文本审核结果 200 | - 目前文本的健康度 201 | 202 | * 关联文本产生人的数据 203 | - 此用户近期发表言论数 204 | - 此用户近期健康度 205 | - 此用户近期被文本审核模块记录的次数 206 | - 此用户的影响力(粉丝数,视频数,视频点击量,喜欢数) *不展示用户个人及隐私信息* 207 | 208 | #### 人工审核数据生成方式 209 | 210 | 1. 每日 TOP1%(基于点击量) 视频标题,简介,及热评 211 | 2. 平台热评 TOP 1K(基于评论赞数) 212 | 3. 每日举报度(举报数 / √点击量 或 喜欢数) TOP 100 (*防止恶意举报?*) 213 | 214 | #### 审核处理方式 215 | 审核接口可直接决定该文本及对应用户的处理措施 216 | 具体处理措施详见下方处理策略 217 | 218 | ## 审核策略 219 | 本子模块主要用与对文本处理模型所发现恶意言论进行处理和打击 220 | 221 | ### 发现策略 222 | 主要是量化经文本处理模块所处理的文本数据 223 | 224 | #### 语句健康度 225 | 这里引入一个语句健康度的概念来标示语句的恶意程度 226 | 健康度越小恶意程度越大 227 | 228 | 不同类别的敏感词基础分值如下 229 | **文本频率权重** 230 | 231 | | 类别 | 权重 | 232 | | :------ | :------ | 233 | | 昵称/视频标题 | 1.5 | 234 | | 个人简介/视频简介 |1.2 | 235 | | 视频评论 | 1.0 | 236 | | 私信 | 0.7 | 237 | 238 | **敏感词严重程度表** 239 | 240 | | 类别 | 词默认权重 | 241 | | :------ | :------ | 242 | | 政治敏感 | 35 | 243 | | 反动言论 |30 | 244 | | 非法 |30 | 245 | | 广告 |25| 246 | | 色情 |20 | 247 | | 脏话 |5 | 248 | 249 | **语句分类** 250 | 被文本分类器分类为恶意的语句会扣除相应的默认权重值,并被记录 251 | 252 | 253 | **语句健康度计算方法** 254 | 语句默认健康度为100 255 | 文本过滤和文本分类处理过的文本会扣除相应的健康度 256 | 257 | ``` 258 | MH(语句健康度) = 100 - (语句中敏感词1权重 + 语句中敏感词2权重 + ... + (文本分类器所分类别权重)) x 文本频率权重 x 审核阈值 259 | ``` 260 | 审核阈值默认为 1.0 可以通过配置文件进行修改( 0.5 ~ 2.0 )来控制整体审核程度 261 | 262 | **敏感词权重的处理思路** 263 | 1. 词 A 若在本类别中代表性越大,则权重越大 264 | 2. 词 A 所在的类别危害程度越大,则权重越大 265 | *敏感词权重范围(0~100)* 266 | 267 | **反馈机制** 268 | 每隔一段时间会收集所有恶意类别的文本,根据词频记录新增的敏感词汇 269 | 270 | **文本健康度处理流程** 271 | ![](https://upload-images.jianshu.io/upload_images/5617720-21b73309cf7e0a10.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 272 | 273 | #### 用户健康度 274 | 用户健康度标志着用户言论和行为的恶意程度. 275 | 每一条语句健康度过低的文本都会降低用户健康度 276 | 每个月用户都会自主回复一定程度的健康度 277 | 278 | 1. 用户健康度默认值为100,上为100 279 | 2. 用户健康度每周会上升 10 点(不会超过上限) 280 | 3. 用户每条被`记录`的文本回扣扣除 0.05 * (100 - 被记录文本健康度) 用户健康度 281 | 4. 用户每条被`警告/强迫修改/仅自己可见`会扣除 0.1 * (100 - 文本健康度) 用户健康度 282 | 5. 用户每条被`删除`的文本会扣除20用户健康度 283 | 284 | 285 | ### 处理策略 286 | 287 | **针对语句健康度的处理策略** 288 | 289 | | 健康度范围 | 处理策略 | 290 | | :------ | :------ | 291 | | >90 | 不做任何处理 | 292 | | 90~60 | 记录本次文本数据 | 293 | | 60~40 | 警告/强迫修改/仅自己可见/SAGE | 294 | | <40 | 直接删除 | 295 | 296 | **针对用户健康度的处理策略** 297 | 298 | | 健康度范围 | 处理策略 | 299 | | :------ | :------ | 300 | | >80 | 不做任何处理 | 301 | | 60~80 | 无法发布新视频/评论 | 302 | | <60 | 永久封禁 | -------------------------------------------------------------------------------- /Doc/feedback-2018-7-27.md: -------------------------------------------------------------------------------- 1 | 2018-7-27 问题反馈整理 2 | -------- 3 | ### 1. 审核范围 - 有关于对不同文本类型划分不同权重的思路不合理 4 | 因为标题和昵称首先带有很强的自我介绍的性质. 与上传作品的主题相关度更大, 5 | 但含有的恶意程度不一定更大,不一定要有不同的权重. 6 | 为了传播恶意数据的信息其实更多的存放在评论和私信里 **?** 7 | 8 | ### 2. 文本健康度 - 这个设置是否合理,可靠 9 | 如果两条语聊同时被归类为政治敏感,那么含有xjp的文本的恶意程度就一定比 10 | 含有其他人物的恶意程度高嘛?不一定,或者说两条同样是买片语句的恶意程度有高低之分嘛? 11 | - 那么如何鉴别文本的恶意程度的 12 | - 其实文本分类就显示了文本的恶意程度 13 | - 可以用更为细致的文本分类来展示恶意程度 例如:色情(儿童色情>组织卖淫>卖片) 14 | - 这里更细致的分类可以由敏感词的组合方式来实现 例如 : 表达儿童的名词 + 色情敏感词 => 儿童色情 15 | 16 | ### 3. 文本健康度 - 敏感词的权重是否可靠 17 | 1. 不一定可靠,或者说这个**词的权重只能展示他是否是某类文本的概率而非该词的恶意程度** 18 | 2. 此外,敏感词权重应该有个能够反馈调整的循环 19 | 20 | ### 4. 用户健康度 - 如果文本健康度不可靠,用户健康度这里还可靠吗? 21 | 感觉可以把分级打击的思路留下,单不一定基于用户健康度,可以通过文本审核上层的模块(例如用户行为建模与分类)\ 22 | 结合其他的基础策略( 例如,有一个指标 A = 恶意发言/总发言数,若A能很好的区分不同类型的用户则可以根据A对用户进行打击 ) 23 | 24 | ### 5. 整体的架构偏大,审核策略及权重设置没有说服力 25 | 感觉若是花时间填充这个文本权重的来源不太必要,不如直接砍掉,先做精简的内容 26 | 现在感觉**对于文本的打击可以由文本审核模块完成** 27 | 但是对于用户的处理若能结合其他相关的数据则更好,**文本审核模块只为这里提供用户发言及其分类的记录** 28 | 29 | ### 6. 由 TOP n视频的文本送人工审核 转化为 喜欢/观看数 过快增长的数据送审 30 | 这里纯粹是第二种思路好 31 | 32 | ### todo 33 | 1. 找到数据集(打好标记的),如果没有恶意言论的可以用不同主题的**短文本**言论替代 **?** 34 | 2. 重新思考文本审核模块的工作范围 **?** 35 | * 能够对文本进行分类(正常,色情,赌博...) (已完成) 36 | * 能够更为细致的刻画文本的类型 (色情 = {儿童色情,组织卖淫,卖片...}) 37 | * 针对判别的文本类型采取不同的打击手段(仅处理文本) 38 | * 将文本及用户数据送交上一层模块,为对用户采取措施提供判别依据 39 | 3. 开始着手处理用户建模分类的工作 40 | * 选择用户行为特征项 41 | * 处理相应的数据,转为数值矩阵 42 | 43 | 当前架构demo 44 | ![](https://upload-images.jianshu.io/upload_images/5617720-0e43977a18f94bc8.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | 文本审核模块 2 | ======== 3 | minitrill 文本审核模块 4 | 5 | ## 模块架构 6 | ![](https://upload-images.jianshu.io/upload_images/5617720-46bf7d07f7fa79e6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 7 | 8 | 整体思路如下 9 | ![](https://upload-images.jianshu.io/upload_images/5617720-6246623e7fcb8d9e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 10 | 11 | **核心思路** 12 | 1. 区分恶意与非恶意的文本,并给出恶意类别 13 | 2. 细化恶意类别,来展现文本的恶意程度 14 | 3. 对于**不同频率/不同程度/不同影响力**的言论采取不同程度不同方式的处理策略 15 | (这里直接从本模块抽离出来了,主要是对于用户进行性质分类来打击用户,参见用户特征模块) 16 | 17 | 18 | ## 文本处理 19 | 本子模块主要用于处理文本,发现恶意并判别细致的恶意类型 20 | 21 | ### 0. 文本预处理 22 | 主要是对输入的文本进行预处理和分词,主要功能包括 23 | 24 | * 编码转换 25 | * 字符过滤 26 | * 分词(基于jieba分词) 27 | * 加载用户字典(*防止一些能够表征文本特征的词被拆分*) 28 | * 停用词处理 29 | * 词性判别 30 | 31 | ### 1. 基于文本分类的审核 32 | 是基于TF-IDF通过sklearn的实现的文本分类器及停用词,数据集持久化相关功能 33 | 主要用于对进行预处理及分词过后的文本进行性质分类. 34 | 35 | #### 使用说明 36 | 入口见```text_classifie.py``` 37 | ```python 38 | # 文本分类器初始化 39 | t = TextClassifie() # 初始化 40 | t.set_classifie_model() # 选择分类器模型 41 | t.init_clf() # 分类器初始化(支持6种分类器模型,并且可以指定模型参数) 42 | # 数据集构建 43 | d = DataSet() # 构建数据集 44 | d.set_labels(["人", "物"]) # 设置标签 45 | d.add_data("我叫hj", 'train_data_1', data_labels='人') # 添加数据(文本,id,标签) 46 | d.add_data("这个是桌子", 'train_data_2', data_labels='物体') 47 | tarin_data = d.train2tf_idf() # 生成tf-idf向量数据 48 | # 数据集持久化,读取数据集 49 | train_data.save_tf_idf_data() # 保存数据到文件中 50 | train_data.read_tf_idf_data() # 从文件中读取数据 51 | # 分类模型训练及比较 52 | t.train(tarin_data) # 训练模型 53 | t.predicted(tarin_data) # 对数据进行文本分类(这里用训练数据代替) 54 | t.metrics_result() 55 | # 比对模型精度(只针对打好标签的训练集) 56 | ``` 57 | 58 | #### 实现功能 59 | * 数据集 60 | - 自定义数据集标签集,自主添加数据 61 | - 使用停用词集过滤分词后的数据,并保持原语句顺序 62 | - 分词数据转化为TF-IDF空间向量数据 63 | - 支持基于PCA算法对矩阵进行降维 64 | - 支持持久化到磁盘中/从磁盘中读取已经训练好的数据集 65 | 66 | * 分类器 67 | - 支持多种分类器模型进行文本分类(目前支持6种分类模型) 68 | - 支持自定义调参 69 | - 支持持久化模型当前状态到磁盘中 70 | - 测试集精度及性能对比 71 | 72 | 73 | #### 性能测试 74 | 这里采用了 [文本分类语料库(复旦)测试语料](http://www.nlpir.org/?action-viewnews-itemid-103) 来进行文本分类测试 75 | 共 **20种** 文章分类, **9374篇** 文档,共约120M,按照**7:3划分训练/测试集**进行文本分类测试 76 | 基于 sklearn 和 TF-IDF 结合不同文本分类模型来进行文本分类测试 77 | 文本分类测试(每种分类器经过简单调参,只展示最好的结果)结果如下 78 | 79 | | 文本分类器 | 训练时间(s) | 分类时间(s) | 精度 | 召回 | f1 | 80 | | :------ | :------ | :------ | :------ | :------ | :------ | 81 | | 多项式贝叶斯 | 0.2800 | 0.0710 | 0.86432 | 0.86929 | 0.85785 | 82 | | 支持向量机SVM | 182.2480 | 54.6420 | 0.03297 | 0.18158 | 0.05581 | 83 | | 决策树 | 13.9700 | 0.0410 | 0.84313 | 0.84033 | 0.84039 | 84 | | 逻辑回归 | 13.3400 | 0.0520 | 0.82730 | 0.86558 | 0.84040 | 85 | | 随机森林| 14.1020 | 0.2810 | 0.83121 | 0.81730 |0.79248 | 86 | | kNN聚类 | 0.0210 | 3.1180 | 0.84410 | 0.86075 | 0.84292 | 87 | | GBDT | 2871.2200 | 0.1640 | 0.90646 | 0.91125 | 0.90331 | 88 | 89 | 可见,经过简单调参之后GBDT的分类效果最好,f1可达0.91 90 | 91 | 此外,对于提供的恶意文本数据(*7类,500k文本量*),按照8:2划分测试及训练集,f1最终超过了0.96 92 | 93 | 94 | #### 模型选择过程中的优缺点比较 95 | 1. 文本向量化模型 96 | 97 | | 名称 | 含义 | 特点 | 98 | | :------ | :------ | :------ | 99 | |TF-IDF| 词频-逆文档频率 | 适用性广 | 100 | |word2vec| 词向量 | 同义词检索 | 101 | |LAS| 潜在语义分析 | 适用主题文档 | 102 | |TextRank| PageRank | 将词语看出网络节点 | 103 | 104 | 具体的比较和使用可以参考 [利用Python实现中文文本关键词抽取的三种方法](https://github.com/AimeeLee77/keyword_extraction) 105 | 最终选择了tf-idf来作为构建文本分类模型输入的方法. 106 | 107 | 2. 文本分类模型 108 | 这里主要就比对了贝叶斯和GBDT,由上测试结果可见 109 | 多项式贝叶斯 : 原理简单,训练和分类时间短,分类效果优秀 110 | GBDT(梯度下降树) : 是几种分类器中效果最好的一个, 111 | 112 | 113 | 114 | ### 2. 基于敏感词的文本审核及过滤 115 | 基于DFA通过tire树加简单优化实现了一个高效的敏感词过滤器,可发现文本中的所有敏感词及其类型 116 | 并根据发现的敏感词类型对语句分类,基于敏感词性对语句进行恶意度判定 117 | 118 | #### 实现功能 119 | 1. 共收录了6类,共744个敏感词数据 120 | 2. 基于数据库或者txt文件初始化分类初始化敏感词列表 121 | 3. 支持动态添加敏感词及类别,并可以将当前数据持久化到文件中 122 | 4. 判别语句中是否含有敏感词(默认贪婪,匹配所有敏感词) 123 | 5. 过滤语句,可以自定义过滤字符 124 | 6. 基于语句中的敏感词对句子进行恶意类别判定 125 | 126 | #### 使用方法 127 | 入口及使用方法详见 `text_filter.py` 128 | ```python 129 | t = TextFilter() # 初始化 # 贪婪模式,匹配所有敏感词 130 | t.is_contain('气死我了,卧槽. 免费提供无抵押贷款') # 监测是否有敏感词,返回 131 | # (敏感词在字符串的起始位置,敏感词,敏感词类型)构成的列表 132 | # [(5, u'\u5367\u69fd', 'dirty'), (13, u'\u65e0\u62b5\u62bc\u8d37\u6b3e', 'ad')] 133 | t.filter('习近平修宪') # 敏感词过滤 str 134 | # ***修宪 135 | t.filter(u'卧槽,我真是草泥马') # 敏感词过滤 unicode 136 | # **,我真是*** 137 | t.filter(u'法论功大发好,真善忍好',replace_char=u'-') # 敏感词过滤,指定替换字符 138 | # ---大发好,真善忍好 139 | t.filter('高效低价英雄联盟代练') # 测试添加敏感词功能 140 | # 高效低价英雄联盟代练 141 | t.add_word(u'英雄联盟代练') 142 | t.filter('高效低价英雄联盟代练') 143 | # 高效低价****** 144 | t.classifie('出售幼,女私房照,小萝,莉私房,联系QQxxx') # 文本敏感词统计(敏感词类型,出现次数) (会提前过滤符号) 145 | # [('pron-child', 2), ('ad', 1)] 146 | ``` 147 | #### 性能测试 148 | 与python自建的in,replace性能比对 149 | 150 | **测试集1** 151 | 语句数量 10,000 152 | 敏感词数量 744 153 | 154 | | 文本过滤器 | 运行时间(s) | 平均运行时间(个/ms)| 155 | | :------ | :------ | :------ | 156 | | 基于DFA的文本过滤器 | 0.0590 | 0.0059 | 157 | | 朴素文本过滤器 | 0.2730 | 0.0273 | 158 | 159 | **测试集2** 160 | 语句数量 10000 161 | 敏感词数量 15000 162 | 163 | | 文本过滤器 | 运行时间(s) | 平均运行时间(个/ms)| 164 | | :------ | :------ | :------ | 165 | | 基于DFA的文本过滤器 | 0.420 | 0.042 | 166 | | 朴素文本过滤器 | 6.5060 | 0.6506 | 167 | 168 | 可以看到DFA方式的文本过滤器的速度基本是朴素写法的十倍左右 169 | 在敏感词数据量增加的情况下性能表现也更稳定. 170 | 171 | 172 | ### 3. 针对于热度数据的人工审核接口 173 | 这里的可以视为对1,2方式的补足,主要针对以下场景. 并且审核数据可反馈1,2方式数据集 174 | 175 | #### 作用范围 176 | 1. 传播度非常大的言论 177 | 2. 被举报多次,无法被系统识别的言论 178 | 3. 及其隐晦的政治、敏感言论 179 | 180 | ### 接口提供辅助数据 181 | 审核接口在提供需要审核的文本时也会提供一些其他数据共审核者参考 182 | 183 | * 对于被审核文本的数据 184 | - 文本审核结果及关键词类型 185 | 186 | * 关联文本产生人的数据 187 | - 此用户近期发表言论数 188 | - 此用户近期被文本审核模块记录的次数 189 | - 此用户的影响力(粉丝数,视频数,视频点击量,喜欢数) *不展示用户个人及隐私信息* 190 | 191 | #### 人工审核数据生成方式 192 | 193 | 1. ~~每日TOP1%(基于点击量) 视频标题,简介,及热评~~ (全量数据抽取过审成本太大) 194 | 2. 超过**平均传播速度** x 倍的视频所关联的评论及其他文本 195 | 3. 每日举报度(举报数 / √点击量 或 喜欢数) TOP n (*防止恶意举报?*) 196 | 197 | ## 工作流程 198 | 199 | 1. 评论文本审核 200 | ![](https://upload-images.jianshu.io/upload_images/5617720-b47e23f1db7f7668.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 201 | 202 | 2. 资料文本(昵称,标题短文本)审核 203 | ![](https://upload-images.jianshu.io/upload_images/5617720-1cd449c8472da32f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 204 | 205 | 3. 举报审核 206 | ![](https://upload-images.jianshu.io/upload_images/5617720-5b4cb17783f9197d.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 207 | 208 | 4. 反馈补充 209 | ![](https://upload-images.jianshu.io/upload_images/5617720-4d9e30ff4e7763e1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 210 | -------------------------------------------------------------------------------- /__init__.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | """ 5 | 文本审核模块 6 | ======== 7 | minitrill 文本审核模块 8 | """ 9 | -------------------------------------------------------------------------------- /base64encode.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | base64编解码处理 7 | 用于处理某些被加密的敏感词库 8 | 9 | author : @h-j-13 10 | time : 2018-7-18 11 | """ 12 | 13 | import os 14 | import base64 15 | 16 | 17 | def decode64file(path_file): 18 | """解码base64加密的文件""" 19 | with open(path_file, 'rb') as f: 20 | str_set = set() 21 | for line in f: 22 | s = line.strip() 23 | if s.endswith('Cg=='): 24 | s = s.replace('Cg==', '') 25 | str_set.add(base64.b64decode(s)) 26 | 27 | return str_set 28 | 29 | 30 | train_data_url = './data/FudanTrainData/' 31 | 32 | 33 | def get_all_file_by_path(path=train_data_url): 34 | """获取某个目录下的所有训练文件""" 35 | file_path = [] 36 | dir_list = os.listdir(train_data_url) 37 | for d in dir_list: 38 | file_path.extend(map(lambda x: train_data_url + d + '/' + x, os.listdir(train_data_url + d))) 39 | return file_path 40 | 41 | 42 | def decode_file2utf8(file_path): 43 | """将文件从GB2312编码解码为utf8文件""" 44 | decode_error = False 45 | file_data = [] 46 | with open(file_path, 'r') as f: 47 | for l in f.readlines(): 48 | try: 49 | tmp = l.decode('gbk').encode('utf8') 50 | except Exception as e: 51 | decode_error = True 52 | tmp = '' 53 | file_data.append(tmp) 54 | if decode_error: 55 | os.remove(file_path) 56 | else: 57 | with open(file_path, 'w') as f: 58 | f.writelines(file_data) 59 | 60 | 61 | if __name__ == '__main__': 62 | for p in get_all_file_by_path(): 63 | decode_file2utf8(p) 64 | -------------------------------------------------------------------------------- /bayes_text_classifie.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 使用贝叶斯模型进行文本分类 7 | 8 | 9 | author : @h-j-13 10 | time : 2018-7-21 11 | ref : https://blog.csdn.net/github_36326955/article/details/54891204 12 | """ 13 | 14 | import sys 15 | import cPickle as pickle 16 | 17 | from sklearn import metrics 18 | from sklearn import tree 19 | from sklearn.neighbors import KNeighborsClassifier 20 | from sklearn.naive_bayes import MultinomialNB # 导入多项式贝叶斯算法 21 | 22 | TF_IDF_PATH = './data/WordBag/if_idf.txt' 23 | 24 | reload(sys) 25 | sys.setdefaultencoding('utf-8') 26 | 27 | TF_IDF_PATH = './data/WordBag/if_idf.txt' 28 | 29 | 30 | # 读取bunch对象 31 | def read_obj(path): 32 | with open(path, "rb") as file_obj: 33 | bunch = pickle.load(file_obj) 34 | return bunch 35 | 36 | 37 | # 导入训练集 38 | TRAIN_SET = read_obj(TF_IDF_PATH) 39 | 40 | # 训练分类器:输入词袋向量和分类标签,alpha:0.001 alpha越小,迭代次数越多,精度越高 41 | 42 | # KNN 43 | # clf = KNeighborsClassifier() 44 | 45 | # 决策树 46 | clf = tree.DecisionTreeClassifier() 47 | clf.fit(TRAIN_SET.tdm, TRAIN_SET.label) 48 | # clf = MultinomialNB(alpha=0.001).fit(TRAIN_SET.tdm, TRAIN_SET.label) 49 | 50 | # 预测分类结果 51 | predicted = clf.predict(TRAIN_SET.tdm) 52 | 53 | for flabel, file_name, expct_cate in zip(TRAIN_SET.label, TRAIN_SET.filenames, predicted): 54 | if flabel != expct_cate: 55 | print file_name, ": 实际类别:", flabel, " -->预测类别:", expct_cate 56 | 57 | print "预测完毕!!!" 58 | 59 | # 计算分类精度: 60 | from sklearn import metrics 61 | 62 | 63 | def metrics_result(actual, predict): 64 | print '精度:{0:.3f}'.format(metrics.precision_score(actual, predict, average='weighted')) 65 | print '召回:{0:0.3f}'.format(metrics.recall_score(actual, predict, average='weighted')) 66 | print 'f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict, average='weighted')) 67 | 68 | 69 | metrics_result(TRAIN_SET.label, predicted) 70 | -------------------------------------------------------------------------------- /bunch2tf_idf.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | bunch模型转化为TF-IDF空间向量 7 | 8 | 9 | author : @h-j-13 10 | time : 2018-7-21 11 | ref : https://blog.csdn.net/github_36326955/article/details/54891204 12 | """ 13 | 14 | import sys 15 | import cPickle as pickle 16 | 17 | from sklearn.datasets.base import Bunch 18 | from sklearn.feature_extraction.text import TfidfVectorizer 19 | 20 | from stop_words import get_stop_words 21 | 22 | reload(sys) 23 | sys.setdefaultencoding('utf-8') 24 | 25 | BUNCH_PATH = './data/WordBag/bunch.txt' 26 | TF_IDF_PATH = './data/WordBag/if_idf.txt' 27 | 28 | 29 | # 读写对象 30 | def read_obj(path): 31 | with open(path, "rb") as file_obj: 32 | bunch = pickle.load(file_obj) 33 | return bunch 34 | 35 | 36 | def write_obj(path, bunchobj): 37 | with open(path, "wb") as file_obj: 38 | pickle.dump(bunchobj, file_obj) 39 | 40 | 41 | def vector_space(): 42 | """创建TF-IDF词向量空间""" 43 | stop_words_list = list(get_stop_words()) 44 | bunch = read_obj(BUNCH_PATH) # 导入分词后的词向量bunch对象 45 | # 构建tf-idf词向量空间对象 46 | tfidfspace = Bunch(target_name=bunch.target_name, 47 | label=bunch.label, 48 | filenames=bunch.filenames, 49 | tdm=[], 50 | vocabulary={}) 51 | 52 | # 使用TfidfVectorizer初始化向量空间模型 53 | # 这里面有TF-IDF权重矩阵还有我们要的词向量空间坐标轴信息vocabulary_ 54 | vectorizer = TfidfVectorizer(stop_words=stop_words_list, sublinear_tf=True, max_df=0.5) 55 | # 此时tdm里面存储的就是if-idf权值矩阵 56 | tfidfspace.tdm = vectorizer.fit_transform(bunch.contents) 57 | tfidfspace.vocabulary = vectorizer.vocabulary_ 58 | # 结果写入文件 59 | write_obj(TF_IDF_PATH, tfidfspace) 60 | print "if-idf词向量空间实例创建成功!" 61 | 62 | 63 | if __name__ == '__main__': 64 | vector_space() -------------------------------------------------------------------------------- /corpus2bunch.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 文集处理为Bunch 7 | 8 | 9 | author : @h-j-13 10 | time : 2018-7-20 11 | """ 12 | 13 | import os 14 | import sys 15 | import cPickle as pickle # cPickle可以对任意一种类型的python对象进行序列化操作 16 | 17 | from sklearn.datasets.base import Bunch 18 | 19 | 20 | reload(sys) 21 | sys.setdefaultencoding('utf-8') 22 | 23 | WORD_SEGMENT_PATH = './data/WordSegment/' 24 | WORD_BAG_PATH = './data/WordBag/bunch.txt' 25 | 26 | 27 | def read_file(file_path): 28 | """读取文件内容""" 29 | with open(file_path, 'rb') as f: 30 | contents = f.read() 31 | return contents 32 | 33 | 34 | def corpus2Bunch(word_bag_path=WORD_BAG_PATH, word_segment_path=WORD_SEGMENT_PATH): 35 | """将文本转化为Bunch模型""" 36 | # 创建一个Bunch实例 37 | bunch = Bunch(target_name=[], label=[], filenames=[], contents=[]) 38 | class_list = os.listdir(word_segment_path) 39 | bunch.target_name.extend(os.listdir(word_segment_path)) 40 | # 处理每个分类下的所有文件 41 | for class_name in class_list: 42 | class_path = word_segment_path + class_name + "/" # 拼出分类子目录的路径 43 | # 构建Bunch 44 | for file_name in os.listdir(class_path): # 遍历类别目录下文件 45 | file_path = class_path + '/' + file_name 46 | bunch.label.append(class_name) 47 | bunch.filenames.append(file_path) 48 | bunch.contents.append(read_file(file_path)) # 读取文件内容 49 | 50 | # 将bunch存储到wordbag_path路径中 51 | with open(word_bag_path, "wb") as f: 52 | pickle.dump(bunch, f) 53 | print "构建文本对象Bunch结束!" 54 | 55 | 56 | if __name__ == '__main__': 57 | corpus2Bunch() 58 | -------------------------------------------------------------------------------- /data/StopWordsData/StopWords-hit.txt: -------------------------------------------------------------------------------- 1 | // 停用词表 2 | // 哈工大停用词表 3 | // ref : https://github.com/uk9921/StopWords 4 | 5 | 【 6 | 】 7 | ——— 8 | 》), 9 | )÷(1- 10 | ”, 11 | )、 12 | =( 13 | : 14 | → 15 | ℃ 16 | & 17 | * 18 | 一一 19 | ~~~~ 20 | ’ 21 | . 22 | 『 23 | .一 24 | ./ 25 | -- 26 | 』 27 | =″ 28 | 【 29 | [*] 30 | }> 31 | [⑤]] 32 | [①D] 33 | c] 34 | ng昉 35 | * 36 | // 37 | [ 38 | ] 39 | [②e] 40 | [②g] 41 | ={ 42 | } 43 | ,也 44 | ‘ 45 | A 46 | [①⑥] 47 | [②B] 48 | [①a] 49 | [④a] 50 | [①③] 51 | [③h] 52 | ③] 53 | 1. 54 | -- 55 | [②b] 56 | ’‘ 57 | ××× 58 | [①⑧] 59 | 0:2 60 | =[ 61 | [⑤b] 62 | [②c] 63 | [④b] 64 | [②③] 65 | [③a] 66 | [④c] 67 | [①⑤] 68 | [①⑦] 69 | [①g] 70 | ∈[ 71 | [①⑨] 72 | [①④] 73 | [①c] 74 | [②f] 75 | [②⑧] 76 | [②①] 77 | [①C] 78 | [③c] 79 | [③g] 80 | [②⑤] 81 | [②②] 82 | 一. 83 | [①h] 84 | .数 85 | [] 86 | [①B] 87 | 数/ 88 | [①i] 89 | [③e] 90 | [①①] 91 | [④d] 92 | [④e] 93 | [③b] 94 | [⑤a] 95 | [①A] 96 | [②⑧] 97 | [②⑦] 98 | [①d] 99 | [②j] 100 | 〕〔 101 | ][ 102 | :// 103 | ′∈ 104 | [②④ 105 | [⑤e] 106 | 12% 107 | b] 108 | ... 109 | ................... 110 | …………………………………………………③ 111 | ZXFITL 112 | [③F] 113 | 」 114 | [①o] 115 | ]∧′=[ 116 | ∪φ∈ 117 | ′| 118 | {- 119 | ②c 120 | } 121 | [③①] 122 | R.L. 123 | [①E] 124 | Ψ 125 | -[*]- 126 | ↑ 127 | .日 128 | [②d] 129 | [② 130 | [②⑦] 131 | [②②] 132 | [③e] 133 | [①i] 134 | [①B] 135 | [①h] 136 | [①d] 137 | [①g] 138 | [①②] 139 | [②a] 140 | f] 141 | [⑩] 142 | a] 143 | [①e] 144 | [②h] 145 | [②⑥] 146 | [③d] 147 | [②⑩] 148 | e] 149 | 〉 150 | 】 151 | 元/吨 152 | [②⑩] 153 | 2.3% 154 | 5:0 155 | [①] 156 | :: 157 | [②] 158 | [③] 159 | [④] 160 | [⑤] 161 | [⑥] 162 | [⑦] 163 | [⑧] 164 | [⑨] 165 | …… 166 | —— 167 | ? 168 | 、 169 | 。 170 | “ 171 | ” 172 | 《 173 | 》 174 | ! 175 | , 176 | : 177 | ; 178 | ? 179 | . 180 | , 181 | . 182 | ' 183 | ? 184 | · 185 | ——— 186 | ── 187 | ? 188 | — 189 | < 190 | > 191 | ( 192 | ) 193 | 〔 194 | 〕 195 | [ 196 | ] 197 | ( 198 | ) 199 | - 200 | + 201 | ~ 202 | × 203 | / 204 | / 205 | ① 206 | ② 207 | ③ 208 | ④ 209 | ⑤ 210 | ⑥ 211 | ⑦ 212 | ⑧ 213 | ⑨ 214 | ⑩ 215 | Ⅲ 216 | В 217 | " 218 | ; 219 | # 220 | @ 221 | γ 222 | μ 223 | φ 224 | φ. 225 | × 226 | Δ 227 | ■ 228 | ▲ 229 | sub 230 | exp 231 | sup 232 | sub 233 | Lex 234 | # 235 | % 236 | & 237 | ' 238 | + 239 | +ξ 240 | ++ 241 | - 242 | -β 243 | < 244 | <± 245 | <Δ 246 | <λ 247 | <φ 248 | << 249 | = 250 | = 251 | =☆ 252 | =- 253 | > 254 | >λ 255 | _ 256 | ~± 257 | ~+ 258 | [⑤f] 259 | [⑤d] 260 | [②i] 261 | ≈ 262 | [②G] 263 | [①f] 264 | LI 265 | ㈧ 266 | [- 267 | ...... 268 | 〉 269 | [③⑩] 270 | 第二 271 | 一番 272 | 一直 273 | 一个 274 | 一些 275 | 许多 276 | 种 277 | 有的是 278 | 也就是说 279 | 末##末 280 | 啊 281 | 阿 282 | 哎 283 | 哎呀 284 | 哎哟 285 | 唉 286 | 俺 287 | 俺们 288 | 按 289 | 按照 290 | 吧 291 | 吧哒 292 | 把 293 | 罢了 294 | 被 295 | 本 296 | 本着 297 | 比 298 | 比方 299 | 比如 300 | 鄙人 301 | 彼 302 | 彼此 303 | 边 304 | 别 305 | 别的 306 | 别说 307 | 并 308 | 并且 309 | 不比 310 | 不成 311 | 不单 312 | 不但 313 | 不独 314 | 不管 315 | 不光 316 | 不过 317 | 不仅 318 | 不拘 319 | 不论 320 | 不怕 321 | 不然 322 | 不如 323 | 不特 324 | 不惟 325 | 不问 326 | 不只 327 | 朝 328 | 朝着 329 | 趁 330 | 趁着 331 | 乘 332 | 冲 333 | 除 334 | 除此之外 335 | 除非 336 | 除了 337 | 此 338 | 此间 339 | 此外 340 | 从 341 | 从而 342 | 打 343 | 待 344 | 但 345 | 但是 346 | 当 347 | 当着 348 | 到 349 | 得 350 | 的 351 | 的话 352 | 等 353 | 等等 354 | 地 355 | 第 356 | 叮咚 357 | 对 358 | 对于 359 | 多 360 | 多少 361 | 而 362 | 而况 363 | 而且 364 | 而是 365 | 而外 366 | 而言 367 | 而已 368 | 尔后 369 | 反过来 370 | 反过来说 371 | 反之 372 | 非但 373 | 非徒 374 | 否则 375 | 嘎 376 | 嘎登 377 | 该 378 | 赶 379 | 个 380 | 各 381 | 各个 382 | 各位 383 | 各种 384 | 各自 385 | 给 386 | 根据 387 | 跟 388 | 故 389 | 故此 390 | 固然 391 | 关于 392 | 管 393 | 归 394 | 果然 395 | 果真 396 | 过 397 | 哈 398 | 哈哈 399 | 呵 400 | 和 401 | 何 402 | 何处 403 | 何况 404 | 何时 405 | 嘿 406 | 哼 407 | 哼唷 408 | 呼哧 409 | 乎 410 | 哗 411 | 还是 412 | 还有 413 | 换句话说 414 | 换言之 415 | 或 416 | 或是 417 | 或者 418 | 极了 419 | 及 420 | 及其 421 | 及至 422 | 即 423 | 即便 424 | 即或 425 | 即令 426 | 即若 427 | 即使 428 | 几 429 | 几时 430 | 己 431 | 既 432 | 既然 433 | 既是 434 | 继而 435 | 加之 436 | 假如 437 | 假若 438 | 假使 439 | 鉴于 440 | 将 441 | 较 442 | 较之 443 | 叫 444 | 接着 445 | 结果 446 | 借 447 | 紧接着 448 | 进而 449 | 尽 450 | 尽管 451 | 经 452 | 经过 453 | 就 454 | 就是 455 | 就是说 456 | 据 457 | 具体地说 458 | 具体说来 459 | 开始 460 | 开外 461 | 靠 462 | 咳 463 | 可 464 | 可见 465 | 可是 466 | 可以 467 | 况且 468 | 啦 469 | 来 470 | 来着 471 | 离 472 | 例如 473 | 哩 474 | 连 475 | 连同 476 | 两者 477 | 了 478 | 临 479 | 另 480 | 另外 481 | 另一方面 482 | 论 483 | 嘛 484 | 吗 485 | 慢说 486 | 漫说 487 | 冒 488 | 么 489 | 每 490 | 每当 491 | 们 492 | 莫若 493 | 某 494 | 某个 495 | 某些 496 | 拿 497 | 哪 498 | 哪边 499 | 哪儿 500 | 哪个 501 | 哪里 502 | 哪年 503 | 哪怕 504 | 哪天 505 | 哪些 506 | 哪样 507 | 那 508 | 那边 509 | 那儿 510 | 那个 511 | 那会儿 512 | 那里 513 | 那么 514 | 那么些 515 | 那么样 516 | 那时 517 | 那些 518 | 那样 519 | 乃 520 | 乃至 521 | 呢 522 | 能 523 | 你 524 | 你们 525 | 您 526 | 宁 527 | 宁可 528 | 宁肯 529 | 宁愿 530 | 哦 531 | 呕 532 | 啪达 533 | 旁人 534 | 呸 535 | 凭 536 | 凭借 537 | 其 538 | 其次 539 | 其二 540 | 其他 541 | 其它 542 | 其一 543 | 其余 544 | 其中 545 | 起 546 | 起见 547 | 起见 548 | 岂但 549 | 恰恰相反 550 | 前后 551 | 前者 552 | 且 553 | 然而 554 | 然后 555 | 然则 556 | 让 557 | 人家 558 | 任 559 | 任何 560 | 任凭 561 | 如 562 | 如此 563 | 如果 564 | 如何 565 | 如其 566 | 如若 567 | 如上所述 568 | 若 569 | 若非 570 | 若是 571 | 啥 572 | 上下 573 | 尚且 574 | 设若 575 | 设使 576 | 甚而 577 | 甚么 578 | 甚至 579 | 省得 580 | 时候 581 | 什么 582 | 什么样 583 | 使得 584 | 是 585 | 是的 586 | 首先 587 | 谁 588 | 谁知 589 | 顺 590 | 顺着 591 | 似的 592 | 虽 593 | 虽然 594 | 虽说 595 | 虽则 596 | 随 597 | 随着 598 | 所 599 | 所以 600 | 他 601 | 他们 602 | 他人 603 | 它 604 | 它们 605 | 她 606 | 她们 607 | 倘 608 | 倘或 609 | 倘然 610 | 倘若 611 | 倘使 612 | 腾 613 | 替 614 | 通过 615 | 同 616 | 同时 617 | 哇 618 | 万一 619 | 往 620 | 望 621 | 为 622 | 为何 623 | 为了 624 | 为什么 625 | 为着 626 | 喂 627 | 嗡嗡 628 | 我 629 | 我们 630 | 呜 631 | 呜呼 632 | 乌乎 633 | 无论 634 | 无宁 635 | 毋宁 636 | 嘻 637 | 吓 638 | 相对而言 639 | 像 640 | 向 641 | 向着 642 | 嘘 643 | 呀 644 | 焉 645 | 沿 646 | 沿着 647 | 要 648 | 要不 649 | 要不然 650 | 要不是 651 | 要么 652 | 要是 653 | 也 654 | 也罢 655 | 也好 656 | 一 657 | 一般 658 | 一旦 659 | 一方面 660 | 一来 661 | 一切 662 | 一样 663 | 一则 664 | 依 665 | 依照 666 | 矣 667 | 以 668 | 以便 669 | 以及 670 | 以免 671 | 以至 672 | 以至于 673 | 以致 674 | 抑或 675 | 因 676 | 因此 677 | 因而 678 | 因为 679 | 哟 680 | 用 681 | 由 682 | 由此可见 683 | 由于 684 | 有 685 | 有的 686 | 有关 687 | 有些 688 | 又 689 | 于 690 | 于是 691 | 于是乎 692 | 与 693 | 与此同时 694 | 与否 695 | 与其 696 | 越是 697 | 云云 698 | 哉 699 | 再说 700 | 再者 701 | 在 702 | 在下 703 | 咱 704 | 咱们 705 | 则 706 | 怎 707 | 怎么 708 | 怎么办 709 | 怎么样 710 | 怎样 711 | 咋 712 | 照 713 | 照着 714 | 者 715 | 这 716 | 这边 717 | 这儿 718 | 这个 719 | 这会儿 720 | 这就是说 721 | 这里 722 | 这么 723 | 这么点儿 724 | 这么些 725 | 这么样 726 | 这时 727 | 这些 728 | 这样 729 | 正如 730 | 吱 731 | 之 732 | 之类 733 | 之所以 734 | 之一 735 | 只是 736 | 只限 737 | 只要 738 | 只有 739 | 至 740 | 至于 741 | 诸位 742 | 着 743 | 着呢 744 | 自 745 | 自从 746 | 自个儿 747 | 自各儿 748 | 自己 749 | 自家 750 | 自身 751 | 综上所述 752 | 总的来看 753 | 总的来说 754 | 总的说来 755 | 总而言之 756 | 总之 757 | 纵 758 | 纵令 759 | 纵然 760 | 纵使 761 | 遵照 762 | 作为 763 | 兮 764 | 呃 765 | 呗 766 | 咚 767 | 咦 768 | 喏 769 | 啐 770 | 喔唷 771 | 嗬 772 | 嗯 773 | 嗳 -------------------------------------------------------------------------------- /data/StopWordsData/StopWords.txt: -------------------------------------------------------------------------------- 1 | // 停用词表 2 | // 互联网常用敏感词、停止词词库 3 | // ref : https://github.com/fwwdn/sensitive-stop-words 4 | 5 | 【 6 | 】 7 | ! 8 | " 9 | # 10 | $ 11 | % 12 | & 13 | ' 14 | ( 15 | ) 16 | * 17 | + 18 | , 19 | - 20 | -- 21 | . 22 | .. 23 | ... 24 | ...... 25 | ................... 26 | ./ 27 | .一 28 | .数 29 | .日 30 | / 31 | // 32 | 0 33 | 1 34 | 2 35 | 3 36 | 4 37 | 5 38 | 6 39 | 7 40 | 8 41 | 9 42 | : 43 | :// 44 | :: 45 | ; 46 | < 47 | = 48 | > 49 | >> 50 | ? 51 | @ 52 | A 53 | Lex 54 | [ 55 | \ 56 | ] 57 | ^ 58 | _ 59 | ` 60 | exp 61 | sub 62 | sup 63 | | 64 | } 65 | ~ 66 | ~~~~ 67 | · 68 | × 69 | ××× 70 | Δ 71 | Ψ 72 | γ 73 | μ 74 | φ 75 | φ. 76 | В 77 | — 78 | —— 79 | ——— 80 | ‘ 81 | ’ 82 | ’‘ 83 | “ 84 | ” 85 | ”, 86 | … 87 | …… 88 | …………………………………………………③ 89 | ′∈ 90 | ′| 91 | ℃ 92 | Ⅲ 93 | ↑ 94 | → 95 | ∈[ 96 | ∪φ∈ 97 | ≈ 98 | ① 99 | ② 100 | ②c 101 | ③ 102 | ③] 103 | ④ 104 | ⑤ 105 | ⑥ 106 | ⑦ 107 | ⑧ 108 | ⑨ 109 | ⑩ 110 | ── 111 | ■ 112 | ▲ 113 |   114 | 、 115 | 。 116 | 〈 117 | 〉 118 | 《 119 | 》 120 | 》), 121 | 」 122 | 『 123 | 』 124 | 【 125 | 】 126 | 〔 127 | 〕 128 | 〕〔 129 | ㈧ 130 | 一 131 | 一. 132 | 一一 133 | 一下 134 | 一个 135 | 一些 136 | 一何 137 | 一切 138 | 一则 139 | 一则通过 140 | 一天 141 | 一定 142 | 一方面 143 | 一旦 144 | 一时 145 | 一来 146 | 一样 147 | 一次 148 | 一片 149 | 一番 150 | 一直 151 | 一致 152 | 一般 153 | 一起 154 | 一转眼 155 | 一边 156 | 一面 157 | 七 158 | 万一 159 | 三 160 | 三天两头 161 | 三番两次 162 | 三番五次 163 | 上 164 | 上下 165 | 上升 166 | 上去 167 | 上来 168 | 上述 169 | 上面 170 | 下 171 | 下列 172 | 下去 173 | 下来 174 | 下面 175 | 不 176 | 不一 177 | 不下 178 | 不久 179 | 不了 180 | 不亦乐乎 181 | 不仅 182 | 不仅...而且 183 | 不仅仅 184 | 不仅仅是 185 | 不会 186 | 不但 187 | 不但...而且 188 | 不光 189 | 不免 190 | 不再 191 | 不力 192 | 不单 193 | 不变 194 | 不只 195 | 不可 196 | 不可开交 197 | 不可抗拒 198 | 不同 199 | 不外 200 | 不外乎 201 | 不够 202 | 不大 203 | 不如 204 | 不妨 205 | 不定 206 | 不对 207 | 不少 208 | 不尽 209 | 不尽然 210 | 不巧 211 | 不已 212 | 不常 213 | 不得 214 | 不得不 215 | 不得了 216 | 不得已 217 | 不必 218 | 不怎么 219 | 不怕 220 | 不惟 221 | 不成 222 | 不拘 223 | 不择手段 224 | 不敢 225 | 不料 226 | 不断 227 | 不日 228 | 不时 229 | 不是 230 | 不曾 231 | 不止 232 | 不止一次 233 | 不比 234 | 不消 235 | 不满 236 | 不然 237 | 不然的话 238 | 不特 239 | 不独 240 | 不由得 241 | 不知不觉 242 | 不管 243 | 不管怎样 244 | 不经意 245 | 不胜 246 | 不能 247 | 不能不 248 | 不至于 249 | 不若 250 | 不要 251 | 不论 252 | 不起 253 | 不足 254 | 不过 255 | 不迭 256 | 不问 257 | 不限 258 | 与 259 | 与其 260 | 与其说 261 | 与否 262 | 与此同时 263 | 专门 264 | 且 265 | 且不说 266 | 且说 267 | 两者 268 | 严格 269 | 严重 270 | 个 271 | 个人 272 | 个别 273 | 中小 274 | 中间 275 | 丰富 276 | 串行 277 | 临 278 | 临到 279 | 为 280 | 为主 281 | 为了 282 | 为什么 283 | 为什麽 284 | 为何 285 | 为止 286 | 为此 287 | 为着 288 | 主张 289 | 主要 290 | 举凡 291 | 举行 292 | 乃 293 | 乃至 294 | 乃至于 295 | 么 296 | 之 297 | 之一 298 | 之前 299 | 之后 300 | 之後 301 | 之所以 302 | 之类 303 | 乌乎 304 | 乎 305 | 乒 306 | 乘 307 | 乘势 308 | 乘机 309 | 乘胜 310 | 乘虚 311 | 乘隙 312 | 九 313 | 也 314 | 也好 315 | 也就是说 316 | 也是 317 | 也罢 318 | 了 319 | 了解 320 | 争取 321 | 二 322 | 二来 323 | 二话不说 324 | 二话没说 325 | 于 326 | 于是 327 | 于是乎 328 | 云云 329 | 云尔 330 | 互 331 | 互相 332 | 五 333 | 些 334 | 交口 335 | 亦 336 | 产生 337 | 亲口 338 | 亲手 339 | 亲眼 340 | 亲自 341 | 亲身 342 | 人 343 | 人人 344 | 人们 345 | 人家 346 | 人民 347 | 什么 348 | 什么样 349 | 什麽 350 | 仅 351 | 仅仅 352 | 今 353 | 今后 354 | 今天 355 | 今年 356 | 今後 357 | 介于 358 | 仍 359 | 仍旧 360 | 仍然 361 | 从 362 | 从不 363 | 从严 364 | 从中 365 | 从事 366 | 从今以后 367 | 从优 368 | 从古到今 369 | 从古至今 370 | 从头 371 | 从宽 372 | 从小 373 | 从新 374 | 从无到有 375 | 从早到晚 376 | 从未 377 | 从来 378 | 从此 379 | 从此以后 380 | 从而 381 | 从轻 382 | 从速 383 | 从重 384 | 他 385 | 他人 386 | 他们 387 | 他是 388 | 他的 389 | 代替 390 | 以 391 | 以上 392 | 以下 393 | 以为 394 | 以便 395 | 以免 396 | 以前 397 | 以及 398 | 以后 399 | 以外 400 | 以後 401 | 以故 402 | 以期 403 | 以来 404 | 以至 405 | 以至于 406 | 以致 407 | 们 408 | 任 409 | 任何 410 | 任凭 411 | 任务 412 | 企图 413 | 伙同 414 | 会 415 | 伟大 416 | 传 417 | 传说 418 | 传闻 419 | 似乎 420 | 似的 421 | 但 422 | 但凡 423 | 但愿 424 | 但是 425 | 何 426 | 何乐而不为 427 | 何以 428 | 何况 429 | 何处 430 | 何妨 431 | 何尝 432 | 何必 433 | 何时 434 | 何止 435 | 何苦 436 | 何须 437 | 余外 438 | 作为 439 | 你 440 | 你们 441 | 你是 442 | 你的 443 | 使 444 | 使得 445 | 使用 446 | 例如 447 | 依 448 | 依据 449 | 依照 450 | 依靠 451 | 便 452 | 便于 453 | 促进 454 | 保持 455 | 保管 456 | 保险 457 | 俺 458 | 俺们 459 | 倍加 460 | 倍感 461 | 倒不如 462 | 倒不如说 463 | 倒是 464 | 倘 465 | 倘使 466 | 倘或 467 | 倘然 468 | 倘若 469 | 借 470 | 借以 471 | 借此 472 | 假使 473 | 假如 474 | 假若 475 | 偏偏 476 | 做到 477 | 偶尔 478 | 偶而 479 | 傥然 480 | 像 481 | 儿 482 | 允许 483 | 元/吨 484 | 充其极 485 | 充其量 486 | 充分 487 | 先不先 488 | 先后 489 | 先後 490 | 先生 491 | 光 492 | 光是 493 | 全体 494 | 全力 495 | 全年 496 | 全然 497 | 全身心 498 | 全部 499 | 全都 500 | 全面 501 | 八 502 | 八成 503 | 公然 504 | 六 505 | 兮 506 | 共 507 | 共同 508 | 共总 509 | 关于 510 | 其 511 | 其一 512 | 其中 513 | 其二 514 | 其他 515 | 其余 516 | 其后 517 | 其它 518 | 其实 519 | 其次 520 | 具体 521 | 具体地说 522 | 具体来说 523 | 具体说来 524 | 具有 525 | 兼之 526 | 内 527 | 再 528 | 再其次 529 | 再则 530 | 再有 531 | 再次 532 | 再者 533 | 再者说 534 | 再说 535 | 冒 536 | 冲 537 | 决不 538 | 决定 539 | 决非 540 | 况且 541 | 准备 542 | 凑巧 543 | 凝神 544 | 几 545 | 几乎 546 | 几度 547 | 几时 548 | 几番 549 | 几经 550 | 凡 551 | 凡是 552 | 凭 553 | 凭借 554 | 出 555 | 出于 556 | 出去 557 | 出来 558 | 出现 559 | 分别 560 | 分头 561 | 分期 562 | 分期分批 563 | 切 564 | 切不可 565 | 切切 566 | 切勿 567 | 切莫 568 | 则 569 | 则甚 570 | 刚 571 | 刚好 572 | 刚巧 573 | 刚才 574 | 初 575 | 别 576 | 别人 577 | 别处 578 | 别是 579 | 别的 580 | 别管 581 | 别说 582 | 到 583 | 到了儿 584 | 到处 585 | 到头 586 | 到头来 587 | 到底 588 | 到目前为止 589 | 前后 590 | 前此 591 | 前者 592 | 前进 593 | 前面 594 | 加上 595 | 加之 596 | 加以 597 | 加入 598 | 加强 599 | 动不动 600 | 动辄 601 | 勃然 602 | 匆匆 603 | 十分 604 | 千 605 | 千万 606 | 千万千万 607 | 半 608 | 单 609 | 单单 610 | 单纯 611 | 即 612 | 即令 613 | 即使 614 | 即便 615 | 即刻 616 | 即如 617 | 即将 618 | 即或 619 | 即是说 620 | 即若 621 | 却 622 | 却不 623 | 历 624 | 原来 625 | 去 626 | 又 627 | 又及 628 | 及 629 | 及其 630 | 及时 631 | 及至 632 | 双方 633 | 反之 634 | 反之亦然 635 | 反之则 636 | 反倒 637 | 反倒是 638 | 反应 639 | 反手 640 | 反映 641 | 反而 642 | 反过来 643 | 反过来说 644 | 取得 645 | 取道 646 | 受到 647 | 变成 648 | 古来 649 | 另 650 | 另一个 651 | 另一方面 652 | 另外 653 | 另悉 654 | 另方面 655 | 另行 656 | 只 657 | 只当 658 | 只怕 659 | 只是 660 | 只有 661 | 只消 662 | 只要 663 | 只限 664 | 叫 665 | 叫做 666 | 召开 667 | 叮咚 668 | 叮当 669 | 可 670 | 可以 671 | 可好 672 | 可是 673 | 可能 674 | 可见 675 | 各 676 | 各个 677 | 各人 678 | 各位 679 | 各地 680 | 各式 681 | 各种 682 | 各级 683 | 各自 684 | 合理 685 | 同 686 | 同一 687 | 同时 688 | 同样 689 | 后 690 | 后来 691 | 后者 692 | 后面 693 | 向 694 | 向使 695 | 向着 696 | 吓 697 | 吗 698 | 否则 699 | 吧 700 | 吧哒 701 | 吱 702 | 呀 703 | 呃 704 | 呆呆地 705 | 呐 706 | 呕 707 | 呗 708 | 呜 709 | 呜呼 710 | 呢 711 | 周围 712 | 呵 713 | 呵呵 714 | 呸 715 | 呼哧 716 | 呼啦 717 | 咋 718 | 和 719 | 咚 720 | 咦 721 | 咧 722 | 咱 723 | 咱们 724 | 咳 725 | 哇 726 | 哈 727 | 哈哈 728 | 哉 729 | 哎 730 | 哎呀 731 | 哎哟 732 | 哗 733 | 哗啦 734 | 哟 735 | 哦 736 | 哩 737 | 哪 738 | 哪个 739 | 哪些 740 | 哪儿 741 | 哪天 742 | 哪年 743 | 哪怕 744 | 哪样 745 | 哪边 746 | 哪里 747 | 哼 748 | 哼唷 749 | 唉 750 | 唯有 751 | 啊 752 | 啊呀 753 | 啊哈 754 | 啊哟 755 | 啐 756 | 啥 757 | 啦 758 | 啪达 759 | 啷当 760 | 喀 761 | 喂 762 | 喏 763 | 喔唷 764 | 喽 765 | 嗡 766 | 嗡嗡 767 | 嗬 768 | 嗯 769 | 嗳 770 | 嘎 771 | 嘎嘎 772 | 嘎登 773 | 嘘 774 | 嘛 775 | 嘻 776 | 嘿 777 | 嘿嘿 778 | 四 779 | 因 780 | 因为 781 | 因了 782 | 因此 783 | 因着 784 | 因而 785 | 固 786 | 固然 787 | 在 788 | 在下 789 | 在于 790 | 地 791 | 均 792 | 坚决 793 | 坚持 794 | 基于 795 | 基本 796 | 基本上 797 | 处在 798 | 处处 799 | 处理 800 | 复杂 801 | 多 802 | 多么 803 | 多亏 804 | 多多 805 | 多多少少 806 | 多多益善 807 | 多少 808 | 多年前 809 | 多年来 810 | 多数 811 | 多次 812 | 够瞧的 813 | 大 814 | 大不了 815 | 大举 816 | 大事 817 | 大体 818 | 大体上 819 | 大凡 820 | 大力 821 | 大多 822 | 大多数 823 | 大大 824 | 大家 825 | 大张旗鼓 826 | 大批 827 | 大抵 828 | 大概 829 | 大略 830 | 大约 831 | 大致 832 | 大都 833 | 大量 834 | 大面儿上 835 | 失去 836 | 奇 837 | 奈 838 | 奋勇 839 | 她 840 | 她们 841 | 她是 842 | 她的 843 | 好 844 | 好在 845 | 好的 846 | 好象 847 | 如 848 | 如上 849 | 如上所述 850 | 如下 851 | 如今 852 | 如何 853 | 如其 854 | 如前所述 855 | 如同 856 | 如常 857 | 如是 858 | 如期 859 | 如果 860 | 如次 861 | 如此 862 | 如此等等 863 | 如若 864 | 始而 865 | 姑且 866 | 存在 867 | 存心 868 | 孰料 869 | 孰知 870 | 宁 871 | 宁可 872 | 宁愿 873 | 宁肯 874 | 它 875 | 它们 876 | 它们的 877 | 它是 878 | 它的 879 | 安全 880 | 完全 881 | 完成 882 | 定 883 | 实现 884 | 实际 885 | 宣布 886 | 容易 887 | 密切 888 | 对 889 | 对于 890 | 对应 891 | 对待 892 | 对方 893 | 对比 894 | 将 895 | 将才 896 | 将要 897 | 将近 898 | 小 899 | 少数 900 | 尔 901 | 尔后 902 | 尔尔 903 | 尔等 904 | 尚且 905 | 尤其 906 | 就 907 | 就地 908 | 就是 909 | 就是了 910 | 就是说 911 | 就此 912 | 就算 913 | 就要 914 | 尽 915 | 尽可能 916 | 尽如人意 917 | 尽心尽力 918 | 尽心竭力 919 | 尽快 920 | 尽早 921 | 尽然 922 | 尽管 923 | 尽管如此 924 | 尽量 925 | 局外 926 | 居然 927 | 届时 928 | 属于 929 | 屡 930 | 屡屡 931 | 屡次 932 | 屡次三番 933 | 岂 934 | 岂但 935 | 岂止 936 | 岂非 937 | 川流不息 938 | 左右 939 | 巨大 940 | 巩固 941 | 差一点 942 | 差不多 943 | 己 944 | 已 945 | 已矣 946 | 已经 947 | 巴 948 | 巴巴 949 | 带 950 | 帮助 951 | 常 952 | 常常 953 | 常言说 954 | 常言说得好 955 | 常言道 956 | 平素 957 | 年复一年 958 | 并 959 | 并不 960 | 并不是 961 | 并且 962 | 并排 963 | 并无 964 | 并没 965 | 并没有 966 | 并肩 967 | 并非 968 | 广大 969 | 广泛 970 | 应当 971 | 应用 972 | 应该 973 | 庶乎 974 | 庶几 975 | 开外 976 | 开始 977 | 开展 978 | 引起 979 | 弗 980 | 弹指之间 981 | 强烈 982 | 强调 983 | 归 984 | 归根到底 985 | 归根结底 986 | 归齐 987 | 当 988 | 当下 989 | 当中 990 | 当儿 991 | 当前 992 | 当即 993 | 当口儿 994 | 当地 995 | 当场 996 | 当头 997 | 当庭 998 | 当时 999 | 当然 1000 | 当真 1001 | 当着 1002 | 形成 1003 | 彻夜 1004 | 彻底 1005 | 彼 1006 | 彼时 1007 | 彼此 1008 | 往 1009 | 往往 1010 | 待 1011 | 待到 1012 | 很 1013 | 很多 1014 | 很少 1015 | 後来 1016 | 後面 1017 | 得 1018 | 得了 1019 | 得出 1020 | 得到 1021 | 得天独厚 1022 | 得起 1023 | 心里 1024 | 必 1025 | 必定 1026 | 必将 1027 | 必然 1028 | 必要 1029 | 必须 1030 | 快 1031 | 快要 1032 | 忽地 1033 | 忽然 1034 | 怎 1035 | 怎么 1036 | 怎么办 1037 | 怎么样 1038 | 怎奈 1039 | 怎样 1040 | 怎麽 1041 | 怕 1042 | 急匆匆 1043 | 怪 1044 | 怪不得 1045 | 总之 1046 | 总是 1047 | 总的来看 1048 | 总的来说 1049 | 总的说来 1050 | 总结 1051 | 总而言之 1052 | 恍然 1053 | 恐怕 1054 | 恰似 1055 | 恰好 1056 | 恰如 1057 | 恰巧 1058 | 恰恰 1059 | 恰恰相反 1060 | 恰逢 1061 | 您 1062 | 您们 1063 | 您是 1064 | 惟其 1065 | 惯常 1066 | 意思 1067 | 愤然 1068 | 愿意 1069 | 慢说 1070 | 成为 1071 | 成年 1072 | 成年累月 1073 | 成心 1074 | 我 1075 | 我们 1076 | 我是 1077 | 我的 1078 | 或 1079 | 或则 1080 | 或多或少 1081 | 或是 1082 | 或曰 1083 | 或者 1084 | 或许 1085 | 战斗 1086 | 截然 1087 | 截至 1088 | 所 1089 | 所以 1090 | 所在 1091 | 所幸 1092 | 所有 1093 | 所谓 1094 | 才 1095 | 才能 1096 | 扑通 1097 | 打 1098 | 打从 1099 | 打开天窗说亮话 1100 | 扩大 1101 | 把 1102 | 抑或 1103 | 抽冷子 1104 | 拦腰 1105 | 拿 1106 | 按 1107 | 按时 1108 | 按期 1109 | 按照 1110 | 按理 1111 | 按说 1112 | 挨个 1113 | 挨家挨户 1114 | 挨次 1115 | 挨着 1116 | 挨门挨户 1117 | 挨门逐户 1118 | 换句话说 1119 | 换言之 1120 | 据 1121 | 据实 1122 | 据悉 1123 | 据我所知 1124 | 据此 1125 | 据称 1126 | 据说 1127 | 掌握 1128 | 接下来 1129 | 接着 1130 | 接著 1131 | 接连不断 1132 | 放量 1133 | 故 1134 | 故意 1135 | 故此 1136 | 故而 1137 | 敞开儿 1138 | 敢 1139 | 敢于 1140 | 敢情 1141 | 数/ 1142 | 整个 1143 | 断然 1144 | 方 1145 | 方便 1146 | 方才 1147 | 方能 1148 | 方面 1149 | 旁人 1150 | 无 1151 | 无宁 1152 | 无法 1153 | 无论 1154 | 既 1155 | 既...又 1156 | 既往 1157 | 既是 1158 | 既然 1159 | 日复一日 1160 | 日渐 1161 | 日益 1162 | 日臻 1163 | 日见 1164 | 时候 1165 | 昂然 1166 | 明显 1167 | 明确 1168 | 是 1169 | 是不是 1170 | 是以 1171 | 是否 1172 | 是的 1173 | 显然 1174 | 显著 1175 | 普通 1176 | 普遍 1177 | 暗中 1178 | 暗地里 1179 | 暗自 1180 | 更 1181 | 更为 1182 | 更加 1183 | 更进一步 1184 | 曾 1185 | 曾经 1186 | 替 1187 | 替代 1188 | 最 1189 | 最后 1190 | 最大 1191 | 最好 1192 | 最後 1193 | 最近 1194 | 最高 1195 | 有 1196 | 有些 1197 | 有关 1198 | 有利 1199 | 有力 1200 | 有及 1201 | 有所 1202 | 有效 1203 | 有时 1204 | 有点 1205 | 有的 1206 | 有的是 1207 | 有着 1208 | 有著 1209 | 望 1210 | 朝 1211 | 朝着 1212 | 末##末 1213 | 本 1214 | 本人 1215 | 本地 1216 | 本着 1217 | 本身 1218 | 权时 1219 | 来 1220 | 来不及 1221 | 来得及 1222 | 来看 1223 | 来着 1224 | 来自 1225 | 来讲 1226 | 来说 1227 | 极 1228 | 极为 1229 | 极了 1230 | 极其 1231 | 极力 1232 | 极大 1233 | 极度 1234 | 极端 1235 | 构成 1236 | 果然 1237 | 果真 1238 | 某 1239 | 某个 1240 | 某些 1241 | 某某 1242 | 根据 1243 | 根本 1244 | 格外 1245 | 梆 1246 | 概 1247 | 次第 1248 | 欢迎 1249 | 欤 1250 | 正值 1251 | 正在 1252 | 正如 1253 | 正巧 1254 | 正常 1255 | 正是 1256 | 此 1257 | 此中 1258 | 此后 1259 | 此地 1260 | 此处 1261 | 此外 1262 | 此时 1263 | 此次 1264 | 此间 1265 | 殆 1266 | 毋宁 1267 | 每 1268 | 每个 1269 | 每天 1270 | 每年 1271 | 每当 1272 | 每时每刻 1273 | 每每 1274 | 每逢 1275 | 比 1276 | 比及 1277 | 比如 1278 | 比如说 1279 | 比方 1280 | 比照 1281 | 比起 1282 | 比较 1283 | 毕竟 1284 | 毫不 1285 | 毫无 1286 | 毫无例外 1287 | 毫无保留地 1288 | 汝 1289 | 沙沙 1290 | 没 1291 | 没奈何 1292 | 没有 1293 | 沿 1294 | 沿着 1295 | 注意 1296 | 活 1297 | 深入 1298 | 清楚 1299 | 满 1300 | 满足 1301 | 漫说 1302 | 焉 1303 | 然 1304 | 然则 1305 | 然后 1306 | 然後 1307 | 然而 1308 | 照 1309 | 照着 1310 | 牢牢 1311 | 特别是 1312 | 特殊 1313 | 特点 1314 | 犹且 1315 | 犹自 1316 | 独 1317 | 独自 1318 | 猛然 1319 | 猛然间 1320 | 率尔 1321 | 率然 1322 | 现代 1323 | 现在 1324 | 理应 1325 | 理当 1326 | 理该 1327 | 瑟瑟 1328 | 甚且 1329 | 甚么 1330 | 甚或 1331 | 甚而 1332 | 甚至 1333 | 甚至于 1334 | 用 1335 | 用来 1336 | 甫 1337 | 甭 1338 | 由 1339 | 由于 1340 | 由是 1341 | 由此 1342 | 由此可见 1343 | 略 1344 | 略为 1345 | 略加 1346 | 略微 1347 | 白 1348 | 白白 1349 | 的 1350 | 的确 1351 | 的话 1352 | 皆可 1353 | 目前 1354 | 直到 1355 | 直接 1356 | 相似 1357 | 相信 1358 | 相反 1359 | 相同 1360 | 相对 1361 | 相对而言 1362 | 相应 1363 | 相当 1364 | 相等 1365 | 省得 1366 | 看 1367 | 看上去 1368 | 看出 1369 | 看到 1370 | 看来 1371 | 看样子 1372 | 看看 1373 | 看见 1374 | 看起来 1375 | 真是 1376 | 真正 1377 | 眨眼 1378 | 着 1379 | 着呢 1380 | 矣 1381 | 矣乎 1382 | 矣哉 1383 | 知道 1384 | 砰 1385 | 确定 1386 | 碰巧 1387 | 社会主义 1388 | 离 1389 | 种 1390 | 积极 1391 | 移动 1392 | 究竟 1393 | 穷年累月 1394 | 突出 1395 | 突然 1396 | 窃 1397 | 立 1398 | 立刻 1399 | 立即 1400 | 立地 1401 | 立时 1402 | 立马 1403 | 竟 1404 | 竟然 1405 | 竟而 1406 | 第 1407 | 第二 1408 | 等 1409 | 等到 1410 | 等等 1411 | 策略地 1412 | 简直 1413 | 简而言之 1414 | 简言之 1415 | 管 1416 | 类如 1417 | 粗 1418 | 精光 1419 | 紧接着 1420 | 累年 1421 | 累次 1422 | 纯 1423 | 纯粹 1424 | 纵 1425 | 纵令 1426 | 纵使 1427 | 纵然 1428 | 练习 1429 | 组成 1430 | 经 1431 | 经常 1432 | 经过 1433 | 结合 1434 | 结果 1435 | 给 1436 | 绝 1437 | 绝不 1438 | 绝对 1439 | 绝非 1440 | 绝顶 1441 | 继之 1442 | 继后 1443 | 继续 1444 | 继而 1445 | 维持 1446 | 综上所述 1447 | 缕缕 1448 | 罢了 1449 | 老 1450 | 老大 1451 | 老是 1452 | 老老实实 1453 | 考虑 1454 | 者 1455 | 而 1456 | 而且 1457 | 而况 1458 | 而又 1459 | 而后 1460 | 而外 1461 | 而已 1462 | 而是 1463 | 而言 1464 | 而论 1465 | 联系 1466 | 联袂 1467 | 背地里 1468 | 背靠背 1469 | 能 1470 | 能否 1471 | 能够 1472 | 腾 1473 | 自 1474 | 自个儿 1475 | 自从 1476 | 自各儿 1477 | 自后 1478 | 自家 1479 | 自己 1480 | 自打 1481 | 自身 1482 | 臭 1483 | 至 1484 | 至于 1485 | 至今 1486 | 至若 1487 | 致 1488 | 般的 1489 | 良好 1490 | 若 1491 | 若夫 1492 | 若是 1493 | 若果 1494 | 若非 1495 | 范围 1496 | 莫 1497 | 莫不 1498 | 莫不然 1499 | 莫如 1500 | 莫若 1501 | 莫非 1502 | 获得 1503 | 藉以 1504 | 虽 1505 | 虽则 1506 | 虽然 1507 | 虽说 1508 | 蛮 1509 | 行为 1510 | 行动 1511 | 表明 1512 | 表示 1513 | 被 1514 | 要 1515 | 要不 1516 | 要不是 1517 | 要不然 1518 | 要么 1519 | 要是 1520 | 要求 1521 | 见 1522 | 规定 1523 | 觉得 1524 | 譬喻 1525 | 譬如 1526 | 认为 1527 | 认真 1528 | 认识 1529 | 让 1530 | 许多 1531 | 论 1532 | 论说 1533 | 设使 1534 | 设或 1535 | 设若 1536 | 诚如 1537 | 诚然 1538 | 话说 1539 | 该 1540 | 该当 1541 | 说明 1542 | 说来 1543 | 说说 1544 | 请勿 1545 | 诸 1546 | 诸位 1547 | 诸如 1548 | 谁 1549 | 谁人 1550 | 谁料 1551 | 谁知 1552 | 谨 1553 | 豁然 1554 | 贼死 1555 | 赖以 1556 | 赶 1557 | 赶快 1558 | 赶早不赶晚 1559 | 起 1560 | 起先 1561 | 起初 1562 | 起头 1563 | 起来 1564 | 起见 1565 | 起首 1566 | 趁 1567 | 趁便 1568 | 趁势 1569 | 趁早 1570 | 趁机 1571 | 趁热 1572 | 趁着 1573 | 越是 1574 | 距 1575 | 跟 1576 | 路经 1577 | 转动 1578 | 转变 1579 | 转贴 1580 | 轰然 1581 | 较 1582 | 较为 1583 | 较之 1584 | 较比 1585 | 边 1586 | 达到 1587 | 达旦 1588 | 迄 1589 | 迅速 1590 | 过 1591 | 过于 1592 | 过去 1593 | 过来 1594 | 运用 1595 | 近 1596 | 近几年来 1597 | 近年来 1598 | 近来 1599 | 还 1600 | 还是 1601 | 还有 1602 | 还要 1603 | 这 1604 | 这一来 1605 | 这个 1606 | 这么 1607 | 这么些 1608 | 这么样 1609 | 这么点儿 1610 | 这些 1611 | 这会儿 1612 | 这儿 1613 | 这就是说 1614 | 这时 1615 | 这样 1616 | 这次 1617 | 这点 1618 | 这种 1619 | 这般 1620 | 这边 1621 | 这里 1622 | 这麽 1623 | 进入 1624 | 进去 1625 | 进来 1626 | 进步 1627 | 进而 1628 | 进行 1629 | 连 1630 | 连同 1631 | 连声 1632 | 连日 1633 | 连日来 1634 | 连袂 1635 | 连连 1636 | 迟早 1637 | 迫于 1638 | 适应 1639 | 适当 1640 | 适用 1641 | 逐步 1642 | 逐渐 1643 | 通常 1644 | 通过 1645 | 造成 1646 | 逢 1647 | 遇到 1648 | 遭到 1649 | 遵循 1650 | 遵照 1651 | 避免 1652 | 那 1653 | 那个 1654 | 那么 1655 | 那么些 1656 | 那么样 1657 | 那些 1658 | 那会儿 1659 | 那儿 1660 | 那时 1661 | 那末 1662 | 那样 1663 | 那般 1664 | 那边 1665 | 那里 1666 | 那麽 1667 | 部分 1668 | 都 1669 | 鄙人 1670 | 采取 1671 | 里面 1672 | 重大 1673 | 重新 1674 | 重要 1675 | 鉴于 1676 | 针对 1677 | 长期以来 1678 | 长此下去 1679 | 长线 1680 | 长话短说 1681 | 问题 1682 | 间或 1683 | 防止 1684 | 阿 1685 | 附近 1686 | 陈年 1687 | 限制 1688 | 陡然 1689 | 除 1690 | 除了 1691 | 除却 1692 | 除去 1693 | 除外 1694 | 除开 1695 | 除此 1696 | 除此之外 1697 | 除此以外 1698 | 除此而外 1699 | 除非 1700 | 随 1701 | 随后 1702 | 随时 1703 | 随着 1704 | 随著 1705 | 隔夜 1706 | 隔日 1707 | 难得 1708 | 难怪 1709 | 难说 1710 | 难道 1711 | 难道说 1712 | 集中 1713 | 零 1714 | 需要 1715 | 非但 1716 | 非常 1717 | 非徒 1718 | 非得 1719 | 非特 1720 | 非独 1721 | 靠 1722 | 顶多 1723 | 顷 1724 | 顷刻 1725 | 顷刻之间 1726 | 顷刻间 1727 | 顺 1728 | 顺着 1729 | 顿时 1730 | 颇 1731 | 风雨无阻 1732 | 饱 1733 | 首先 1734 | 马上 1735 | 高低 1736 | 高兴 1737 | 默然 1738 | 默默地 1739 | 齐 1740 | ︿ 1741 | ! 1742 | # 1743 | $ 1744 | % 1745 | & 1746 | ' 1747 | ( 1748 | ) 1749 | )÷(1- 1750 | )、 1751 | * 1752 | + 1753 | +ξ 1754 | ++ 1755 | , 1756 | ,也 1757 | - 1758 | -β 1759 | -- 1760 | -[*]- 1761 | . 1762 | / 1763 | 0 1764 | 0:2 1765 | 1 1766 | 1. 1767 | 12% 1768 | 2 1769 | 2.3% 1770 | 3 1771 | 4 1772 | 5 1773 | 5:0 1774 | 6 1775 | 7 1776 | 8 1777 | 9 1778 | : 1779 | ; 1780 | < 1781 | <± 1782 | <Δ 1783 | <λ 1784 | <φ 1785 | << 1786 | = 1787 | =″ 1788 | =☆ 1789 | =( 1790 | =- 1791 | =[ 1792 | ={ 1793 | > 1794 | >λ 1795 | ? 1796 | @ 1797 | A 1798 | LI 1799 | R.L. 1800 | ZXFITL 1801 | [ 1802 | [①①] 1803 | [①②] 1804 | [①③] 1805 | [①④] 1806 | [①⑤] 1807 | [①⑥] 1808 | [①⑦] 1809 | [①⑧] 1810 | [①⑨] 1811 | [①A] 1812 | [①B] 1813 | [①C] 1814 | [①D] 1815 | [①E] 1816 | [①] 1817 | [①a] 1818 | [①c] 1819 | [①d] 1820 | [①e] 1821 | [①f] 1822 | [①g] 1823 | [①h] 1824 | [①i] 1825 | [①o] 1826 | [② 1827 | [②①] 1828 | [②②] 1829 | [②③] 1830 | [②④ 1831 | [②⑤] 1832 | [②⑥] 1833 | [②⑦] 1834 | [②⑧] 1835 | [②⑩] 1836 | [②B] 1837 | [②G] 1838 | [②] 1839 | [②a] 1840 | [②b] 1841 | [②c] 1842 | [②d] 1843 | [②e] 1844 | [②f] 1845 | [②g] 1846 | [②h] 1847 | [②i] 1848 | [②j] 1849 | [③①] 1850 | [③⑩] 1851 | [③F] 1852 | [③] 1853 | [③a] 1854 | [③b] 1855 | [③c] 1856 | [③d] 1857 | [③e] 1858 | [③g] 1859 | [③h] 1860 | [④] 1861 | [④a] 1862 | [④b] 1863 | [④c] 1864 | [④d] 1865 | [④e] 1866 | [⑤] 1867 | [⑤]] 1868 | [⑤a] 1869 | [⑤b] 1870 | [⑤d] 1871 | [⑤e] 1872 | [⑤f] 1873 | [⑥] 1874 | [⑦] 1875 | [⑧] 1876 | [⑨] 1877 | [⑩] 1878 | [*] 1879 | [- 1880 | [] 1881 | ] 1882 | ]∧′=[ 1883 | ][ 1884 | _ 1885 | a] 1886 | b] 1887 | c] 1888 | e] 1889 | f] 1890 | ng昉 1891 | { 1892 | {- 1893 | | 1894 | } 1895 | }> 1896 | ~ 1897 | ~± 1898 | ~+ 1899 | ¥ -------------------------------------------------------------------------------- /data/StopWordsData/同义词表.txt: -------------------------------------------------------------------------------- 1 | 哀求-乞求 2 | 哀伤-哀痛 3 | 爱护-爱戴 4 | 羡慕-爱慕 5 | 安静-安宁 6 | 安排-安置 7 | 安全-安然 8 | 安慰-欣慰 9 | 安葬-埋葬 10 | 暗藏-隐藏 11 | 暗害-暗算 12 | 按时-按期 13 | 飞翔-翱翔 14 | 奥秘-奥妙 15 | 把握-掌握 16 | 摆动-跳动 17 | 拜访-拜会 18 | 拜托-委托 19 | 公布-颁布 20 | 办法-措施 21 | 办法-方法 22 | 方法-措施 23 | 帮忙-帮助 24 | 榜样-表率 25 | 傍晚-黄昏 26 | 宝贵-珍贵 27 | 宝藏-矿藏 28 | 保持-坚持 29 | 保存-保留 30 | 保卫-捍卫 31 | 保障-保证 32 | 饱满-丰满 33 | 暴躁-急躁 34 | 抱负-志向 35 | 便利-方便 36 | 标记-标志 37 | 表达-表示 38 | 表现-体现 39 | 表扬-表彰 40 | 波折-曲折 41 | 薄弱-脆弱 42 | 不管-不论 43 | 不管-无论 44 | 不论-无论 45 | 布告-公告 46 | 恶毒-毒辣 47 | 发表-发布 48 | 发展-开展 49 | 繁荣-繁华 50 | 妨碍-阻碍 51 | 好像-仿佛 52 | 好像-似乎 53 | 仿佛-似乎 54 | 放弃-抛弃 55 | 分离-离别 56 | 丰富-丰盛 57 | 风景-景色 58 | 风趣-幽默 59 | 风俗-风尚 60 | 奉献-贡献 61 | 富丽-华丽 62 | 富裕-富饶 63 | 富足-富有 64 | 改变-转变 65 | 干净-洁净 66 | 甘愿-甘心 67 | 赶紧-赶快 68 | 感觉-觉得 69 | 感激-感谢 70 | 高潮-热潮 71 | 高手-能手 72 | 高兴-愉快 73 | 根本-基本 74 | 告别-告辞 75 | 歌唱-歌颂 76 | 根据-依据 77 | 跟随-跟从 78 | 功绩-功劳 79 | 公开-敞开 80 | 公平-公正 81 | 供给-供应 82 | 巩固-稳固 83 | 共同-相同 84 | 估计-估量 85 | 鼓舞-鼓励 86 | 关怀-关心 87 | 关注-关切 88 | 观测-观察 89 | 留心-留意 90 | 笼罩-覆盖 91 | 旅行-旅游 92 | 落后-落伍 93 | 马虎-粗心 94 | 满意-满足 95 | 美好-美妙 96 | 美满-圆满 97 | 面临-面对 98 | 明显-显著 99 | 模仿-模拟 100 | 目标-目的 101 | 目前-当前 102 | 目前-眼前 103 | 当前-眼前 104 | 耐心-耐烦 105 | 难过-难受 106 | 年纪-年龄 107 | 偶尔-偶然 108 | 彷徨-徘徊 109 | 培养-培育 110 | 贫困-贫苦 111 | 品质-品德 112 | 平凡-普通 113 | 平衡-平均 114 | 扑灭-消灭 115 | 朴实-朴素 116 | 期待-等待 117 | 等待-等候 118 | 其他-其余 119 | 启示-启发 120 | 气候-天气 121 | 谦虚-谦逊 122 | 前程-前途 123 | 强健-强壮 124 | 强盛-强大 125 | 亲爱-敬爱 126 | 亲密-密切 127 | 侵略-侵犯 128 | 勤奋-勤恳 129 | 勤快-勤劳 130 | 清晨-早晨 131 | 清楚-清晰 132 | 清洁-干净 133 | 布置-部署 134 | 猜想-料想 135 | 才能-才干 136 | 财产-财富 137 | 材料-原料 138 | 采取-采用 139 | 采取-采纳 140 | 采纳-采用 141 | 参观-访问 142 | 参加-参与 143 | 惭愧-愧疚 144 | 灿烂-辉煌 145 | 操劳-操心 146 | 喧闹-喧哗 147 | 测试-测验 148 | 曾经-已经 149 | 查看-察看 150 | 产生-发生 151 | 常常-往往 152 | 长久-长远 153 | 长处-优点 154 | 超过-超越 155 | 潮湿-湿润 156 | 沉默-沉静 157 | 沉重-深重 158 | 陈列-排列 159 | 趁机-乘机 160 | 支持-撑腰 161 | 称赞-称道 162 | 成功-胜利 163 | 成果-结果 164 | 成绩-成就 165 | 诚心-诚意 166 | 显现-呈现 167 | 持续-继续 168 | 充足-充分 169 | 冲击-袭击 170 | 重复-反复 171 | 憧憬-向往 172 | 崇高-高尚 173 | 出发-动身 174 | 出生-诞生 175 | 处罚-处分 176 | 观看-观望 177 | 观赏-欣赏 178 | 关系-联系 179 | 管理-治理 180 | 广阔-广大 181 | 规矩-规则 182 | 过程-进程 183 | 过错-过失 184 | 害怕-惧怕 185 | 罕见-少见 186 | 好奇 -新奇 187 | 合适-适合 188 | 合作-协作 189 | 和蔼-亲切 190 | 痕迹-踪迹 191 | 宏大-庞大 192 | 宏伟-雄伟 193 | 洪亮-响亮 194 | 洪亮-宏亮 195 | 宏亮-嘹亮 196 | 响亮-嘹亮 197 | 后来-以后 198 | 忽略-疏忽 199 | 互相-相互 200 | 环绕-围绕 201 | 幻想-梦想 202 | 慌忙-慌张 203 | 灰心-丧气 204 | 恢复-回复 205 | 回顾-回忆 206 | 回答-解答 207 | 活动-运动 208 | 活力-生机 209 | 激烈-剧烈 210 | 机会-时机 211 | 技巧-技术 212 | 记录-记载 213 | 纪念-留念 214 | 家乡-故乡 215 | 价格-价钱 216 | 价格-价值 217 | 价钱-价值 218 | 艰苦-艰难 219 | 艰苦-艰辛 220 | 艰难-艰辛 221 | 检查-检讨 222 | 建立-树立 223 | 将来-未来 224 | 轻捷-轻快 225 | 轻易-容易 226 | 请求-要求 227 | 请求-申请 228 | 劝告-劝说 229 | 缺少-缺乏 230 | 热爱-酷爱 231 | 热情-热忱 232 | 热烈-热闹 233 | 人民-群众 234 | 忍耐-忍受 235 | 任性-随便 236 | 仍然-依然 237 | 柔软-柔嫩 238 | 丧失-损失 239 | 商量-商议 240 | 上任-上台 241 | 设备-设施 242 | 身材-身体 243 | 慎重-郑重 244 | 试验-实验 245 | 时候-时刻 246 | 时节-季节 247 | 食品-食物 248 | 事件-事情 249 | 思考-思索 250 | 搜查-搜索 251 | 搜集-收集 252 | 损害-伤害 253 | 所有-一切 254 | 谈话-谈说 255 | 特别-特殊 256 | 特点-特性 257 | 特点-特征 258 | 特性-特征 259 | 体会-体验 260 | 天然-自然 261 | 突然-忽然 262 | 弯曲-曲折 263 | 完美-完善 264 | 位置-地位 265 | 喜悦-欢乐 266 | 信任-相信 267 | 惭愧-羞愧 268 | 处理-处置 269 | 传播-流传 270 | 创办-创建 271 | 创造-发明 272 | 慈爱-慈祥 273 | 次序-秩序 274 | 聪明-伶俐 275 | 匆忙-连忙 276 | 从来-向来 277 | 错误-失误 278 | 答应-允许 279 | 达到-到达 280 | 打扮-装扮 281 | 打动-感动 282 | 打扰-打搅 283 | 打听-探听 284 | 大概-大约 285 | 大局-全局 286 | 大力-全力 287 | 大量-大批 288 | 代表-代替 289 | 带动-带头 290 | 带领-率领 291 | 逮捕-捕获 292 | 担心-操心 293 | 单纯-单一 294 | 当场-当面 295 | 当场-现场 296 | 当初-当时 297 | 道路-路线 298 | 抵抗-抵制 299 | 装饰-点缀 300 | 典型-典范 301 | 丢失-遗失 302 | 动听-入耳 303 | 动员-发动 304 | 等待-等候 305 | 斗争-奋斗 306 | 度过-渡过 307 | 对比-对角 308 | 对待-看待 309 | 多亏-幸亏 310 | 骄傲-自豪 311 | 教育-教训 312 | 接待-招待 313 | 接见-会见 314 | 接受-接收 315 | 节省 -节约 316 | 竭力-尽力 317 | 解除-排除 318 | 谨慎-小心 319 | 紧急-紧迫 320 | 紧密-密切 321 | 进步-先进 322 | 经过-通过 323 | 精美-精致 324 | 局面-局势 325 | 决定-决议 326 | 绝望-失望 327 | 开始-开头 328 | 开发-开拓 329 | 坎坷-崎岖 330 | 慷慨-大方 331 | 可惜-惋惜 332 | 可以-能够 333 | 克服-战胜 334 | 空气-气氛 335 | 恐惧-恐怖 336 | 苦难-磨难 337 | 宽敞-宽阔 338 | 困难-困苦 339 | 垃圾-渣滓 340 | 冷淡-冷酷 341 | 理睬-理会 342 | 理解-了解 343 | 力量-力气 344 | 立即-立刻 345 | 立即-马上 346 | 立刻-马上 347 | 利用-使用 348 | 连续-陆续 349 | 小气-吝啬 350 | 灵活-机动 351 | 领导-领袖 352 | 流言-谣言 353 | 宣布-宣告 354 | 迅速-快速 355 | 严格-严厉 356 | 炎热-酷热 357 | 一定-肯定 358 | 意思-意义 359 | 英勇-勇敢 360 | 友爱-友好 361 | 尤其-特别 362 | 友谊-友情 363 | 预报-预告 364 | 灾害-灾难 365 | 赞美-赞扬 366 | 暂时-临时 367 | 珍贵-宝贵 368 | 珍惜-爱惜 369 | 震动-振动 370 | 照顾-照看 371 | 整顿-整理 372 | 支持-支援 373 | 指挥-指导 374 | 制造-制作 375 | 忠诚-忠实 376 | 终身-终生 377 | 吩咐-嘱咐 378 | 祝福-祝愿 379 | 闻名-驰名 380 | 闻名-著名 381 | 驰名-著名 382 | 转变-改变 383 | 准时-及时 384 | 仔细-细致 385 | 自动-主动 386 | 尊敬-尊重 387 | 姿势-姿态 388 | 准确-精确 389 | 滋味-味道 390 | 促使-促进 391 | 早上-上午 392 | 没-忘 393 | 视为-称为 394 | 大于-超过 395 | 蓄意-故意 396 | 最-第一 397 | 认定-宣布 398 | 生于-诞生 399 | 著名-有名 400 | 配种-交配 401 | 起初-起先 402 | 最初-最先 403 | 现行-目前 404 | 拥有-设立 405 | 组织-机构 406 | 别名-又名 407 | 必须-一定 408 | 地点-位于 409 | 巴基斯坦-巴国 410 | 布什-美国 411 | 举办-落幕 412 | 来自-出身 413 | 认为-主张 414 | 领导人-领袖 415 | 强-显著 416 | 没有-无 417 | 作用-工作 -------------------------------------------------------------------------------- /data/stop_words.txt: -------------------------------------------------------------------------------- 1 | 【 2 | 】 3 | 陡然 4 | 不惟 5 | 从轻 6 | 基于 7 | 能否 8 | 理该 9 | 合理 10 | 地 11 | 轰然 12 | 大抵 13 | 在 14 | 此 15 | 倍感 16 | 从小 17 | @ 18 | 那里 19 | 了 20 | 二 21 | 于 22 | 由是 23 | 互 24 | 五 25 | 等到 26 | 些 27 | 看来 28 | 纵令 29 | 吧哒 30 | 亦 31 | LI 32 | 反手 33 | 不然 34 | 各人 35 | 人 36 | 曾经 37 | 白白 38 | 猛然 39 | 只消 40 | 除此 41 | 不得已 42 | 够瞧的 43 | 此后 44 | 长话短说 45 | + 46 | 这儿 47 | 某某 48 | [②] 49 | [② 50 | ={ 51 | 难说 52 | 倍加 53 | 整个 54 | .一 55 | 某 56 | 谁人 57 | 自各儿 58 | ︿ 59 | 明确 60 | ~+ 61 | 强调 62 | 我的 63 | [③F] 64 | 焉 65 | 如 66 | [②g] 67 | 清楚 68 | 专门 69 | -- 70 | 加上 71 | 你是 72 | 年复一年 73 | 不至于 74 | 又及 75 | 重大 76 | ~ 77 | 所谓 78 | 这么 79 | 数/ 80 | 十分 81 | 距 82 | 长线 83 | 介于 84 | 才能 85 | 毕竟 86 | 云云 87 | 自身 88 | 连同 89 | 一番 90 | 一天 91 | 范围 92 | 而外 93 | 人们 94 | 不曾 95 | 绝顶 96 | A 97 | 可好 98 | 应当 99 | 哪里 100 | 汝 101 | 见 102 | 带 103 | 最後 104 | ...... 105 | 接连不断 106 | 之类 107 | 那边 108 | 相应 109 | 常 110 | 前后 111 | 粗 112 | 不外 113 | 莫不 114 | 多亏 115 | 最 116 | 不够 117 | 属于 118 | 故此 119 | 一起 120 | 朝 121 | 尽早 122 | 本 123 | , 124 | 不大 125 | 诸如 126 | 顷刻之间 127 | 不能不 128 | 四 129 | ` 130 | 总的说来 131 | 一致 132 | 企图 133 | 以前 134 | 鄙人 135 | 八成 136 | 咱们 137 | 与其 138 | 固 139 | 这麽 140 | 彼此 141 | 因 142 | 存心 143 | 此次 144 | 不但 145 | 代替 146 | 到底 147 | 成心 148 | 每时每刻 149 | 饱 150 | 哈哈 151 | 那个 152 | 理应 153 | 必须 154 | 分期分批 155 | ′| 156 | 看起来 157 | ][ 158 | 先后 159 | 公然 160 | 动辄 161 | 使 162 | 按照 163 | 敞开儿 164 | 顿时 165 | [①②] 166 | 精光 167 | 常常 168 | 恰好 169 | 诚然 170 | 逢 171 | 明显 172 | 向 173 | × 174 | 于是乎 175 | 只当 176 | 组成 177 | 伟大 178 | ②c 179 | 己 180 | 累年 181 | 巴 182 | 川流不息 183 | 任何 184 | 据悉 185 | 奈 186 | 要 187 | 是以 188 | 奇 189 | 好 190 | 二话没说 191 | 宁肯 192 | 日复一日 193 | 绝不 194 | 猛然间 195 | 仅 196 | 从优 197 | 从 198 | 仍 199 | 今 200 | 他 201 | 比较 202 | 此中 203 | 偶尔 204 | 以 205 | 这边 206 | 怎奈 207 | 们 208 | 般的 209 | - 210 | 任 211 | [⑤e] 212 | 长此下去 213 | 帮助 214 | 权时 215 | 显著 216 | [③e] 217 | 借此 218 | 恰恰相反 219 | 嗳 220 | 倒是 221 | …………………………………………………③ 222 | 乌乎 223 | [④a] 224 | 甚么 225 | 并没 226 | 这一来 227 | 不止一次 228 | 二来 229 | 奋勇 230 | 随后 231 | 倘然 232 | 多么 233 | 姑且 234 | 来 235 | 如果 236 | 真是 237 | 相反 238 | [⑥] 239 | 以後 240 | 有些 241 | 准备 242 | 上去 243 | 直接 244 | 造成 245 | 最高 246 | 坚决 247 | 风雨无阻 248 | [- 249 | -β 250 | [①D] 251 | 不已 252 | 其中 253 | 不会 254 | 不巧 255 | 其一 256 | 而且 257 | 从早到晚 258 | 12% 259 | 截然 260 | 三天两头 261 | 别处 262 | 这么点儿 263 | 差不多 264 | 除却 265 | 应该 266 | 其次 267 | . 268 | 大体上 269 | 除此而外 270 | 前者 271 | ⑦ 272 | ⑧ 273 | ⑤ 274 | ⑥ 275 | ③ 276 | ④ 277 | ① 278 | ② 279 | 趁早 280 | 换言之 281 | 彼时 282 | ⑨ 283 | ⑩ 284 | 当时 285 | 在下 286 | 从宽 287 | 原来 288 | 首先 289 | 对方 290 | ,也 291 | 或许 292 | 赖以 293 | 每当 294 | 如前所述 295 | .数 296 | 替代 297 | 乃至 298 | [②⑤] 299 | 觉得 300 | 正巧 301 | 一来 302 | 倒不如 303 | 全面 304 | 打从 305 | 到 306 | 大体 307 | 有所 308 | 特殊 309 | 即是说 310 | 能 311 | 始而 312 | 适用 313 | 即令 314 | 别 315 | +ξ 316 | 初 317 | 刚 318 | 比及 319 | 则 320 | 切 321 | 三番两次 322 | 多多 323 | 略加 324 | 顶多 325 | 得天独厚 326 | 如同 327 | 当口儿 328 | 相同 329 | 零 330 | 赶快 331 | 成年 332 | 非特 333 | 仍旧 334 | 它们的 335 | 之前 336 | 按 337 | 主要 338 | 隔夜 339 | 屡屡 340 | 挨个 341 | 出去 342 | 遭到 343 | 更为 344 | 瑟瑟 345 | 遵循 346 | 甚且 347 | 行为 348 | 呆呆地 349 | 极其 350 | 大 351 | 着呢 352 | 并无 353 | 看上去 354 | 进而 355 | 不同 356 | 甚至 357 | 愤然 358 | [⑩] 359 | 人家 360 | / 361 | 多 362 | 不仅仅是 363 | 不迭 364 | [⑤b] 365 | 相当 366 | 亲口 367 | 人民 368 | 顷刻 369 | [③⑩] 370 | 立马 371 | 难道 372 | 然 373 | 不再 374 | 已经 375 | 不过 376 | 何必 377 | 维持 378 | 保持 379 | 鉴于 380 | 起来 381 | 与此同时 382 | 出 383 | 为了 384 | 从事 385 | 凭 386 | [②⑧] 387 | 凡 388 | 几 389 | 当头 390 | 快要 391 | 仍然 392 | 那么 393 | ]∧′=[ 394 | <± 395 | 概 396 | 各式 397 | 具体来说 398 | 毫无例外 399 | 中小 400 | 或多或少 401 | 正值 402 | 所幸 403 | 连连 404 | 单单 405 | 串行 406 | 除此之外 407 | 余外 408 | 难怪 409 | [①c] 410 | 次第 411 | 哪天 412 | 严重 413 | 已矣 414 | 刚好 415 | 元/吨 416 | 来讲 417 | 要是 418 | 之一 419 | 反倒是 420 | 您 421 | 即如 422 | 从新 423 | 刚巧 424 | 不怕 425 | 反映 426 | 转变 427 | 举凡 428 | 本身 429 | 自个儿 430 | 周围 431 | :: 432 | 过去 433 | 没奈何 434 | 傥然 435 | 突然 436 | 传说 437 | 正在 438 | 凝神 439 | 0 440 | 与其说 441 | 以期 442 | 总之 443 | 简言之 444 | 练习 445 | 继而 446 | 怎样 447 | 据 448 | Lex 449 | 比如说 450 | 哼唷 451 | 避免 452 | 下来 453 | 其二 454 | 挨门逐户 455 | 随 456 | 只是 457 | 叫做 458 | 实际 459 | [②①] 460 | 存在 461 | 关于 462 | 转贴 463 | 匆匆 464 | 嗡嗡 465 | 无宁 466 | 跟 467 | 虽然 468 | 活 469 | 大量 470 | 受到 471 | [①④] 472 | 难道说 473 | 由此 474 | 构成 475 | 形成 476 | 也好 477 | 更进一步 478 | 认识 479 | 自后 480 | [ 481 | 全力 482 | 个人 483 | 自打 484 | 所以 485 | 突出 486 | 依照 487 | 先生 488 | 纯粹 489 | 按时 490 | 上面 491 | 是否 492 | .日 493 | 嘿 494 | 嘻 495 | 多年来 496 | 具体地说 497 | 呵呵 498 | 藉以 499 | 有的 500 | 良好 501 | 不仅仅 502 | 嘛 503 | 嘘 504 | 尔等 505 | 独自 506 | 冲 507 | 不若 508 | 取得 509 | 假若 510 | 共总 511 | 极端 512 | 立刻 513 | ℃ 514 | 矣乎 515 | 冒 516 | 极度 517 | ................... 518 | 凭借 519 | 欢迎 520 | 那些 521 | 迅速 522 | 内 523 | 陈年 524 | 等 525 | 对比 526 | 上来 527 | 暗自 528 | 坚持 529 | 得出 530 | 1 531 | 重新 532 | 之後 533 | 我们 534 | 本地 535 | >λ 536 | 来着 537 | 联系 538 | 率然 539 | [②④ 540 | 决定 541 | 慢说 542 | [②f] 543 | 还要 544 | 你们 545 | 来说 546 | 必然 547 | 怎么 548 | 交口 549 | 趁势 550 | 及其 551 | 就是了 552 | 许多 553 | )÷(1- 554 | 虽 555 | 那末 556 | 连日 557 | 因此 558 | 切不可 559 | 真正 560 | 目前 561 | 经常 562 | 任务 563 | 以来 564 | \ 565 | 过来 566 | 处处 567 | 何须 568 | 比方 569 | 非常 570 | 嘿嘿 571 | 后来 572 | 倘 573 | 加强 574 | 一片 575 | 共同 576 | 该当 577 | 因着 578 | 应用 579 | 抑或 580 | 另一个 581 | 看看 582 | 最后 583 | 出现 584 | 何况 585 | 即使 586 | 这时 587 | 不可开交 588 | 就地 589 | 从速 590 | 一直 591 | 在于 592 | 起首 593 | 倘或 594 | [②a] 595 | 全部 596 | 难得 597 | 另行 598 | 罢了 599 | 据此 600 | 截至 601 | 特点 602 | 全都 603 | 怕 604 | 就此 605 | 古来 606 | 举行 607 | 来看 608 | 怎 609 | 巩固 610 | 而后 611 | 通常 612 | 故而 613 | 2 614 | 正如 615 | 用来 616 | 里面 617 | 怪 618 | 自从 619 | 齐 620 | 嗯 621 | 嗬 622 | 嗡 623 | 恍然 624 | 大家 625 | 以免 626 | 方 627 | 分头 628 | 话说 629 | 随著 630 | 取道 631 | 因而 632 | 背靠背 633 | 除 634 | 前面 635 | 即若 636 | 非独 637 | 从此以后 638 | 遵照 639 | 不久 640 | 几番 641 | 眨眼 642 | 实现 643 | 他们 644 | 其他 645 | ′∈ 646 | 简直 647 | 依靠 648 | 积极 649 | 综上所述 650 | 毫不 651 | 一下 652 | 成为 653 | ] 654 | 一一 655 | 第 656 | > 657 | 充其量 658 | 一个 659 | 竟而 660 | 有 661 | 5:0 662 | 既...又 663 | 最好 664 | 下列 665 | ~± 666 | [③①] 667 | =- 668 | 刚才 669 | =( 670 | 今天 671 | 从而 672 | =[ 673 | [③h] 674 | ~~~~ 675 | [③g] 676 | 后面 677 | [⑧] 678 | 适当 679 | [②⑥] 680 | 挨家挨户 681 | 不论 682 | 然后 683 | 弹指之间 684 | 从古到今 685 | 深入 686 | 望 687 | 呼啦 688 | 看到 689 | 似的 690 | 从严 691 | 其 692 | 共 693 | 从中 694 | 现代 695 | 六 696 | 兮 697 | 八 698 | 极为 699 | 至若 700 | 采取 701 | 也就是说 702 | 由于 703 | 从不 704 | 除去 705 | 3 706 | 为主 707 | 光 708 | 类如 709 | 还是 710 | 连声 711 | 这就是说 712 | 最近 713 | ∪φ∈ 714 | ㈧ 715 | 再则 716 | 移动 717 | 下面 718 | 据我所知 719 | 哎呀 720 | <λ 721 | 相对 722 | 处在 723 | 碰巧 724 | 别是 725 | 不限 726 | <Δ 727 | 近几年来 728 | 啊哟 729 | 如若 730 | 恰逢 731 | 接著 732 | 较 733 | 啊哈 734 | 如其 735 | 边 736 | 替 737 | 另方面 738 | 并排 739 | 可见 740 | 不比 741 | 先不先 742 | 乘机 743 | 而论 744 | 广泛 745 | ^ 746 | 行动 747 | 何处 748 | 说来 749 | 能够 750 | 有及 751 | [①C] 752 | }> 753 | 相等 754 | 朝着 755 | 就是说 756 | 这种 757 | 高兴 758 | 只限 759 | - 760 | 怎麽 761 | 动不动 762 | 着 763 | 尽快 764 | 不免 765 | 沿着 766 | 不外乎 767 | 逐步 768 | 掌握 769 | 反过来 770 | 届时 771 | 不一 772 | 阿 773 | 它是 774 | 不下 775 | [②i] 776 | 将近 777 | 知道 778 | 进步 779 | 对 780 | 他人 781 | 除外 782 | f] 783 | 一定 784 | 不经意 785 | ××× 786 | 倒不如说 787 | 这次 788 | 便于 789 | 岂非 790 | [②③] 791 | [④c] 792 | 反倒 793 | 设或 794 | 不知不觉 795 | 4 796 | 打开天窗说亮话 797 | 率尔 798 | 庶乎 799 | 每年 800 | 大不了 801 | 莫若 802 | 岂 803 | 最大 804 | 到头来 805 | 亲眼 806 | 几经 807 | 策略地 808 | 满 809 | [①i] 810 | 基本 811 | 当场 812 | 反之亦然 813 | 无 814 | 既 815 | 怎么办 816 | 3 817 | 喽 818 | 老大 819 | 宣布 820 | 转动 821 | 或曰 822 | 喏 823 | 喀 824 | 喂 825 | 这般 826 | 8 827 | 乘虚 828 | {- 829 | 迟早 830 | 敢情 831 | 一旦 832 | 毫无 833 | < 834 | 致 835 | 至 836 | = 837 | 一时 838 | 很多 839 | 容易 840 | ? 841 | 也罢 842 | _ 843 | 可能 844 | 不拘 845 | [①] 846 | 接下来 847 | 那会儿 848 | $ 849 | 宁 850 | 它 851 | 借以 852 | 社会主义 853 | 趁着 854 | 它的 855 | 今年 856 | 不仅 857 | 定 858 | * 859 | e] 860 | 规定 861 | 那般 862 | 密切 863 | 使得 864 | , 865 | 果真 866 | 以便 867 | 何时 868 | 为止 869 | [①B] 870 | 经过 871 | 沙沙 872 | 一些 873 | 近 874 | 连 875 | 砰 876 | 近来 877 | 还 878 | 这 879 | 过 880 | 迄 881 | [①a] 882 | 略微 883 | 根据 884 | 间或 885 | 不常 886 | 之所以 887 | 管 888 | 看样子 889 | 再有 890 | 不起 891 | 蛮 892 | —— 893 | 亲身 894 | 谁 895 | 巨大 896 | 因为 897 | 绝对 898 | 看出 899 | 非徒 900 | 非得 901 | _ 902 | 重要 903 | 当即 904 | 哪儿 905 | 若是 906 | 进去 907 | 处理 908 | 设使 909 | 惟其 910 | 不力 911 | 彻底 912 | 她们 913 | 看 914 | 各级 915 | 允许 916 | 向使 917 | 暗中 918 | 过于 919 | 极了 920 | 谨 921 | 进行 922 | Ψ 923 | 据称 924 | 不问 925 | 像 926 | 越是 927 | 哎哟 928 | μ 929 | γ 930 | 亲自 931 | 否则 932 | 什么 933 | -- 934 | 全然 935 | 即便 936 | 各位 937 | Δ 938 | 缕缕 939 | ——— 940 | 老是 941 | 继后 942 | 有利 943 | 每逢 944 | [④b] 945 | 犹自 946 | 各地 947 | 广大 948 | ZXFITL 949 | [②d] 950 | 况且 951 | sub 952 | 每每 953 | [⑨] 954 | 高低 955 | sup 956 | 不定 957 | 归根到底 958 | 啥 959 | 啦 960 | 拦腰 961 | 尽管 962 | 的确 963 | 确定 964 | 成年累月 965 | 啊 966 | 旁人 967 | 恰恰 968 | 唯有 969 | 不得了 970 | 啐 971 | 或是 972 | 好的 973 | 随着 974 | 一转眼 975 | 矣 976 | 毋宁 977 | 反而 978 | 认真 979 | 左右 980 | 6 981 | 譬喻 982 | 要么 983 | 倘使 984 | [③a] 985 | 每天 986 | 再次 987 | 只有 988 | 一方面 989 | 不了 990 | 理当 991 | 对应 992 | 让 993 | 大概 994 | → 995 | ↑ 996 | 论 997 | 您是 998 | 归齐 999 | 具体说来 1000 | ng昉 1001 | 毫无保留地 1002 | [①③] 1003 | 惯常 1004 | ! 1005 | 给 1006 | 三番五次 1007 | 屡 1008 | 后者 1009 | [①d] 1010 | 不是 1011 | 尽然 1012 | 照着 1013 | 快 1014 | 甚或 1015 | 那儿 1016 | 好象 1017 | 必 1018 | 的话 1019 | 局外 1020 | 有效 1021 | 倘若 1022 | 不满 1023 | 居然 1024 | 敢 1025 | >> 1026 | 说说 1027 | 既往 1028 | 故 1029 | 方便 1030 | 唉 1031 | 既然 1032 | 固然 1033 | ”, 1034 | 或则 1035 | 再者 1036 | 不光 1037 | 起头 1038 | 这会儿 1039 | 何苦 1040 | 总的来看 1041 | 于是 1042 | 复杂 1043 | 据说 1044 | 按理 1045 | 如何 1046 | 如期 1047 | ++ 1048 | 恰似 1049 | 啊呀 1050 | 光是 1051 | 多次 1052 | 由此可见 1053 | 它们 1054 | 何以 1055 | 上下 1056 | 这点 1057 | 7 1058 | 上升 1059 | 起初 1060 | 此间 1061 | 各种 1062 | 何妨 1063 | 她是 1064 | 尔尔 1065 | 啪达 1066 | " 1067 | 表示 1068 | 不对 1069 | 即将 1070 | 叮咚 1071 | 多多益善 1072 | 经 1073 | 而言 1074 | 赶 1075 | 一则 1076 | 一切 1077 | 不止 1078 | 起 1079 | 绝 1080 | 从来 1081 | [①f] 1082 | 後面 1083 | 日见 1084 | [①A] 1085 | 每个 1086 | 争取 1087 | 因了 1088 | 从古至今 1089 | 引起 1090 | 为什么 1091 | 任凭 1092 | 得 1093 | 往 1094 | 待 1095 | 很 1096 | 路经 1097 | 有的是 1098 | ≈ 1099 | 不怎么 1100 | 到处 1101 | 尽心尽力 1102 | 已 1103 | 个别 1104 | 如此 1105 | 当中 1106 | 就要 1107 | 千万千万 1108 | 尽管如此 1109 | 到头 1110 | =″ 1111 | 要不 1112 | 矣哉 1113 | 一面 1114 | 传 1115 | 继续 1116 | 当下 1117 | 迫于 1118 | 会 1119 | 很少 1120 | 作为 1121 | [③b] 1122 | 这么些 1123 | [②c] 1124 | 从头 1125 | 将才 1126 | 小 1127 | 纵使 1128 | 将 1129 | 叮当 1130 | 尽 1131 | 当然 1132 | 不时 1133 | 完成 1134 | 就 1135 | 比起 1136 | exp 1137 | 不日 1138 | 若 1139 | 纯 1140 | 纵然 1141 | 她的 1142 | 得到 1143 | 相信 1144 | 何止 1145 | 纵 1146 | 喔唷 1147 | φ 1148 | 有力 1149 | 8 1150 | 彻夜 1151 | 不但...而且 1152 | 趁便 1153 | 哼 1154 | 哦 1155 | 尽心竭力 1156 | 她 1157 | 哪些 1158 | 哩 1159 | 哗 1160 | [①E] 1161 | 〕〔 1162 | 从今以后 1163 | 哟 1164 | 哇 1165 | 不得不 1166 | 哉 1167 | 哈 1168 | 後来 1169 | 请勿 1170 | 以上 1171 | 以下 1172 | 另悉 1173 | 某些 1174 | 几度 1175 | 别的 1176 | 以为 1177 | 待到 1178 | # 1179 | 该 1180 | 充其极 1181 | 变成 1182 | 安全 1183 | ■ 1184 | 至于 1185 | 及至 1186 | [*] 1187 | 诸 1188 | 不得 1189 | 少数 1190 | 自己 1191 | 无论 1192 | 若果 1193 | 而况 1194 | 是不是 1195 | 哗啦 1196 | 乘隙 1197 | 偶而 1198 | 召开 1199 | 不料 1200 | 另 1201 | 仅仅 1202 | 来得及 1203 | 叫 1204 | 只 1205 | 可 1206 | 其它 1207 | 其实 1208 | 两者 1209 | 及 1210 | 然後 1211 | 又 1212 | 双方 1213 | 不断 1214 | 立时 1215 | 一样 1216 | 总而言之 1217 | 当庭 1218 | 彼 1219 | 必要 1220 | 分别 1221 | 平素 1222 | 此时 1223 | 当 1224 | 归 1225 | 儿 1226 | 但愿 1227 | 云尔 1228 | { 1229 | 起见 1230 | 扑通 1231 | } 1232 | | 1233 | 还有 1234 | 全年 1235 | 立即 1236 | 注意 1237 | [③] 1238 | 接着 1239 | 赶早不赶晚 1240 | 决不 1241 | 切切 1242 | 部分 1243 | 9 1244 | 其后 1245 | 莫不然 1246 | 以及 1247 | 心里 1248 | 你 1249 | 不成 1250 | 本人 1251 | 莫非 1252 | 大多 1253 | 大大 1254 | 互相 1255 | 何 1256 | [①g] 1257 | 然而 1258 | 但 1259 | 按期 1260 | 二话不说 1261 | [①⑥] 1262 | 那麽 1263 | 可以 1264 | [①⑨] 1265 | 竟 1266 | [] 1267 | 以外 1268 | 立 1269 | 不必 1270 | 从无到有 1271 | 不足 1272 | $ 1273 | 只怕 1274 | 常言说 1275 | 贼死 1276 | 绝非 1277 | 一何 1278 | 故意 1279 | 反之 1280 | 一边 1281 | 按说 1282 | 大致 1283 | 颇 1284 | 另外 1285 | 所在 1286 | 宁愿 1287 | ── 1288 | 1. 1289 | 更加 1290 | 日渐 1291 | 问题 1292 | << 1293 | 也是 1294 | 千万 1295 | 愿意 1296 | 乘势 1297 | 多年前 1298 | 根本 1299 | 大面儿上 1300 | ▲ 1301 | 归根结底 1302 | 意思 1303 | 挨次 1304 | 尔 1305 | 极力 1306 | 老老实实 1307 | [④d] 1308 | 如上所述 1309 | 必定 1310 | 却不 1311 | 如次 1312 | 而已 1313 | 嘎 1314 | 漫说 1315 | 白 1316 | 这里 1317 | 至今 1318 | 相对而言 1319 | 便 1320 | 借 1321 | 犹且 1322 | 牢牢 1323 | 假如 1324 | .. 1325 | 有点 1326 | 依 1327 | 单纯 1328 | : 1329 | 哪年 1330 | 不胜 1331 | 常言道 1332 | 丰富 1333 | 去 1334 | 结合 1335 | 背地里 1336 | 历 1337 | 不能 1338 | 常言说得好 1339 | 使用 1340 | 不敢 1341 | 与否 1342 | 俺 1343 | 咱 1344 | 曾 1345 | 咳 1346 | 更 1347 | 怪不得 1348 | 今后 1349 | 咦 1350 | 咧 1351 | 此地 1352 | 并没有 1353 | 战斗 1354 | 换句话说 1355 | 随时 1356 | % 1357 | 除非 1358 | 立地 1359 | 咚 1360 | 和 1361 | 完全 1362 | 尽如人意 1363 | 腾 1364 | 有时 1365 | 咋 1366 | 0 1367 | 1 1368 | 2 1369 | 敢于 1370 | 4 1371 | 5 1372 | 6 1373 | 7 1374 | 断然 1375 | 9 1376 | : 1377 | ; 1378 | 亲手 1379 | 哪样 1380 | 为何 1381 | 切勿 1382 | ! 1383 | # 1384 | 出来 1385 | % 1386 | & 1387 | ' 1388 | ( 1389 | ) 1390 | 向着 1391 | + 1392 | 出于 1393 | 前进 1394 | . 1395 | / 1396 | 抽冷子 1397 | 殆 1398 | [ 1399 | ] 1400 | 连袂 1401 | @ 1402 | A 1403 | 偏偏 1404 | 有关 1405 | 一般 1406 | Ⅲ 1407 | 挨着 1408 | 当前 1409 | [②⑩] 1410 | 非但 1411 | 普通 1412 | 假使 1413 | 除此以外 1414 | 运用 1415 | 是的 1416 | 紧接着 1417 | 某个 1418 | 比照 1419 | 庶几 1420 | [①o] 1421 | 尚且 1422 | 上述 1423 | 以故 1424 | 得起 1425 | 窃 1426 | 起先 1427 | 并且 1428 | 全身心 1429 | 默然 1430 | 不管怎样 1431 | 并不 1432 | 这个 1433 | 反应 1434 | 前此 1435 | 充分 1436 | 并非 1437 | 究竟 1438 | ∈[ 1439 | 放量 1440 | [②②] 1441 | 弗 1442 | …… 1443 | 适应 1444 | ; 1445 | 产生 1446 | 再 1447 | 先後 1448 | 省得 1449 | 嘎嘎 1450 | [①①] 1451 | 那么样 1452 | 臭 1453 | 没有 1454 | 自 1455 | 顷刻间 1456 | 可是 1457 | 有着 1458 | 多数 1459 | 不可抗拒 1460 | 具有 1461 | 到目前为止 1462 | & 1463 | 怎么样 1464 | ¥ 1465 | 不特 1466 | [②⑦] 1467 | 这样 1468 | 进来 1469 | 从未 1470 | 正常 1471 | 以至于 1472 | 来不及 1473 | 豁然 1474 | 较比 1475 | 并不是 1476 | 嘎登 1477 | 诚如 1478 | 伙同 1479 | 设若 1480 | 好在 1481 | 中间 1482 | 哪 1483 | 再者说 1484 | 万一 1485 | 别说 1486 | 日益 1487 | 说明 1488 | 且不说 1489 | 把 1490 | [②j] 1491 | 《 1492 | [①⑤] 1493 | 何乐而不为 1494 | 顺 1495 | 累次 1496 | 顷 1497 | 呸 1498 | 只要 1499 | 保管 1500 | 之 1501 | 呵 1502 | ③] 1503 | 大多数 1504 | 是 1505 | [⑤f] 1506 | 总是 1507 | 呢 1508 | 。 1509 | 勃然 1510 | 比如 1511 | 呜 1512 | 那么些 1513 | 呐 1514 | 哪个 1515 | 呕 1516 | 呗 1517 | 要求 1518 | 呀 1519 | 呃 1520 | 别人 1521 | 顺着 1522 | [③c] 1523 | 进入 1524 | 一则通过 1525 | 当地 1526 | 没 1527 | 传闻 1528 | 且说 1529 | 尔后 1530 | 那时 1531 | 沿 1532 | < 1533 | 时候 1534 | 不要 1535 | 加以 1536 | 所有 1537 | 急匆匆 1538 | 甚而 1539 | 不变 1540 | 促进 1541 | 尽量 1542 | 多多少少 1543 | 现在 1544 | 凑巧 1545 | 附近 1546 | 方能 1547 | 不只 1548 | 不可 1549 | :// 1550 | 不仅...而且 1551 | | 1552 | 对待 1553 | 获得 1554 | 莫 1555 | 正是 1556 | 却 1557 | 做到 1558 | 从重 1559 | 下去 1560 | 必将 1561 | ' 1562 | φ. 1563 | 半 1564 | 单 1565 | 例如 1566 | 大举 1567 | 而是 1568 | 尤其 1569 | c] 1570 | 呼哧 1571 | 相似 1572 | 除开 1573 | 不然的话 1574 | 哎 1575 | [②e] 1576 | ... 1577 | ./ 1578 | ’‘ 1579 | 若夫 1580 | 即刻 1581 | 趁 1582 | 加入 1583 | 开展 1584 | [③d] 1585 | 若非 1586 | 对于 1587 | 吱 1588 | 联袂 1589 | 吧 1590 | 俺们 1591 | 乘胜 1592 | 为此 1593 | 吗 1594 | 2.3% 1595 | 吓 1596 | 极大 1597 | 后 1598 | 不管 1599 | 同 1600 | 多少 1601 | 较之 1602 | 各 1603 | 日臻 1604 | 靠 1605 | 开始 1606 | 如此等等 1607 | 那样 1608 | 忽然 1609 | 不择手段 1610 | 何尝 1611 | 略 1612 | 有著 1613 | 近年来 1614 | 同样 1615 | [②b] 1616 | 略为 1617 | 屡次 1618 | 恰巧 1619 | 别管 1620 | 总的来说 1621 | 如是 1622 | 再其次 1623 | = 1624 | 遇到 1625 | 各自 1626 | 临到 1627 | 基本上 1628 | )、 1629 | 以后 1630 | 拿 1631 | 自家 1632 | 全体 1633 | 考虑 1634 | 我是 1635 | 种 1636 | } 1637 | 昂然 1638 | 扩大 1639 | 宁可 1640 | [⑤] 1641 | 此处 1642 | ( 1643 | 这些 1644 | 方面 1645 | 此外 1646 | 屡次三番 1647 | 岂但 1648 | 直到 1649 | 需要 1650 | 趁热 1651 | 除了 1652 | 都 1653 | 即或 1654 | 穷年累月 1655 | 如常 1656 | 恰如 1657 | 什么样 1658 | 谁知 1659 | 逐渐 1660 | 比 1661 | 为 1662 | 临 1663 | 大约 1664 | 各个 1665 | 个 1666 | 每 1667 | b] 1668 | 不亦乐乎 1669 | 啷当 1670 | 主张 1671 | 且 1672 | 而又 1673 | 与 1674 | 不 1675 | 达旦 1676 | 下 1677 | 上 1678 | 三 1679 | 七 1680 | 一 1681 | 就算 1682 | 呜呼 1683 | 方才 1684 | 孰料 1685 | 孰知 1686 | 甚至于 1687 | 大张旗鼓 1688 | 则甚 1689 | 您们 1690 | =☆ 1691 | 离 1692 | [⑤]] 1693 | 其余 1694 | [①⑦] 1695 | 表明 1696 | 不尽 1697 | 简而言之 1698 | 一. 1699 | 将要 1700 | 不少 1701 | 限制 1702 | 果然 1703 | [⑤a] 1704 | 要不是 1705 | 并肩 1706 | 或 1707 | 我 1708 | > 1709 | 或者 1710 | 较为 1711 | 皆可 1712 | 再说 1713 | 无法 1714 | 保险 1715 | R.L. 1716 | [①⑧] 1717 | 不消 1718 | 恐怕 1719 | ~ 1720 | 虽则 1721 | [②G] 1722 | 的 1723 | 第二 1724 | 当真 1725 | ) 1726 | 凡是 1727 | [①h] 1728 | 分期 1729 | 总结 1730 | 用 1731 | 普遍 1732 | 甫 1733 | 甭 1734 | 大力 1735 | 由 1736 | 如下 1737 | 如上 1738 | 具体 1739 | 0:2 1740 | 满足 1741 | 他是 1742 | 格外 1743 | 不由得 1744 | [⑤d] 1745 | 既是 1746 | 隔日 1747 | 乃至于 1748 | [④] 1749 | 几乎 1750 | 反之则 1751 | 通过 1752 | 兼之 1753 | 岂止 1754 | 继之 1755 | 大事 1756 | 似乎 1757 | [⑦] 1758 | 而 1759 | 一次 1760 | 老 1761 | 趁机 1762 | 者 1763 | 不独 1764 | 切莫 1765 | 梆 1766 | 达到 1767 | 5 1768 | [②B] 1769 | 等等 1770 | 从此 1771 | 同一 1772 | 就是 1773 | 独 1774 | 为什麽 1775 | 但凡 1776 | 什麽 1777 | 被 1778 | 人人 1779 | 同时 1780 | 看见 1781 | 但是 1782 | 结果 1783 | 大批 1784 | 特别是 1785 | 极 1786 | 哪边 1787 | 不如 1788 | 譬如 1789 | 显然 1790 | 针对 1791 | 不妨 1792 | [①e] 1793 | 尽可能 1794 | 忽地 1795 | 开外 1796 | ? 1797 | 他的 1798 | 竟然 1799 | 诸位 1800 | 挨门挨户 1801 | 今後 1802 | 均 1803 | -[*]- 1804 | 虽说 1805 | В 1806 | 九 1807 | 也 1808 | 乘 1809 | [②h] 1810 | 【 1811 | 】 1812 | 〔 1813 | 〕 1814 | 乒 1815 | 另一方面 1816 | 〈 1817 | 〉 1818 | 乎 1819 | 》 1820 | 么 1821 | 」 1822 | 『 1823 | 』 1824 |   1825 | 、 1826 | 到了儿 1827 | 欤 1828 | 乃 1829 | 依据 1830 | 你的 1831 | a] 1832 | 来自 1833 | 严格 1834 | 暗地里 1835 | 这么样 1836 | 马上 1837 | [④e] 1838 | 几时 1839 | 以至 1840 | * 1841 | 如今 1842 | 以致 1843 | 据实 1844 | 巴巴 1845 | 大凡 1846 | 要不然 1847 | 哪怕 1848 | 莫如 1849 | 反过来说 1850 | — 1851 | 打 1852 | 得了 1853 | 谁料 1854 | 认为 1855 | 末##末 1856 | 所 1857 | · 1858 | 防止 1859 | 不尽然 1860 | 才 1861 | 为着 1862 | 了解 1863 | 即 1864 | 那 1865 | “ 1866 | 默默地 1867 | 往往 1868 | 然则 1869 | 集中 1870 | 本着 1871 | 大都 1872 | 长期以来 1873 | 并 1874 | 之后 1875 | 连日来 1876 | 大略 1877 | 差一点 1878 | 》), 1879 | 当着 1880 | 强烈 1881 | … 1882 | 不单 1883 | <φ 1884 | 千 1885 | ’ 1886 | ‘ 1887 | 加之 1888 | ” 1889 | 及时 1890 | 失去 1891 | 决非 1892 | 照 1893 | 当儿 1894 | 论说 1895 | -------------------------------------------------------------------------------- /gensim_demo.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | """ 5 | gensim 库简单学习使用 6 | 7 | author : @h-j-13 8 | time : 2018-7-23 9 | """ 10 | 11 | import logging 12 | import warnings 13 | 14 | warnings.filterwarnings(action='ignore') 15 | 16 | import numpy as np 17 | from gensim.models import word2vec, KeyedVectors 18 | 19 | logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) 20 | 21 | raw_sentences = ["the quick brown fox jumps over the lazy dogs", 22 | "yoyoyo you go home now to sleep"] 23 | 24 | sentences = [s.encode('utf-8').split() for s in raw_sentences] 25 | 26 | # 构建模型 27 | model = word2vec.Word2Vec(sentences, min_count=1) 28 | # Word2Vec 参数 29 | 30 | # 1. min_count : 在不同大小的语料集中,我们对于基准词频的需求也是不一样的。譬如在较大的语料集中,我们希望忽略那些只出现过一两次的单词, 31 | # 这里我们就可以通过设置min_count参数进行控制。一般而言,合理的参数值会设置在0~100之间。 32 | 33 | # 2. size : 主要是用来设置神经网络的层数,Word2Vec 中的默认值是设置为100层。 34 | # 更大的层次设置意味着更多的输入数据,不过也能提升整体的准确度,合理的设置范围为 10~数百。 35 | 36 | # 3. workers 参数用于设置并发训练时候的线程数,不过仅当Cython安装的情况下才会起作用(默认值为1,不进行并发) 37 | 38 | # word2vec 39 | print model['the'] # 将词转化为100个向量的矩阵 40 | # 进行相关性比较 41 | print model.similarity('dogs', 'you') # -0.037060834 42 | # 最相似的词 43 | print model.most_similar(['you']) 44 | 45 | # # 模型的保存与读取 46 | # model.save('test.model') 47 | # model1 = word2vec.Word2Vec.load('test.model') 48 | # 49 | # # 二进制方式 50 | # model.wv.save_word2vec_format('test.model.bin', binary=True) 51 | # model2 = KeyedVectors.load_word2vec_format('test.model.bin', binary=True) 52 | -------------------------------------------------------------------------------- /jieba_demo.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | jieba分词学习及测试 7 | 8 | author : @h-j-13 9 | time : 2018-7-20 10 | """ 11 | 12 | # note 13 | # 精确模式,试图将句子最精确地切开,适合文本分析; 14 | # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 15 | # 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 16 | 17 | import jieba 18 | 19 | seg_list = jieba.cut("我来到北京清华大学", cut_all=True) 20 | print("Full Mode: " + "/ ".join(seg_list)) # 全模式 21 | 22 | seg_list = jieba.cut("我来到北京清华大学", cut_all=False) 23 | print("Default Mode: " + "/ ".join(seg_list)) # 精确模式 24 | 25 | seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式 26 | print(", ".join(seg_list)) 27 | 28 | seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式 29 | print(", ".join(seg_list)) 30 | 31 | seg_list = jieba.cut("430的祈求者玩的非常好") 32 | print(", ".join(seg_list)) 33 | jieba.add_word('祈求者', freq=None, tag=None) 34 | seg_list = jieba.cut("430的祈求者玩的非常好") 35 | print(", ".join(seg_list)) -------------------------------------------------------------------------------- /sensitive_word.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 敏感词处理 7 | 从文件中读取敏感词,添加不同类别的敏感词,保存到txt或者DB中 8 | 9 | # >>>s = SensitiveWords() 10 | # >>>s.get_sensitive_word('./data/SensitiveWords/ad.txt') # 读取文件中的敏感词,要求数据每个一行 11 | # >>>s.add_sensitive_word(u'default') # 添加敏感词 12 | # >>>s.add_sensitive_word('minitrill', word_type='ad') # 添加敏感词 str 并指定敏感词类型 13 | # >>>s.save_data() # 保存敏感词数据 14 | # >>>s.sensitive_word_dict # 核心数据被保存在字典中 15 | 16 | author : @h-j-13 17 | time : 2018-7-19 18 | """ 19 | 20 | import os 21 | 22 | SENSITIVE_WORDS_DATA_PATH = "./data/SensitiveWords/" # 敏感词数据文件(要求一类数据一个txt文件) 23 | 24 | 25 | class SensitiveWords(object): 26 | # Singleton 27 | _instance = None 28 | 29 | def __new__(cls, *args, **kw): 30 | """单例模式""" 31 | if not cls._instance: 32 | cls._instance = super(SensitiveWords, cls).__new__(cls, *args, **kw) 33 | return cls._instance 34 | 35 | def __init__(self): 36 | """构造函数:读取敏感词文件并初始化字典""" 37 | global SENSITIVE_WORDS_DATA_PATH 38 | self.file_name_list = os.listdir(SENSITIVE_WORDS_DATA_PATH) 39 | self.file_path_list = map(lambda s: SENSITIVE_WORDS_DATA_PATH + s, self.file_name_list) 40 | self.sensitive_word_dict = {} 41 | for file_path in self.file_path_list: 42 | self.get_sensitive_word(file_path) 43 | 44 | def __str__(self): 45 | """输出敏感词类详细信息""" 46 | res = "共 " + str(len(self.sensitive_word_dict.keys())) + " 类 (" + ",".join(self.sensitive_word_dict.keys()) 47 | res += ")类敏感词:\n" 48 | for k in self.sensitive_word_dict.keys(): 49 | res += k + "\t-\t" + str(len(self.sensitive_word_dict[k])) + " 个 \n" 50 | return res 51 | 52 | def get_sensitive_word(self, path): 53 | """从文件中读取敏感词(每个一行)""" 54 | global SENSITIVE_WORDS_DEFAULT_WEIGHT 55 | with open(path, 'rb') as f: 56 | sensitive_word_type = str(path).split('/')[-1].replace('.txt', '') 57 | self.sensitive_word_dict[sensitive_word_type] = [] 58 | for line in f: 59 | if line.strip(): 60 | word = line.strip().decode('utf-8') 61 | self.sensitive_word_dict[sensitive_word_type].append(word) 62 | 63 | def add_sensitive_word(self, word, word_type='default', word_weight='10'): 64 | """添加敏感词""" 65 | if type(word) == str: # str -> unicode 66 | word = word.decode('utf-8') 67 | if word_type in self.sensitive_word_dict.keys() or word_type == 'default': 68 | self.sensitive_word_dict[word_type][word] = word_weight 69 | 70 | def save_data(self): 71 | """存储数据到文件中(读取地址)""" 72 | for word_type in self.sensitive_word_dict.keys(): 73 | file_path = filter(lambda x: word_type in x, self.file_path_list)[0] 74 | with open(file_path, 'wb') as f: 75 | for word in self.sensitive_word_dict[word_type]: 76 | f.write(word.encode("utf-8")) 77 | f.write("\n") 78 | 79 | 80 | if __name__ == '__main__': 81 | s = SensitiveWords() 82 | s.save_data() 83 | -------------------------------------------------------------------------------- /stop_words.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 停用词处理 7 | 整合多个停用词文本,生成停用词字典,并支持更新并保存到文件中 8 | 9 | >>> stop_words = get_stop_words() 10 | 11 | stop_words # ...set(['stop word1', 'stop word1' ,...]) 12 | 13 | author : @h-j-13 14 | time : 2018-7-18 15 | """ 16 | 17 | import os 18 | 19 | 20 | def converge_files_data(files=[]): 21 | """聚合文件中的敏感词信息""" 22 | stop_words_set = set() 23 | for file in files: 24 | with open(file, 'rb') as f: 25 | for word in f: 26 | if not word.startswith('//'): 27 | stop_words_set.add(word.strip()) 28 | # 处理空字符串 29 | if '' in stop_words_set: 30 | stop_words_set.remove('') 31 | 32 | return stop_words_set 33 | 34 | 35 | def record_stop_words_data(stop_words, file_path='./data/stop_words.txt'): 36 | """记录停用词到日志中""" 37 | with open(file_path, 'wb') as f: 38 | for words in stop_words: 39 | print words 40 | f.write(words) 41 | f.write("\n") 42 | 43 | 44 | def get_stop_words(file_path='./data/stop_words.txt'): 45 | """获取停用词列表""" 46 | stop_words_set = set() 47 | with open(file_path, 'rb') as f: 48 | for word in f: 49 | if not word.startswith('//'): 50 | stop_words_set.add(word.strip().decode('utf8')) 51 | # 处理空字符串 52 | if '' in stop_words_set: 53 | stop_words_set.remove('') 54 | 55 | return stop_words_set 56 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/ad.txt: -------------------------------------------------------------------------------- 1 | 私人侦探 2 | 无抵押贷款 3 | 质押贷款 4 | 个qb 5 | JS 6 | BT 7 | 本店 8 | 在线播放 9 | 淘宝代理 10 | 针孔摄象 11 | 请点击进入 12 | 考中答案 13 | 玛雅网 14 | 六位qq 15 | 狼友 16 | 套牌车 17 | 推油 18 | 口交 19 | 视频来源 20 | 代孕妈妈 21 | 微店 22 | 调查婚外情 23 | 口暴 24 | 性伴侣 25 | 吞精 26 | da案 27 | 网络 28 | 乳方 29 | 全职 30 | 免费使用 31 | 六合彩 32 | 连锁加盟 33 | 3P 34 | 私家侦探 35 | 婴儿汤 36 | 毒龙 37 | 楼凤 38 | 完全自杀手册 39 | 尚福林 40 | 隐形耳机 41 | 救市 42 | 代生孩子 43 | 售肾 44 | 买小车 45 | 用刀横向切腹 46 | 免费索取 47 | 周小川 48 | 小姐 49 | 代购 50 | 孔丹 51 | 全集在线 52 | 销售热线 53 | 蚁力神 54 | 答an 55 | 崩盘 56 | 刘明康 57 | 替考试 58 | 口爆 59 | 刻章办 60 | 证监会 61 | 送qb 62 | 足球投注 63 | 足交 64 | 6位qq 65 | 曾道人 66 | 下载速度 67 | 信用卡提现 68 | 扣扣 69 | 婊子 70 | 操逼 71 | 免费订购热线 72 | 详情请进入 73 | 低价出售 74 | 原音铃声 75 | 中国复兴党 76 | 兼职 77 | 网络工作 78 | 胸推 79 | 迷药 80 | 兼值 81 | 桑拿 82 | 小额贷款 83 | 款到发货 84 | 帮忙点下 85 | 四海帮 86 | 找个妈妈 87 | QQ 88 | 客服 89 | 腾讯客服电话 90 | 全套 91 | 阿波罗网 92 | SM 93 | 有意者 94 | 位的qq 95 | 技师 96 | 招聘 97 | 借腹生子 98 | 帮忙点一下 99 | 高清在线 100 | 专业代理 101 | 网购 102 | 加盟连锁 103 | 到货 104 | LY 105 | 资金短缺 106 | 包夜 107 | 资金周转 108 | 咪咪 109 | 免费二级域名 110 | 地下钱庄 111 | 广告代理 112 | 改卷内幕 113 | 找个爸爸 114 | 代理 115 | 出售答案 116 | txt下载 117 | 股市圈钱 118 | 电脑传讯 119 | 代开发票 120 | 妓女 121 | 回复可见 122 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/default.txt: -------------------------------------------------------------------------------- 1 | test 2 | default 3 | minitrill 4 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/dirty.txt: -------------------------------------------------------------------------------- 1 | 操尼玛 2 | 卧槽 3 | FUCK 4 | 傻b 5 | TMD 6 | 草泥马 7 | 他妈的 8 | 艹尼玛 9 | 操你妈 10 | 艹你妈 11 | 傻B 12 | shit 13 | 畜生 14 | 草你妈 15 | cnm 16 | 我操 17 | 你妈死了 18 | fuck 19 | CNM 20 | nmsl 21 | SHIT 22 | 操蛋 23 | SB 24 | NMSL 25 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/gun.txt: -------------------------------------------------------------------------------- 1 | 福音会 中国教徒 统一教 观音法门 清海无上师 盘古 李洪志 志洪李 李宏志 轮功 法轮 轮法功 三去车仑 氵去车仑 发论工 法x功 法o功 法0功 法一轮一功 轮子功 车仑工力 法lun fa轮 法lg flg fl功 falungong 大法弟子 大纪元 dajiyuan 明慧网 明慧周报 正见网 新唐人 伪火 退党 tuidang 退dang 超越红墙 自fen 真善忍 九评 9评 9ping 九ping jiuping 藏字石 集体自杀 自sha zi杀 suicide titor 逢8必灾 逢八必灾 逢9必乱 逢九必乱 朱瑟里诺 根达亚文明 诺查丹玛斯 人类灭亡进程表 按照马雅历法 推背图 推bei图 济世灵文 诸世纪 电狗 电话定位器 电话拦截器 电话窃听 电话监 电话交友 电话追杀系统 电击枪 电鸡 电警棒 枪出售 枪的制 枪货到 枪决女犯 枪模 枪手 枪销售 枪械制 枪子弹 售步枪 售纯度 售单管 售弹簧刀 售防身 售狗子 售虎头 售火药 售假币 售健卫 售军用 售猎枪 售氯胺 售麻醉 售枪支 售热武 售三棱 售手枪 售五四 售一元硬 售子弹 售左轮 亚砷(酸)酐 亚砷酸钾 亚砷酸钠 亚硒酸 亚硒酸二钠 亚硒酸镁 亚硒酸钠 亚硒酸氢钠 亚硝酸乙酯 亚硝酰乙氧 氧化二丁基锡 氧化汞 氧化铊 氧化亚铊 氧氯化磷 原装弹 原子弹方法 原子弹清单 安眠酮 代血浆 普萘洛尔 呋塞米 西布曲明 testosterone 胰岛素样生长因子 促红细胞生成素 地西泮 尼可刹米 甲睾酮 adrenaline erythropoietin 地奈德 莫达非尼 氯噻嗪 苯巴比妥 促性腺激素 泼尼松 麻黄草 雄烯二醇 地塞米松 tamoxifen strychnine androst 新型毒品 杜冷丁 兴奋剂 mdma 海洛因 海luo因 heroin diamorphine diacetylmorphine 鸦片 阿芙蓉 咖啡因 cocain 三唑仑 美沙酮 麻古 k粉 凯他敏 ketamine 冰毒 苯丙胺 cannabis 大麻 爱他死 氯胺酮 benzodiazepines 甲基安非他明 安非他命 吗啡 2 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/politics.txt: -------------------------------------------------------------------------------- 1 | 龙新民 2 | hjt 3 | 杨洁篪 4 | 老j 5 | 陈同海 6 | 邓质方 7 | 邓晓平 8 | 改革历程 9 | 李先念 10 | 沈跃跃 11 | 邓小平 12 | 李源潮 13 | 李洪志 14 | 张荣坤 15 | 薄熙 16 | 陈建国 17 | 薄熙来 18 | 九风 19 | 朱容鸡 20 | 曾宪梓 21 | 江浙民 22 | 郭金龙 23 | 中央zf 24 | 黄敬 25 | 李干成 26 | 江戏子 27 | 邪党 28 | 李鹏 29 | 刘少奇 30 | 里鹏 31 | 毛相 32 | 胡jt 33 | 贾廷安 34 | 傅锐 35 | 供铲党 36 | 张德江 37 | 黄镇 38 | 周永康 39 | 胡海清 40 | 共匪 41 | 马恺 42 | 江胡 43 | 吕祖善 44 | 中南海 45 | 中央领导 46 | 强卫 47 | 胡温 48 | 温如春 49 | 温加保 50 | 温jb 51 | 锋同志 52 | 奚国华 53 | 梁光烈 54 | 黄兴国 55 | 刘云山 56 | 共x党 57 | 李长春 58 | 胡总 59 | 江zm 60 | 恶党 61 | 李小琳 62 | 陈良宇 63 | 拱铲 64 | 胡x 65 | 湖紧掏 66 | 李瑞环 67 | 择民 68 | 胡景涛 69 | 锦涛 70 | 吴官正 71 | 供铲裆 72 | 黄丽满 73 | 马飚 74 | ze民 75 | 平近习 76 | 朱容基 77 | 茳泽民 78 | 回良玉 79 | 王鸿举 80 | 法轮大法好 81 | 江泽慧 82 | 陈绍基 83 | 挡中央 84 | 王太华 85 | 温jia宝 86 | 江书记 87 | 阿共 88 | 红色贵族 89 | 李月月鸟 90 | 周建南 91 | 89 92 | 狗产蛋 93 | 北京帮 94 | 李学举 95 | 政f 96 | 大陆当局 97 | gc党 98 | 江主席 99 | 老江 100 | 苏树林 101 | 老习 102 | 由喜贵 103 | 耀邦 104 | 毛zd 105 | 王振华 106 | 刘奇葆 107 | 猫泽东 108 | xiao平 109 | 华主席 110 | 朱镕鸡 111 | 李peng 112 | 廖锡龙 113 | 供产 114 | 林炎志 115 | 胡jintao 116 | 国wu院 117 | 毛zx 118 | 周小川 119 | 张定发 120 | 朱海仑 121 | 8964 122 | 江沢民 123 | 戴秉国 124 | 袁纯清 125 | zedong 126 | 曾培炎 127 | 路甬祥 128 | 症腐 129 | 俞正声 130 | 党产共 131 | 北京政权 132 | 王学军 133 | 胡海峰 134 | g产 135 | 林树森 136 | 平小邓 137 | 李小鹏 138 | 共残主义 139 | 李荣融 140 | 李岚清 141 | 江蛤蟆 142 | 丁一平 143 | 蔡赴朝 144 | gong和 145 | 八九 146 | 靖志远 147 | 王岐山 148 | 李铁映 149 | 陈德铭 150 | 杜世成 151 | 罗箭 152 | 江x 153 | 温宝宝 154 | 国锋 155 | z东 156 | 胡boss 157 | ze东 158 | 共产党 159 | 正府 160 | 土g 161 | 王洛林 162 | 华建敏 163 | 习明泽 164 | 贺国强 165 | 工产党 166 | 河蟹社会 167 | 刘志军 168 | 主席画像 169 | 赵洪祝 170 | 共c党 171 | gong党 172 | 孙家正 173 | 共残裆 174 | 政俯 175 | 汪东兴 176 | 周生贤 177 | 叶剑英 178 | 张高丽 179 | 上海帮 180 | 则民 181 | 于幼军 182 | 张志国 183 | 邓朴方 184 | 中国zf 185 | 胡春华 186 | 华国 187 | 权贵集团 188 | jzm 189 | 王沪宁 190 | 邓榕 191 | 胡主席 192 | 江哥 193 | 许其亮 194 | 猫贼洞 195 | 中gong 196 | 李德生 197 | 喝血社会 198 | 公产党 199 | 曾荫权 200 | 中共 201 | 共产主义的幽灵 202 | 白春礼 203 | 贺子珍 204 | 王东明 205 | 政府 206 | hujintao 207 | 王胜俊 208 | 郭伯雄 209 | 胡紧掏 210 | 温x 211 | 法论功 212 | 国峰 213 | 徐绍史 214 | 蔡武 215 | 林左鸣 216 | 供铲谠 217 | 王兆国 218 | 江绵康 219 | 邓xp 220 | 李建国 221 | 宋平顺 222 | 温加饱 223 | 刘永清 224 | 栗智 225 | g匪 226 | 吴定富 227 | 胡派 228 | 李春城 229 | 江派 230 | 江贼 231 | 李沛瑶 232 | 共残党 233 | 朱镕基 234 | 坦克人 235 | zhengfu 236 | 董建华 237 | 粟戎生 238 | 中国当局 239 | 吴仪 240 | 江猪 241 | 令计划 242 | 温加宝 243 | 温家宝 244 | 江core 245 | 产党共 246 | 张培莉 247 | 陈至立 248 | 胡锦涛 249 | 柳斌杰 250 | 曹刚川 251 | 江某某 252 | 裆中央 253 | 土共 254 | 李克强 255 | 猫则东 256 | 胡紧套 257 | 王乐泉 258 | 毛泽东 259 | 中珙 260 | 政zhi 261 | 薄一波 262 | 朱云来 263 | 胡惊涛 264 | 刘延东 265 | 9风 266 | 刘瑞龙 267 | 陈炳德 268 | 中华帝国 269 | 王冶坪 270 | 江浙闽 271 | 徐才厚 272 | 法轮功 273 | 老共 274 | 共贪党 275 | 习仲勋 276 | 政付 277 | 屠光绍 278 | 胡王八 279 | 政腐 280 | 吴邦国 281 | 贡挡 282 | 温云松 283 | 贾庆林 284 | 胡j涛 285 | 江氏集团 286 | 共狗 287 | 孟建柱 288 | 无官正 289 | zemin 290 | 黄华华 291 | 习太子 292 | 张立昌 293 | 欧广源 294 | 泽d 295 | 太子党 296 | 杜德印 297 | 铁凝 298 | 共产专制 299 | 档中央 300 | 共铲 301 | 毛太祖 302 | 常万全 303 | 仇共 304 | 吴胜利 305 | 姚依林 306 | 清华帮 307 | 六四事件 308 | 紫阳 309 | 江泽民 310 | 徐明 311 | 八九六四 312 | xjp 313 | 民泽江 314 | 江绵恒 315 | 共惨 316 | 共产王朝 317 | 习近平 318 | 北京当局 319 | 新疆骚乱 320 | 大陆官方 321 | 曾庆红 322 | -------------------------------------------------------------------------------- /test/data/SensitiveWords/pron.txt: -------------------------------------------------------------------------------- 1 | 性欲 2 | 淫娃 3 | 舞女 4 | 后庭 5 | 放尿 6 | 厕奴 7 | 淫魔 8 | 黑逼 9 | 要射了 10 | 龟头 11 | 淫教师 12 | 吸精 13 | 狂插 14 | 人妻 15 | 裹本 16 | 少年阿宾 17 | 乳头 18 | 摸奶 19 | 轮操 20 | 轮奸 21 | 蜜穴 22 | 发浪 23 | 舔脚 24 | 色情网站 25 | 菊花洞 26 | 阴核 27 | 玉乳 28 | 捏弄 29 | 玉穴 30 | 肉具 31 | 淫贱 32 | 肉唇 33 | 黄片 34 | 美乳 35 | 迷奸 36 | 淫样 37 | 狼友 38 | 酥痒 39 | 潮喷 40 | 嫩女 41 | 性虎 42 | 肉缝 43 | 嫩逼 44 | 性饥渴 45 | 小逼 46 | 自慰 47 | 失身粉 48 | 校鸡 49 | 口交 50 | 日逼 51 | 奈美 52 | 大波 53 | 美腿 54 | 鸡奸 55 | 体奸 56 | 前凸后翘 57 | 操死 58 | 强奸处女 59 | 食精 60 | 淫荡 61 | 淫照 62 | 暴奸 63 | 欲女 64 | 脚交 65 | 淫浪 66 | 肉欲 67 | 强jian 68 | 奸情 69 | 淫女 70 | 性交 71 | 拔出来 72 | 盗撮 73 | 美逼 74 | 援交 75 | 聊性 76 | 轮暴 77 | 裸陪 78 | 色盟 79 | 淫妇 80 | 成人色情 81 | 妓女 82 | 熟女 83 | 文做 84 | 肏你 85 | 双臀 86 | 被插 87 | 一夜情 88 | 肏死 89 | 插b 90 | 骚比 91 | 阴唇 92 | 汤加丽 93 | 淫妻 94 | 成人小说 95 | 相奸 96 | 干穴 97 | 成人网站 98 | 色色 99 | 淫色 100 | 菊穴 101 | 漏乳 102 | 熟妇 103 | 杨思敏 104 | 日烂 105 | 夜勤病栋 106 | 淫液 107 | 成人论坛 108 | 乱交 109 | 色b 110 | 性感诱惑 111 | 强暴 112 | 密穴 113 | 屁眼 114 | 拳交 115 | 插阴 116 | 阴精 117 | 全裸 118 | 性奴 119 | 大乳 120 | 体位 121 | 成人文学 122 | 插逼 123 | 原味内衣 124 | 松岛枫 125 | 巨奶 126 | 逼奸 127 | 豪乳 128 | 人兽 129 | 幼交 130 | 一本道 131 | 淫母 132 | 暴乳 133 | 嫩穴 134 | 浪女 135 | 好嫩 136 | 秘唇 137 | 口活 138 | 爱液 139 | 插我 140 | 淫荡自慰器 141 | 淫叫 142 | 浪叫 143 | 抽插 144 | 熟母 145 | 淫电影 146 | 口射 147 | 潮吹 148 | 吃精 149 | 砲友 150 | 淫术炼金士 151 | 肉茎 152 | 肛门 153 | 包二奶 154 | 仓井空 155 | 小xue 156 | 口淫 157 | 风月大陆 158 | 淫威 159 | 一ye情 160 | 乳沟 161 | g点 162 | 鸡吧 163 | 兽欲 164 | 狂操 165 | 精液 166 | 凌辱 167 | 肉穴 168 | 调教 169 | 女优 170 | 淫河 171 | 喷精 172 | 招妓 173 | 操逼 174 | 小穴 175 | 偷欢 176 | 插比 177 | 鸡巴 178 | 情色 179 | 干死你 180 | 色诱 181 | 作爱 182 | 后穴 183 | 粉穴 184 | 插进 185 | 援助交际 186 | 被干 187 | 裤袜 188 | 射爽 189 | 菊门 190 | 乱伦 191 | 骚穴 192 | 成人电影 193 | 性技巧 194 | 胸推 195 | 乳交 196 | 情趣用品 197 | 春药 198 | 炮友 199 | 阴部 200 | 按摩棒 201 | 肥逼 202 | 内射 203 | 群交 204 | 淫水 205 | gay片 206 | 兽奸 207 | fuck 208 | 应召 209 | 爆乳 210 | 美幼 211 | 蜜液 212 | 死逼 213 | 美穴 214 | 母奸 215 | 就去日 216 | 淫兽学园 217 | 阴茎 218 | 浪妇 219 | 肉逼 220 | 荡妇 221 | 兽交 222 | 淫虫 223 | 揉乳 224 | 操烂 225 | 暴干 226 | 射颜 227 | 骚逼 228 | 色逼 229 | 一夜欢 230 | 露b 231 | 买春 232 | 骚水 233 | 插你 234 | 骚女 235 | 荡女 236 | 欲火 237 | 浪逼 238 | 插暴 239 | 阴阜 240 | 爽片 241 | 几吧 242 | 国产av 243 | 推油 244 | 叫床 245 | 肉棒 246 | 淫声浪语 247 | 被操 248 | 口爆 249 | h动漫 250 | 摸胸 251 | 男奴 252 | 肉棍 253 | 色区 254 | 淫书 255 | 色界 256 | 淫媚 257 | 乳爆 258 | 手淫 259 | 乳房 260 | a片 261 | 操我 262 | 阴户 263 | 肉洞 264 | 阳具 265 | 奶子 266 | 淫亵 267 | 肛交 268 | 性感妖娆 269 | 夏川纯 270 | 穴口 271 | 暴淫 272 | 穴图 273 | h动画 274 | 淫情 275 | 巨乳 276 | 换妻俱乐部 277 | 阴道 278 | 抓胸 279 | 亚情 280 | 成人游戏 281 | 性息 282 | 爆草 283 | 开苞 284 | 套弄 285 | 淫糜 286 | 大力抽送 287 | 艳情小说 288 | 丝诱 289 | 脱内裤 290 | 色欲 291 | 性虐 292 | 丝袜 293 | 舔阴 294 | 释欲 295 | 招鸡 296 | 淫虐 297 | 操黑 298 | 美少妇 299 | 巨屌 300 | 颜射 301 | 虎骑 302 | 无修正 303 | 阴b 304 | 色猫 305 | -------------------------------------------------------------------------------- /test/data/StopWordsData/StopWords-hit.txt: -------------------------------------------------------------------------------- 1 | // 停用词表 2 | // 哈工大停用词表 3 | // ref : https://github.com/uk9921/StopWords 4 | 5 | 6 | ——— 7 | 》), 8 | )÷(1- 9 | ”, 10 | )、 11 | =( 12 | : 13 | → 14 | ℃ 15 | & 16 | * 17 | 一一 18 | ~~~~ 19 | ’ 20 | . 21 | 『 22 | .一 23 | ./ 24 | -- 25 | 』 26 | =″ 27 | 【 28 | [*] 29 | }> 30 | [⑤]] 31 | [①D] 32 | c] 33 | ng昉 34 | * 35 | // 36 | [ 37 | ] 38 | [②e] 39 | [②g] 40 | ={ 41 | } 42 | ,也 43 | ‘ 44 | A 45 | [①⑥] 46 | [②B] 47 | [①a] 48 | [④a] 49 | [①③] 50 | [③h] 51 | ③] 52 | 1. 53 | -- 54 | [②b] 55 | ’‘ 56 | ××× 57 | [①⑧] 58 | 0:2 59 | =[ 60 | [⑤b] 61 | [②c] 62 | [④b] 63 | [②③] 64 | [③a] 65 | [④c] 66 | [①⑤] 67 | [①⑦] 68 | [①g] 69 | ∈[ 70 | [①⑨] 71 | [①④] 72 | [①c] 73 | [②f] 74 | [②⑧] 75 | [②①] 76 | [①C] 77 | [③c] 78 | [③g] 79 | [②⑤] 80 | [②②] 81 | 一. 82 | [①h] 83 | .数 84 | [] 85 | [①B] 86 | 数/ 87 | [①i] 88 | [③e] 89 | [①①] 90 | [④d] 91 | [④e] 92 | [③b] 93 | [⑤a] 94 | [①A] 95 | [②⑧] 96 | [②⑦] 97 | [①d] 98 | [②j] 99 | 〕〔 100 | ][ 101 | :// 102 | ′∈ 103 | [②④ 104 | [⑤e] 105 | 12% 106 | b] 107 | ... 108 | ................... 109 | …………………………………………………③ 110 | ZXFITL 111 | [③F] 112 | 」 113 | [①o] 114 | ]∧′=[ 115 | ∪φ∈ 116 | ′| 117 | {- 118 | ②c 119 | } 120 | [③①] 121 | R.L. 122 | [①E] 123 | Ψ 124 | -[*]- 125 | ↑ 126 | .日 127 | [②d] 128 | [② 129 | [②⑦] 130 | [②②] 131 | [③e] 132 | [①i] 133 | [①B] 134 | [①h] 135 | [①d] 136 | [①g] 137 | [①②] 138 | [②a] 139 | f] 140 | [⑩] 141 | a] 142 | [①e] 143 | [②h] 144 | [②⑥] 145 | [③d] 146 | [②⑩] 147 | e] 148 | 〉 149 | 】 150 | 元/吨 151 | [②⑩] 152 | 2.3% 153 | 5:0 154 | [①] 155 | :: 156 | [②] 157 | [③] 158 | [④] 159 | [⑤] 160 | [⑥] 161 | [⑦] 162 | [⑧] 163 | [⑨] 164 | …… 165 | —— 166 | ? 167 | 、 168 | 。 169 | “ 170 | ” 171 | 《 172 | 》 173 | ! 174 | , 175 | : 176 | ; 177 | ? 178 | . 179 | , 180 | . 181 | ' 182 | ? 183 | · 184 | ——— 185 | ── 186 | ? 187 | — 188 | < 189 | > 190 | ( 191 | ) 192 | 〔 193 | 〕 194 | [ 195 | ] 196 | ( 197 | ) 198 | - 199 | + 200 | ~ 201 | × 202 | / 203 | / 204 | ① 205 | ② 206 | ③ 207 | ④ 208 | ⑤ 209 | ⑥ 210 | ⑦ 211 | ⑧ 212 | ⑨ 213 | ⑩ 214 | Ⅲ 215 | В 216 | " 217 | ; 218 | # 219 | @ 220 | γ 221 | μ 222 | φ 223 | φ. 224 | × 225 | Δ 226 | ■ 227 | ▲ 228 | sub 229 | exp 230 | sup 231 | sub 232 | Lex 233 | # 234 | % 235 | & 236 | ' 237 | + 238 | +ξ 239 | ++ 240 | - 241 | -β 242 | < 243 | <± 244 | <Δ 245 | <λ 246 | <φ 247 | << 248 | = 249 | = 250 | =☆ 251 | =- 252 | > 253 | >λ 254 | _ 255 | ~± 256 | ~+ 257 | [⑤f] 258 | [⑤d] 259 | [②i] 260 | ≈ 261 | [②G] 262 | [①f] 263 | LI 264 | ㈧ 265 | [- 266 | ...... 267 | 〉 268 | [③⑩] 269 | 第二 270 | 一番 271 | 一直 272 | 一个 273 | 一些 274 | 许多 275 | 种 276 | 有的是 277 | 也就是说 278 | 末##末 279 | 啊 280 | 阿 281 | 哎 282 | 哎呀 283 | 哎哟 284 | 唉 285 | 俺 286 | 俺们 287 | 按 288 | 按照 289 | 吧 290 | 吧哒 291 | 把 292 | 罢了 293 | 被 294 | 本 295 | 本着 296 | 比 297 | 比方 298 | 比如 299 | 鄙人 300 | 彼 301 | 彼此 302 | 边 303 | 别 304 | 别的 305 | 别说 306 | 并 307 | 并且 308 | 不比 309 | 不成 310 | 不单 311 | 不但 312 | 不独 313 | 不管 314 | 不光 315 | 不过 316 | 不仅 317 | 不拘 318 | 不论 319 | 不怕 320 | 不然 321 | 不如 322 | 不特 323 | 不惟 324 | 不问 325 | 不只 326 | 朝 327 | 朝着 328 | 趁 329 | 趁着 330 | 乘 331 | 冲 332 | 除 333 | 除此之外 334 | 除非 335 | 除了 336 | 此 337 | 此间 338 | 此外 339 | 从 340 | 从而 341 | 打 342 | 待 343 | 但 344 | 但是 345 | 当 346 | 当着 347 | 到 348 | 得 349 | 的 350 | 的话 351 | 等 352 | 等等 353 | 地 354 | 第 355 | 叮咚 356 | 对 357 | 对于 358 | 多 359 | 多少 360 | 而 361 | 而况 362 | 而且 363 | 而是 364 | 而外 365 | 而言 366 | 而已 367 | 尔后 368 | 反过来 369 | 反过来说 370 | 反之 371 | 非但 372 | 非徒 373 | 否则 374 | 嘎 375 | 嘎登 376 | 该 377 | 赶 378 | 个 379 | 各 380 | 各个 381 | 各位 382 | 各种 383 | 各自 384 | 给 385 | 根据 386 | 跟 387 | 故 388 | 故此 389 | 固然 390 | 关于 391 | 管 392 | 归 393 | 果然 394 | 果真 395 | 过 396 | 哈 397 | 哈哈 398 | 呵 399 | 和 400 | 何 401 | 何处 402 | 何况 403 | 何时 404 | 嘿 405 | 哼 406 | 哼唷 407 | 呼哧 408 | 乎 409 | 哗 410 | 还是 411 | 还有 412 | 换句话说 413 | 换言之 414 | 或 415 | 或是 416 | 或者 417 | 极了 418 | 及 419 | 及其 420 | 及至 421 | 即 422 | 即便 423 | 即或 424 | 即令 425 | 即若 426 | 即使 427 | 几 428 | 几时 429 | 己 430 | 既 431 | 既然 432 | 既是 433 | 继而 434 | 加之 435 | 假如 436 | 假若 437 | 假使 438 | 鉴于 439 | 将 440 | 较 441 | 较之 442 | 叫 443 | 接着 444 | 结果 445 | 借 446 | 紧接着 447 | 进而 448 | 尽 449 | 尽管 450 | 经 451 | 经过 452 | 就 453 | 就是 454 | 就是说 455 | 据 456 | 具体地说 457 | 具体说来 458 | 开始 459 | 开外 460 | 靠 461 | 咳 462 | 可 463 | 可见 464 | 可是 465 | 可以 466 | 况且 467 | 啦 468 | 来 469 | 来着 470 | 离 471 | 例如 472 | 哩 473 | 连 474 | 连同 475 | 两者 476 | 了 477 | 临 478 | 另 479 | 另外 480 | 另一方面 481 | 论 482 | 嘛 483 | 吗 484 | 慢说 485 | 漫说 486 | 冒 487 | 么 488 | 每 489 | 每当 490 | 们 491 | 莫若 492 | 某 493 | 某个 494 | 某些 495 | 拿 496 | 哪 497 | 哪边 498 | 哪儿 499 | 哪个 500 | 哪里 501 | 哪年 502 | 哪怕 503 | 哪天 504 | 哪些 505 | 哪样 506 | 那 507 | 那边 508 | 那儿 509 | 那个 510 | 那会儿 511 | 那里 512 | 那么 513 | 那么些 514 | 那么样 515 | 那时 516 | 那些 517 | 那样 518 | 乃 519 | 乃至 520 | 呢 521 | 能 522 | 你 523 | 你们 524 | 您 525 | 宁 526 | 宁可 527 | 宁肯 528 | 宁愿 529 | 哦 530 | 呕 531 | 啪达 532 | 旁人 533 | 呸 534 | 凭 535 | 凭借 536 | 其 537 | 其次 538 | 其二 539 | 其他 540 | 其它 541 | 其一 542 | 其余 543 | 其中 544 | 起 545 | 起见 546 | 起见 547 | 岂但 548 | 恰恰相反 549 | 前后 550 | 前者 551 | 且 552 | 然而 553 | 然后 554 | 然则 555 | 让 556 | 人家 557 | 任 558 | 任何 559 | 任凭 560 | 如 561 | 如此 562 | 如果 563 | 如何 564 | 如其 565 | 如若 566 | 如上所述 567 | 若 568 | 若非 569 | 若是 570 | 啥 571 | 上下 572 | 尚且 573 | 设若 574 | 设使 575 | 甚而 576 | 甚么 577 | 甚至 578 | 省得 579 | 时候 580 | 什么 581 | 什么样 582 | 使得 583 | 是 584 | 是的 585 | 首先 586 | 谁 587 | 谁知 588 | 顺 589 | 顺着 590 | 似的 591 | 虽 592 | 虽然 593 | 虽说 594 | 虽则 595 | 随 596 | 随着 597 | 所 598 | 所以 599 | 他 600 | 他们 601 | 他人 602 | 它 603 | 它们 604 | 她 605 | 她们 606 | 倘 607 | 倘或 608 | 倘然 609 | 倘若 610 | 倘使 611 | 腾 612 | 替 613 | 通过 614 | 同 615 | 同时 616 | 哇 617 | 万一 618 | 往 619 | 望 620 | 为 621 | 为何 622 | 为了 623 | 为什么 624 | 为着 625 | 喂 626 | 嗡嗡 627 | 我 628 | 我们 629 | 呜 630 | 呜呼 631 | 乌乎 632 | 无论 633 | 无宁 634 | 毋宁 635 | 嘻 636 | 吓 637 | 相对而言 638 | 像 639 | 向 640 | 向着 641 | 嘘 642 | 呀 643 | 焉 644 | 沿 645 | 沿着 646 | 要 647 | 要不 648 | 要不然 649 | 要不是 650 | 要么 651 | 要是 652 | 也 653 | 也罢 654 | 也好 655 | 一 656 | 一般 657 | 一旦 658 | 一方面 659 | 一来 660 | 一切 661 | 一样 662 | 一则 663 | 依 664 | 依照 665 | 矣 666 | 以 667 | 以便 668 | 以及 669 | 以免 670 | 以至 671 | 以至于 672 | 以致 673 | 抑或 674 | 因 675 | 因此 676 | 因而 677 | 因为 678 | 哟 679 | 用 680 | 由 681 | 由此可见 682 | 由于 683 | 有 684 | 有的 685 | 有关 686 | 有些 687 | 又 688 | 于 689 | 于是 690 | 于是乎 691 | 与 692 | 与此同时 693 | 与否 694 | 与其 695 | 越是 696 | 云云 697 | 哉 698 | 再说 699 | 再者 700 | 在 701 | 在下 702 | 咱 703 | 咱们 704 | 则 705 | 怎 706 | 怎么 707 | 怎么办 708 | 怎么样 709 | 怎样 710 | 咋 711 | 照 712 | 照着 713 | 者 714 | 这 715 | 这边 716 | 这儿 717 | 这个 718 | 这会儿 719 | 这就是说 720 | 这里 721 | 这么 722 | 这么点儿 723 | 这么些 724 | 这么样 725 | 这时 726 | 这些 727 | 这样 728 | 正如 729 | 吱 730 | 之 731 | 之类 732 | 之所以 733 | 之一 734 | 只是 735 | 只限 736 | 只要 737 | 只有 738 | 至 739 | 至于 740 | 诸位 741 | 着 742 | 着呢 743 | 自 744 | 自从 745 | 自个儿 746 | 自各儿 747 | 自己 748 | 自家 749 | 自身 750 | 综上所述 751 | 总的来看 752 | 总的来说 753 | 总的说来 754 | 总而言之 755 | 总之 756 | 纵 757 | 纵令 758 | 纵然 759 | 纵使 760 | 遵照 761 | 作为 762 | 兮 763 | 呃 764 | 呗 765 | 咚 766 | 咦 767 | 喏 768 | 啐 769 | 喔唷 770 | 嗬 771 | 嗯 772 | 嗳 -------------------------------------------------------------------------------- /test/data/StopWordsData/StopWords.txt: -------------------------------------------------------------------------------- 1 | // 停用词表 2 | // 互联网常用敏感词、停止词词库 3 | // ref : https://github.com/fwwdn/sensitive-stop-words 4 | 5 | ! 6 | " 7 | # 8 | $ 9 | % 10 | & 11 | ' 12 | ( 13 | ) 14 | * 15 | + 16 | , 17 | - 18 | -- 19 | . 20 | .. 21 | ... 22 | ...... 23 | ................... 24 | ./ 25 | .一 26 | .数 27 | .日 28 | / 29 | // 30 | 0 31 | 1 32 | 2 33 | 3 34 | 4 35 | 5 36 | 6 37 | 7 38 | 8 39 | 9 40 | : 41 | :// 42 | :: 43 | ; 44 | < 45 | = 46 | > 47 | >> 48 | ? 49 | @ 50 | A 51 | Lex 52 | [ 53 | \ 54 | ] 55 | ^ 56 | _ 57 | ` 58 | exp 59 | sub 60 | sup 61 | | 62 | } 63 | ~ 64 | ~~~~ 65 | · 66 | × 67 | ××× 68 | Δ 69 | Ψ 70 | γ 71 | μ 72 | φ 73 | φ. 74 | В 75 | — 76 | —— 77 | ——— 78 | ‘ 79 | ’ 80 | ’‘ 81 | “ 82 | ” 83 | ”, 84 | … 85 | …… 86 | …………………………………………………③ 87 | ′∈ 88 | ′| 89 | ℃ 90 | Ⅲ 91 | ↑ 92 | → 93 | ∈[ 94 | ∪φ∈ 95 | ≈ 96 | ① 97 | ② 98 | ②c 99 | ③ 100 | ③] 101 | ④ 102 | ⑤ 103 | ⑥ 104 | ⑦ 105 | ⑧ 106 | ⑨ 107 | ⑩ 108 | ── 109 | ■ 110 | ▲ 111 |   112 | 、 113 | 。 114 | 〈 115 | 〉 116 | 《 117 | 》 118 | 》), 119 | 」 120 | 『 121 | 』 122 | 【 123 | 】 124 | 〔 125 | 〕 126 | 〕〔 127 | ㈧ 128 | 一 129 | 一. 130 | 一一 131 | 一下 132 | 一个 133 | 一些 134 | 一何 135 | 一切 136 | 一则 137 | 一则通过 138 | 一天 139 | 一定 140 | 一方面 141 | 一旦 142 | 一时 143 | 一来 144 | 一样 145 | 一次 146 | 一片 147 | 一番 148 | 一直 149 | 一致 150 | 一般 151 | 一起 152 | 一转眼 153 | 一边 154 | 一面 155 | 七 156 | 万一 157 | 三 158 | 三天两头 159 | 三番两次 160 | 三番五次 161 | 上 162 | 上下 163 | 上升 164 | 上去 165 | 上来 166 | 上述 167 | 上面 168 | 下 169 | 下列 170 | 下去 171 | 下来 172 | 下面 173 | 不 174 | 不一 175 | 不下 176 | 不久 177 | 不了 178 | 不亦乐乎 179 | 不仅 180 | 不仅...而且 181 | 不仅仅 182 | 不仅仅是 183 | 不会 184 | 不但 185 | 不但...而且 186 | 不光 187 | 不免 188 | 不再 189 | 不力 190 | 不单 191 | 不变 192 | 不只 193 | 不可 194 | 不可开交 195 | 不可抗拒 196 | 不同 197 | 不外 198 | 不外乎 199 | 不够 200 | 不大 201 | 不如 202 | 不妨 203 | 不定 204 | 不对 205 | 不少 206 | 不尽 207 | 不尽然 208 | 不巧 209 | 不已 210 | 不常 211 | 不得 212 | 不得不 213 | 不得了 214 | 不得已 215 | 不必 216 | 不怎么 217 | 不怕 218 | 不惟 219 | 不成 220 | 不拘 221 | 不择手段 222 | 不敢 223 | 不料 224 | 不断 225 | 不日 226 | 不时 227 | 不是 228 | 不曾 229 | 不止 230 | 不止一次 231 | 不比 232 | 不消 233 | 不满 234 | 不然 235 | 不然的话 236 | 不特 237 | 不独 238 | 不由得 239 | 不知不觉 240 | 不管 241 | 不管怎样 242 | 不经意 243 | 不胜 244 | 不能 245 | 不能不 246 | 不至于 247 | 不若 248 | 不要 249 | 不论 250 | 不起 251 | 不足 252 | 不过 253 | 不迭 254 | 不问 255 | 不限 256 | 与 257 | 与其 258 | 与其说 259 | 与否 260 | 与此同时 261 | 专门 262 | 且 263 | 且不说 264 | 且说 265 | 两者 266 | 严格 267 | 严重 268 | 个 269 | 个人 270 | 个别 271 | 中小 272 | 中间 273 | 丰富 274 | 串行 275 | 临 276 | 临到 277 | 为 278 | 为主 279 | 为了 280 | 为什么 281 | 为什麽 282 | 为何 283 | 为止 284 | 为此 285 | 为着 286 | 主张 287 | 主要 288 | 举凡 289 | 举行 290 | 乃 291 | 乃至 292 | 乃至于 293 | 么 294 | 之 295 | 之一 296 | 之前 297 | 之后 298 | 之後 299 | 之所以 300 | 之类 301 | 乌乎 302 | 乎 303 | 乒 304 | 乘 305 | 乘势 306 | 乘机 307 | 乘胜 308 | 乘虚 309 | 乘隙 310 | 九 311 | 也 312 | 也好 313 | 也就是说 314 | 也是 315 | 也罢 316 | 了 317 | 了解 318 | 争取 319 | 二 320 | 二来 321 | 二话不说 322 | 二话没说 323 | 于 324 | 于是 325 | 于是乎 326 | 云云 327 | 云尔 328 | 互 329 | 互相 330 | 五 331 | 些 332 | 交口 333 | 亦 334 | 产生 335 | 亲口 336 | 亲手 337 | 亲眼 338 | 亲自 339 | 亲身 340 | 人 341 | 人人 342 | 人们 343 | 人家 344 | 人民 345 | 什么 346 | 什么样 347 | 什麽 348 | 仅 349 | 仅仅 350 | 今 351 | 今后 352 | 今天 353 | 今年 354 | 今後 355 | 介于 356 | 仍 357 | 仍旧 358 | 仍然 359 | 从 360 | 从不 361 | 从严 362 | 从中 363 | 从事 364 | 从今以后 365 | 从优 366 | 从古到今 367 | 从古至今 368 | 从头 369 | 从宽 370 | 从小 371 | 从新 372 | 从无到有 373 | 从早到晚 374 | 从未 375 | 从来 376 | 从此 377 | 从此以后 378 | 从而 379 | 从轻 380 | 从速 381 | 从重 382 | 他 383 | 他人 384 | 他们 385 | 他是 386 | 他的 387 | 代替 388 | 以 389 | 以上 390 | 以下 391 | 以为 392 | 以便 393 | 以免 394 | 以前 395 | 以及 396 | 以后 397 | 以外 398 | 以後 399 | 以故 400 | 以期 401 | 以来 402 | 以至 403 | 以至于 404 | 以致 405 | 们 406 | 任 407 | 任何 408 | 任凭 409 | 任务 410 | 企图 411 | 伙同 412 | 会 413 | 伟大 414 | 传 415 | 传说 416 | 传闻 417 | 似乎 418 | 似的 419 | 但 420 | 但凡 421 | 但愿 422 | 但是 423 | 何 424 | 何乐而不为 425 | 何以 426 | 何况 427 | 何处 428 | 何妨 429 | 何尝 430 | 何必 431 | 何时 432 | 何止 433 | 何苦 434 | 何须 435 | 余外 436 | 作为 437 | 你 438 | 你们 439 | 你是 440 | 你的 441 | 使 442 | 使得 443 | 使用 444 | 例如 445 | 依 446 | 依据 447 | 依照 448 | 依靠 449 | 便 450 | 便于 451 | 促进 452 | 保持 453 | 保管 454 | 保险 455 | 俺 456 | 俺们 457 | 倍加 458 | 倍感 459 | 倒不如 460 | 倒不如说 461 | 倒是 462 | 倘 463 | 倘使 464 | 倘或 465 | 倘然 466 | 倘若 467 | 借 468 | 借以 469 | 借此 470 | 假使 471 | 假如 472 | 假若 473 | 偏偏 474 | 做到 475 | 偶尔 476 | 偶而 477 | 傥然 478 | 像 479 | 儿 480 | 允许 481 | 元/吨 482 | 充其极 483 | 充其量 484 | 充分 485 | 先不先 486 | 先后 487 | 先後 488 | 先生 489 | 光 490 | 光是 491 | 全体 492 | 全力 493 | 全年 494 | 全然 495 | 全身心 496 | 全部 497 | 全都 498 | 全面 499 | 八 500 | 八成 501 | 公然 502 | 六 503 | 兮 504 | 共 505 | 共同 506 | 共总 507 | 关于 508 | 其 509 | 其一 510 | 其中 511 | 其二 512 | 其他 513 | 其余 514 | 其后 515 | 其它 516 | 其实 517 | 其次 518 | 具体 519 | 具体地说 520 | 具体来说 521 | 具体说来 522 | 具有 523 | 兼之 524 | 内 525 | 再 526 | 再其次 527 | 再则 528 | 再有 529 | 再次 530 | 再者 531 | 再者说 532 | 再说 533 | 冒 534 | 冲 535 | 决不 536 | 决定 537 | 决非 538 | 况且 539 | 准备 540 | 凑巧 541 | 凝神 542 | 几 543 | 几乎 544 | 几度 545 | 几时 546 | 几番 547 | 几经 548 | 凡 549 | 凡是 550 | 凭 551 | 凭借 552 | 出 553 | 出于 554 | 出去 555 | 出来 556 | 出现 557 | 分别 558 | 分头 559 | 分期 560 | 分期分批 561 | 切 562 | 切不可 563 | 切切 564 | 切勿 565 | 切莫 566 | 则 567 | 则甚 568 | 刚 569 | 刚好 570 | 刚巧 571 | 刚才 572 | 初 573 | 别 574 | 别人 575 | 别处 576 | 别是 577 | 别的 578 | 别管 579 | 别说 580 | 到 581 | 到了儿 582 | 到处 583 | 到头 584 | 到头来 585 | 到底 586 | 到目前为止 587 | 前后 588 | 前此 589 | 前者 590 | 前进 591 | 前面 592 | 加上 593 | 加之 594 | 加以 595 | 加入 596 | 加强 597 | 动不动 598 | 动辄 599 | 勃然 600 | 匆匆 601 | 十分 602 | 千 603 | 千万 604 | 千万千万 605 | 半 606 | 单 607 | 单单 608 | 单纯 609 | 即 610 | 即令 611 | 即使 612 | 即便 613 | 即刻 614 | 即如 615 | 即将 616 | 即或 617 | 即是说 618 | 即若 619 | 却 620 | 却不 621 | 历 622 | 原来 623 | 去 624 | 又 625 | 又及 626 | 及 627 | 及其 628 | 及时 629 | 及至 630 | 双方 631 | 反之 632 | 反之亦然 633 | 反之则 634 | 反倒 635 | 反倒是 636 | 反应 637 | 反手 638 | 反映 639 | 反而 640 | 反过来 641 | 反过来说 642 | 取得 643 | 取道 644 | 受到 645 | 变成 646 | 古来 647 | 另 648 | 另一个 649 | 另一方面 650 | 另外 651 | 另悉 652 | 另方面 653 | 另行 654 | 只 655 | 只当 656 | 只怕 657 | 只是 658 | 只有 659 | 只消 660 | 只要 661 | 只限 662 | 叫 663 | 叫做 664 | 召开 665 | 叮咚 666 | 叮当 667 | 可 668 | 可以 669 | 可好 670 | 可是 671 | 可能 672 | 可见 673 | 各 674 | 各个 675 | 各人 676 | 各位 677 | 各地 678 | 各式 679 | 各种 680 | 各级 681 | 各自 682 | 合理 683 | 同 684 | 同一 685 | 同时 686 | 同样 687 | 后 688 | 后来 689 | 后者 690 | 后面 691 | 向 692 | 向使 693 | 向着 694 | 吓 695 | 吗 696 | 否则 697 | 吧 698 | 吧哒 699 | 吱 700 | 呀 701 | 呃 702 | 呆呆地 703 | 呐 704 | 呕 705 | 呗 706 | 呜 707 | 呜呼 708 | 呢 709 | 周围 710 | 呵 711 | 呵呵 712 | 呸 713 | 呼哧 714 | 呼啦 715 | 咋 716 | 和 717 | 咚 718 | 咦 719 | 咧 720 | 咱 721 | 咱们 722 | 咳 723 | 哇 724 | 哈 725 | 哈哈 726 | 哉 727 | 哎 728 | 哎呀 729 | 哎哟 730 | 哗 731 | 哗啦 732 | 哟 733 | 哦 734 | 哩 735 | 哪 736 | 哪个 737 | 哪些 738 | 哪儿 739 | 哪天 740 | 哪年 741 | 哪怕 742 | 哪样 743 | 哪边 744 | 哪里 745 | 哼 746 | 哼唷 747 | 唉 748 | 唯有 749 | 啊 750 | 啊呀 751 | 啊哈 752 | 啊哟 753 | 啐 754 | 啥 755 | 啦 756 | 啪达 757 | 啷当 758 | 喀 759 | 喂 760 | 喏 761 | 喔唷 762 | 喽 763 | 嗡 764 | 嗡嗡 765 | 嗬 766 | 嗯 767 | 嗳 768 | 嘎 769 | 嘎嘎 770 | 嘎登 771 | 嘘 772 | 嘛 773 | 嘻 774 | 嘿 775 | 嘿嘿 776 | 四 777 | 因 778 | 因为 779 | 因了 780 | 因此 781 | 因着 782 | 因而 783 | 固 784 | 固然 785 | 在 786 | 在下 787 | 在于 788 | 地 789 | 均 790 | 坚决 791 | 坚持 792 | 基于 793 | 基本 794 | 基本上 795 | 处在 796 | 处处 797 | 处理 798 | 复杂 799 | 多 800 | 多么 801 | 多亏 802 | 多多 803 | 多多少少 804 | 多多益善 805 | 多少 806 | 多年前 807 | 多年来 808 | 多数 809 | 多次 810 | 够瞧的 811 | 大 812 | 大不了 813 | 大举 814 | 大事 815 | 大体 816 | 大体上 817 | 大凡 818 | 大力 819 | 大多 820 | 大多数 821 | 大大 822 | 大家 823 | 大张旗鼓 824 | 大批 825 | 大抵 826 | 大概 827 | 大略 828 | 大约 829 | 大致 830 | 大都 831 | 大量 832 | 大面儿上 833 | 失去 834 | 奇 835 | 奈 836 | 奋勇 837 | 她 838 | 她们 839 | 她是 840 | 她的 841 | 好 842 | 好在 843 | 好的 844 | 好象 845 | 如 846 | 如上 847 | 如上所述 848 | 如下 849 | 如今 850 | 如何 851 | 如其 852 | 如前所述 853 | 如同 854 | 如常 855 | 如是 856 | 如期 857 | 如果 858 | 如次 859 | 如此 860 | 如此等等 861 | 如若 862 | 始而 863 | 姑且 864 | 存在 865 | 存心 866 | 孰料 867 | 孰知 868 | 宁 869 | 宁可 870 | 宁愿 871 | 宁肯 872 | 它 873 | 它们 874 | 它们的 875 | 它是 876 | 它的 877 | 安全 878 | 完全 879 | 完成 880 | 定 881 | 实现 882 | 实际 883 | 宣布 884 | 容易 885 | 密切 886 | 对 887 | 对于 888 | 对应 889 | 对待 890 | 对方 891 | 对比 892 | 将 893 | 将才 894 | 将要 895 | 将近 896 | 小 897 | 少数 898 | 尔 899 | 尔后 900 | 尔尔 901 | 尔等 902 | 尚且 903 | 尤其 904 | 就 905 | 就地 906 | 就是 907 | 就是了 908 | 就是说 909 | 就此 910 | 就算 911 | 就要 912 | 尽 913 | 尽可能 914 | 尽如人意 915 | 尽心尽力 916 | 尽心竭力 917 | 尽快 918 | 尽早 919 | 尽然 920 | 尽管 921 | 尽管如此 922 | 尽量 923 | 局外 924 | 居然 925 | 届时 926 | 属于 927 | 屡 928 | 屡屡 929 | 屡次 930 | 屡次三番 931 | 岂 932 | 岂但 933 | 岂止 934 | 岂非 935 | 川流不息 936 | 左右 937 | 巨大 938 | 巩固 939 | 差一点 940 | 差不多 941 | 己 942 | 已 943 | 已矣 944 | 已经 945 | 巴 946 | 巴巴 947 | 带 948 | 帮助 949 | 常 950 | 常常 951 | 常言说 952 | 常言说得好 953 | 常言道 954 | 平素 955 | 年复一年 956 | 并 957 | 并不 958 | 并不是 959 | 并且 960 | 并排 961 | 并无 962 | 并没 963 | 并没有 964 | 并肩 965 | 并非 966 | 广大 967 | 广泛 968 | 应当 969 | 应用 970 | 应该 971 | 庶乎 972 | 庶几 973 | 开外 974 | 开始 975 | 开展 976 | 引起 977 | 弗 978 | 弹指之间 979 | 强烈 980 | 强调 981 | 归 982 | 归根到底 983 | 归根结底 984 | 归齐 985 | 当 986 | 当下 987 | 当中 988 | 当儿 989 | 当前 990 | 当即 991 | 当口儿 992 | 当地 993 | 当场 994 | 当头 995 | 当庭 996 | 当时 997 | 当然 998 | 当真 999 | 当着 1000 | 形成 1001 | 彻夜 1002 | 彻底 1003 | 彼 1004 | 彼时 1005 | 彼此 1006 | 往 1007 | 往往 1008 | 待 1009 | 待到 1010 | 很 1011 | 很多 1012 | 很少 1013 | 後来 1014 | 後面 1015 | 得 1016 | 得了 1017 | 得出 1018 | 得到 1019 | 得天独厚 1020 | 得起 1021 | 心里 1022 | 必 1023 | 必定 1024 | 必将 1025 | 必然 1026 | 必要 1027 | 必须 1028 | 快 1029 | 快要 1030 | 忽地 1031 | 忽然 1032 | 怎 1033 | 怎么 1034 | 怎么办 1035 | 怎么样 1036 | 怎奈 1037 | 怎样 1038 | 怎麽 1039 | 怕 1040 | 急匆匆 1041 | 怪 1042 | 怪不得 1043 | 总之 1044 | 总是 1045 | 总的来看 1046 | 总的来说 1047 | 总的说来 1048 | 总结 1049 | 总而言之 1050 | 恍然 1051 | 恐怕 1052 | 恰似 1053 | 恰好 1054 | 恰如 1055 | 恰巧 1056 | 恰恰 1057 | 恰恰相反 1058 | 恰逢 1059 | 您 1060 | 您们 1061 | 您是 1062 | 惟其 1063 | 惯常 1064 | 意思 1065 | 愤然 1066 | 愿意 1067 | 慢说 1068 | 成为 1069 | 成年 1070 | 成年累月 1071 | 成心 1072 | 我 1073 | 我们 1074 | 我是 1075 | 我的 1076 | 或 1077 | 或则 1078 | 或多或少 1079 | 或是 1080 | 或曰 1081 | 或者 1082 | 或许 1083 | 战斗 1084 | 截然 1085 | 截至 1086 | 所 1087 | 所以 1088 | 所在 1089 | 所幸 1090 | 所有 1091 | 所谓 1092 | 才 1093 | 才能 1094 | 扑通 1095 | 打 1096 | 打从 1097 | 打开天窗说亮话 1098 | 扩大 1099 | 把 1100 | 抑或 1101 | 抽冷子 1102 | 拦腰 1103 | 拿 1104 | 按 1105 | 按时 1106 | 按期 1107 | 按照 1108 | 按理 1109 | 按说 1110 | 挨个 1111 | 挨家挨户 1112 | 挨次 1113 | 挨着 1114 | 挨门挨户 1115 | 挨门逐户 1116 | 换句话说 1117 | 换言之 1118 | 据 1119 | 据实 1120 | 据悉 1121 | 据我所知 1122 | 据此 1123 | 据称 1124 | 据说 1125 | 掌握 1126 | 接下来 1127 | 接着 1128 | 接著 1129 | 接连不断 1130 | 放量 1131 | 故 1132 | 故意 1133 | 故此 1134 | 故而 1135 | 敞开儿 1136 | 敢 1137 | 敢于 1138 | 敢情 1139 | 数/ 1140 | 整个 1141 | 断然 1142 | 方 1143 | 方便 1144 | 方才 1145 | 方能 1146 | 方面 1147 | 旁人 1148 | 无 1149 | 无宁 1150 | 无法 1151 | 无论 1152 | 既 1153 | 既...又 1154 | 既往 1155 | 既是 1156 | 既然 1157 | 日复一日 1158 | 日渐 1159 | 日益 1160 | 日臻 1161 | 日见 1162 | 时候 1163 | 昂然 1164 | 明显 1165 | 明确 1166 | 是 1167 | 是不是 1168 | 是以 1169 | 是否 1170 | 是的 1171 | 显然 1172 | 显著 1173 | 普通 1174 | 普遍 1175 | 暗中 1176 | 暗地里 1177 | 暗自 1178 | 更 1179 | 更为 1180 | 更加 1181 | 更进一步 1182 | 曾 1183 | 曾经 1184 | 替 1185 | 替代 1186 | 最 1187 | 最后 1188 | 最大 1189 | 最好 1190 | 最後 1191 | 最近 1192 | 最高 1193 | 有 1194 | 有些 1195 | 有关 1196 | 有利 1197 | 有力 1198 | 有及 1199 | 有所 1200 | 有效 1201 | 有时 1202 | 有点 1203 | 有的 1204 | 有的是 1205 | 有着 1206 | 有著 1207 | 望 1208 | 朝 1209 | 朝着 1210 | 末##末 1211 | 本 1212 | 本人 1213 | 本地 1214 | 本着 1215 | 本身 1216 | 权时 1217 | 来 1218 | 来不及 1219 | 来得及 1220 | 来看 1221 | 来着 1222 | 来自 1223 | 来讲 1224 | 来说 1225 | 极 1226 | 极为 1227 | 极了 1228 | 极其 1229 | 极力 1230 | 极大 1231 | 极度 1232 | 极端 1233 | 构成 1234 | 果然 1235 | 果真 1236 | 某 1237 | 某个 1238 | 某些 1239 | 某某 1240 | 根据 1241 | 根本 1242 | 格外 1243 | 梆 1244 | 概 1245 | 次第 1246 | 欢迎 1247 | 欤 1248 | 正值 1249 | 正在 1250 | 正如 1251 | 正巧 1252 | 正常 1253 | 正是 1254 | 此 1255 | 此中 1256 | 此后 1257 | 此地 1258 | 此处 1259 | 此外 1260 | 此时 1261 | 此次 1262 | 此间 1263 | 殆 1264 | 毋宁 1265 | 每 1266 | 每个 1267 | 每天 1268 | 每年 1269 | 每当 1270 | 每时每刻 1271 | 每每 1272 | 每逢 1273 | 比 1274 | 比及 1275 | 比如 1276 | 比如说 1277 | 比方 1278 | 比照 1279 | 比起 1280 | 比较 1281 | 毕竟 1282 | 毫不 1283 | 毫无 1284 | 毫无例外 1285 | 毫无保留地 1286 | 汝 1287 | 沙沙 1288 | 没 1289 | 没奈何 1290 | 没有 1291 | 沿 1292 | 沿着 1293 | 注意 1294 | 活 1295 | 深入 1296 | 清楚 1297 | 满 1298 | 满足 1299 | 漫说 1300 | 焉 1301 | 然 1302 | 然则 1303 | 然后 1304 | 然後 1305 | 然而 1306 | 照 1307 | 照着 1308 | 牢牢 1309 | 特别是 1310 | 特殊 1311 | 特点 1312 | 犹且 1313 | 犹自 1314 | 独 1315 | 独自 1316 | 猛然 1317 | 猛然间 1318 | 率尔 1319 | 率然 1320 | 现代 1321 | 现在 1322 | 理应 1323 | 理当 1324 | 理该 1325 | 瑟瑟 1326 | 甚且 1327 | 甚么 1328 | 甚或 1329 | 甚而 1330 | 甚至 1331 | 甚至于 1332 | 用 1333 | 用来 1334 | 甫 1335 | 甭 1336 | 由 1337 | 由于 1338 | 由是 1339 | 由此 1340 | 由此可见 1341 | 略 1342 | 略为 1343 | 略加 1344 | 略微 1345 | 白 1346 | 白白 1347 | 的 1348 | 的确 1349 | 的话 1350 | 皆可 1351 | 目前 1352 | 直到 1353 | 直接 1354 | 相似 1355 | 相信 1356 | 相反 1357 | 相同 1358 | 相对 1359 | 相对而言 1360 | 相应 1361 | 相当 1362 | 相等 1363 | 省得 1364 | 看 1365 | 看上去 1366 | 看出 1367 | 看到 1368 | 看来 1369 | 看样子 1370 | 看看 1371 | 看见 1372 | 看起来 1373 | 真是 1374 | 真正 1375 | 眨眼 1376 | 着 1377 | 着呢 1378 | 矣 1379 | 矣乎 1380 | 矣哉 1381 | 知道 1382 | 砰 1383 | 确定 1384 | 碰巧 1385 | 社会主义 1386 | 离 1387 | 种 1388 | 积极 1389 | 移动 1390 | 究竟 1391 | 穷年累月 1392 | 突出 1393 | 突然 1394 | 窃 1395 | 立 1396 | 立刻 1397 | 立即 1398 | 立地 1399 | 立时 1400 | 立马 1401 | 竟 1402 | 竟然 1403 | 竟而 1404 | 第 1405 | 第二 1406 | 等 1407 | 等到 1408 | 等等 1409 | 策略地 1410 | 简直 1411 | 简而言之 1412 | 简言之 1413 | 管 1414 | 类如 1415 | 粗 1416 | 精光 1417 | 紧接着 1418 | 累年 1419 | 累次 1420 | 纯 1421 | 纯粹 1422 | 纵 1423 | 纵令 1424 | 纵使 1425 | 纵然 1426 | 练习 1427 | 组成 1428 | 经 1429 | 经常 1430 | 经过 1431 | 结合 1432 | 结果 1433 | 给 1434 | 绝 1435 | 绝不 1436 | 绝对 1437 | 绝非 1438 | 绝顶 1439 | 继之 1440 | 继后 1441 | 继续 1442 | 继而 1443 | 维持 1444 | 综上所述 1445 | 缕缕 1446 | 罢了 1447 | 老 1448 | 老大 1449 | 老是 1450 | 老老实实 1451 | 考虑 1452 | 者 1453 | 而 1454 | 而且 1455 | 而况 1456 | 而又 1457 | 而后 1458 | 而外 1459 | 而已 1460 | 而是 1461 | 而言 1462 | 而论 1463 | 联系 1464 | 联袂 1465 | 背地里 1466 | 背靠背 1467 | 能 1468 | 能否 1469 | 能够 1470 | 腾 1471 | 自 1472 | 自个儿 1473 | 自从 1474 | 自各儿 1475 | 自后 1476 | 自家 1477 | 自己 1478 | 自打 1479 | 自身 1480 | 臭 1481 | 至 1482 | 至于 1483 | 至今 1484 | 至若 1485 | 致 1486 | 般的 1487 | 良好 1488 | 若 1489 | 若夫 1490 | 若是 1491 | 若果 1492 | 若非 1493 | 范围 1494 | 莫 1495 | 莫不 1496 | 莫不然 1497 | 莫如 1498 | 莫若 1499 | 莫非 1500 | 获得 1501 | 藉以 1502 | 虽 1503 | 虽则 1504 | 虽然 1505 | 虽说 1506 | 蛮 1507 | 行为 1508 | 行动 1509 | 表明 1510 | 表示 1511 | 被 1512 | 要 1513 | 要不 1514 | 要不是 1515 | 要不然 1516 | 要么 1517 | 要是 1518 | 要求 1519 | 见 1520 | 规定 1521 | 觉得 1522 | 譬喻 1523 | 譬如 1524 | 认为 1525 | 认真 1526 | 认识 1527 | 让 1528 | 许多 1529 | 论 1530 | 论说 1531 | 设使 1532 | 设或 1533 | 设若 1534 | 诚如 1535 | 诚然 1536 | 话说 1537 | 该 1538 | 该当 1539 | 说明 1540 | 说来 1541 | 说说 1542 | 请勿 1543 | 诸 1544 | 诸位 1545 | 诸如 1546 | 谁 1547 | 谁人 1548 | 谁料 1549 | 谁知 1550 | 谨 1551 | 豁然 1552 | 贼死 1553 | 赖以 1554 | 赶 1555 | 赶快 1556 | 赶早不赶晚 1557 | 起 1558 | 起先 1559 | 起初 1560 | 起头 1561 | 起来 1562 | 起见 1563 | 起首 1564 | 趁 1565 | 趁便 1566 | 趁势 1567 | 趁早 1568 | 趁机 1569 | 趁热 1570 | 趁着 1571 | 越是 1572 | 距 1573 | 跟 1574 | 路经 1575 | 转动 1576 | 转变 1577 | 转贴 1578 | 轰然 1579 | 较 1580 | 较为 1581 | 较之 1582 | 较比 1583 | 边 1584 | 达到 1585 | 达旦 1586 | 迄 1587 | 迅速 1588 | 过 1589 | 过于 1590 | 过去 1591 | 过来 1592 | 运用 1593 | 近 1594 | 近几年来 1595 | 近年来 1596 | 近来 1597 | 还 1598 | 还是 1599 | 还有 1600 | 还要 1601 | 这 1602 | 这一来 1603 | 这个 1604 | 这么 1605 | 这么些 1606 | 这么样 1607 | 这么点儿 1608 | 这些 1609 | 这会儿 1610 | 这儿 1611 | 这就是说 1612 | 这时 1613 | 这样 1614 | 这次 1615 | 这点 1616 | 这种 1617 | 这般 1618 | 这边 1619 | 这里 1620 | 这麽 1621 | 进入 1622 | 进去 1623 | 进来 1624 | 进步 1625 | 进而 1626 | 进行 1627 | 连 1628 | 连同 1629 | 连声 1630 | 连日 1631 | 连日来 1632 | 连袂 1633 | 连连 1634 | 迟早 1635 | 迫于 1636 | 适应 1637 | 适当 1638 | 适用 1639 | 逐步 1640 | 逐渐 1641 | 通常 1642 | 通过 1643 | 造成 1644 | 逢 1645 | 遇到 1646 | 遭到 1647 | 遵循 1648 | 遵照 1649 | 避免 1650 | 那 1651 | 那个 1652 | 那么 1653 | 那么些 1654 | 那么样 1655 | 那些 1656 | 那会儿 1657 | 那儿 1658 | 那时 1659 | 那末 1660 | 那样 1661 | 那般 1662 | 那边 1663 | 那里 1664 | 那麽 1665 | 部分 1666 | 都 1667 | 鄙人 1668 | 采取 1669 | 里面 1670 | 重大 1671 | 重新 1672 | 重要 1673 | 鉴于 1674 | 针对 1675 | 长期以来 1676 | 长此下去 1677 | 长线 1678 | 长话短说 1679 | 问题 1680 | 间或 1681 | 防止 1682 | 阿 1683 | 附近 1684 | 陈年 1685 | 限制 1686 | 陡然 1687 | 除 1688 | 除了 1689 | 除却 1690 | 除去 1691 | 除外 1692 | 除开 1693 | 除此 1694 | 除此之外 1695 | 除此以外 1696 | 除此而外 1697 | 除非 1698 | 随 1699 | 随后 1700 | 随时 1701 | 随着 1702 | 随著 1703 | 隔夜 1704 | 隔日 1705 | 难得 1706 | 难怪 1707 | 难说 1708 | 难道 1709 | 难道说 1710 | 集中 1711 | 零 1712 | 需要 1713 | 非但 1714 | 非常 1715 | 非徒 1716 | 非得 1717 | 非特 1718 | 非独 1719 | 靠 1720 | 顶多 1721 | 顷 1722 | 顷刻 1723 | 顷刻之间 1724 | 顷刻间 1725 | 顺 1726 | 顺着 1727 | 顿时 1728 | 颇 1729 | 风雨无阻 1730 | 饱 1731 | 首先 1732 | 马上 1733 | 高低 1734 | 高兴 1735 | 默然 1736 | 默默地 1737 | 齐 1738 | ︿ 1739 | ! 1740 | # 1741 | $ 1742 | % 1743 | & 1744 | ' 1745 | ( 1746 | ) 1747 | )÷(1- 1748 | )、 1749 | * 1750 | + 1751 | +ξ 1752 | ++ 1753 | , 1754 | ,也 1755 | - 1756 | -β 1757 | -- 1758 | -[*]- 1759 | . 1760 | / 1761 | 0 1762 | 0:2 1763 | 1 1764 | 1. 1765 | 12% 1766 | 2 1767 | 2.3% 1768 | 3 1769 | 4 1770 | 5 1771 | 5:0 1772 | 6 1773 | 7 1774 | 8 1775 | 9 1776 | : 1777 | ; 1778 | < 1779 | <± 1780 | <Δ 1781 | <λ 1782 | <φ 1783 | << 1784 | = 1785 | =″ 1786 | =☆ 1787 | =( 1788 | =- 1789 | =[ 1790 | ={ 1791 | > 1792 | >λ 1793 | ? 1794 | @ 1795 | A 1796 | LI 1797 | R.L. 1798 | ZXFITL 1799 | [ 1800 | [①①] 1801 | [①②] 1802 | [①③] 1803 | [①④] 1804 | [①⑤] 1805 | [①⑥] 1806 | [①⑦] 1807 | [①⑧] 1808 | [①⑨] 1809 | [①A] 1810 | [①B] 1811 | [①C] 1812 | [①D] 1813 | [①E] 1814 | [①] 1815 | [①a] 1816 | [①c] 1817 | [①d] 1818 | [①e] 1819 | [①f] 1820 | [①g] 1821 | [①h] 1822 | [①i] 1823 | [①o] 1824 | [② 1825 | [②①] 1826 | [②②] 1827 | [②③] 1828 | [②④ 1829 | [②⑤] 1830 | [②⑥] 1831 | [②⑦] 1832 | [②⑧] 1833 | [②⑩] 1834 | [②B] 1835 | [②G] 1836 | [②] 1837 | [②a] 1838 | [②b] 1839 | [②c] 1840 | [②d] 1841 | [②e] 1842 | [②f] 1843 | [②g] 1844 | [②h] 1845 | [②i] 1846 | [②j] 1847 | [③①] 1848 | [③⑩] 1849 | [③F] 1850 | [③] 1851 | [③a] 1852 | [③b] 1853 | [③c] 1854 | [③d] 1855 | [③e] 1856 | [③g] 1857 | [③h] 1858 | [④] 1859 | [④a] 1860 | [④b] 1861 | [④c] 1862 | [④d] 1863 | [④e] 1864 | [⑤] 1865 | [⑤]] 1866 | [⑤a] 1867 | [⑤b] 1868 | [⑤d] 1869 | [⑤e] 1870 | [⑤f] 1871 | [⑥] 1872 | [⑦] 1873 | [⑧] 1874 | [⑨] 1875 | [⑩] 1876 | [*] 1877 | [- 1878 | [] 1879 | ] 1880 | ]∧′=[ 1881 | ][ 1882 | _ 1883 | a] 1884 | b] 1885 | c] 1886 | e] 1887 | f] 1888 | ng昉 1889 | { 1890 | {- 1891 | | 1892 | } 1893 | }> 1894 | ~ 1895 | ~± 1896 | ~+ 1897 | ¥ -------------------------------------------------------------------------------- /test/data/StopWordsData/同义词表.txt: -------------------------------------------------------------------------------- 1 | 哀求-乞求 2 | 哀伤-哀痛 3 | 爱护-爱戴 4 | 羡慕-爱慕 5 | 安静-安宁 6 | 安排-安置 7 | 安全-安然 8 | 安慰-欣慰 9 | 安葬-埋葬 10 | 暗藏-隐藏 11 | 暗害-暗算 12 | 按时-按期 13 | 飞翔-翱翔 14 | 奥秘-奥妙 15 | 把握-掌握 16 | 摆动-跳动 17 | 拜访-拜会 18 | 拜托-委托 19 | 公布-颁布 20 | 办法-措施 21 | 办法-方法 22 | 方法-措施 23 | 帮忙-帮助 24 | 榜样-表率 25 | 傍晚-黄昏 26 | 宝贵-珍贵 27 | 宝藏-矿藏 28 | 保持-坚持 29 | 保存-保留 30 | 保卫-捍卫 31 | 保障-保证 32 | 饱满-丰满 33 | 暴躁-急躁 34 | 抱负-志向 35 | 便利-方便 36 | 标记-标志 37 | 表达-表示 38 | 表现-体现 39 | 表扬-表彰 40 | 波折-曲折 41 | 薄弱-脆弱 42 | 不管-不论 43 | 不管-无论 44 | 不论-无论 45 | 布告-公告 46 | 恶毒-毒辣 47 | 发表-发布 48 | 发展-开展 49 | 繁荣-繁华 50 | 妨碍-阻碍 51 | 好像-仿佛 52 | 好像-似乎 53 | 仿佛-似乎 54 | 放弃-抛弃 55 | 分离-离别 56 | 丰富-丰盛 57 | 风景-景色 58 | 风趣-幽默 59 | 风俗-风尚 60 | 奉献-贡献 61 | 富丽-华丽 62 | 富裕-富饶 63 | 富足-富有 64 | 改变-转变 65 | 干净-洁净 66 | 甘愿-甘心 67 | 赶紧-赶快 68 | 感觉-觉得 69 | 感激-感谢 70 | 高潮-热潮 71 | 高手-能手 72 | 高兴-愉快 73 | 根本-基本 74 | 告别-告辞 75 | 歌唱-歌颂 76 | 根据-依据 77 | 跟随-跟从 78 | 功绩-功劳 79 | 公开-敞开 80 | 公平-公正 81 | 供给-供应 82 | 巩固-稳固 83 | 共同-相同 84 | 估计-估量 85 | 鼓舞-鼓励 86 | 关怀-关心 87 | 关注-关切 88 | 观测-观察 89 | 留心-留意 90 | 笼罩-覆盖 91 | 旅行-旅游 92 | 落后-落伍 93 | 马虎-粗心 94 | 满意-满足 95 | 美好-美妙 96 | 美满-圆满 97 | 面临-面对 98 | 明显-显著 99 | 模仿-模拟 100 | 目标-目的 101 | 目前-当前 102 | 目前-眼前 103 | 当前-眼前 104 | 耐心-耐烦 105 | 难过-难受 106 | 年纪-年龄 107 | 偶尔-偶然 108 | 彷徨-徘徊 109 | 培养-培育 110 | 贫困-贫苦 111 | 品质-品德 112 | 平凡-普通 113 | 平衡-平均 114 | 扑灭-消灭 115 | 朴实-朴素 116 | 期待-等待 117 | 等待-等候 118 | 其他-其余 119 | 启示-启发 120 | 气候-天气 121 | 谦虚-谦逊 122 | 前程-前途 123 | 强健-强壮 124 | 强盛-强大 125 | 亲爱-敬爱 126 | 亲密-密切 127 | 侵略-侵犯 128 | 勤奋-勤恳 129 | 勤快-勤劳 130 | 清晨-早晨 131 | 清楚-清晰 132 | 清洁-干净 133 | 布置-部署 134 | 猜想-料想 135 | 才能-才干 136 | 财产-财富 137 | 材料-原料 138 | 采取-采用 139 | 采取-采纳 140 | 采纳-采用 141 | 参观-访问 142 | 参加-参与 143 | 惭愧-愧疚 144 | 灿烂-辉煌 145 | 操劳-操心 146 | 喧闹-喧哗 147 | 测试-测验 148 | 曾经-已经 149 | 查看-察看 150 | 产生-发生 151 | 常常-往往 152 | 长久-长远 153 | 长处-优点 154 | 超过-超越 155 | 潮湿-湿润 156 | 沉默-沉静 157 | 沉重-深重 158 | 陈列-排列 159 | 趁机-乘机 160 | 支持-撑腰 161 | 称赞-称道 162 | 成功-胜利 163 | 成果-结果 164 | 成绩-成就 165 | 诚心-诚意 166 | 显现-呈现 167 | 持续-继续 168 | 充足-充分 169 | 冲击-袭击 170 | 重复-反复 171 | 憧憬-向往 172 | 崇高-高尚 173 | 出发-动身 174 | 出生-诞生 175 | 处罚-处分 176 | 观看-观望 177 | 观赏-欣赏 178 | 关系-联系 179 | 管理-治理 180 | 广阔-广大 181 | 规矩-规则 182 | 过程-进程 183 | 过错-过失 184 | 害怕-惧怕 185 | 罕见-少见 186 | 好奇 -新奇 187 | 合适-适合 188 | 合作-协作 189 | 和蔼-亲切 190 | 痕迹-踪迹 191 | 宏大-庞大 192 | 宏伟-雄伟 193 | 洪亮-响亮 194 | 洪亮-宏亮 195 | 宏亮-嘹亮 196 | 响亮-嘹亮 197 | 后来-以后 198 | 忽略-疏忽 199 | 互相-相互 200 | 环绕-围绕 201 | 幻想-梦想 202 | 慌忙-慌张 203 | 灰心-丧气 204 | 恢复-回复 205 | 回顾-回忆 206 | 回答-解答 207 | 活动-运动 208 | 活力-生机 209 | 激烈-剧烈 210 | 机会-时机 211 | 技巧-技术 212 | 记录-记载 213 | 纪念-留念 214 | 家乡-故乡 215 | 价格-价钱 216 | 价格-价值 217 | 价钱-价值 218 | 艰苦-艰难 219 | 艰苦-艰辛 220 | 艰难-艰辛 221 | 检查-检讨 222 | 建立-树立 223 | 将来-未来 224 | 轻捷-轻快 225 | 轻易-容易 226 | 请求-要求 227 | 请求-申请 228 | 劝告-劝说 229 | 缺少-缺乏 230 | 热爱-酷爱 231 | 热情-热忱 232 | 热烈-热闹 233 | 人民-群众 234 | 忍耐-忍受 235 | 任性-随便 236 | 仍然-依然 237 | 柔软-柔嫩 238 | 丧失-损失 239 | 商量-商议 240 | 上任-上台 241 | 设备-设施 242 | 身材-身体 243 | 慎重-郑重 244 | 试验-实验 245 | 时候-时刻 246 | 时节-季节 247 | 食品-食物 248 | 事件-事情 249 | 思考-思索 250 | 搜查-搜索 251 | 搜集-收集 252 | 损害-伤害 253 | 所有-一切 254 | 谈话-谈说 255 | 特别-特殊 256 | 特点-特性 257 | 特点-特征 258 | 特性-特征 259 | 体会-体验 260 | 天然-自然 261 | 突然-忽然 262 | 弯曲-曲折 263 | 完美-完善 264 | 位置-地位 265 | 喜悦-欢乐 266 | 信任-相信 267 | 惭愧-羞愧 268 | 处理-处置 269 | 传播-流传 270 | 创办-创建 271 | 创造-发明 272 | 慈爱-慈祥 273 | 次序-秩序 274 | 聪明-伶俐 275 | 匆忙-连忙 276 | 从来-向来 277 | 错误-失误 278 | 答应-允许 279 | 达到-到达 280 | 打扮-装扮 281 | 打动-感动 282 | 打扰-打搅 283 | 打听-探听 284 | 大概-大约 285 | 大局-全局 286 | 大力-全力 287 | 大量-大批 288 | 代表-代替 289 | 带动-带头 290 | 带领-率领 291 | 逮捕-捕获 292 | 担心-操心 293 | 单纯-单一 294 | 当场-当面 295 | 当场-现场 296 | 当初-当时 297 | 道路-路线 298 | 抵抗-抵制 299 | 装饰-点缀 300 | 典型-典范 301 | 丢失-遗失 302 | 动听-入耳 303 | 动员-发动 304 | 等待-等候 305 | 斗争-奋斗 306 | 度过-渡过 307 | 对比-对角 308 | 对待-看待 309 | 多亏-幸亏 310 | 骄傲-自豪 311 | 教育-教训 312 | 接待-招待 313 | 接见-会见 314 | 接受-接收 315 | 节省 -节约 316 | 竭力-尽力 317 | 解除-排除 318 | 谨慎-小心 319 | 紧急-紧迫 320 | 紧密-密切 321 | 进步-先进 322 | 经过-通过 323 | 精美-精致 324 | 局面-局势 325 | 决定-决议 326 | 绝望-失望 327 | 开始-开头 328 | 开发-开拓 329 | 坎坷-崎岖 330 | 慷慨-大方 331 | 可惜-惋惜 332 | 可以-能够 333 | 克服-战胜 334 | 空气-气氛 335 | 恐惧-恐怖 336 | 苦难-磨难 337 | 宽敞-宽阔 338 | 困难-困苦 339 | 垃圾-渣滓 340 | 冷淡-冷酷 341 | 理睬-理会 342 | 理解-了解 343 | 力量-力气 344 | 立即-立刻 345 | 立即-马上 346 | 立刻-马上 347 | 利用-使用 348 | 连续-陆续 349 | 小气-吝啬 350 | 灵活-机动 351 | 领导-领袖 352 | 流言-谣言 353 | 宣布-宣告 354 | 迅速-快速 355 | 严格-严厉 356 | 炎热-酷热 357 | 一定-肯定 358 | 意思-意义 359 | 英勇-勇敢 360 | 友爱-友好 361 | 尤其-特别 362 | 友谊-友情 363 | 预报-预告 364 | 灾害-灾难 365 | 赞美-赞扬 366 | 暂时-临时 367 | 珍贵-宝贵 368 | 珍惜-爱惜 369 | 震动-振动 370 | 照顾-照看 371 | 整顿-整理 372 | 支持-支援 373 | 指挥-指导 374 | 制造-制作 375 | 忠诚-忠实 376 | 终身-终生 377 | 吩咐-嘱咐 378 | 祝福-祝愿 379 | 闻名-驰名 380 | 闻名-著名 381 | 驰名-著名 382 | 转变-改变 383 | 准时-及时 384 | 仔细-细致 385 | 自动-主动 386 | 尊敬-尊重 387 | 姿势-姿态 388 | 准确-精确 389 | 滋味-味道 390 | 促使-促进 391 | 早上-上午 392 | 没-忘 393 | 视为-称为 394 | 大于-超过 395 | 蓄意-故意 396 | 最-第一 397 | 认定-宣布 398 | 生于-诞生 399 | 著名-有名 400 | 配种-交配 401 | 起初-起先 402 | 最初-最先 403 | 现行-目前 404 | 拥有-设立 405 | 组织-机构 406 | 别名-又名 407 | 必须-一定 408 | 地点-位于 409 | 巴基斯坦-巴国 410 | 布什-美国 411 | 举办-落幕 412 | 来自-出身 413 | 认为-主张 414 | 领导人-领袖 415 | 强-显著 416 | 没有-无 417 | 作用-工作 -------------------------------------------------------------------------------- /test/data/pub_banned_words.txt: -------------------------------------------------------------------------------- 1 | 5YW8emhpCg== 2 | 5YyW5aaG5ZOBCg== 3 | 54ix54ixCg== 4 | TUwK 5 | bWwK 6 | TWwK 7 | bUwK 8 | bWFrZWxvdmUK 9 | T09YWAo= 10 | WFhPTwo= 11 | b294eAo= 12 | eHhvbwo= 13 | b3gK 14 | eG8K 15 | T1gK 16 | WE8K 17 | 5Yqg5b6uCg== 18 | 5YqgVgo= 19 | 5Yqgdgo= 20 | 5LiJ57qnCg== 21 | 5Lq65YW9Cg== 22 | 5L2c54ixCg== 23 | 5YGa54ixCg== 24 | 5Lmx5LymCg== 25 | 5Lmz5aS0Cg== 26 | 5Lmz5oi/Cg== 27 | 5Lmz5pmVCg== 28 | 5Lmz5rKfCg== 29 | 5YW95LqkCg== 30 | 5Y2W5q+UCg== 31 | 5Y2W6YC8Cg== 32 | 5Y+M5LmzCg== 33 | 5Y+M5bOwCg== 34 | 5Y+M5rKfCg== 35 | 5Y+R5pilCg== 36 | 5Y+R5rWqCg== 37 | 5Y+R6aqaCg== 38 | 5Y+X5a2VCg== 39 | 5Y+r5bqKCg== 40 | 5ZCu5ZC4Cg== 41 | 5ZG75ZCfCg== 42 | 5ZKq5ZKqCg== 43 | 5Zub57qn54mHCg== 44 | 5aSE5aWz6IacCg== 45 | 5aSc5r+A5oOFCg== 46 | 5bCE57K+Cg== 47 | 5bCP6bih6bihCg== 48 | 5bGB55y8Cg== 49 | 5beo5LmzCg== 50 | 5beo5rOiCg== 51 | 5aSx6LqrCg== 52 | 5aW45bC4Cg== 53 | 5aW45rerCg== 54 | 5aaI6YC8Cg== 55 | 5aaT5aWzCg== 56 | 5aiH5ZaYCg== 57 | 5amK5a2QCg== 58 | 5aqa5aaZCg== 59 | 5byA6IueCg== 60 | 5by65aW4Cg== 61 | 5by65pq0Cg== 62 | 5oCn5LqkCg== 63 | 5oCn5aW0Cg== 64 | 5oCn5qyyCg== 65 | 5oCn54ixCg== 66 | 5oCn6JmQ5b6FCg== 67 | 5oOF5qyyCg== 68 | 5oOF6ImyCg== 69 | c0IK 70 | c2IK 71 | U0IK 72 | U2IK 73 | 5aupYgo= 74 | 5aupQgo= 75 | 5aSn6Iqx6YC8Cg== 76 | 5aSn6YC8Cg== 77 | 5omL5rerCg== 78 | 5raI6a2CCg== 79 | 5rer5LmxCg== 80 | 5rer5aaHCg== 81 | 5rer5aiDCg== 82 | 5rer5qyyCg== 83 | 5rer56m0Cg== 84 | 5rer6I2hCg== 85 | 5rer6LSxCg== 86 | 5rer6Z2hCg== 87 | 6I2h5aaHCg== 88 | 6IKb5LqkCg== 89 | 6IKb6ZeoCg== 90 | 56eB5aSECg== 91 | 57K+5rayCg== 92 | 54OC5q+UCg== 93 | 54OC6YC8Cg== 94 | 6IKJ5qOSCg== 95 | 6IKJ57ydCg== 96 | 6IKPCg== 97 | 6IKbCg== 98 | 5rOi5o6o6b6ZCg== 99 | 6IO05L2TCg== 100 | 6IeA5rKfCg== 101 | 6Ieq5oWwCg== 102 | 6Ieq5pG4Cg== 103 | 6Ieq54SaCg== 104 | 6Imy5Zu+Cg== 105 | 6Imy5oOFCg== 106 | 6Imy5qyyCg== 107 | 6Imy6K+xCg== 108 | 6Iqx6JWKCg== 109 | 6Iqz56m0Cg== 110 | 54uC5pONCg== 111 | 54uX5pONCg== 112 | 54yl5Lq1Cg== 113 | 546J5L2TCg== 114 | 55Sf5q6W5ZmoCg== 115 | 5aSn6bih5be0Cg== 116 | 5aSn6Zue5be0Cg== 117 | 57qm54KuCg== 118 | 5pON5q+UCg== 119 | 5pON6YC8Cg== 120 | 5LiA5aSc5oOFCg== 121 | 6aOO6aqaCg== 122 | 6aqa5aaHCg== 123 | 6aqa5aaWCg== 124 | 6aqa5aa5Cg== 125 | 6aqa6LSnCg== 126 | 6aqa6LmE5a2QCg== 127 | 6Imy55S15b2xCg== 128 | 6Imy5aa55aa5Cg== 129 | 6Imy6KeG6aKRCg== 130 | 6Imy5bCP6K+0Cg== 131 | 6KO45L2TCg== 132 | 6Ziz5YW3Cg== 133 | 6Zi05ZSHCg== 134 | 6Zi05rC0Cg== 135 | 6Zi06IyOCg== 136 | 6Zi06JKCCg== 137 | 6Zi06YGTCg== 138 | 5Lic5Lqs54OtCg== 139 | 5p2x5Lqs54axCg== 140 | 6IOh57Sn5aWXCg== 141 | 6IOh6Yym5r+kCg== 142 | 6IOh6YCC55y8Cg== 143 | 6IOh6ICA6YKmCg== 144 | 5rmW5rer5aiYCg== 145 | 5q+b5rO95LicCg== 146 | 5rCR5Li7Cg== 147 | 5rCR6L+QCg== 148 | 5rGf5aSq5LiKCg== 149 | 5rGf57O75Lq6Cg== 150 | 5rGf6LS85rCRCg== 151 | 55aG542oCg== 152 | 5Lmg6L+R5bmzCg== 153 | 6YKT5bCP5bmzCg== 154 | 5rGf5rO95rCRCg== 155 | 6ZSm5rabCg== 156 | 5Y2O5Zu96ZSLCg== 157 | 5rip5a625aChCg== 158 | 5rip5YiH5pav54m5Cg== 159 | 5rip5b2x5bidCg== 160 | 5rqr5a625a+2Cg== 161 | 55if5Yqg6aWxCg== 162 | 55if5YGH6aWxCg== 163 | 6LW157Sr6ZizCg== 164 | 6IOh6ZSm5rabCg== 165 | 5biM6ISPCg== 166 | 5Lmg6L+b5bmzCg== 167 | 5b2t5Li95aqbCg== 168 | 5Lmg5aSq5LiKCg== 169 | 6IOh5aSq5LiKCg== 170 | 5q+b5aSq5LiKCg== 171 | 6YSn5bCP5bmzCg== 172 | 5LiT5pS/Cg== 173 | 5Lit5YWxCg== 174 | 5Y+w5rm+54us56uLCg== 175 | 5Y+w54usCg== 176 | 5a6Y5ZWG5Yu+Cg== 177 | 5a6Y5Lmf5LiN5a65Cg== 178 | 5a6Y5Zug5Y+R5biWCg== 179 | 5aSa5YWaCg== 180 | 5YWa5a6YCg== 181 | 5YWa5ZCO6JCOCg== 182 | 5aSp5a6J6Zeo5bGg5p2ACg== 183 | 6KKr5Lit5YWxCg== 184 | 5YWx54uXCg== 185 | 5Lic5YyX54us56uLCg== 186 | 5Y2B5aSn56aBCg== 187 | 6Ieq55Sx5ZyjCg== 188 | 6Ieq55Sx5LqaCg== 189 | 54us56uL5Y+w5rm+Cg== 190 | 5YWx546L5YKoCg== 191 | 5ouJ55m7Cg== 192 | 5YWt5ZubCg== 193 | 5YWx5Lqn5YWaCg== 194 | 5YWa5Lit5aSuCg== 195 | 5aSp6bmF5LmL5peFCg== 196 | 5Zyj5oiYCg== 197 | 6Zi/5omB5o6o57+7Cg== 198 | 546L56uL5YabCg== 199 | 5LiA5YWaCg== 200 | 5Z+65Zyw57uE57uHCg== 201 | SVNJUwo= 202 | 6JKL5LuL55+zCg== 203 | 5a2Z5Lit5bGxCg== 204 | 5a2Z5rCR5Li75LmJCg== 205 | 6Zm46IKGCg== 206 | NuaciDTml6UK 207 | 5a2m5r2uCg== 208 | 6JeP54usCg== 209 | 6JaE54aZ5p2lCg== 210 | 5rSe5bCP5Y+j57SnCg== 211 | 5Lmx5aW4Cg== 212 | 5Lmx5Lym57G7Cg== 213 | 5Lmx5Lym5bCPCg== 214 | 5LqC5YCrCg== 215 | 5Lym55CG5aSnCg== 216 | 5Lym55CG55S15b2xCg== 217 | 5Lym55CG5q+bCg== 218 | 5Lym55CG54mHCg== 219 | 6Jyc56m0Cg== 220 | 5o+S5bGB5bGBCg== 221 | 54uX5LqkCg== 222 | 54uX5oCnCg== 223 | 54uX5YGaCg== 224 | 5aeQ5YyF5aScCg== 225 | 5aeQ5pyN5YqhCg== 226 | 5aeQ5YW86IGMCg== 227 | 5aeQ5LiK6ZeoCg== 228 | 5paw6YeR55O2Cg== 229 | 6YeR55O2Cg== 230 | 5r+A5oOF5aa5Cg== 231 | 5r+A5oOF54KuCg== 232 | 6bih5aW4Cg== 233 | 6bih5be0Cg== 234 | 5p+U6IO457KJCg== 235 | 6IKJ5rSeCg== 236 | 6IKJ5qONCg== 237 | 5rua5ZyG5aSn5LmzCg== 238 | 5aWz6KKr5Lq65a625pCeCg== 239 | 5aWz5r+A5oOFCg== 240 | 5aWz5oqA5biICg== 241 | 5aWz5Lq65ZKM54uXCg== 242 | 5aWz56eY5LmmCg== 243 | 5aWz5LiK6ZeoCg== 244 | 5aWz5YSqCg== 245 | 5pGp5bCP5aeQCg== 246 | 5q+N5Lmz5a62Cg== 247 | 5oOF6IGK5aSp5a6kCg== 248 | 5oOF5aa55aa5Cg== 249 | 5oOF6KeG6aKRCg== 250 | 5oOF6Ieq5ouNCg== 251 | 5oyk5Lmz5rGBCg== 252 | 5pOg5Lmz5rGBCg== 253 | 5oCn54ixCg== 254 | 5oCn56aP5oOFCg== 255 | 5oCn5oSfCg== 256 | 5oCn5o6o5bm/Cg== 257 | 6YC85qC3Cg== 258 | 6YWl6IO4Cg== 259 | 5aa55oyJ5pGpCg== 260 | 5aa55LiK6ZeoCg== 261 | 6Zeo5oyJ5pGpCg== 262 | 6Zeo5L+d5YGlCg== 263 | 6ZaA5pyN5YuZCg== 264 | 5pS75a6Y5bCP5aeQCg== 265 | 6KaB5bCE57K+5LqGCg== 266 | 6KaB5bCE5LqGCg== 267 | 6KaB5rOE5LqGCg== 268 | 5ray5L2T54K4Cg== 269 | 5Lmz5LqkCg== 270 | 5YW86IGM5LiK6ZeoCg== 271 | 6KO46IGK572RCg== 272 | 6KO46Iie6KeGCg== 273 | 5rWq56m0Cg== 274 | 5Yaw54Gr5Lmd6YeNCg== 275 | 6aqa5aaHCg== 276 | 6aqa5rWqCg== 277 | 6aqa56m0Cg== 278 | 6aqa5Zi0Cg== 279 | 6K+x5aW4Cg== 280 | 6LGq5LmzCg== 281 | 5o2i5aa7Cg== 282 | 5aiY5Lik6IW/5LmL6Ze0Cg== 283 | 5aae5LiK6ZeoCg== 284 | 5rWT57K+Cg== 285 | 5Lid6Laz5oyJCg== 286 | 5oGL6LazCg== 287 | 5oGL5bC4Cg== 288 | 56e954mpCg== 289 | 5aW25a2QCg== 290 | 5rex5ZaJCg== 291 | 5ZC56JCnCg== 292 | 6IGK6KeG6aKRCg== 293 | 5omL5pyo5LuTCg== 294 | 5omL5qeNCg== 295 | 5oC75Lya576O5aWzCg== 296 | 5o+05LqkCg== 297 | 6L2u5aW4Cg== 298 | 5bCP56m0Cg== 299 | 6bKN6bG8Cg== 300 | 5aSr5aa75Lqk5o2iCg== 301 | 6JeP5pil6ZiBCg== 302 | 5Yek5qW8Cg== 303 | 6aKc5bCECg== 304 | 6Zmw5ZSHCg== 305 | 6Zmw6YGTCg== 306 | 6Zmw5oi2Cg== 307 | 5rer6a2U6IieCg== 308 | 5rer5oOF5aWzCg== 309 | 5rer6IKJCg== 310 | 5rer6ai35aa5Cg== 311 | 5rer5YW9Cg== 312 | 5rer5YW95a2mCg== 313 | 5rer5rC0Cg== 314 | 5rer56m0Cg== 315 | 56C05aSECg== 316 | 57uz6JmQCg== 317 | U00K 318 | 5oub5aaTCg== 319 | 576O5LmzCg== 320 | 576kUAo= 321 | 576k5aW4Cg== 322 | 54iG5aW2Cg== 323 | 6auY5r2uCg== 324 | 5bm86b2/57G7Cg== 325 | 546J6JKy5ZuiCg== 326 | 6biz6biv5rSXCg== 327 | M+e6p+eJhwo= 328 | NOe6p+eJhwo= 329 | QVYK 330 | QeeJhwo= 331 | Qee6pwo= 332 | SkoK 333 | 5o6o5rK5Cg== 334 | 5omT6aOe5py6Cg== 335 | 5pil5rC0Cg== 336 | 5a2455Sf5aa5Cg== 337 | 5YW95LqkCg== 338 | 5aup56m0Cg== 339 | 5aup6Zi0Cg== 340 | 57K+5a2Q5bCE5ZyoCg== 341 | 5ZCD57K+Cg== 342 | 5ZCe57K+Cg== 343 | 5YaF5bCECg== 344 | 5bCx54ix5o+SCg== 345 | 54ix5rayCg== 346 | 5Y+R5LymCg== 347 | 5Y+R5Lym5YqfCg== 348 | 5Y+R5oqhCg== 349 | 5Y+R5oqh5YqfCg== 350 | 5Y+R6K66Cg== 351 | 5Y+R6K665YWsCg== 352 | 5Y+R6K665YqfCg== 353 | 5oqh5YqfCg== 354 | 5rC15Y67Cg== 355 | 5rC15Y676L2m5LuR5bel5YqbCg== 356 | 6L2s5rOV6L2uCg== 357 | 6L2u5aSnCg== 358 | 5rOVKuWKnwo= 359 | 5rOVbHVu5YqfCg== 360 | 5rOV5LuRCg== 361 | 5rOV5LymCg== 362 | 5rOV5YqfCg== 363 | 5rOV5Y2B6L2u5Y2B5YqfCg== 364 | 5rOV5oSjCg== 365 | 5rOV6K66Cg== 366 | 5rOV6LCqCg== 367 | 5rOV6L2uCg== 368 | 5rOV6L2u5YqfCg== 369 | 5rOV6L2u5aSn5rOVCg== 370 | 5rOV6L2m5LuRCg== 371 | 5rOV5Lym5YqfCg== 372 | 5rOV6L2uCg== 373 | 5rOV6L2u5L2bCg== 374 | 5rOV57u05p2DCg== 375 | 5rOV5LiA6L2uCg== 376 | 55yf5ZaE5b+NCg== 377 | 54K85aSn5rOVCg== 378 | 5p2O5rSq5b+XCg== 379 | 6L2u5YqfCg== 380 | 5Lym5YqfCg== 381 | 5aSn5rOVCg== 382 | 5p2O5a6P5b+XCg== 383 | 5p2O6bi/5b+XCg== 384 | 5p2O57qi5b+XCg== 385 | 5pON5LuWCg== 386 | 5pON5L2gCg== 387 | 5pON5L2g5aaICg== 388 | 5pON6JuLCg== 389 | 5pel5L2gCg== 390 | 5pel5L2g5aaICg== 391 | 5pel5q275L2gCg== 392 | 5Y675L2g5aaI55qECg== 393 | 5YK76YC8Cg== 394 | 6Im5Cg== 395 | 6I2J5rOl6amsCg== 396 | 5pON5LqG5auCCg== 397 | 5pON5auC5a2QCg== 398 | 5L2g5aaI55qECg== 399 | 5bmy5L2g5aiYCg== 400 | 5bmy5q275L2gCg== 401 | 5oiR5pON5L2gCg== 402 | 6Z2g5L2g5aaICg== 403 | 5p2C56eNCg== 404 | Y25tCg== 405 | Q05NCg== 406 | dG1kCg== 407 | VE1ECg== 408 | 5pON5Zy6Cg== 409 | 5omT6ZKxCg== 410 | 5pel6LWaCg== 411 | 5Y2a5b2pCg== 412 | 5Y2h5LiKCg== 413 | 5Y2h5Y+3Cg== 414 | 5YWF5YC8Cg== 415 | 5YWF6ZKxCg== 416 | 5Yqe5pys56eRCg== 417 | 5Yqe55CGCg== 418 | 5paH5YetCg== 419 | 5Yqe5oCUCg== 420 | 5Yqe6K+BCg== 421 | 5bu/5LiA54K5Cg== 422 | 5bu/5LqU54K5Cg== 423 | 5b2p56WoCg== 424 | 5b2p6ZK7Cg== 425 | 5b6u5L+hCg== 426 | 5YKs55yg5rC0Cg== 427 | 5YKs5oOF57KJCg== 428 | 5YKs5oOF6I2vCg== 429 | 5YKs5oOF6JelCg== 430 | 5oyr5LuRCg== 431 | 5q+V5Lia6K+BCg== 432 | 562U5qGI5YyFCg== 433 | 562U5qGI5o+Q5L6bCg== 434 | 5Y+R56Wo5Ye6Cg== 435 | 5Y+R56Wo5LujCg== 436 | 5Y+R56Wo6ZSACg== 437 | 55m856WoCg== 438 | 6JKZ5rGX6I2vCg== 439 | 6L+35bm75Z6LCg== 440 | 6L+35bm76I2vCg== 441 | 6L+35bm76JelCg== 442 | 6L+35piP5Y+jCg== 443 | 6L+35piP6I2vCg== 444 | 6L+35piP6JelCg== 445 | 6L+36a2C6aaZCg== 446 | 6L+36a2C6I2vCg== 447 | 6L+36a2C6JelCg== 448 | 6L+35aW46I2vCg== 449 | 6L+35oOF5rC0Cg== 450 | 6L+35oOF6I2vCg== 451 | 6L+36JelCg== 452 | 6LCc5aW46I2vCg== 453 | 5Luj5YqeCg== 454 | 5Luj6L6mCg== 455 | 5Luj6ZaLCg== 456 | 5Luj6ICDCg== 457 | 5Luj55CG5Y+R56WoCg== 458 | 5Luj55CG56Wo5o2uCg== 459 | 5Luj5oKo6ICDCg== 460 | 5Luj5oKo6ICDCg== 461 | 5Luj5YaZ5q+VCg== 462 | 5Luj5YaZ6K66Cg== 463 | 5Luj5a2VCg== 464 | 6LS35YqeCg== 465 | 6LS35YCf5qy+Cg== 466 | 6LS35byACg== 467 | 5pS55Y+36L2v5Lu2Cg== 468 | 5Y+N5bGP6JS9Cg== 469 | 6YaJ6ZKi5p6qCg== 470 | 6YaJ6L+36I2vCg== 471 | 6YaJ5LmZ6YaaCg== 472 | 5bCK54i157KJCg== 473 | 5YGa6K+B5Lu2Cg== 474 | 6L6m5q+V5LiaCg== 475 | 6L6m6K2JCg== 476 | 5qyh6YCa6L+H6ICDCg== 477 | 57qn5Yqe55CGCg== 478 | 57qn562U5qGICg== 479 | 5qC86K+B6ICD6K+VCg== 480 | 5ZCE57G76ICD6K+VCg== 481 | 6Lef6Liq5ZmoCg== 482 | 5YiH5ZCs5ZmoCg== 483 | 56qD5ZCs5ZmoCg== 484 | 6YCP6KeG5Yqf6IO9Cg== 485 | 6YCP6KeG6ZWcCg== 486 | 6YCP6KeG5omRCg== 487 | 6YCP6KeG5ZmoCg== 488 | 6YCP6KeG55y86ZWcCg== 489 | 6YCP6KeG6I2vCg== 490 | 6YCP6KeG5LuqCg== 491 | 6ICD562U5qGICg== 492 | 6ICD5ZCO5LuY5qy+Cg== 493 | 6ICD5py65p6ECg== 494 | 6ICD6IGU55ufCg== 495 | 6ICD5YmN562UCg== 496 | 6ICD5YmN562U5qGICg== 497 | 6ICD5YmN5LuYCg== 498 | 6ICD6K6+5aSHCg== 499 | 6ICD6K+V5YyF6L+HCg== 500 | 6ICD6K+V5L+dCg== 501 | 6ICD6K+V562U5qGICg== 502 | 6ICD6K+V5py65p6ECg== 503 | 6ICD6K+V6IGU55ufCg== 504 | 6ICD6K+V5p6qCg== 505 | 6ICD56CU6ICD5LitCg== 506 | 6ICD5Lit562U5qGICg== 507 | 5L2c5byK5ZmoCg== 508 | 5L2c5ZCE56eN6K+BCg== 509 | 6K+B5Yiw5LuY5qy+Cg== 510 | 6K+B5Lu25YqeCg== 511 | 6K+B5Lu26ZuG5ZuiCg== 512 | 6K+B55Sf5oiQ5ZmoCg== 513 | 6K+B5Lmm5YqeCg== 514 | 6K+B5LiA5qyh5oCnCg== 515 | 6K2J5Lu2Cg== 516 | 5Yqp6ICDCg== 517 | 5LiT5Lia5LujCg== 518 | 5LiT5Lia5YqpCg== 519 | 5LiT5Lia5biuCg== 520 | 5LiT5Lia5pu/Cg== 521 | 57up6L+H5ZCO5LuYCg== 522 | 5ouN6IKp56We6I2vCg== 523 | 5YW86IGMCg== 524 | 5Yqh5ZGY562U5qGICg== 525 | 5Yqh5ZGY6ICD6K+VCg== 526 | 6ZaL56K8Cg== 527 | 6ZaL56WoCg== 528 | 6JmQ5b6FCg== 529 | 6JmQ54yrCg== 530 | 6JmQ55WcCg== 531 | 5Yaw5q+SCg== 532 | 5ZCX5ZWhCg== 533 | 6JmQ54uXCg== 534 | 5pGH5aS05Li4Cg== 535 | S+eyiQo= 536 | 6bim54mHCg== 537 | 5rW35rSb5ZugCg== 538 | 5p2c5Ya35LiBCg== 539 | 5Y+v5Y2h5ZugCg== 540 | 5Y+k5p+vCg== 541 | bW9ycGhpbmUK 542 | TW9yZXBoaW5lCg== 543 | aGVyb2luCg== 544 | SGVyb2luCg== 545 | Y2FubmFiaXMK 546 | Y2FubmFiaXMK 547 | 5ZKW5ZWh5ZugCg== 548 | aHRtbAo= 549 | aHR0cAo= 550 | bmV0Cg== 551 | cm1iCg== 552 | d3d3Cg== 553 | 5b6u5L+hCg== 554 | d3gK 555 | V1gK 556 | d1gK 557 | V3gK 558 | dngK 559 | VlgK 560 | VngK 561 | dlgK 562 | UVEK 563 | UXEK 564 | cVEK 565 | cXEK 566 | V1dXCg== 567 | V1d3Cg== 568 | V3dXCg== 569 | V+S/oQo= 570 | d+S/oQo= 571 | VuS/oQo= 572 | duS/oQo= 573 | d2VpeGluCg== 574 | V2VpeGluCg== 575 | V2VpWGluCg== 576 | V2VjaGF0Cg== 577 | d2VjaGF0Cg== 578 | d2VpYm8K 579 | 5b6u5Y2aCg== 580 | duWNmgo= 581 | 5Zu06ISWCg== 582 | d2IK 583 | V0IK 584 | amoK 585 | 55aG54usCg== 586 | 5Ye65ZSu5p6q5pSvCg== 587 | 6KW/6JeP5aSp6JGsCg== 588 | 6Im+546b5ouJ5ZiJ57ucCg== 589 | 5p2O5rSq5b+XCg== 590 | 55uR5ZCs546LCg== 591 | 5piP6I2vCg== 592 | 6bq76YaJ6ZKi5p6qCg== 593 | 6IOh5rW35bOwCg== 594 | 5rGf5rO95rCRCg== 595 | 6IOh6ZSm5rabCg== 596 | 5rip5a625a6dCg== 597 | 5YWt5Zub5a2m5r2uCg== 598 | 6bq76YaJ5p6qCg== 599 | 6L+35aW46I2vCg== 600 | 5YKs5oOF6I2vCg== 601 | 5YWt5Zub5LqL5Lu2Cg== 602 | 5aSn5rOV6L2uCg== 603 | 6bq75Y+kCg== 604 | 5Y+w54usCg== 605 | 5q+b5rO95LicCg== 606 | S+eyiQo= 607 | 5YWt5ZubCg== 608 | 5rOV6L2u5YqfCg== 609 | 5p2O5a6P5b+XCg== 610 | 5p2O5LmJ5by6Cg== 611 | 5rOV6K665YqfCg== 612 | 5YWt5ZubCg== 613 | 6L6+6LWWCg== 614 | 5aSp5a6J6Zeo5LqL5Lu2Cg== 615 | 5YWt5Zub5LmL5b25Cg== 616 | 5Lit5YWx6YKq5pWZCg== 617 | 5aSn5rOV5rSq5LygCg== 618 | 5byY5rOV5L2TCg== 619 | 5rOV6L2u5L2b5rOVCg== 620 | 5a6H5a6Z5pyA6auY5rOV55CGCg== 621 | 5LqU5aWX5Yqf5rOVCg== 622 | 5aSn5rOV5LmL5aOwCg== 623 | 5rGf54us6KOBCg== 624 | 5ZyG5piO572RCg== 625 | 5Y+R5q2j5b+1Cg== 626 | 5aSn5rOV5aSn56aPCg== 627 | 5aSn56Ge5byf5a2QCg== 628 | 5pSv6IGU5LyaCg== 629 | 5rWB5rCT5rCR6L+QCg== 630 | 5rOV6Lyq5YqfCg== 631 | 5YWt5Yaz5LiNCg== 632 | 5rGf5rO95rCR5YW25Lq6Cg== 633 | 5aW45rerCg== 634 | 5Ye65ZSu54yO5p6qCg== 635 | 6Ieq54SaCg== 636 | 5Lmd6K+E5YWx5Lqn5YWaCg== 637 | 5Luj5byA56ef6LWB5Y+R56WoCg== 638 | 5piO5oWn5ZGo5YiKCg== 639 | 5pSv5oyB5Y+w5rm+Cg== 640 | 5Luj5byA5Zyw56iO5Y+R56WoCg== 641 | 5Luj5byA5bm/5ZGK5Y+R56WoCg== 642 | 5Luj5byA6L+Q6L6T5Y+R56WoCg== 643 | 5oql56aBCg== 644 | 5YWa56aBCg== 645 | 6bi95rS+Cg== 646 | 6bmw5rS+Cg== 647 | 6LWj5rGf5a2m6Zmi5pq05YqoCg== 648 | 5YWo5Zu96YCA5YWaCg== 649 | 57u05p2D5oqX5pq0Cg== 650 | 5rSq5Y+R5Lqk5rWBCg== 651 | 5rW35aSW5oqk5rOVCg== 652 | 5Lqy5YWx5p2l5rqQCg== 653 | 6buE6Imy5bCP6K+0Cg== 654 | 5Y+w5rm+MThEWeeUteW9sQo= 655 | SOWKqOa8qwo= 656 | 5Lqa54OtCg== 657 | 5YyF5aiD6KGjCg== 658 | 5rOV5q2j5Lq66Ze0Cg== 659 | 5rOV5q2j5Lm+5Z2kCg== 660 | 5aup56m0Cg== 661 | 5YWt5ZCI6YeHCg== 662 | 6IKh5biC5rCR6LCjCg== 663 | 5rer6Ze06YGTCg== 664 | 5Luj5byA5Zu956iO5Y+R56WoCg== 665 | 54Gr6I2v5Yi25L2cCg== 666 | 5rGf5rCPCg== 667 | 6JCs5Lq65pq0Cg== 668 | 5a6Y6YC85rCR5Y+NCg== 669 | 5a2m55Sf5pq05YqoCg== 670 | 6ZWH5Y6L5a2m55SfCg== 671 | 6bih5be0Cg== 672 | 5Y+N5Lit5ri46KGMCg== 673 | 55eb5om55pS/5rOV5aeUCg== 674 | 6IuP5Lic6Kej5L2TCg== 675 | 5Y+N5Y+z6aKY5p2QCg== 676 | 5Y2r5pif5o6l5pS25ZmoCg== 677 | 5LiB5bqm5be05ouJ5pavCg== 678 | 5Y+25YmR6IuxCg== 679 | 5rip5a625aChCg== 680 | 6JKL5b2m5rC4Cg== 681 | 54Gt57ud572qCg== 682 | 5Y2O5Zu96ZSLCg== 683 | 5Lmw5pil5aCCCg== 684 | 5L+h5Y+35oum5oiq5ZmoCg== 685 | 5Luj5byA5pmu6YCa5Y+R56WoCg== 686 | 5Luj5byA5ZWG5ZOB5Y+R56WoCg== 687 | 5Lit5Zu95aiB6IOB6K66Cg== 688 | 5oCn5aW0Cg== 689 | 5YqJ5aWH6JGGCg== 690 | 5rOVbHVu5YqfCg== 691 | 5p2o5bCa5piGCg== 692 | 5YuV5LmxCg== 693 | 6YKq5oG255qE5YWaCg== 694 | 5Ye65ZSu6L+36I2vCg== 695 | 5rmY6Zi05Y6/5p2o5p6XCg== 696 | 6ams5Yqg54i1Cg== 697 | 5Lmg5Luy5YuLCg== 698 | 5YiY5Lyv5om/Cg== 699 | 6K645LiW5Y+LCg== 700 | 57qq55m75aWOCg== 701 | 6IuP5oyv5Y2OCg== 702 | 5p2O5b6355SfCg== 703 | 5YWo5paw5YGH6ZKeCg== 704 | 5Lu/55yf5YGH6ZKeCg== 705 | 5Yi25L2c54K45by5Cg== 706 | 5Ye65ZSu5YGH6ZKeCg== 707 | 5Luj5byA57u05L+u5Y+R56WoCg== 708 | 5Luj5byA5bu6562R5Y+R56WoCg== 709 | 5Luj5byA5a6J6KOF5Y+R56WoCg== 710 | 5Luj5byA6aSQ6aWu5Y+R56WoCg== 711 | 5Luj5byA5pyN5Yqh5Y+R56WoCg== 712 | 5rOV6L2uCg== 713 | 5pm66IO977yo77yTCg== 714 | 6bih5ZCnCg== 715 | 6YKT5bCP5bmzCg== 716 | 6aaZ5riv5oC75b2pCg== 717 | 5YWt5ZKM6YeHCg== 718 | 6aaZ5riv6LWb6ams5LyaCg== 719 | 5YWx6ZOy5YWaCg== 720 | 5YWx5q6L5YWaCg== 721 | 5YWx5oOo5YWaCg== 722 | 5YWxY2hhbuWFmgo= 723 | 54K55a+554K56KO46IGKCg== 724 | 6Jyc56m0Cg== 725 | 5Luj5Yqe5ZGYCg== 726 | 6L2s5rOV6L2uCg== 727 | 5pys5ouJ55m7Cg== 728 | 6KW/6JeP54us56uLCg== 729 | 5paw55aG54us56uLCg== 730 | 5pyx6ZWV5Z+6Cg== 731 | 5ZGo5rC45bq3Cg== 732 | 6IOh57O7Cg== 733 | 5YWr5Lmd5Yqo5LmxCg== 734 | 5rGf5rS+Cg== 735 | 5rqc6bq75Y+kCg== 736 | 6IOh5ripCg== 737 | 6IOh55ifCg== 738 | 55if5a62Cg== 739 | 5rip5aSr5Lq6Cg== 740 | 5rip5YWs5a2QCg== 741 | 6IOh5YWs5a2QCg== 742 | 5rip5a6d5a6dCg== 743 | 5rip5LqR5p2+Cg== 744 | 5rGf5a625biuCg== 745 | 5aSq5a2Q5YWaCg== 746 | 5rGf57O7Cg== 747 | 5rGf6IOhCg== 748 | 5rCR5Li75YWaCg== 749 | 6IOh57Sn5aWXCg== 750 | 6IOh57Sn5o6PCg== 751 | 55if5a626bioCg== 752 | 55if5YGH6bioCg== 753 | 5rip5YGH6aWxCg== 754 | 5q+b6LS85LicCg== 755 | 5q+b5Y6V5rSeCg== 756 | 5q+b5Y6V5LicCg== 757 | 5Y+w5rm+54us56uLCg== 758 | 6ams6Iux5LmdCg== 759 | 5rip5Yqg6aWxCg== 760 | 5Y2W5YGH6ZKeCg== 761 | 5rOb57u/Cg== 762 | 5YWs5oqVCg== 763 | 6JOd6JClCg== 764 | 57u/6JClCg== 765 | 5LiB5a2Q6ZyWCg== 766 | 5rOb6JOdCg== 767 | 5Lq65p2D5Zyj54GrCg== 768 | 5LiK5LmmCg== 769 | 6Ie06IOh5ripCg== 770 | 5Lit5Zu96Z2p5ZG95YWaCg== 771 | 5aSp572R55S15a2Q5oqlCg== 772 | 5oGQ5oCW5Li75LmJCg== 773 | 5oGQ5oCW6KKt5Ye7Cg== 774 | 6Ieq5p2A5byP54iG54K4Cg== 775 | 56CB5Lit54m5Cg== 776 | NuWQiOW9qQo= 777 | 5YWt5pif5ZCI5b2pCg== 778 | 5YWt5ZCI6I+cCg== 779 | 5Y+w5rm+6Ze06LCNCg== 780 | 57uf54us5YWJ6LCxCg== 781 | 5Y+w54us5YWa57qyCg== 782 | 5Y+w54us5YWaCg== 783 | 6L+36a2C6JqK6aaZCg== 784 | 6L+36a2C6aaZ54OfCg== 785 | QeWei+iCieavkue0oAo= 786 | 5Ye65ZSu5rCU5p6qCg== 787 | 5Y+N5Y+z6L+Q5YqoCg== 788 | 5paH6Z2pCg== 789 | 6LSn5Yiw5LuY5qy+Cg== 790 | 5ZSu6bq76YaJCg== 791 | 5Yab55So5omL5p6qCg== 792 | 6YKq5YWaCg== 793 | 5aSp54Gt5LitCg== 794 | 5aSp6KaB54Gt5LitCg== 795 | 5Zyj5oiYCg== 796 | 5Y2B5a2X5YabCg== 797 | 5a2m5r2uCg== 798 | 5bel5a2X5rCU5p6qCg== 799 | 5LiJ566t5rCU5p6qCg== 800 | 56eD6bmw5rCU5p6qCg== 801 | 6auY5Y6L5rCU5p6qCg== 802 | 5rCU5p6q5a2Q5by5Cg== 803 | 6LSt5Lmw5rCU5p6qCg== 804 | 5Lu/55yf5rCU5p6qCg== 805 | 6L+Q5Yqo5rCU5p6qCg== 806 | 5rCU5p6q5LiT5Y2WCg== 807 | 5rCU5p6q6ZOF5by5Cg== 808 | 5rCU5p6q5Lu35qC8Cg== 809 | 5rCU5p6q5by557CnCg== 810 | 5rip54i354i3Cg== 811 | 5rGf5r6k5rCRCg== 812 | 5omT56C45oqiCg== 813 | 6ZSm5rabCg== 814 | 6IOhSua2mwo= 815 | 6IOh5pil5Y2OCg== 816 | 6IOh6L+b5rabCg== 817 | 57qi5Y2r5YW1Cg== 818 | 57qi5b+XCg== 819 | 5a6P5b+XCg== 820 | 5a6P5rK7Cg== 821 | 5rSq5b+XCg== 822 | 5p2O5a6P5rK7Cg== 823 | 5Lyv5biM5p2lCg== 824 | 6JaE54aZ5p2lCg== 825 | 5YWa5YaF5p2D5YqbCg== 826 | 5p2O57qi5pm6Cg== 827 | 5rGf6am0Cg== 828 | 5rGf57u15oGSCg== 829 | 5rGf54mMCg== 830 | 5rGf5rOJ6ZuG5ZuiCg== 831 | 5rGf5qKz5aS0Cg== 832 | 5rGf57O75Lq66amsCg== 833 | 5rGf5a6w5rCRCg== 834 | 5rGf5oupbWluCg== 835 | 5Zyj54Gr5LmL5oiYCg== 836 | 6LWW5piM5pifCg== 837 | 5b2t5Li95aqbCg== 838 | 5p2O5rSq5pm6Cg== 839 | 5p2O5rSq55ejCg== 840 | 5p2O6bi/5pm6Cg== 841 | 5p6X5b2qCg== 842 | 5aSn5rOVCg== 843 | 5L+u54WJCg== 844 | 5bCE57K+Cg== 845 | 55yfbuWWhG7lv40K 846 | 55yf5ZaE5b+NPwo= 847 | 6YKq5pWZCg== 848 | 5a2m55Sf6L+Q5YqoCg== 849 | 6YCA5YWa5aOw5piOCg== 850 | 6ISx5YWaCg== 851 | 6ISx5ZuiCg== 852 | 5Lqh5YWaCg== 853 | 5Lqh5YWx6ICF6IOhCg== 854 | 5LmdIOivhOWFrOS6p+WFmgo= 855 | 5Zub5Lq65biuCg== 856 | 5paH6Z2p6YeK5pS+Cg== 857 | 5YWt5Zub6LWE5paZ6aaGCg== 858 | 5rCv56Gd5a6J5a6aCg== 859 | 5piG5LuR5aWz56We5YqfCg== 860 | 5Y+N5YWx5Lyg5Y2VCg== 861 | 5Y+N5YWx6KiA6K66Cg== 862 | 5Y+N5Lq657G7572qCg== 863 | 5b6q546v6L2u5Zue6K66Cg== 864 | 54eV546y6K665Z2bCg== 865 | 5LiA5YWa54us6KOBCg== 866 | 5LiA5YWa5LiT5pS/Cg== 867 | 5Y+N6Z2p5ZG95pS/5Y+Y57qy6aKGCg== 868 | Ni405LqL5Lu2Cg== 869 | NjTlrabmva4K 870 | 5a6J56uL5pWPCg== 871 | 5YWr5Lmd5a2m5r2uCg== 872 | 54Ku5YW15Y+C6LCL5omL5YaMCg== 873 | 6IOh55qE5o6l54+t5Lq6Cg== 874 | 5Zue5rCR5pq05YqoCg== 875 | 5Zue5rCR54yqCg== 876 | 5Zue5b+G5YWt5ZubCg== 877 | 6bih5q+b5L+h5paH5rGHCg== 878 | 56ev5YWL6aaGCg== 879 | 5Z+6552j54G15oGp5biD6YGT5ZuiCg== 880 | 55a+55eF5Lia5YC66K+0Cg== 881 | 5rGf5rS+5ZKM6IOh5rS+Cg== 882 | 5rGf5rS+5Lq66amsCg== 883 | 5rGf5rO95YWs5a6hCg== 884 | 5rGf5rO95rCR5a6L56WW6IuxCg== 885 | 5rGf6LS8Cg== 886 | 6Kej5L2T5Lit5YWxCg== 887 | 5Yab6Zif6LWw56eBCg== 888 | 5oqX6K6u5Lit5YWx5b2T5bGACg== 889 | 5Ye65ZSu55Sp5qONCg== 890 | 5Ye65ZSu5LiJ5qOx5Yab5Yi6Cg== 891 | 5Ye65ZSu5Zyj55Sy6Jmr6Lez5YiACg== 892 | 5Ye65ZSu5Yab5YiACg== 893 | 5Ye65ZSu5Yab5Yi6Cg== 894 | 5Ye65ZSu5by557Cn5YiACg== 895 | 5Ye65ZSu5LiJ5qOx5YiACg== 896 | 5Ye65ZSu6Lez5YiACg== 897 | 5Ye65ZSu6JmO54mZ5Yab5YiACg== 898 | 5Ye65ZSu6J206J225YiACg== 899 | 5Ye65ZSu54yb6JmO5Yab5YiACg== 900 | 5Ye65ZSu57K+5Lu/5Yab5YiDCg== 901 | 5Ye65ZSu55Sp5qON6Lez5YiACg== 902 | 5Ye65ZSu6YeO5oiY5rGC55Sf5YiA5YW3Cg== 903 | 5Ye65ZSu6J206J226Lez5YiACg== 904 | 5Ye65ZSu5Lu/55yf5Yab5Yi6Cg== 905 | 5Ye65ZSu5oi35aSW56CN5YiACg== 906 | 5Ye65ZSu57K+5Lu/5LiJ5qOx5Yab5Yi6Cg== 907 | 5Ye65ZSuNTblvI/lhpvliLoK 908 | 5Ye65ZSuQUvlhpvliLoK 909 | 5Ye65ZSu5byA5bGx5YiACg== 910 | 5Ye65ZSu57K+5ZOB5Yab5YiACg== 911 | 5Ye65ZSu5byA5YiD5Yab5YiACg== 912 | 5Ye65ZSuTVQt6JmO54mZCg== 913 | 5Ye65ZSu5Yab5ZOB5Yi65YiACg== 914 | 5Ye65ZSu5Yi65YiACg== 915 | 5Luj5byA5Yi25L2c5Y+R56WoCg== 916 | 5aSn6YeP5L6b5bqUQ0ZYCg== 917 | 5aSn6YeP5L6b5bqURkZYCg== 918 | 5aSn6YeP5L6b5bqURlgK 919 | 5aSn6YeP5L6b5bqUTTkyRgo= 920 | 5aSn6YeP5L6b5bqU5a2Q5by5Cg== 921 | 5aSn6YeP5L6b5bqU6ZOF5by55rCU5p6qCg== 922 | 5aSn6YeP5L6b5bqU5pWj5by554uXCg== 923 | 5aSn6YeP5L6b5bqUNzfnjI7mnqoK 924 | 5aSn6YeP5L6b5bqUNzfnjI7mp40K 925 | 5aSn6YeP5L6b5bqUOTLlvI8K 926 | 5aSn6YeP5L6b5bqUOTLlvI8K 927 | 5aSn6YeP5L6b5bqU6YeR6ZKf5rCU5p6qCg== 928 | 5aSn6YeP5L6b5bqU5omL54uXCg== 929 | cXHljZboh6roo73miYvni5cK 930 | cXHljZbpkqLnj6Dni5cK 931 | cXHljZbku7/nnJ/msJTmnqoK 932 | 5aSn6YeP5L6b5bqU6JmO6aCt54215qeNCg== 933 | 5aSn6YeP5L6b5bqU5omL5qeNCg== 934 | 5aSn6YeP5L6b5bqU5pWj5by55p6qCg== 935 | 5aSn6YeP5L6b5bqU54215qeNCg== 936 | 5aSn6YeP5L6b5bqUNjTmiYvmnqoK 937 | 5aSn6YeP5L6b5bqUNjTmiYvmp40K 938 | 5aSn6YeP5L6b5bqU542154uXCg== 939 | 5aSn6YeP5L6b5bqUNjTlvI8K 940 | 5aSn6YeP5L6b5bqU5pWj5by55qeNCg== 941 | 5aSn6YeP5L6b5bqU54yO5p6qCg== 942 | 5aSn6YeP5L6b5bqU6JmO5aS054yO5p6qCg== 943 | 5aSn6YeP5L6b5bqUcWnni5cK 944 | 5pS56KOF56uL5byP5Y+M566h54yO5p6qCg== 945 | 5pS56KOF5rivMzjlvI/lt6bova4K 946 | 5pS56KOF5bm/5bee5LiJ566tCg== 947 | 5pS56KOF5YGl5Y2rMTTmraXmnqoK 948 | 5pS56KOF54215qeN6bq76YaJ5qeNCg== 949 | 5pS56KOF54215qeN5omL5qeNCg== 950 | 5pS56KOF6bq76YaJ5p6qCg== 951 | 5pS56KOF576O5Zu956eD6bmwCg== 952 | 5pS56KOF5Y+46ams57O75YiX5rCU54uXCg== 953 | 5pS56KOF5Y+M566h5bmz5byP5p6qCg== 954 | 5pS56KOFOTLmiYvmnqoK 955 | 5pS56KOFOTLlvI/miYvmp40K 956 | 5pS56KOF5rW36LG5TTkK 957 | 5pS56KOF5rivMzjlvI/lt6bova4K 958 | 5pS56KOF5Ye65ZSu5Y+M566h54yO5p6qCg== 959 | 5pS56KOF5Y+w5rm+56eD6bmwCg== 960 | 5pS56KOF6ZKi54+g54yO54uXCg== 961 | 5pS56KOF6auY5Y6L54uXCg== 962 | 5pS56KOF5bel5a2X54mM5rCj5qeNCg== 963 | 5pS56KOF54215p6q5a2Q5b2ICg== 964 | 5pS56KOF6Ieq6KO95omL54uXCg== 965 | 5pS56KOF6Iux5Zu96aqa5pys5rCU5p6qCg== 966 | 5pS56KOF6KKW54+N5omL5p6qCg== 967 | 5pS56KOF6Ieq55So55S154uXCg== 968 | 5pS56KOF6Ieq5Yi25byPNjTlvI8K 969 | 5pS56KOF5L+E572X5pavNjU0Swo= 970 | 5pS56KOF5Lu/55yf5p2l5aSN5p6qCg== 971 | 5pS56KOF5Lu/55yf5rCU5p6qCg== 972 | 5pS56KOF6ZKi54+g54uXCg== 973 | 5pS56KOF5bm/5bee5LiJ566t5rCU5p6qCg== 974 | 5pS56KOFOTLmiYvmnqoK 975 | 5pS56KOFOTLmiYvmp40K 976 | 5pS56KOFQ0ZY5rCU5p6qCg== 977 | 5pS56KOFRkZY5rCj5qeNCg== 978 | 5pS56KOFcWnni5cK 979 | 5pS56KOF6JmO6aCt54215qeNCg== 980 | 5pS56KOF6Ziy6Lqr5q2m5ZmoCg== 981 | 5pS56KOF6auY5Y6L5rCU5p6qCg== 982 | 5pS56KOF5bm/5bee5LiJ566t5rCUCg== 983 | 5pS56KOF5buj5bee5LiJ566t5rCjCg== 984 | 5pS56KOF5bel5a2X54mM5rG95qeNCg== 985 | 5pS56KOF6auY5aOT5rCj5qeNCg== 986 | 5pS56KOF5Lu/55yf5qeN5qihCg== 987 | 5pS56KOF5bem6L2u5omL5p6qCg== 988 | 5pS56KOF55Om5pav5omL54uXCg== 989 | 5pS56KOF56eD6bmw5rG95p6qCg== 990 | 5pS56KOF5YGl5Y2r5bCP5Y+j5b6ECg== 991 | 5pS56KOF6JmO5aS05Y+M566hCg== 992 | 5pS56KOF5b635Zu9QTEwMDAK 993 | 5pS56KOF5q2l5qeNCg== 994 | 5pS56KOF5q2l5p6q5a2Q5by5Cg== 995 | 5pS56KOF5q2l5p6qCg== 996 | 5pS56KOF6bq76YaJ5p6qCg== 997 | 5pS56KOF5bem6L2u6ZKi54+g54uXCg== 998 | 5pS56KOF6Ymb5b2I5rCj5qeNCg== 999 | 5pS56KOF56a/6be55rG95qeNCg== 1000 | 5pS56KOF5YGl6KGb5bCP5Y+j5b6RCg== 1001 | 5pS56KOF5Y2V566h54yO5p6qCg== 1002 | 5pS56KOF6Ziy6Lqr6bq76YaJ5p6qCg== 1003 | 5pS56KOF5ail55yJ5rCU5p6qCg== 1004 | 5pS56KOF5bel5a2X54mM5rG95p6qCg== 1005 | 5pS56KOF5Lu/55yf5p6q5qihCg== 1006 | 5pS56KOFNDVNTeeLl+eyrgo= 1007 | 5pS56KOF6JmO5aS054yO5p6qCg== 1008 | 5pS56KOFUFBLCg== 1009 | 5pS56KOFUENQ5paw6LS1Cg== 1010 | 5pS56KOFRljmsJTnmocK 1011 | 5pS56KOFTTkyRuW8j+aJi+anjQo= 1012 | 5pS56KOFNzfnjI7mnqoK 1013 | 5pS56KOF5omL5qeNCg== 1014 | 5pS56KOF5pWj5by55p6qCg== 1015 | 5pS56KOFNjTlvI8K 1016 | 5pS56KOF542154uXCg== 1017 | 5pS56KOFNjTmiYvmnqoK 1018 | 5pS56KOFNjTmiYvmnqoK 1019 | 5pS56KOFNjTlvI/miYvmp40K 1020 | 5pS56KOF5pWj5by554uXCg== 1021 | 5pS56KOF54yO54uXCg== 1022 | 5pS56KOF5omL54uXCg== 1023 | 5pS56KOF6YeR6ZKf5rCU5p6qCg== 1024 | 5pS56KOF5pWj5by55qeNCg== 1025 | 5pS56KOF54215qeNCg== 1026 | 5o+Q5L6b5Yaw6YmG55+z5pWZ56iLCg== 1027 | 6bq75Y+k5L6b5bqUCg== 1028 | 5pS56KOF6ZOF5by55rCU5p6qCg== 1029 | 5pS56KOFNjTlvI/miYvmnqoK 1030 | 5pS56KOF54yO5p6qCg== 1031 | 5pS56KOFNzfnjI7mp40K 1032 | 5pS56KOFNjTmiYvmp40K 1033 | 5pS56KOFOTLlvI8K 1034 | 5pS56KOFOTLlvI/miYvmnqoK 1035 | 5om55Y+R6Ze06Iuv5LiJ6YWaCg== 1036 | 5L6b5bqU6KKW54+N5omL5p6qCg== 1037 | 5L6b5bqU6Ieq5Yi25byPNjTlvI8K 1038 | 5L6b5bqU5L+E572X5pavNjU0Swo= 1039 | 5L6b5bqU5Lu/Q1o3NUJE5omL5p6qCg== 1040 | 5L6b5bqU5Lu/55yf5p2l5aSN5p6qCg== 1041 | 5L6b5bqU6ZKi54+g54uXCg== 1042 | 5L6b5bqU6ZKi54+g54yO54uXCg== 1043 | 5L6b5bqU6auY5Y6L54uXCg== 1044 | 5L6b5bqU5bel5a2X54mM5rCj5qeNCg== 1045 | 5L6b5bqU5q2l5p6qCg== 1046 | 5L6b5bqU6bq76YaJ5p6qCg== 1047 | 5L6b5bqU5bem6L2u6ZKi54+g54uXCg== 1048 | 5L6b5bqU5YGl6KGb5bCP5Y+j5b6RCg== 1049 | 5L6b5bqU5buj5bee5LiJ566t5rCjCg== 1050 | 5L6b5bqU5bel5a2X54mM5rG95qeNCg== 1051 | 5L6b5bqU6auY5aOT5rCj5qeNCg== 1052 | 5L6b5bqU5Lu/55yf5qeN5qihCg== 1053 | 5L6b5bqU5YGl5Y2r5bCP5Y+j5b6ECg== 1054 | 5L6b5bqU5bm/5bee5LiJ566t5rCUCg== 1055 | 5L6b5bqU6JmO6aCt54215qeNCg== 1056 | 5L6b5bqUcWnni5cK 1057 | 5L6b5bqUUENQ5paw6LS1Cg== 1058 | 5L6b5bqUOTLmiYvmp43lrZDlvYgK 1059 | 5L6b5bqUOTLmiYvmnqoK 1060 | 5L6b5bqUOTLlvI8K 1061 | 5L6b5bqUOTLlvI/miYvmnqoK 1062 | 5L6b5bqU5rW36LG5TTkK 1063 | 5L6b5bqU5Y+46ams57O75YiX5rCU54uXCg== 1064 | 5L6b5bqU5Y+M566h5bmz5byP5p6qCg== 1065 | 5L6b5bqU6bq76YaJ5p6qCg== 1066 | 5L6b5bqU54215qeN5omL5qeNCg== 1067 | 5L6b5bqU5Ye65ZSu5Y+M566h54yO5p6qCg== 1068 | 5L6b5bqU54215qeN6bq76YaJ5qeNCg== 1069 | 5L6b5bqU6Iux5Zu96aqa5pys5rCU5p6qCg== 1070 | 5L6b5bqU6Ieq55So55S154uXCg== 1071 | 5L6b5bqU54215p6q5a2Q5b2ICg== 1072 | 5L6b5bqU6Ieq6KO95omL54uXCg== 1073 | 5bem5peL6bq76buD57Sg5L6b5bqUCg== 1074 | 5aSn6YeP5L6b5bqU6ZaT6Iuv5LiJ6YWaCg== 1075 | 5L6b5bqU5q2l5qeNCg== 1076 | 5L6b5bqU5b635Zu9QTEwMDAK 1077 | 5L6b5bqU5ail55yJ5rCU5p6qCg== 1078 | 5L6b5bqU6Ziy6Lqr6bq76YaJ5p6qCg== 1079 | 5L6b5bqU5rivMzjlvI/lt6bova7mnqoK 1080 | 5L6b5bqU5rivMzjlvI/lt6bova4K 1081 | 5L6b5bqU5Lu/55yf54uZ5Ye75p6qCg== 1082 | 5L6b5bqU5Y2V566h54yO5p6qCg== 1083 | 5L6b5bqU5bm/5bee5LiJ566t5rCU5p6qCg== 1084 | 5L6b5bqU5a2Q5by5Cg== 1085 | 5L6b5bqU5pWj5by55p6qCg== 1086 | 5L6b5bqU5omL5qeNCg== 1087 | 5L6b5bqU56uL5byP5Y+M566h54yO5p6qCg== 1088 | 5L6b5bqUOTLlvI/miYvmp40K 1089 | 5L6b5bqUNzfnjI7mp40K 1090 | 5L6b5bqU5YGl5Y2rMTTmraXmnqoK 1091 | 5L6b5bqUOTLmiYvmnqoK 1092 | 5L6b5bqUOTLmiYvmnqrlrZDlvYgK 1093 | 5L6b5bqUNjTmiYvmp40K 1094 | 5L6b5bqUNjTmiYvmnqoK 1095 | 5L6b5bqUNjTmiYvmnqoK 1096 | 5L6b5bqUNjTlvI/miYvmp40K 1097 | 5L6b5bqUNjTlvI/miYvmnqoK 1098 | 5L6b5bqU5pWj5by554uXCg== 1099 | 5L6b5bqU5omL54uXCg== 1100 | 5L6b5bqU5pWj5by55qeNCg== 1101 | 5L6b5bqU54215qeNCg== 1102 | 6Yq35ZSu5bel5a2X54mM5rCj5qeNCg== 1103 | 6Yq35ZSu6auY5Y6L54uXCg== 1104 | 6Yq35ZSu6ZKi54+g54yO54uXCg== 1105 | 6Yq35ZSu6ZKi54+g54uXCg== 1106 | 6Yq35ZSu5L+E572X5pavNjU0Swo= 1107 | 6Yq35ZSu6Ieq5Yi25byPNjTlvI8K 1108 | 5L6b5bqUNzfnjI7mnqoK 1109 | 5L6b5bqUNjTmiYvmnqrlrZDlvYgK 1110 | 5L6b5bqUNjTmiYvmp43lrZDlvYgK 1111 | 5L6b5bqURljmsJTnmocK 1112 | 5L6b5bqU6Ymb5b2I5rCj5qeNCg== 1113 | 5L6b5bqU56a/6be55rG95qeNCg== 1114 | 5L6b5bqURkZY5rCj5qeNCg== 1115 | 5L6b5bqUTTkyRuW8j+aJi+anjQo= 1116 | 5L6b5bqUQ0ZY5rCU5p6qCg== 1117 | 5L6b5bqUOTLmiYvmp40K 1118 | 6Yq35ZSu6Ieq6KO95omL54uXCg== 1119 | 6Yq35ZSu5Lu/Q1o3NUJE5omL5p6qCg== 1120 | 6Yq35ZSu5Lu/55yf5rCU5p6qCg== 1121 | 6Yq35ZSu5Lu/55yf5p2l5aSN5p6qCg== 1122 | 6Yq35ZSu6auY5Y6L5rCU5p6qCg== 1123 | 6Yq35ZSu5bm/5bee5LiJ566t5rCU5p6qCg== 1124 | 6Yq35ZSu5rW36LG5TTkK 1125 | 6Yq35ZSu5rivMzjlvI/lt6bova4K 1126 | 6Yq35ZSu5Y2V566h54yO5p6qCg== 1127 | 6Yq35ZSu6KKW54+N5omL5p6qCg== 1128 | 6Yq35ZSu6Ziy6Lqr6bq76YaJ5p6qCg== 1129 | 6Yq35ZSu54215qeN6bq76YaJ5qeNCg== 1130 | 6Yq35ZSu54215qeN5omL5qeNCg== 1131 | 6Yq35ZSu576O5Zu956eD6bmwCg== 1132 | 6Yq35ZSu5Y+46ams57O75YiX5rCU54uXCg== 1133 | 6Yq35ZSu5Y+M566h5bmz5byP5p6qCg== 1134 | 6Yq35ZSu5Ye65ZSu5Y+M566h54yO5p6qCg== 1135 | 6Yq35ZSu5Y+w5rm+56eD6bmwCg== 1136 | 6Yq35ZSu6Iux5Zu96aqa5pys5rCU5p6qCg== 1137 | 6Yq35ZSu5bem6L2u5omL5p6qCg== 1138 | 6Yq35ZSu55Om5pav5omL54uXCg== 1139 | 6Yq35ZSu56eD6bmw5rG95p6qCg== 1140 | 6Yq35ZSu5YGl5Y2r5bCP5Y+j5b6ECg== 1141 | 6Yq35ZSu6JmO5aS05Y+M566hCg== 1142 | 6Yq35ZSu5bm/5bee5LiJ566t5rCUCg== 1143 | 6Yq35ZSu5bel5a2X54mM5rG95p6qCg== 1144 | 6Yq35ZSu5Lu/55yf5p6q5qihCg== 1145 | 6Yq35ZSu6Ymb5b2I5rCj5qeNCg== 1146 | 6Yq35ZSu5bem6L2u6ZKi54+g54uXCg== 1147 | 6Yq35ZSu6bq76YaJ5p6qCg== 1148 | 6Yq35ZSu5q2l5p6q5a2Q5by5Cg== 1149 | 6Yq35ZSu5q2l5qeNCg== 1150 | 6Yq35ZSu5b635Zu9QTEwMDAK 1151 | 6Yq35ZSu5ail55yJ5rCU5p6qCg== 1152 | 6Yq35ZSu6Ieq55So55S154uXCg== 1153 | 6Yq35ZSu5Lu/55yf54uZ5Ye75p6qCg== 1154 | 6Yq35ZSu5rivMzjlvI/lt6bova7mnqoK 1155 | 6Yq35ZSu5bm/5bee5LiJ566tCg== 1156 | 6Yq35ZSu5YGl5Y2rMTTmraXmnqoK 1157 | 6Yq35ZSu56uL5byP5Y+M566h54yO5p6qCg== 1158 | 6Yq35ZSuNDVNTeeLl+eyrgo= 1159 | 6Yq35ZSu6Ziy6Lqr5q2m5ZmoCg== 1160 | 6Yq35ZSu54yO5p6qCg== 1161 | 6Yq35ZSuQ0ZY5rCU5p6qCg== 1162 | 6Yq35ZSuRljmsJTnmocK 1163 | 6Yq35ZSu6JmO5aS054yO5p6qCg== 1164 | 6Yq35ZSucWnni5cK 1165 | 6Yq35ZSuTTkyRuW8j+aJi+anjQo= 1166 | 6Yq35ZSuRkZY5rCj5qeNCg== 1167 | 6Yq35ZSu6JmO6aCt54215qeNCg== 1168 | 6Yq35ZSu5Lu/55yf5qeN5qihCg== 1169 | 6Yq35ZSuOTLmiYvmnqrlrZDlvLkK 1170 | 6Yq35ZSu5omL5qeNCg== 1171 | 6Yq35ZSu542154uXCg== 1172 | 6Yq35ZSuOTLlvI/miYvmp40K 1173 | 6Yq35ZSu6YeR6ZKf5rCU5p6qCg== 1174 | 6Yq35ZSu54215qeNCg== 1175 | 6Yq35ZSu5pWj5by55p6qCg== 1176 | 6Yq35ZSuOTLlvI8K 1177 | 6Yq35ZSuOTLmiYvmnqoK 1178 | 6Yq35ZSuOTLmiYvmnqrlrZDlvLkK 1179 | 6Yq35ZSuOTLmiYvmnqoK 1180 | 6Yq35ZSuOTLmiYvmp40K 1181 | 6Yq35ZSu56a/6be55rG95qeNCg== 1182 | 6Yq35ZSu5YGl6KGb5bCP5Y+j5b6RCg== 1183 | 6Yq35ZSu5buj5bee5LiJ566t5rCjCg== 1184 | 6Yq35ZSu6auY5aOT5rCj5qeNCg== 1185 | 6Yq35ZSu5bel5a2X54mM5rG95qeNCg== 1186 | 5Y+w5rm+54mI5YGH5biBCg== 1187 | 5Lmw5Yaw5q+SCg== 1188 | 6Imz5Y+y5q2m5YiZ5aSpCg== 1189 | 5rer5Lmx5Lq65aa7Cg== 1190 | 6Yq35ZSu5a2Q5by5Cg== 1191 | 6Yq35ZSu5pWj5by55qeNCg== 1192 | 6Yq35ZSuOTLlvI/miYvmnqoK 1193 | 6Yq35ZSuNzfnjI7mnqoK 1194 | 6Yq35ZSuNjTmiYvmnqrlrZDlvLkK 1195 | 6Yq35ZSuNjTmiYvmnqrlrZDlvLkK 1196 | 6Yq35ZSuNjTlvI/miYvmp40K 1197 | 5o+Q5L6b56a/6be55rG95qeNCg== 1198 | 5o+Q5L6b5buj5bee5LiJ566t5rCjCg== 1199 | 5o+Q5L6b5bel5a2X54mM5rG95qeNCg== 1200 | 5o+Q5L6b6auY5aOT5rCj5qeNCg== 1201 | 5r+A5oOF6KO46IGKCg== 1202 | 6Yq35ZSu5omL54uXCg== 1203 | 6Yq35ZSu5pWj5by554uXCg== 1204 | 6Yq35ZSuNjTlvI8K 1205 | 5o+Q5L6b5rW36LG5TTkK 1206 | 5o+Q5L6b5rivMzjlvI8K 1207 | 5o+Q5L6b5Lu/55yf54uZ5Ye75p6qCg== 1208 | 5o+Q5L6b5Y2V566h54yO5p6qCg== 1209 | 5o+Q5L6b5q2l5p6qCg== 1210 | 5o+Q5L6b5bem6L2u6ZKi54+g54uXCg== 1211 | 6Yq35ZSuNjTmiYvmnqoK 1212 | 6Yq35ZSuNjTmiYvmnqoK 1213 | 6Yq35ZSuNjTmiYvmp40K 1214 | 6Yq35ZSuNzfnjI7mp40K 1215 | 6Yq35ZSuNjTlvI/miYvmnqoK 1216 | 6Yq35ZSu6ZOF5by55rCU5p6qCg== 1217 | 6Yq35ZSu54yO54uXCg== 1218 | 5Ye65ZSu56qD5ZCs5ZmoCg== 1219 | 6LOj5bem6Lyq5omL5qeNCg== 1220 | 56qD5ZCs5Zmo5Ye65ZSuCg== 1221 | 576O5aWz5YyF5aSc5oyJ5pGpCg== 1222 | 576O5aWz5Ye65Y+w5YyF5aScCg== 1223 | UVHkvpvmh4nnjbXmp43lrZDlvYgK 1224 | UVHkvpvmh4nmiYvmp43lrZDlvYgK 1225 | 5omL5p6q5Lqk5piTCg== 1226 | 5Ye65ZSu6LWw56eB54yO5p6qCg== 1227 | 5Ye65ZSu6LWw56eB54uZ5Ye75p6qCg== 1228 | 5Ye65ZSu6LWw56eB5Yab54GrCg== 1229 | 5Ye65ZSu6LWw56eB5Yay6ZSL5p6qCg== 1230 | 5Ye65ZSu6LWw56eB5bCP5Y+j5b6E5q2l5p6qCg== 1231 | 5Ye65ZSu6LWw56eB56CC5p6qCg== 1232 | 5Ye65ZSu6LWw56eB5omL5p6qCg== 1233 | 54uZ5Ye75p6q5a2Q5by55Ye65ZSuCg== 1234 | 6Imy5oOF5bCP6K+0Cg== 1235 | 5Ye65ZSu6LWw56eB5q2l5p6qCg== 1236 | 5Ye65ZSu5ZCE5Zu95Yab55So5q2l5p6qCg== 1237 | 5Ye65ZSu5ZCE5Zu95Yab55So5omL5p6qCg== 1238 | 576O5aWz5LiK6Zeo5YWo5aWX5pyN5YqhCg== 1239 | 576O5aWz5LiK6Zeo5Y+j5LqkCg== 1240 | 576O5aWz5LiK6Zeo6IKb5LqkCg== 1241 | 5Ye65ZSu5ZCE5Zu95Yi25byP5omL5p6qCg== 1242 | 5Ye65ZSu5ZCE5Zu95Yi25byP5q2l5p6qCg== 1243 | 5LiJ5Yip6L6+6L+96aOOCg== 1244 | 5LiJ5Yip6L6+5omL5bypCg== 1245 | 5LiJ5Yip6L6+5bypCg== 1246 | 5LiJ5Yip6L6+5pS56KOFCg== 1247 | 5LiJ5Yip6L6+55qE5bCP6buR6LG5Cg== 1248 | 5LiJ5Yip6L6+5Y6C5a6255u06ZSACg== 1249 | 54yO6LG55byT5byp5pS56KOFCg== 1250 | 5Yqb5pav5pu86LSn5Yiw5LuY5qy+Cg== 1251 | 5Yqb5pav5pu86buR54aK6YWN5Lu2Cg== 1252 | 5Yqb5pav5pu86buR54aK5pS56KOFCg== 1253 | 5Yqb5pav5pu85pS56KOFCg== 1254 | 5YWw5bee5byT5byp572RCg== 1255 | 5Y2h5be05byp55SoODA454yO566tCg== 1256 | 6L+b5Y+j5byT5byp5Lu36ZKxCg== 1257 | 54Sm5L2c5byT5byp572RCg== 1258 | 5Zu95a625byT5byp572RCg== 1259 | 5Zu96ZmF5byT5byp572RCg== 1260 | 5bm/5bee5byT5byp572RCg== 1261 | 5bm/6KW/5byT5byp572RCg== 1262 | 5L6b5bqU5bCP6buR6LG5MjAwNUEK 1263 | 5L6b5bqU5LiJ5Yip6L6+55u06ZSACg== 1264 | 5L6b5bqUODA454yO566tCg== 1265 | 5byT5byp5Lu36ZKxCg== 1266 | 5byT5byp55qE5YGa5rOVCg== 1267 | 5Lik55So5Lit5Z6L5bypCg== 1268 | 5Yab55So5byT5bypCg== 1269 | 5Yqg6ZW/5Lik55So5bypCg== 1270 | 5byT5byp55qE6Ieq5Yi25Zu+57q4Cg== 1271 | 5byT5bypRElZCg== 1272 | 6ZKi5Yi25byT5bypCg== 1273 | 5aSa5Yqf6IO95aSn5Z6L5bypCg== 1274 | 5Y+g5Z6L6YeN5Z6L5Lik55So5byT5bypCg== 1275 | 6YeO5oiY54m556eN5YW1MDAzCg== 1276 | 55y86ZWc6JuH5Lik55So5Lit5Z6L5bypCg== 1277 | 6Zuq54u8VDktMQo= 1278 | 5bCP6buR6LG5IDIwMDVBCg== 1279 | 5bCP6aOe54u8MjAwMEMK 1280 | 5qOu5p6X5LmL6JmOMjAwNkIK 1281 | 5qOu5p6X5LmL54uQMjAwNVAK 1282 | 5LiJ5Yip6L6+5Z6L5Lik55So5aSn5bypCg== 1283 | TEItTTTlnovlvLnlvJPlvKkK 1284 | ODgxOOmHjuaImOaXheW8k+W8qQo= 1285 | 6L+95pyIMjI1QeW8qQo= 1286 | 6YeN5Z6L5Lik55So5bypCg== 1287 | 6YeN5Z6L5Lik55So5byT5bypCg== 1288 | 5L6m5a+f5YW15oqY5Y+g5bypCg== 1289 | 5oqY5Y+g6Zi75Ye75bypCg== 1290 | 5Y6f6KOF6L+b5Y+j5bypCg== 1291 | 5byT5byp5omz5py65Yi25L2cCg== 1292 | 6LSp5Y2W5aSn6buR6bmwCg== 1293 | 5Ye65ZSu5by55byT5bypCg== 1294 | 5Ye65ZSu5aSn6buR6bmw5byp6YWN5Lu2Cg== 1295 | 5Ye65ZSu5aSn6buR6bmwbHNn5bypCg== 1296 | 5Ye65ZSuODA454yO566tCg== 1297 | 6Zy4546L5byT5bypCg== 1298 | 5a6J6Ziz5byT5byp572RCg== 1299 | 5LiJ5Yip6L6+5byT5bypCg== 1300 | 5rCU5p6q5byP5Lik55So5Lit5bypCg== 1301 | 54yO6bmw5oqY5Y+g5bypCg== 1302 | 54yO6LG55oqY5Y+g5bypCg== 1303 | 54yO6LG5MjAwOE4K 1304 | 54yO6LG5MjAwOEUK 1305 | 5aSn5Z6L54up54yO5bypCg== 1306 | 5aSn5aiB5Yqb5byT5bypCg== 1307 | 5aSn6buR6bmwTFNHCg== 1308 | 5Yab55So5byT5byp5LiT5Y2WCg== 1309 | 5LiJ5Yip6L6+5byT5byp5LiT5Y2WCg== 1310 | 56em5rCP5byT5byp5LiT5Y2WCg== 1311 | 5aSn6buR6bmw5byT5byp5LiT5Y2WCg== 1312 | 6L+b5Y+j5byT5byp5LiT5Y2WCg== 1313 | 5qOu5p6X5LmL54u85byT5byp5LiT5Y2WCg== 1314 | 6ZSA5ZSu5byT5bypCg== 1315 | 5Ye65ZSu5byT5bypCg== 1316 | 5byT5byp6JCl6ZSA5Lit5b+DCg== 1317 | 5byT5byp5LiA55m+5LiT5Y2W5bqXCg== 1318 | 5byT5byp6ZSA5ZSuCg== 1319 | 5byT5byp572RCg== 1320 | 6Ieq5Yi25omL5bypCg== 1321 | 5LiT5Lia5byT5byp572RCg== 1322 | 5Lit5Zu95byp5byT5LiT5Y2WCg== 1323 | 5Lit5Zu95byT5byp55u06ZSACg== 1324 | 5Lit5Zu95byT5byp54up54yO572RCg== 1325 | 5bCP54yO5Lq65byT5byp572RCg== 1326 | 5bCP5Z6L5byT5byp5LiT5Y2W5bqXCg== 1327 | 6LW15rCP5byT5byp6ZSA5ZSuCg== 1328 | 6LW15rCP5byT5byp5LiT5Y2WCg== 1329 | 6LW15rCP5byT5byp5LiT5Y2W5bqXCg== 1330 | 6LW15rCP5byT5byp5LiT5Y2W572RCg== 1331 | 6YOR5bee5byT5byp5LiT5Y2WCg== 1332 | 5Yi25L2c566A5piT5byT5bypCg== 1333 | 5Lit5Zu95byT6am9572RCg== 1334 | 5LiJ5q2l5YCS6I2v566t5om55Y+RCg== 1335 | 5LiJ5Yip6L6+5byT5byp6YWN5Lu2Cg== 1336 | 5LiJ5Yip6L6+5byT5byp55u06JClCg== 1337 | 5LiJ5Yip6L6+5byT5byp5LiT5Y2W572RCg== 1338 | 5omL5p6q5byP5oqY5Y+g5LiJ55So5bypCg== 1339 | 54up54yO5byT5byp6bq76YaJ566tCg== 1340 | 54up54yO5byT5byp5LiT5Y2WCg== 1341 | 54up54yO5Zmo5p2Q5byT5bypCg== 1342 | 54up54yO5Zmo5p2Q5byT5byp5LiT5Y2WCg== 1343 | 5Yab55So5byT5byp5YWs5Y+4Cg== 1344 | 5Yab55So5byT5byp5om55Y+RCg== 1345 | 5Yab55So5byT5byp5LiT5Y2W5bqXCg== 1346 | 5Yab55So5byT5byp5LiT5Y2W572RCg== 1347 | 5LiJ5q2l5YCS5o2V54uX6I2vCg== 1348 | 5LiJ5q2l5YCS6bq76YaJ566t5LiT5Y2WCg== 1349 | 5LiJ5q2l5YCS5byp566t5LiT5Y2WCg== 1350 | 6bq76YaJ5byT5byp5LiT5Y2W5bqXCg== 1351 | 5omT54uX5byT5byp5LiJ5q2l5YCSCg== 1352 | 6ZKi54+g5byT5byp5LiT5Y2W5bqXCg== 1353 | 6ZKi54+g5byT5byp5LiT5Y2W572RCg== 1354 | 5byT5byp6K665Z2bCg== 1355 | 5byT5byp6bq76YaJ6ZWWCg== 1356 | 5byT5byp6bq76YaJ566tCg== 1357 | 5byT5byp5om55Y+RCg== 1358 | 5byT5byp5ZWG5Z+O5LiT5Y2WCg== 1359 | 5L6b5bqU6ZKi54+g5byT5bypCg== 1360 | 5L6b5bqU5byT5bypCg== 1361 | 5L6b5bqU5byT5byp6bq76YaJ566tCg== 1362 | 5L6b5bqU57K+5ZOB5byT5bypCg== 1363 | 5L6b5bqU5Yab55So5byT5byp5LiT5Y2WCg== 1364 | 5L6b5bqU5Yab55So5byp5oqY5Y+g5bypCg== 1365 | 5L6b5bqU6bq76YaJ566tCg== 1366 | 5L6b5bqU6bq76YaJ566t5om55Y+RCg== 1367 | 5L6b5bqU6bq76YaJ566t5LiJ5q2l5YCSCg== 1368 | 5L6b5bqU5byp5o2V54uX566tCg== 1369 | 5L6b5bqU5byp55So6bq76YaJ566tCg== 1370 | 5L6b5bqU56em5rCP5byT5bypCg== 1371 | 5L6b5bqU5LiJ5q2l5YCS6bq76YaJ566tCg== 1372 | 5Lit5Zu95byT5byp572RCg== 1373 | 5Lit5Zu95byT5byp5LiT5Y2W572RCg== 1374 | 5Lit5Zu95oiY56We5Yab55So5byT5bypCg== 1375 | 5byT5byp54up54yO572RCg== 1376 | 5byT5byp54m56K6457uP6ZSACg== 1377 | 5byT5byp5Zu+57q4Cg== 1378 | 5Ye65ZSu5Yab5ZOBCg== 1379 | 5Ye65ZSu5YyV6aaWCg== 1380 | 5Ye65ZSu5oiY5YiACg== 1381 | 5Ye65ZSu5YuD5pyX5a6B5Yab5YiACg== 1382 | 5Lit5Zu95Yab5YiA572RCg== 1383 | 5Ye65ZSu6Zm255O35YiA5YW3Cg== 1384 | 5reY5YiA572RCg== 1385 | 5YiA5YmR5om55Y+R572RCg== 1386 | 54ix5YiA5pS26JeP572RCg== 1387 | TVQt6JmO54mZ5LiT5Y2WCg== 1388 | 5Lib5p6X5oi35aSW5Yab5YiA5LiT5Y2WCg== 1389 | TTnlhpvliIDkuJPljZYK 1390 | 5pel5pys5Yab5YiA5LiT5Y2WCg== 1391 | 5YiA572RLeWGm+WIgOS4k+WNlgo= 1392 | 5aSn6ams5aOr6Z2p6ZKi5Ye65ZSuCg== 1393 | RDnlhpvliLrlhpvliIAK 1394 | QUstNDflhpvliIDlh7rllK4K 1395 | 6Ziz5rGf5YiA5YW3Cg== 1396 | 6YeO5Lq66LC355Sp5qONCg== 1397 | 5oqY5YiA5LiT5Y2WCg== 1398 | 5Ye65ZSu6K2m55So5YiA5YW3Cg== 1399 | 5Ye65ZSu5Yab5YiA5Yab5ZOBCg== 1400 | 576O5Zu95Yab5YiA5LiT5Y2WCg== 1401 | 54yO5YiA5Yab5ZOB5Ye65ZSuCg== 1402 | 5YWw5Y2a5Yab5YiA5Ye65ZSuCg== 1403 | 5YWw5Y2aSUnlj7fmsYLnlJ/liIAK 1404 | 5YWw5Y2aSUnlj7flh7rllK4K 1405 | 56CN5YiA5LiT5Y2W5Yab5Yi6Cg== 1406 | 5Y2h5be05Yab5YiA5Ye65ZSuCg== 1407 | 5Lqa5rSy5rer5Zu+Cg== 1408 | 5oiQ5Lq6QeeJhwo= 1409 | 5oOz5Lmw5p6q5pSvCg== 1410 | 5Y2WS+eyiQo= 1411 | NjTlhpvnlKjmiYvmnqrlh7rllK4K 1412 | 5o+Q5L6b6Ieq5Yi2NTTmiYvmnqoK 1413 | 6K6i6LSt6Ieq5Yi2NTTmiYvmnqoK 1414 | 5ZSu6Ieq5Yi2NTTmiYvmnqoK 1415 | 55u06ZSA6Ieq5Yi2NTTmiYvmnqoK 1416 | 5om55Y+R6Ieq5Yi2NTTmiYvmnqoK 1417 | 5L6b5bqU6Ieq5Yi2NTTmiYvmnqoK 1418 | 6Ieq5Yi2NTTmiYvmnqrplIDllK4K 1419 | 6Ieq5Yi2NTTmiYvmnqrlh7rllK4K 1420 | 6Ieq5Yi2NTTmiYvmnqrmibnlj5EK 1421 | 6Ieq5Yi2NTTmiYvmnqrorqLotK0K 1422 | 6Ieq5Yi2NTTmiYvmnqrkvpvlupQK 1423 | 6Ieq5Yi2NTTmiYvmnqrnm7TplIAK 1424 | 6Ieq5Yi2NTTmiYvmnqrlh7rllK5xcQo= 1425 | 6Ieq5Yi2NTTmiYvmnqrmj5DkvptxcQo= 1426 | 6Ieq5Yi2NTTmiYvmnqrorqLotK1xcQo= 1427 | 6Ieq5Yi2NTTmiYvmnqrplIDllK5xcQo= 1428 | 6Ieq5Yi2NTTmiYvmnqrnm7TplIBxcQo= 1429 | 6Ieq5Yi2NTTmiYvmnqrmibnlj5FxcQo= 1430 | 6Ieq5Yi2NTTmiYvmnqrkvpvlupRxcQo= 1431 | 5Ye65ZSuNjTlhpvnlKjmiYvmnqoK 1432 | 5o+Q5L6bNjTlhpvnlKjmiYvmnqoK 1433 | 6ZSA5ZSuNjTlhpvnlKjmiYvmnqoK 1434 | 5ZSuNjTlhpvnlKjmiYvmnqoK 1435 | 5om55Y+RNjTlhpvnlKjmiYvmnqoK 1436 | 55u06ZSANjTlhpvnlKjmiYvmnqoK 1437 | 6K6i6LStNjTlhpvnlKjmiYvmnqoK 1438 | 5o+Q5L6bNjTlhpvnlKjmiYvmnqpxcQo= 1439 | 5L6b5bqUNjTlhpvnlKjmiYvmnqoK 1440 | 6L2s6K6p5Lu/5YWt5Zub5omL5p6qCg== 1441 | NjTlhpvnlKjmiYvmnqrmj5DkvpsK 1442 | NjTlhpvnlKjmiYvmnqrorqLotK0K 1443 | NjTlhpvnlKjmiYvmnqrplIDllK4K 1444 | NjTlhpvnlKjmiYvmnqrnm7TplIAK 1445 | NjTlhpvnlKjmiYvmnqrmibnlj5EK 1446 | 5o+Q5L6bNTTmiYvmnqrphY3ku7YK 1447 | 6ZSA5ZSuNTTmiYvmnqrphY3ku7YK 1448 | 5om55Y+RNTTmiYvmnqrphY3ku7YK 1449 | 6K6i6LStNTTmiYvmnqrphY3ku7YK 1450 | 5L6b5bqUNTTmiYvmnqrphY3ku7YK 1451 | 55u06ZSANTTmiYvmnqrphY3ku7YK 1452 | NTTmiYvmnqrphY3ku7bmj5DkvpsK 1453 | NTTmiYvmnqrphY3ku7blh7rllK4K 1454 | NTTmiYvmnqrphY3ku7borqLotK0K 1455 | NTTmiYvmnqrphY3ku7bplIDllK4K 1456 | NTTmiYvmnqrphY3ku7bnm7TplIAK 1457 | NTTmiYvmnqrphY3ku7bkvpvlupQK 1458 | 5LiT5Y2W6auY5Lu/5omL5p6qCg== 1459 | 6auY5Lu/5omL5p6q6L2s6K6pCg== 1460 | 5om55Y+R5Lu/5YWt5Zub5omL5p6qCg== 1461 | 6K6i6LSt5Lu/5YWt5Zub5omL5p6qCg== 1462 | 5L6b5bqU5Lu/5YWt5Zub5omL5p6qCg== 1463 | 6LSt5Lmw5Lu/5YWt5Zub5omL5p6qCg== 1464 | 5o+Q5L6b5Lu/5YWt5Zub5omL5p6qCg== 1465 | 55u06ZSA5Lu/5YWt5Zub5omL5p6qCg== 1466 | 5LiT5Y2W5Lu/5YWt5Zub5omL5p6qCg== 1467 | 5Lu/5YWt5Zub5omL5p6q6L2s6K6pCg== 1468 | 5Lu/5YWt5Zub5omL5p6q6K6i6LStCg== 1469 | 5Lu/5YWt5Zub5omL5p6q5L6b5bqUCg== 1470 | 5Lu/5YWt5Zub5omL5p6q6LSt5LmwCg== 1471 | 5Lu/5YWt5Zub5omL5p6q5o+Q5L6bCg== 1472 | 5Lu/5YWt5Zub5omL5p6q5om55Y+RCg== 1473 | 5Lu/5YWt5Zub5omL5p6q5LiT5Y2WCg== 1474 | 5Lu/5YWt5Zub5omL5p6q55u06ZSACg== 1475 | 6L2s6K6pNzflvI/miYvni5cK 1476 | 6K6i6LStNzflvI/miYvni5cK 1477 | 5L6b5bqUNzflvI/miYvni5cK 1478 | 6LSt5LmwNzflvI/miYvni5cK 1479 | 5o+Q5L6bNzflvI/miYvni5cK 1480 | 5Ye65ZSuNzflvI/miYvni5cK 1481 | 5om55Y+RNzflvI/miYvni5cK 1482 | 5LiT5Y2WNzflvI/miYvni5cK 1483 | 55u06ZSANzflvI/miYvni5cK 1484 | NzflvI/miYvni5fkvpvlupQK 1485 | NzflvI/miYvni5fovazorqkK 1486 | NzflvI/miYvni5fmj5DkvpsK 1487 | NzflvI/miYvni5forqLotK0K 1488 | NzflvI/miYvni5fmibnlj5EK 1489 | NzflvI/miYvni5fotK3kubAK 1490 | NzflvI/miYvni5fnm7TplIAK 1491 | NzflvI/miYvni5flh7rllK4K 1492 | NzflvI/miYvni5fkuJPljZYK 1493 | 5L6b5bqU5Lu/55yf5YWt5Zub5omL5p6qCg== 1494 | 6L2s6K6p5Lu/55yf5YWt5Zub5omL5p6qCg== 1495 | 5o+Q5L6b5Lu/55yf5YWt5Zub5omL5p6qCg== 1496 | 6K6i6LSt5Lu/55yf5YWt5Zub5omL5p6qCg== 1497 | 5om55Y+R5Lu/55yf5YWt5Zub5omL5p6qCg== 1498 | 6LSt5Lmw5Lu/55yf5YWt5Zub5omL5p6qCg== 1499 | 55u06ZSA5Lu/55yf5YWt5Zub5omL5p6qCg== 1500 | 5Ye65ZSu5Lu/55yf5YWt5Zub5omL5p6qCg== 1501 | 5LiT5Y2W5Lu/55yf5YWt5Zub5omL5p6qCg== 1502 | 5Lu/55yf5YWt5Zub5omL5p6q6K6i6LStCg== 1503 | 5Lu/55yf5YWt5Zub5omL5p6q5L6b5bqUCg== 1504 | 5Lu/55yf5YWt5Zub5omL5p6q6LSt5LmwCg== 1505 | 5Lu/55yf5YWt5Zub5omL5p6q5o+Q5L6bCg== 1506 | 5Lu/55yf5YWt5Zub5omL5p6q5Ye65ZSuCg== 1507 | 5Lu/55yf5YWt5Zub5omL5p6q5om55Y+RCg== 1508 | 5Lu/55yf5YWt5Zub5omL5p6q5LiT5Y2WCg== 1509 | 5Lu/55yf5YWt5Zub5omL5p6q55u06ZSACg== 1510 | 5Y+46ams57O75YiX5rCU54uX5L6b5bqUCg== 1511 | 5Y+46ams57O75YiX5rCU54uX6K6i6LStCg== 1512 | 5Y+46ams57O75YiX5rCU54uX5o+Q5L6bCg== 1513 | 5Y+46ams57O75YiX5rCU54uX6LSt5LmwCg== 1514 | 5Y+46ams57O75YiX5rCU54uX55u06ZSACg== 1515 | 5Y+46ams57O75YiX5rCU54uX5om55Y+RCg== 1516 | 5Y+46ams57O75YiX5rCU54uX5LiT5Y2WCg== 1517 | 6L2s6K6p6auY5Lu/55yf5rCU5p6qCg== 1518 | 6K6i6LSt6auY5Lu/55yf5rCU5p6qCg== 1519 | 5L6b5bqU6auY5Lu/55yf5rCU5p6qCg== 1520 | 6LSt5Lmw6auY5Lu/55yf5rCU5p6qCg== 1521 | 5o+Q5L6b6auY5Lu/55yf5rCU5p6qCg== 1522 | 5om55Y+R6auY5Lu/55yf5rCU5p6qCg== 1523 | 5LiT5Y2W6auY5Lu/55yf5rCU5p6qCg== 1524 | 55u06ZSA6auY5Lu/55yf5rCU5p6qCg== 1525 | 6auY5Lu/55yf5rCU5p6q6L2s6K6pCg== 1526 | 5LiT5Y2W6auY5Lu/55yf5rCU5p6qcXEK 1527 | 6auY5Lu/55yf5rCU5p6q6K6i6LStCg== 1528 | 6auY5Lu/55yf5rCU5p6q5L6b5bqUCg== 1529 | 6auY5Lu/55yf5rCU5p6q6LSt5LmwCg== 1530 | 6auY5Lu/55yf5rCU5p6q5o+Q5L6bCg== 1531 | 6auY5Lu/55yf5rCU5p6q5om55Y+RCg== 1532 | 6auY5Lu/55yf5rCU5p6q55u06ZSACg== 1533 | UENQ5rCU5p6q5L6b5bqUCg== 1534 | UENQ5rCU5p6q6L2s6K6pCg== 1535 | UENQ5rCU5p6q5o+Q5L6bCg== 1536 | UENQ5rCU5p6q6K6i6LStCg== 1537 | UENQ5rCU5p6q6LSt5LmwCg== 1538 | UENQ5rCU5p6q5om55Y+RCg== 1539 | UENQ5rCU5p6q55u06ZSACg== 1540 | 6LSt5Lmw5bOo55yJ54mM5rG95p6qCg== 1541 | 5o+Q5L6b6Ieq5Yi2NjTmiYvmnqoK 1542 | 6ZSA5ZSu6Ieq5Yi2NjTmiYvmnqoK 1543 | 5om55Y+R6Ieq5Yi2NjTmiYvmnqoK 1544 | 6K6i6LSt6Ieq5Yi2NjTmiYvmnqoK 1545 | 5L6b5bqU6Ieq5Yi2NjTmiYvmnqoK 1546 | 55u06ZSA6Ieq5Yi2NjTmiYvmnqoK 1547 | 6Ieq5Yi2NjTmiYvmnqrmj5DkvpsK 1548 | 6Ieq5Yi2NjTmiYvmnqrorqLotK0K 1549 | 6Ieq5Yi2NjTmiYvmnqrplIDllK4K 1550 | 6Ieq5Yi2NjTmiYvmnqrnm7TplIAK 1551 | 6Ieq5Yi2NjTmiYvmnqrmibnlj5EK 1552 | 5o+Q5L6b5LiJ566t6YWN5Lu2Cg== 1553 | 5bOo55yJ54mM5rG95p6q5L6b5bqUCg== 1554 | 5bOo55yJ54mM5rG95p6q6L2s6K6pCg== 1555 | 5bOo55yJ54mM5rG95p6q5o+Q5L6bCg== 1556 | 5bOo55yJ54mM5rG95p6q6K6i6LStCg== 1557 | 5bOo55yJ54mM5rG95p6q5om55Y+RCg== 1558 | 5bOo55yJ54mM5rG95p6q6LSt5LmwCg== 1559 | 5bOo55yJ54mM5rG95p6q55u06ZSACg== 1560 | 5bOo55yJ54mM5rG95p6q5Ye65ZSuCg== 1561 | 5bOo55yJ54mM5rG95p6q5LiT5Y2WCg== 1562 | 5Ye65ZSu6Ieq5Yi2NjTmiYvmnqoK 1563 | 5LiJ566t6YWN5Lu26K6i6LStCg== 1564 | 5Ye65ZSu5LiJ566t6YWN5Lu2Cg== 1565 | 6K6i6LSt5LiJ566t6YWN5Lu2Cg== 1566 | 6ZSA5ZSu5LiJ566t6YWN5Lu2Cg== 1567 | 55u06ZSA5LiJ566t6YWN5Lu2Cg== 1568 | 5LiJ566t6YWN5Lu25o+Q5L6bCg== 1569 | 5LiJ566t6YWN5Lu26ZSA5ZSuCg== 1570 | 5LiJ566t6YWN5Lu25Ye65ZSuCg== 1571 | 5LiJ566t6YWN5Lu255u06ZSACg== 1572 | 55u06ZSA5bel5a2X54uX57KuCg== 1573 | 5bel5a2X54uX57Ku5o+Q5L6bCg== 1574 | 5bel5a2X54uX57Ku6ZSA5ZSuCg== 1575 | 5bel5a2X54uX57Ku5Ye65ZSuCg== 1576 | 5bel5a2X54uX57Ku55u06ZSACg== 1577 | 5bel5a2X54uX57Ku6K6i6LStCg== 1578 | 5o+Q5L6b576O5Zu956eD6bmw6YWN5Lu2Cg== 1579 | 5ZSu576O5Zu956eD6bmw6YWN5Lu2Cg== 1580 | 5Ye65ZSu576O5Zu956eD6bmw6YWN5Lu2Cg== 1581 | 6K6i6LSt576O5Zu956eD6bmw6YWN5Lu2Cg== 1582 | 6ZSA5ZSu576O5Zu956eD6bmw6YWN5Lu2Cg== 1583 | 576O5Zu956eD6bmw6YWN5Lu25Ye65ZSuCg== 1584 | 576O5Zu956eD6bmw6YWN5Lu25o+Q5L6bCg== 1585 | 576O5Zu956eD6bmw6YWN5Lu26K6i6LStCg== 1586 | 576O5Zu956eD6bmw6YWN5Lu26ZSA5ZSuCg== 1587 | 576O5Zu956eD6bmw6YWN5Lu255u06ZSACg== 1588 | 5om55Y+R576O5Zu956eD6bmw6YWN5Lu2Cg== 1589 | 576O5Zu956eD6bmw6YWN5Lu25om55Y+RCg== 1590 | 5L6b5bqU576O5Zu956eD6bmw6YWN5Lu2Cg== 1591 | 576O5Zu956eD6bmw6YWN5Lu25L6b5bqUCg== 1592 | 6K6i6LSt5bel5a2X5rCU5p6q6YWN5Lu2Cg== 1593 | 5ZSu5LiL5Y6L5byP5rCU5p6q6YWN5Lu2Cg== 1594 | 5bel5a2X5rCU5p6q6YWN5Lu255u06ZSACg== 1595 | 5bel5a2X5rCU5p6q6YWN5Lu26K6i6LStCg== 1596 | 5o+Q5L6b6ZSh6ZSL5rCU5p6q6YWN5Lu2Cg== 1597 | 5ZSu6ZSh6ZSL5rCU5p6q6YWN5Lu2Cg== 1598 | 5Ye65ZSu6ZSh6ZSL5rCU5p6q6YWN5Lu2Cg== 1599 | 6K6i6LSt6ZSh6ZSL5rCU5p6q6YWN5Lu2Cg== 1600 | 6ZSA5ZSu6ZSh6ZSL5rCU5p6q6YWN5Lu2Cg== 1601 | 6ZSh6ZSL5rCU5p6q6YWN5Lu25Ye65ZSuCg== 1602 | 6ZSh6ZSL5rCU5p6q6YWN5Lu25o+Q5L6bCg== 1603 | 6ZSh6ZSL5rCU5p6q6YWN5Lu26K6i6LStCg== 1604 | 6ZSh6ZSL5rCU5p6q6YWN5Lu26ZSA5ZSuCg== 1605 | 6ZSh6ZSL5rCU5p6q6YWN5Lu255u06ZSACg== 1606 | 54yO5p6q5bqV54Gr6K6i6LStCg== 1607 | 55u06ZSA54yO5p6q5bqV54GrCg== 1608 | 6auY5Y6L5rCU5q2l5p6q5L6b5bqUCg== 1609 | 6auY5Y6L6ZKi54+g54uX5o+Q5L6bCg== 1610 | 6auY5Y6L6ZKi54+g54uX6K6i6LStCg== 1611 | 6auY5Y6L6ZKi54+g54uX5om55Y+RCg== 1612 | 6auY5Y6L6ZKi54+g54uX5Ye65ZSuCg== 1613 | 6auY5Y6L6ZKi54+g54uX6ZSA5ZSuCg== 1614 | 5o+Q5L6b54uZ5Ye75rCU5q2l5p6qCg== 1615 | 5L6b5bqU54uZ5Ye75rCU5q2l5p6qCg== 1616 | 6K6i6LSt54uZ5Ye75rCU5q2l5p6qCg== 1617 | 6LSt5Lmw54uZ5Ye75rCU5q2l5p6qCg== 1618 | 5om55Y+R54uZ5Ye75rCU5q2l5p6qCg== 1619 | 5Ye65ZSu54uZ5Ye75rCU5q2l5p6qCg== 1620 | 6L2s6K6p54uZ5Ye75rCU5q2l5p6qCg== 1621 | 55u06ZSA54uZ5Ye75rCU5q2l5p6qCg== 1622 | 54uZ5Ye75rCU5q2l5p6q55u06ZSACg== 1623 | 54uZ5Ye75rCU5q2l5p6q5L6b5bqUCg== 1624 | 6ZSA5ZSu54uZ5Ye75rCU5q2l5p6qCg== 1625 | 54uZ5Ye75rCU5q2l5p6q6LSt5LmwCg== 1626 | 54uZ5Ye75rCU5q2l5p6q5o+Q5L6bCg== 1627 | 54uZ5Ye75rCU5q2l5p6q6K6i6LStCg== 1628 | 54uZ5Ye75rCU5q2l5p6q5om55Y+RCg== 1629 | 54uZ5Ye75rCU5q2l5p6q6ZSA5ZSuCg== 1630 | 54uZ5Ye75rCU5q2l5p6q5Ye65ZSuCg== 1631 | 6LSt5Lmw6auY5Y6L5rCU5q2l5p6qCg== 1632 | 5o+Q5L6b6auY5Y6L5rCU5q2l5p6qCg== 1633 | 6K6i6LSt6auY5Y6L5rCU5q2l5p6qCg== 1634 | 5L6b5bqU6auY5Y6L5rCU5q2l5p6qCg== 1635 | 55u06ZSA6auY5Y6L5rCU5q2l5p6qCg== 1636 | 6L2s6K6p6auY5Y6L5rCU5q2l5p6qCg== 1637 | 6auY5Y6L5rCU5q2l5p6q6K6i6LStCg== 1638 | 6auY5Y6L5rCU5q2l5p6q5o+Q5L6bCg== 1639 | 6auY5Y6L5rCU5q2l5p6q55u06ZSACg== 1640 | 6auY5Y6L5rCU5q2l5p6q5om55Y+RCg== 1641 | 6auY5Y6L5rCU5q2l5p6q6LSt5LmwCg== 1642 | 6auY5Y6L6ZKi54+g54uX5L6b5bqUCg== 1643 | 5o+Q5L6b6auY5Y6L6ZKi54+g54uXCg== 1644 | 5L6b5bqU6auY5Y6L6ZKi54+g54uXCg== 1645 | 6K6i6LSt6auY5Y6L6ZKi54+g54uXCg== 1646 | 6LSt5Lmw6auY5Y6L6ZKi54+g54uXCg== 1647 | 5om55Y+R6auY5Y6L6ZKi54+g54uXCg== 1648 | 6L2s6K6p6auY5Y6L6ZKi54+g54uXCg== 1649 | 55u06ZSA6auY5Y6L6ZKi54+g54uXCg== 1650 | 6auY5Y6L6ZKi54+g54uX55u06ZSACg== 1651 | 6auY5Y6L6ZKi54+g54uX6LSt5LmwCg== 1652 | 6ZSA5ZSu6auY5Y6L6ZKi54+g54uXCg== 1653 | 57yF5p6c5om55Y+RCg== 1654 | 57yF5p6c5L6b5bqUCg== 1655 | 57yF5p6c6LSt5LmwCg== 1656 | 5om55Y+R6K2m5b69Cg== 1657 | 5oiQ5Lq65YG35ouNCg== 1658 | 5YawS+eyieWHuuWUrgo= 1659 | 6L2s6K6p5LqM5omL5YiA5YW3Cg== 1660 | 546L5rCR55SfM1DnhacK 1661 | 5o+05Lqk5aa55LiK6ZeoCg== 1662 | 5o+05Lqk5aWz5LiK6ZeoCg== 1663 | 5Ye65ZSu5YGH5aKe5YC856iO56WoCg== 1664 | 5Ye65ZSu5p6qCg== 1665 | 6K2m55So5omL5p6qCg== 1666 | 5Ye65ZSu5LiA5q+U5LiA5p6q5qihCg== 1667 | 5L6b5bqU5LiA5q+U5LiA5p6q5qihCg== 1668 | 5LiA5q+U5LiA5p6q5qih5LiT5Y2WCg== 1669 | 5p6q5qih5LiT5Y2WCg== 1670 | 5Ye65ZSu5p6q5qihCg== 1671 | 5L6b5bqU5p6q5qihCg== 1672 | 6L6+6LWW5ZaH5ZibCg== 1673 | 6Ieq54Sa -------------------------------------------------------------------------------- /test/data/stop_words.txt: -------------------------------------------------------------------------------- 1 | 陡然 2 | 不惟 3 | 从轻 4 | 基于 5 | 能否 6 | 理该 7 | 合理 8 | 地 9 | 轰然 10 | 大抵 11 | 在 12 | 此 13 | 倍感 14 | 从小 15 | @ 16 | 那里 17 | 了 18 | 二 19 | 于 20 | 由是 21 | 互 22 | 五 23 | 等到 24 | 些 25 | 看来 26 | 纵令 27 | 吧哒 28 | 亦 29 | LI 30 | 反手 31 | 不然 32 | 各人 33 | 人 34 | 曾经 35 | 白白 36 | 猛然 37 | 只消 38 | 除此 39 | 不得已 40 | 够瞧的 41 | 此后 42 | 长话短说 43 | + 44 | 这儿 45 | 某某 46 | [②] 47 | [② 48 | ={ 49 | 难说 50 | 倍加 51 | 整个 52 | .一 53 | 某 54 | 谁人 55 | 自各儿 56 | ︿ 57 | 明确 58 | ~+ 59 | 强调 60 | 我的 61 | [③F] 62 | 焉 63 | 如 64 | [②g] 65 | 清楚 66 | 专门 67 | -- 68 | 加上 69 | 你是 70 | 年复一年 71 | 不至于 72 | 又及 73 | 重大 74 | ~ 75 | 所谓 76 | 这么 77 | 数/ 78 | 十分 79 | 距 80 | 长线 81 | 介于 82 | 才能 83 | 毕竟 84 | 云云 85 | 自身 86 | 连同 87 | 一番 88 | 一天 89 | 范围 90 | 而外 91 | 人们 92 | 不曾 93 | 绝顶 94 | A 95 | 可好 96 | 应当 97 | 哪里 98 | 汝 99 | 见 100 | 带 101 | 最後 102 | ...... 103 | 接连不断 104 | 之类 105 | 那边 106 | 相应 107 | 常 108 | 前后 109 | 粗 110 | 不外 111 | 莫不 112 | 多亏 113 | 最 114 | 不够 115 | 属于 116 | 故此 117 | 一起 118 | 朝 119 | 尽早 120 | 本 121 | , 122 | 不大 123 | 诸如 124 | 顷刻之间 125 | 不能不 126 | 四 127 | ` 128 | 总的说来 129 | 一致 130 | 企图 131 | 以前 132 | 鄙人 133 | 八成 134 | 咱们 135 | 与其 136 | 固 137 | 这麽 138 | 彼此 139 | 因 140 | 存心 141 | 此次 142 | 不但 143 | 代替 144 | 到底 145 | 成心 146 | 每时每刻 147 | 饱 148 | 哈哈 149 | 那个 150 | 理应 151 | 必须 152 | 分期分批 153 | ′| 154 | 看起来 155 | ][ 156 | 先后 157 | 公然 158 | 动辄 159 | 使 160 | 按照 161 | 敞开儿 162 | 顿时 163 | [①②] 164 | 精光 165 | 常常 166 | 恰好 167 | 诚然 168 | 逢 169 | 明显 170 | 向 171 | × 172 | 于是乎 173 | 只当 174 | 组成 175 | 伟大 176 | ②c 177 | 己 178 | 累年 179 | 巴 180 | 川流不息 181 | 任何 182 | 据悉 183 | 奈 184 | 要 185 | 是以 186 | 奇 187 | 好 188 | 二话没说 189 | 宁肯 190 | 日复一日 191 | 绝不 192 | 猛然间 193 | 仅 194 | 从优 195 | 从 196 | 仍 197 | 今 198 | 他 199 | 比较 200 | 此中 201 | 偶尔 202 | 以 203 | 这边 204 | 怎奈 205 | 们 206 | 般的 207 | - 208 | 任 209 | [⑤e] 210 | 长此下去 211 | 帮助 212 | 权时 213 | 显著 214 | [③e] 215 | 借此 216 | 恰恰相反 217 | 嗳 218 | 倒是 219 | …………………………………………………③ 220 | 乌乎 221 | [④a] 222 | 甚么 223 | 并没 224 | 这一来 225 | 不止一次 226 | 二来 227 | 奋勇 228 | 随后 229 | 倘然 230 | 多么 231 | 姑且 232 | 来 233 | 如果 234 | 真是 235 | 相反 236 | [⑥] 237 | 以後 238 | 有些 239 | 准备 240 | 上去 241 | 直接 242 | 造成 243 | 最高 244 | 坚决 245 | 风雨无阻 246 | [- 247 | -β 248 | [①D] 249 | 不已 250 | 其中 251 | 不会 252 | 不巧 253 | 其一 254 | 而且 255 | 从早到晚 256 | 12% 257 | 截然 258 | 三天两头 259 | 别处 260 | 这么点儿 261 | 差不多 262 | 除却 263 | 应该 264 | 其次 265 | . 266 | 大体上 267 | 除此而外 268 | 前者 269 | ⑦ 270 | ⑧ 271 | ⑤ 272 | ⑥ 273 | ③ 274 | ④ 275 | ① 276 | ② 277 | 趁早 278 | 换言之 279 | 彼时 280 | ⑨ 281 | ⑩ 282 | 当时 283 | 在下 284 | 从宽 285 | 原来 286 | 首先 287 | 对方 288 | ,也 289 | 或许 290 | 赖以 291 | 每当 292 | 如前所述 293 | .数 294 | 替代 295 | 乃至 296 | [②⑤] 297 | 觉得 298 | 正巧 299 | 一来 300 | 倒不如 301 | 全面 302 | 打从 303 | 到 304 | 大体 305 | 有所 306 | 特殊 307 | 即是说 308 | 能 309 | 始而 310 | 适用 311 | 即令 312 | 别 313 | +ξ 314 | 初 315 | 刚 316 | 比及 317 | 则 318 | 切 319 | 三番两次 320 | 多多 321 | 略加 322 | 顶多 323 | 得天独厚 324 | 如同 325 | 当口儿 326 | 相同 327 | 零 328 | 赶快 329 | 成年 330 | 非特 331 | 仍旧 332 | 它们的 333 | 之前 334 | 按 335 | 主要 336 | 隔夜 337 | 屡屡 338 | 挨个 339 | 出去 340 | 遭到 341 | 更为 342 | 瑟瑟 343 | 遵循 344 | 甚且 345 | 行为 346 | 呆呆地 347 | 极其 348 | 大 349 | 着呢 350 | 并无 351 | 看上去 352 | 进而 353 | 不同 354 | 甚至 355 | 愤然 356 | [⑩] 357 | 人家 358 | / 359 | 多 360 | 不仅仅是 361 | 不迭 362 | [⑤b] 363 | 相当 364 | 亲口 365 | 人民 366 | 顷刻 367 | [③⑩] 368 | 立马 369 | 难道 370 | 然 371 | 不再 372 | 已经 373 | 不过 374 | 何必 375 | 维持 376 | 保持 377 | 鉴于 378 | 起来 379 | 与此同时 380 | 出 381 | 为了 382 | 从事 383 | 凭 384 | [②⑧] 385 | 凡 386 | 几 387 | 当头 388 | 快要 389 | 仍然 390 | 那么 391 | ]∧′=[ 392 | <± 393 | 概 394 | 各式 395 | 具体来说 396 | 毫无例外 397 | 中小 398 | 或多或少 399 | 正值 400 | 所幸 401 | 连连 402 | 单单 403 | 串行 404 | 除此之外 405 | 余外 406 | 难怪 407 | [①c] 408 | 次第 409 | 哪天 410 | 严重 411 | 已矣 412 | 刚好 413 | 元/吨 414 | 来讲 415 | 要是 416 | 之一 417 | 反倒是 418 | 您 419 | 即如 420 | 从新 421 | 刚巧 422 | 不怕 423 | 反映 424 | 转变 425 | 举凡 426 | 本身 427 | 自个儿 428 | 周围 429 | :: 430 | 过去 431 | 没奈何 432 | 傥然 433 | 突然 434 | 传说 435 | 正在 436 | 凝神 437 | 0 438 | 与其说 439 | 以期 440 | 总之 441 | 简言之 442 | 练习 443 | 继而 444 | 怎样 445 | 据 446 | Lex 447 | 比如说 448 | 哼唷 449 | 避免 450 | 下来 451 | 其二 452 | 挨门逐户 453 | 随 454 | 只是 455 | 叫做 456 | 实际 457 | [②①] 458 | 存在 459 | 关于 460 | 转贴 461 | 匆匆 462 | 嗡嗡 463 | 无宁 464 | 跟 465 | 虽然 466 | 活 467 | 大量 468 | 受到 469 | [①④] 470 | 难道说 471 | 由此 472 | 构成 473 | 形成 474 | 也好 475 | 更进一步 476 | 认识 477 | 自后 478 | [ 479 | 全力 480 | 个人 481 | 自打 482 | 所以 483 | 突出 484 | 依照 485 | 先生 486 | 纯粹 487 | 按时 488 | 上面 489 | 是否 490 | .日 491 | 嘿 492 | 嘻 493 | 多年来 494 | 具体地说 495 | 呵呵 496 | 藉以 497 | 有的 498 | 良好 499 | 不仅仅 500 | 嘛 501 | 嘘 502 | 尔等 503 | 独自 504 | 冲 505 | 不若 506 | 取得 507 | 假若 508 | 共总 509 | 极端 510 | 立刻 511 | ℃ 512 | 矣乎 513 | 冒 514 | 极度 515 | ................... 516 | 凭借 517 | 欢迎 518 | 那些 519 | 迅速 520 | 内 521 | 陈年 522 | 等 523 | 对比 524 | 上来 525 | 暗自 526 | 坚持 527 | 得出 528 | 1 529 | 重新 530 | 之後 531 | 我们 532 | 本地 533 | >λ 534 | 来着 535 | 联系 536 | 率然 537 | [②④ 538 | 决定 539 | 慢说 540 | [②f] 541 | 还要 542 | 你们 543 | 来说 544 | 必然 545 | 怎么 546 | 交口 547 | 趁势 548 | 及其 549 | 就是了 550 | 许多 551 | )÷(1- 552 | 虽 553 | 那末 554 | 连日 555 | 因此 556 | 切不可 557 | 真正 558 | 目前 559 | 经常 560 | 任务 561 | 以来 562 | \ 563 | 过来 564 | 处处 565 | 何须 566 | 比方 567 | 非常 568 | 嘿嘿 569 | 后来 570 | 倘 571 | 加强 572 | 一片 573 | 共同 574 | 该当 575 | 因着 576 | 应用 577 | 抑或 578 | 另一个 579 | 看看 580 | 最后 581 | 出现 582 | 何况 583 | 即使 584 | 这时 585 | 不可开交 586 | 就地 587 | 从速 588 | 一直 589 | 在于 590 | 起首 591 | 倘或 592 | [②a] 593 | 全部 594 | 难得 595 | 另行 596 | 罢了 597 | 据此 598 | 截至 599 | 特点 600 | 全都 601 | 怕 602 | 就此 603 | 古来 604 | 举行 605 | 来看 606 | 怎 607 | 巩固 608 | 而后 609 | 通常 610 | 故而 611 | 2 612 | 正如 613 | 用来 614 | 里面 615 | 怪 616 | 自从 617 | 齐 618 | 嗯 619 | 嗬 620 | 嗡 621 | 恍然 622 | 大家 623 | 以免 624 | 方 625 | 分头 626 | 话说 627 | 随著 628 | 取道 629 | 因而 630 | 背靠背 631 | 除 632 | 前面 633 | 即若 634 | 非独 635 | 从此以后 636 | 遵照 637 | 不久 638 | 几番 639 | 眨眼 640 | 实现 641 | 他们 642 | 其他 643 | ′∈ 644 | 简直 645 | 依靠 646 | 积极 647 | 综上所述 648 | 毫不 649 | 一下 650 | 成为 651 | ] 652 | 一一 653 | 第 654 | > 655 | 充其量 656 | 一个 657 | 竟而 658 | 有 659 | 5:0 660 | 既...又 661 | 最好 662 | 下列 663 | ~± 664 | [③①] 665 | =- 666 | 刚才 667 | =( 668 | 今天 669 | 从而 670 | =[ 671 | [③h] 672 | ~~~~ 673 | [③g] 674 | 后面 675 | [⑧] 676 | 适当 677 | [②⑥] 678 | 挨家挨户 679 | 不论 680 | 然后 681 | 弹指之间 682 | 从古到今 683 | 深入 684 | 望 685 | 呼啦 686 | 看到 687 | 似的 688 | 从严 689 | 其 690 | 共 691 | 从中 692 | 现代 693 | 六 694 | 兮 695 | 八 696 | 极为 697 | 至若 698 | 采取 699 | 也就是说 700 | 由于 701 | 从不 702 | 除去 703 | 3 704 | 为主 705 | 光 706 | 类如 707 | 还是 708 | 连声 709 | 这就是说 710 | 最近 711 | ∪φ∈ 712 | ㈧ 713 | 再则 714 | 移动 715 | 下面 716 | 据我所知 717 | 哎呀 718 | <λ 719 | 相对 720 | 处在 721 | 碰巧 722 | 别是 723 | 不限 724 | <Δ 725 | 近几年来 726 | 啊哟 727 | 如若 728 | 恰逢 729 | 接著 730 | 较 731 | 啊哈 732 | 如其 733 | 边 734 | 替 735 | 另方面 736 | 并排 737 | 可见 738 | 不比 739 | 先不先 740 | 乘机 741 | 而论 742 | 广泛 743 | ^ 744 | 行动 745 | 何处 746 | 说来 747 | 能够 748 | 有及 749 | [①C] 750 | }> 751 | 相等 752 | 朝着 753 | 就是说 754 | 这种 755 | 高兴 756 | 只限 757 | - 758 | 怎麽 759 | 动不动 760 | 着 761 | 尽快 762 | 不免 763 | 沿着 764 | 不外乎 765 | 逐步 766 | 掌握 767 | 反过来 768 | 届时 769 | 不一 770 | 阿 771 | 它是 772 | 不下 773 | [②i] 774 | 将近 775 | 知道 776 | 进步 777 | 对 778 | 他人 779 | 除外 780 | f] 781 | 一定 782 | 不经意 783 | ××× 784 | 倒不如说 785 | 这次 786 | 便于 787 | 岂非 788 | [②③] 789 | [④c] 790 | 反倒 791 | 设或 792 | 不知不觉 793 | 4 794 | 打开天窗说亮话 795 | 率尔 796 | 庶乎 797 | 每年 798 | 大不了 799 | 莫若 800 | 岂 801 | 最大 802 | 到头来 803 | 亲眼 804 | 几经 805 | 策略地 806 | 满 807 | [①i] 808 | 基本 809 | 当场 810 | 反之亦然 811 | 无 812 | 既 813 | 怎么办 814 | 3 815 | 喽 816 | 老大 817 | 宣布 818 | 转动 819 | 或曰 820 | 喏 821 | 喀 822 | 喂 823 | 这般 824 | 8 825 | 乘虚 826 | {- 827 | 迟早 828 | 敢情 829 | 一旦 830 | 毫无 831 | < 832 | 致 833 | 至 834 | = 835 | 一时 836 | 很多 837 | 容易 838 | ? 839 | 也罢 840 | _ 841 | 可能 842 | 不拘 843 | [①] 844 | 接下来 845 | 那会儿 846 | $ 847 | 宁 848 | 它 849 | 借以 850 | 社会主义 851 | 趁着 852 | 它的 853 | 今年 854 | 不仅 855 | 定 856 | * 857 | e] 858 | 规定 859 | 那般 860 | 密切 861 | 使得 862 | , 863 | 果真 864 | 以便 865 | 何时 866 | 为止 867 | [①B] 868 | 经过 869 | 沙沙 870 | 一些 871 | 近 872 | 连 873 | 砰 874 | 近来 875 | 还 876 | 这 877 | 过 878 | 迄 879 | [①a] 880 | 略微 881 | 根据 882 | 间或 883 | 不常 884 | 之所以 885 | 管 886 | 看样子 887 | 再有 888 | 不起 889 | 蛮 890 | —— 891 | 亲身 892 | 谁 893 | 巨大 894 | 因为 895 | 绝对 896 | 看出 897 | 非徒 898 | 非得 899 | _ 900 | 重要 901 | 当即 902 | 哪儿 903 | 若是 904 | 进去 905 | 处理 906 | 设使 907 | 惟其 908 | 不力 909 | 彻底 910 | 她们 911 | 看 912 | 各级 913 | 允许 914 | 向使 915 | 暗中 916 | 过于 917 | 极了 918 | 谨 919 | 进行 920 | Ψ 921 | 据称 922 | 不问 923 | 像 924 | 越是 925 | 哎哟 926 | μ 927 | γ 928 | 亲自 929 | 否则 930 | 什么 931 | -- 932 | 全然 933 | 即便 934 | 各位 935 | Δ 936 | 缕缕 937 | ——— 938 | 老是 939 | 继后 940 | 有利 941 | 每逢 942 | [④b] 943 | 犹自 944 | 各地 945 | 广大 946 | ZXFITL 947 | [②d] 948 | 况且 949 | sub 950 | 每每 951 | [⑨] 952 | 高低 953 | sup 954 | 不定 955 | 归根到底 956 | 啥 957 | 啦 958 | 拦腰 959 | 尽管 960 | 的确 961 | 确定 962 | 成年累月 963 | 啊 964 | 旁人 965 | 恰恰 966 | 唯有 967 | 不得了 968 | 啐 969 | 或是 970 | 好的 971 | 随着 972 | 一转眼 973 | 矣 974 | 毋宁 975 | 反而 976 | 认真 977 | 左右 978 | 6 979 | 譬喻 980 | 要么 981 | 倘使 982 | [③a] 983 | 每天 984 | 再次 985 | 只有 986 | 一方面 987 | 不了 988 | 理当 989 | 对应 990 | 让 991 | 大概 992 | → 993 | ↑ 994 | 论 995 | 您是 996 | 归齐 997 | 具体说来 998 | ng昉 999 | 毫无保留地 1000 | [①③] 1001 | 惯常 1002 | ! 1003 | 给 1004 | 三番五次 1005 | 屡 1006 | 后者 1007 | [①d] 1008 | 不是 1009 | 尽然 1010 | 照着 1011 | 快 1012 | 甚或 1013 | 那儿 1014 | 好象 1015 | 必 1016 | 的话 1017 | 局外 1018 | 有效 1019 | 倘若 1020 | 不满 1021 | 居然 1022 | 敢 1023 | >> 1024 | 说说 1025 | 既往 1026 | 故 1027 | 方便 1028 | 唉 1029 | 既然 1030 | 固然 1031 | ”, 1032 | 或则 1033 | 再者 1034 | 不光 1035 | 起头 1036 | 这会儿 1037 | 何苦 1038 | 总的来看 1039 | 于是 1040 | 复杂 1041 | 据说 1042 | 按理 1043 | 如何 1044 | 如期 1045 | ++ 1046 | 恰似 1047 | 啊呀 1048 | 光是 1049 | 多次 1050 | 由此可见 1051 | 它们 1052 | 何以 1053 | 上下 1054 | 这点 1055 | 7 1056 | 上升 1057 | 起初 1058 | 此间 1059 | 各种 1060 | 何妨 1061 | 她是 1062 | 尔尔 1063 | 啪达 1064 | " 1065 | 表示 1066 | 不对 1067 | 即将 1068 | 叮咚 1069 | 多多益善 1070 | 经 1071 | 而言 1072 | 赶 1073 | 一则 1074 | 一切 1075 | 不止 1076 | 起 1077 | 绝 1078 | 从来 1079 | [①f] 1080 | 後面 1081 | 日见 1082 | [①A] 1083 | 每个 1084 | 争取 1085 | 因了 1086 | 从古至今 1087 | 引起 1088 | 为什么 1089 | 任凭 1090 | 得 1091 | 往 1092 | 待 1093 | 很 1094 | 路经 1095 | 有的是 1096 | ≈ 1097 | 不怎么 1098 | 到处 1099 | 尽心尽力 1100 | 已 1101 | 个别 1102 | 如此 1103 | 当中 1104 | 就要 1105 | 千万千万 1106 | 尽管如此 1107 | 到头 1108 | =″ 1109 | 要不 1110 | 矣哉 1111 | 一面 1112 | 传 1113 | 继续 1114 | 当下 1115 | 迫于 1116 | 会 1117 | 很少 1118 | 作为 1119 | [③b] 1120 | 这么些 1121 | [②c] 1122 | 从头 1123 | 将才 1124 | 小 1125 | 纵使 1126 | 将 1127 | 叮当 1128 | 尽 1129 | 当然 1130 | 不时 1131 | 完成 1132 | 就 1133 | 比起 1134 | exp 1135 | 不日 1136 | 若 1137 | 纯 1138 | 纵然 1139 | 她的 1140 | 得到 1141 | 相信 1142 | 何止 1143 | 纵 1144 | 喔唷 1145 | φ 1146 | 有力 1147 | 8 1148 | 彻夜 1149 | 不但...而且 1150 | 趁便 1151 | 哼 1152 | 哦 1153 | 尽心竭力 1154 | 她 1155 | 哪些 1156 | 哩 1157 | 哗 1158 | [①E] 1159 | 〕〔 1160 | 从今以后 1161 | 哟 1162 | 哇 1163 | 不得不 1164 | 哉 1165 | 哈 1166 | 後来 1167 | 请勿 1168 | 以上 1169 | 以下 1170 | 另悉 1171 | 某些 1172 | 几度 1173 | 别的 1174 | 以为 1175 | 待到 1176 | # 1177 | 该 1178 | 充其极 1179 | 变成 1180 | 安全 1181 | ■ 1182 | 至于 1183 | 及至 1184 | [*] 1185 | 诸 1186 | 不得 1187 | 少数 1188 | 自己 1189 | 无论 1190 | 若果 1191 | 而况 1192 | 是不是 1193 | 哗啦 1194 | 乘隙 1195 | 偶而 1196 | 召开 1197 | 不料 1198 | 另 1199 | 仅仅 1200 | 来得及 1201 | 叫 1202 | 只 1203 | 可 1204 | 其它 1205 | 其实 1206 | 两者 1207 | 及 1208 | 然後 1209 | 又 1210 | 双方 1211 | 不断 1212 | 立时 1213 | 一样 1214 | 总而言之 1215 | 当庭 1216 | 彼 1217 | 必要 1218 | 分别 1219 | 平素 1220 | 此时 1221 | 当 1222 | 归 1223 | 儿 1224 | 但愿 1225 | 云尔 1226 | { 1227 | 起见 1228 | 扑通 1229 | } 1230 | | 1231 | 还有 1232 | 全年 1233 | 立即 1234 | 注意 1235 | [③] 1236 | 接着 1237 | 赶早不赶晚 1238 | 决不 1239 | 切切 1240 | 部分 1241 | 9 1242 | 其后 1243 | 莫不然 1244 | 以及 1245 | 心里 1246 | 你 1247 | 不成 1248 | 本人 1249 | 莫非 1250 | 大多 1251 | 大大 1252 | 互相 1253 | 何 1254 | [①g] 1255 | 然而 1256 | 但 1257 | 按期 1258 | 二话不说 1259 | [①⑥] 1260 | 那麽 1261 | 可以 1262 | [①⑨] 1263 | 竟 1264 | [] 1265 | 以外 1266 | 立 1267 | 不必 1268 | 从无到有 1269 | 不足 1270 | $ 1271 | 只怕 1272 | 常言说 1273 | 贼死 1274 | 绝非 1275 | 一何 1276 | 故意 1277 | 反之 1278 | 一边 1279 | 按说 1280 | 大致 1281 | 颇 1282 | 另外 1283 | 所在 1284 | 宁愿 1285 | ── 1286 | 1. 1287 | 更加 1288 | 日渐 1289 | 问题 1290 | << 1291 | 也是 1292 | 千万 1293 | 愿意 1294 | 乘势 1295 | 多年前 1296 | 根本 1297 | 大面儿上 1298 | ▲ 1299 | 归根结底 1300 | 意思 1301 | 挨次 1302 | 尔 1303 | 极力 1304 | 老老实实 1305 | [④d] 1306 | 如上所述 1307 | 必定 1308 | 却不 1309 | 如次 1310 | 而已 1311 | 嘎 1312 | 漫说 1313 | 白 1314 | 这里 1315 | 至今 1316 | 相对而言 1317 | 便 1318 | 借 1319 | 犹且 1320 | 牢牢 1321 | 假如 1322 | .. 1323 | 有点 1324 | 依 1325 | 单纯 1326 | : 1327 | 哪年 1328 | 不胜 1329 | 常言道 1330 | 丰富 1331 | 去 1332 | 结合 1333 | 背地里 1334 | 历 1335 | 不能 1336 | 常言说得好 1337 | 使用 1338 | 不敢 1339 | 与否 1340 | 俺 1341 | 咱 1342 | 曾 1343 | 咳 1344 | 更 1345 | 怪不得 1346 | 今后 1347 | 咦 1348 | 咧 1349 | 此地 1350 | 并没有 1351 | 战斗 1352 | 换句话说 1353 | 随时 1354 | % 1355 | 除非 1356 | 立地 1357 | 咚 1358 | 和 1359 | 完全 1360 | 尽如人意 1361 | 腾 1362 | 有时 1363 | 咋 1364 | 0 1365 | 1 1366 | 2 1367 | 敢于 1368 | 4 1369 | 5 1370 | 6 1371 | 7 1372 | 断然 1373 | 9 1374 | : 1375 | ; 1376 | 亲手 1377 | 哪样 1378 | 为何 1379 | 切勿 1380 | ! 1381 | # 1382 | 出来 1383 | % 1384 | & 1385 | ' 1386 | ( 1387 | ) 1388 | 向着 1389 | + 1390 | 出于 1391 | 前进 1392 | . 1393 | / 1394 | 抽冷子 1395 | 殆 1396 | [ 1397 | ] 1398 | 连袂 1399 | @ 1400 | A 1401 | 偏偏 1402 | 有关 1403 | 一般 1404 | Ⅲ 1405 | 挨着 1406 | 当前 1407 | [②⑩] 1408 | 非但 1409 | 普通 1410 | 假使 1411 | 除此以外 1412 | 运用 1413 | 是的 1414 | 紧接着 1415 | 某个 1416 | 比照 1417 | 庶几 1418 | [①o] 1419 | 尚且 1420 | 上述 1421 | 以故 1422 | 得起 1423 | 窃 1424 | 起先 1425 | 并且 1426 | 全身心 1427 | 默然 1428 | 不管怎样 1429 | 并不 1430 | 这个 1431 | 反应 1432 | 前此 1433 | 充分 1434 | 并非 1435 | 究竟 1436 | ∈[ 1437 | 放量 1438 | [②②] 1439 | 弗 1440 | …… 1441 | 适应 1442 | ; 1443 | 产生 1444 | 再 1445 | 先後 1446 | 省得 1447 | 嘎嘎 1448 | [①①] 1449 | 那么样 1450 | 臭 1451 | 没有 1452 | 自 1453 | 顷刻间 1454 | 可是 1455 | 有着 1456 | 多数 1457 | 不可抗拒 1458 | 具有 1459 | 到目前为止 1460 | & 1461 | 怎么样 1462 | ¥ 1463 | 不特 1464 | [②⑦] 1465 | 这样 1466 | 进来 1467 | 从未 1468 | 正常 1469 | 以至于 1470 | 来不及 1471 | 豁然 1472 | 较比 1473 | 并不是 1474 | 嘎登 1475 | 诚如 1476 | 伙同 1477 | 设若 1478 | 好在 1479 | 中间 1480 | 哪 1481 | 再者说 1482 | 万一 1483 | 别说 1484 | 日益 1485 | 说明 1486 | 且不说 1487 | 把 1488 | [②j] 1489 | 《 1490 | [①⑤] 1491 | 何乐而不为 1492 | 顺 1493 | 累次 1494 | 顷 1495 | 呸 1496 | 只要 1497 | 保管 1498 | 之 1499 | 呵 1500 | ③] 1501 | 大多数 1502 | 是 1503 | [⑤f] 1504 | 总是 1505 | 呢 1506 | 。 1507 | 勃然 1508 | 比如 1509 | 呜 1510 | 那么些 1511 | 呐 1512 | 哪个 1513 | 呕 1514 | 呗 1515 | 要求 1516 | 呀 1517 | 呃 1518 | 别人 1519 | 顺着 1520 | [③c] 1521 | 进入 1522 | 一则通过 1523 | 当地 1524 | 没 1525 | 传闻 1526 | 且说 1527 | 尔后 1528 | 那时 1529 | 沿 1530 | < 1531 | 时候 1532 | 不要 1533 | 加以 1534 | 所有 1535 | 急匆匆 1536 | 甚而 1537 | 不变 1538 | 促进 1539 | 尽量 1540 | 多多少少 1541 | 现在 1542 | 凑巧 1543 | 附近 1544 | 方能 1545 | 不只 1546 | 不可 1547 | :// 1548 | 不仅...而且 1549 | | 1550 | 对待 1551 | 获得 1552 | 莫 1553 | 正是 1554 | 却 1555 | 做到 1556 | 从重 1557 | 下去 1558 | 必将 1559 | ' 1560 | φ. 1561 | 半 1562 | 单 1563 | 例如 1564 | 大举 1565 | 而是 1566 | 尤其 1567 | c] 1568 | 呼哧 1569 | 相似 1570 | 除开 1571 | 不然的话 1572 | 哎 1573 | [②e] 1574 | ... 1575 | ./ 1576 | ’‘ 1577 | 若夫 1578 | 即刻 1579 | 趁 1580 | 加入 1581 | 开展 1582 | [③d] 1583 | 若非 1584 | 对于 1585 | 吱 1586 | 联袂 1587 | 吧 1588 | 俺们 1589 | 乘胜 1590 | 为此 1591 | 吗 1592 | 2.3% 1593 | 吓 1594 | 极大 1595 | 后 1596 | 不管 1597 | 同 1598 | 多少 1599 | 较之 1600 | 各 1601 | 日臻 1602 | 靠 1603 | 开始 1604 | 如此等等 1605 | 那样 1606 | 忽然 1607 | 不择手段 1608 | 何尝 1609 | 略 1610 | 有著 1611 | 近年来 1612 | 同样 1613 | [②b] 1614 | 略为 1615 | 屡次 1616 | 恰巧 1617 | 别管 1618 | 总的来说 1619 | 如是 1620 | 再其次 1621 | = 1622 | 遇到 1623 | 各自 1624 | 临到 1625 | 基本上 1626 | )、 1627 | 以后 1628 | 拿 1629 | 自家 1630 | 全体 1631 | 考虑 1632 | 我是 1633 | 种 1634 | } 1635 | 昂然 1636 | 扩大 1637 | 宁可 1638 | [⑤] 1639 | 此处 1640 | ( 1641 | 这些 1642 | 方面 1643 | 此外 1644 | 屡次三番 1645 | 岂但 1646 | 直到 1647 | 需要 1648 | 趁热 1649 | 除了 1650 | 都 1651 | 即或 1652 | 穷年累月 1653 | 如常 1654 | 恰如 1655 | 什么样 1656 | 谁知 1657 | 逐渐 1658 | 比 1659 | 为 1660 | 临 1661 | 大约 1662 | 各个 1663 | 个 1664 | 每 1665 | b] 1666 | 不亦乐乎 1667 | 啷当 1668 | 主张 1669 | 且 1670 | 而又 1671 | 与 1672 | 不 1673 | 达旦 1674 | 下 1675 | 上 1676 | 三 1677 | 七 1678 | 一 1679 | 就算 1680 | 呜呼 1681 | 方才 1682 | 孰料 1683 | 孰知 1684 | 甚至于 1685 | 大张旗鼓 1686 | 则甚 1687 | 您们 1688 | =☆ 1689 | 离 1690 | [⑤]] 1691 | 其余 1692 | [①⑦] 1693 | 表明 1694 | 不尽 1695 | 简而言之 1696 | 一. 1697 | 将要 1698 | 不少 1699 | 限制 1700 | 果然 1701 | [⑤a] 1702 | 要不是 1703 | 并肩 1704 | 或 1705 | 我 1706 | > 1707 | 或者 1708 | 较为 1709 | 皆可 1710 | 再说 1711 | 无法 1712 | 保险 1713 | R.L. 1714 | [①⑧] 1715 | 不消 1716 | 恐怕 1717 | ~ 1718 | 虽则 1719 | [②G] 1720 | 的 1721 | 第二 1722 | 当真 1723 | ) 1724 | 凡是 1725 | [①h] 1726 | 分期 1727 | 总结 1728 | 用 1729 | 普遍 1730 | 甫 1731 | 甭 1732 | 大力 1733 | 由 1734 | 如下 1735 | 如上 1736 | 具体 1737 | 0:2 1738 | 满足 1739 | 他是 1740 | 格外 1741 | 不由得 1742 | [⑤d] 1743 | 既是 1744 | 隔日 1745 | 乃至于 1746 | [④] 1747 | 几乎 1748 | 反之则 1749 | 通过 1750 | 兼之 1751 | 岂止 1752 | 继之 1753 | 大事 1754 | 似乎 1755 | [⑦] 1756 | 而 1757 | 一次 1758 | 老 1759 | 趁机 1760 | 者 1761 | 不独 1762 | 切莫 1763 | 梆 1764 | 达到 1765 | 5 1766 | [②B] 1767 | 等等 1768 | 从此 1769 | 同一 1770 | 就是 1771 | 独 1772 | 为什麽 1773 | 但凡 1774 | 什麽 1775 | 被 1776 | 人人 1777 | 同时 1778 | 看见 1779 | 但是 1780 | 结果 1781 | 大批 1782 | 特别是 1783 | 极 1784 | 哪边 1785 | 不如 1786 | 譬如 1787 | 显然 1788 | 针对 1789 | 不妨 1790 | [①e] 1791 | 尽可能 1792 | 忽地 1793 | 开外 1794 | ? 1795 | 他的 1796 | 竟然 1797 | 诸位 1798 | 挨门挨户 1799 | 今後 1800 | 均 1801 | -[*]- 1802 | 虽说 1803 | В 1804 | 九 1805 | 也 1806 | 乘 1807 | [②h] 1808 | 【 1809 | 】 1810 | 〔 1811 | 〕 1812 | 乒 1813 | 另一方面 1814 | 〈 1815 | 〉 1816 | 乎 1817 | 》 1818 | 么 1819 | 」 1820 | 『 1821 | 』 1822 |   1823 | 、 1824 | 到了儿 1825 | 欤 1826 | 乃 1827 | 依据 1828 | 你的 1829 | a] 1830 | 来自 1831 | 严格 1832 | 暗地里 1833 | 这么样 1834 | 马上 1835 | [④e] 1836 | 几时 1837 | 以至 1838 | * 1839 | 如今 1840 | 以致 1841 | 据实 1842 | 巴巴 1843 | 大凡 1844 | 要不然 1845 | 哪怕 1846 | 莫如 1847 | 反过来说 1848 | — 1849 | 打 1850 | 得了 1851 | 谁料 1852 | 认为 1853 | 末##末 1854 | 所 1855 | · 1856 | 防止 1857 | 不尽然 1858 | 才 1859 | 为着 1860 | 了解 1861 | 即 1862 | 那 1863 | “ 1864 | 默默地 1865 | 往往 1866 | 然则 1867 | 集中 1868 | 本着 1869 | 大都 1870 | 长期以来 1871 | 并 1872 | 之后 1873 | 连日来 1874 | 大略 1875 | 差一点 1876 | 》), 1877 | 当着 1878 | 强烈 1879 | … 1880 | 不单 1881 | <φ 1882 | 千 1883 | ’ 1884 | ‘ 1885 | 加之 1886 | ” 1887 | 及时 1888 | 失去 1889 | 决非 1890 | 照 1891 | 当儿 1892 | 论说 1893 | -------------------------------------------------------------------------------- /test/test_text_filter.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | import unittest 5 | import time 6 | 7 | from text_filter import TextFilter 8 | from text_filter_simple import * 9 | 10 | 11 | class Test_text_filter(unittest.TestCase): 12 | """不同方式实现文本过滤的性能比对""" 13 | 14 | def setUp(self): 15 | with open('C:/Users/jerryhou/Desktop/TextAuidt/test/test.txt', 'r') as f: 16 | test_data = f.readlines() 17 | self.data = [] 18 | for item in test_data: 19 | self.data.append(item.strip()) 20 | print '测试数据集大小:', len(self.data) 21 | 22 | def test_TextFilter(self): 23 | start = time.time() 24 | t = TextFilter() 25 | for s in self.data: 26 | t.filter(s) 27 | print 'TextFilter 总计用时 %.6f' % (time.time() - start) 28 | 29 | def test_TextfilterSimple(self): 30 | start = time.time() 31 | init_data() 32 | for s in self.data: 33 | text_filter(s) 34 | print 'TextFilterSimple 总计用时 %.6f' % (time.time() - start) 35 | -------------------------------------------------------------------------------- /text_categorization.py: -------------------------------------------------------------------------------- 1 | # -*-coding:utf-8-*-  2 | 3 | import jieba.posseg as pesg 4 | import codecs 5 | import sys 6 | from gensim import corpora,models,similarities 7 | import os 8 | allFileNum = 0 9 | 10 | reload(sys) 11 | sys.setdefaultencoding('utf8') 12 | 13 | class XiangSi(): 14 | def __init__(self): 15 | #构建停用词表 16 | self.stop_words='D:/' + u'py程序' + '/stopwords.txt' 17 | self.stopwords=codecs.open(self.stop_words,'r',encoding='utf-8').readlines() 18 | self.stopwords=[w.strip()for w in self.stopwords] 19 | self.stop_flag=['x', 'c', 'u','d', 'p', 't', 'uj', 'm', 'f', 'r'] 20 | #对文章进行分词、去停用词 21 | def tokenzation(self,filename): 22 | result=[] 23 | with open(filename,'r') as f: 24 | text=f.read() 25 | words=pesg.cut(text)# 26 | for word,flag in words: 27 | if flag not in self.stop_flag and word not in self.stopwords: 28 | result.append(word) 29 | return result 30 | def wenzhang(self,files,example): 31 | filenames=files 32 | corpus=[] 33 | for each in filenames: 34 | corpus.append(self.tokenzation(each)) 35 | #建立词袋模型 36 | dictionary=corpora.Dictionary(corpus) 37 | doc_vectors=[dictionary.doc2bow(text) for text in corpus] 38 | #建立TF-IDF模型 39 | tfidf=models.TfidfModel(doc_vectors) 40 | tfidf_vectors=tfidf[doc_vectors] 41 | #指定主题数 42 | lsi=models.LsiModel(tfidf_vectors,id2word=dictionary,num_topics=5) 43 | lsi = models.LsiModel(tfidf_vectors, id2word=dictionary) 44 | lsi_vector=lsi[tfidf_vectors] 45 | 46 | #构建训练样本 47 | query=self.tokenzation('D:/' +'ZNdaolun/Sun/' + example) 48 | 49 | query_bow=dictionary.doc2bow(query) 50 | query_lsi=lsi[query_bow] 51 | index=similarities.MatrixSimilarity(lsi_vector) 52 | sims=index[query_lsi] 53 | #print list(enumerate(sims)) 54 | return list(enumerate(sims)) 55 | def analyse_nr(self,filepath): 56 | listfiles=[] 57 | pathDir = os.listdir(filepath) 58 | for allDir in pathDir: 59 | child = os.path.join('%s%s' % (filepath, allDir)) 60 | child.decode('utf-8') 61 | listfiles.append(child) 62 | return listfiles 63 | #print child.decode('utf-8') # .decode('gbk')是解决中文显示乱码问题 64 | def maopao(self,list1): 65 | j = 0 66 | for i in range(len(list1)): 67 | for j in range(len(list1) - i - 1): 68 | if (list1[j][1] < list1[j + 1][1]): 69 | t = list1[j] 70 | list1[j] = list1[j + 1] 71 | list1[j + 1] = t 72 | print list1 73 | def token1(self,text,topic): 74 | result=[] 75 | words=pesg.cut(text)# 76 | for word in words: 77 | if word in self.stopwords: 78 | result.append(word) 79 | return result 80 | 81 | def printPath(self,level, path): 82 | global allFileNum 83 | # 所有文件夹,第一个字段是次目录的级别 84 | dirList = [] 85 | # 所有文件 86 | fileList = [] 87 | # 返回一个列表,其中包含在目录条目的名称(google翻译) 88 | files = os.listdir(path) 89 | # 先添加目录级别 90 | dirList.append(str(level)) 91 | for f in files: 92 | if (os.path.isdir(path + '/' + f)): 93 | # 排除隐藏文件夹。因为隐藏文件夹过多 94 | if (f[0] == '.'): 95 | pass 96 | else: 97 | # 添加非隐藏文件夹 98 | dirList.append(f) 99 | if (os.path.isfile(path + '/' + f)): 100 | # 添加文件 101 | fileList.append(f) 102 | # 当一个标志使用,文件夹列表第一个级别不打印 103 | i_dl = 0 104 | for dl in dirList: 105 | if (i_dl == 0): 106 | i_dl = i_dl + 1 107 | else: 108 | # 打印至控制台,不是第一个的目录 109 | print '-' * (int(dirList[0])), dl 110 | # 打印目录下的所有文件夹和文件,目录级别+1 111 | self.printPath((int(dirList[0]) + 1), path + '/' + dl) 112 | # for fl in fileList: 113 | # # 打印文件 114 | # print '-' * (int(dirList[0])), fl 115 | # # 随便计算一下有多少个文件 116 | # allFileNum = allFileNum + 1 117 | return fileList 118 | 119 | def change1(self,list1, list2, str1): 120 | for i in range(len(list1)): 121 | newnum = list1[i][1] 122 | newstr = str(list1[i][0]) +'-'+str(list2[i])+'-'+ str1 123 | list1[i] = (newstr, newnum) 124 | return list1 125 | if __name__=='__main__': 126 | xs=XiangSi() 127 | listfile=xs.printPath(1, 'D:/ZNdaolun/Sun/text') 128 | count=1 129 | list6=[] 130 | #files=['D:/' + u'py程序' + '/answer/1.txt','D:/' + u'py程序' + '/answer/people_top10.txt','D:/' + u'py程序' + '/answer/p_location.txt'] 131 | 132 | files=xs.analyse_nr('D:/' +'ZNdaolun' + '/Sun/text/') 133 | #print files 134 | #区分类别,根据需要更改类别文件 135 | list1=xs.wenzhang(files,'computer.txt') 136 | list1=xs.change1(list1,listfile,"computer") 137 | list2 = xs.wenzhang(files, 'educate.txt') 138 | list2=xs.change1(list2, listfile, "educate") 139 | list3 = xs.wenzhang(files, 'sport.txt') 140 | list3=xs.change1(list3, listfile, "sport") 141 | list4 = xs.wenzhang(files, 'war.txt') 142 | list4=xs.change1(list4, listfile, "war") 143 | list5 = xs.wenzhang(files, 'weather.txt') 144 | list5=xs.change1(list5, listfile, "weather") 145 | for i in range(len(list1)): 146 | if list1[i][1]>>t = TextClassifie() # 初始化 10 | >>>t.set_classifie_model() # 选择分类器模型 11 | >>>t.init_clf() # 分类器初始化 12 | 13 | >>>d = DataSet() # 构建数据集 14 | >>>d.set_labels(["人", "物"]) # 设置标签 15 | >>>d.add_data("我叫jerry", 'train_data_1', data_labels='人') # 添加数据(文本,id,标签) 16 | >>>d.add_data("这个是桌子", 'train_data_2', data_labels='物体') 17 | >>>tarin_data = d.train2tf_idf() # 生成tf-idf数据 18 | >>>train_data.save_tf_idf_data() # 保存数据到文件中 19 | >>>train_data.read_tf_idf_data() # 从文件中读取数据 20 | 21 | >>>t.train(tarin_data) # 训练模型 22 | >>>t.predicted(tarin_data) # 对数据进行文本分类(这里用训练数据代替,用同样的方式可以生成测试数据 23 | >>># ['人','物体'] 24 | >>>t.metrics_result() 25 | >>># 比对模型精度(只针对打好标签的训练集) 26 | 27 | author : @h-j-13 28 | time : 2018-7-21 29 | """ 30 | 31 | import os 32 | import sys 33 | import time 34 | import warnings 35 | import cPickle as pickle 36 | 37 | import jieba 38 | import numpy as np 39 | 40 | # data moudle 41 | from sklearn.datasets.base import Bunch 42 | from sklearn.feature_extraction.text import TfidfVectorizer 43 | from sklearn import metrics 44 | 45 | # classifie 46 | from sklearn import svm 47 | from sklearn.linear_model import LogisticRegression 48 | from sklearn.tree import DecisionTreeClassifier 49 | from sklearn.neighbors import KNeighborsClassifier 50 | from sklearn.naive_bayes import MultinomialNB 51 | from sklearn.ensemble import RandomForestClassifier 52 | from sklearn.ensemble import GradientBoostingClassifier 53 | 54 | from stop_words import get_stop_words 55 | from sensitive_word import SensitiveWords 56 | 57 | reload(sys) 58 | sys.setdefaultencoding('utf-8') 59 | 60 | warnings.filterwarnings("ignore") 61 | 62 | # 文本训练模型编号 63 | CLASSIFIE_SVM = 0 64 | CLASSIFIE_MultinomialNB = 1 65 | CLASSIFIE_DecisionTree = 2 66 | CLASSIFIE_LogisticRegression = 3 67 | CLASSIFIE_RandomForest = 4 68 | CLASSIFIE_KNN = 5 69 | CLASSIFIE_GBDT = 6 70 | 71 | train_data_tf_idf_path = "" 72 | test_data_tf_idf_path = "" 73 | 74 | TfidfVectorizer_OBJ = None 75 | TfidfVectorizer_init = False 76 | ADD_USER_DICT = False 77 | 78 | 79 | class DataSet(object): 80 | """用于文本分类的数据集,可以通过这个训练数据集和测试集,适用于sklearn框架""" 81 | 82 | def __init__(self): 83 | """构造函数""" 84 | global TfidfVectorizer_OBJ 85 | self.bunch = Bunch(label_set=[], # 分类类别(去重过) 86 | labels=[], # 每条数据的分类 87 | ids=[], # 每条数据的唯一id 88 | contents=[]) # 每条数据经过预处理,分词之后的内容 89 | self.stop_words = list(get_stop_words()) 90 | self.has_tf_idf = False # 是否生成了tf_idf向量空间数据 91 | self.tf_idf_vector_space = None 92 | # 全局只是使用一个tf-idf量化器 93 | if TfidfVectorizer_OBJ is None: 94 | TfidfVectorizer_OBJ = TfidfVectorizer(stop_words=self.stop_words, sublinear_tf=True, max_df=0.5) 95 | self.tf_idfVectorizer = TfidfVectorizer_OBJ 96 | self.add_user_dict() 97 | 98 | def __str__(self): 99 | """支持print方法输出数据集信息""" 100 | res = "目前数据集共有 " + str(len(self.bunch.label_set)) + " 种类型数据 :\n " + " | ".join(self.bunch.label_set) + "\n" \ 101 | + "共计 " + str(len(self.bunch.contents)) + " 条文本数据" 102 | return res 103 | 104 | def __len__(self): 105 | """使用文本数量来表示数据集数量""" 106 | return len(self.bunch.contents) 107 | 108 | def size(self): 109 | """获取数据集大小""" 110 | return {"label num": len(set(self.bunch.label_set)), 111 | "data num": len(self.bunch.contents)} 112 | 113 | def add_user_dict(self): 114 | """添加已知的敏感词作为用户词典""" 115 | global ADD_USER_DICT 116 | if not ADD_USER_DICT: # 全局只用添加一次就够了 117 | ADD_USER_DICT = True 118 | sw = SensitiveWords() 119 | for k in sw.sensitive_word_dict.keys(): 120 | for word in sw.sensitive_word_dict[k]: 121 | jieba.add_word(word) 122 | 123 | def set_labels(self, label_list): 124 | """设置数据集的分类标签""" 125 | self.bunch.label_set = list(set(label_list)) 126 | self.bunch.label_set.append(u"default") # 增加一个默认类别,用于存放训练数据 127 | 128 | def add_data(self, data, data_id, data_labels=u"default"): 129 | """向数据集中添加数据,必须确定数据id及内容(要求输入字符串是utf8格式)""" 130 | self.bunch.labels.append(data_labels) 131 | self.bunch.ids.append(data_id) 132 | content = data 133 | content.replace(u"\r\n", u"") # 删除换行 134 | content.replace(u"\t", u"") # 删除制表符 135 | content = content.replace(u" ", u"") # 删除空行、多余的空格 136 | content_seg = jieba.cut(content) # 为文件内容分词,注意分词之后是unicode 137 | content_seg_list = [word for word in content_seg] # jieba默认返回一个迭代器,转化为list 138 | self.bunch.contents.append(" ".join(content_seg_list)) 139 | 140 | def train2tf_idf(self): 141 | """将数据转换为TF-IDF向量空间数据""" 142 | # 构建tf-idf词向量空间对象 143 | tfidfspace = Bunch(labels_set=self.bunch.label_set, 144 | labels=self.bunch.labels, 145 | ids=self.bunch.ids, 146 | tdm=[], 147 | vocabulary={}) 148 | # 使用TfidfVectorizer初始化向量空间模型 149 | # tfidfspace.tdm = self.tf_idfVectorizer.fit_transform(self.bunch.contents) 150 | 151 | # 处理一个坑 152 | # ref - https://stackoverflow.com/questions/45804133/dimension-mismatch-error-in-countvectorizer-multinomialnb 153 | # ref - https://cuiqingcai.com/4759.html 154 | # 只有第一次用 fit_transform() 其他的时候量化器只要 transform() 就可以了 155 | 156 | # 生成tf_idf数据对象 157 | global TfidfVectorizer_init 158 | if not TfidfVectorizer_init: 159 | tfidfspace.tdm = self.tf_idfVectorizer.fit_transform(self.bunch.contents) 160 | TfidfVectorizer_init = True 161 | else: 162 | tfidfspace.tdm = self.tf_idfVectorizer.transform(self.bunch.contents) 163 | tfidfspace.vocabulary = self.tf_idfVectorizer.vocabulary_ 164 | 165 | self.has_tf_idf = True 166 | self.tf_idf_vector_space = tfidfspace 167 | return tfidfspace 168 | 169 | def save_tf_idf_data(self, tf_idf_data_path="./data/tf_idf.dat"): 170 | """保存向量空间数据到文件中(基于pickle)""" 171 | if self.has_tf_idf: 172 | with open(tf_idf_data_path, "wb") as file_obj: 173 | pickle.dump(self.tf_idf_vector_space, file_obj) 174 | else: 175 | raise Exception("尚未生成if-idf数据,请生成后再执行保存操作") 176 | 177 | def read_tf_idf_data(self, tf_idf_data_path="./data/tf_idf.dat"): 178 | """将文件中的if-idf数据读取到本地""" 179 | with open(tf_idf_data_path, "rb") as file_obj: 180 | data = pickle.load(file_obj) 181 | self.has_tf_idf = True 182 | self.tf_idf_vector_space = data 183 | return self.tf_idf_vector_space 184 | 185 | 186 | class TextClassifie(object): 187 | """文本分类器,支持多种模型进行分类,基于tf-idf数据""" 188 | 189 | def __init__(self): 190 | self.clf = None 191 | self.clf_num = 1 192 | self.bayes_alpha = 0.001 193 | self.train_data = None 194 | self.test_data = None 195 | self.predicted_data = None 196 | self.kNN_neighbors = None 197 | 198 | def set_classifie_model(self, model_num=1): 199 | """选择文本分类模型""" 200 | self.clf_num = model_num 201 | 202 | def set_bayes_alpha(self, val): 203 | """设置贝叶斯的alpha值""" 204 | self.bayes_alpha = val 205 | 206 | def set_kNN_neighbors(self, val): 207 | """设置KNN分类器聚类个数""" 208 | self.kNN_neighbors = val 209 | 210 | def init_clf(self): 211 | """构建分类模型""" 212 | if self.clf_num == 0: 213 | self.clf = svm.SVC() 214 | print "使用支持向量机分类模型(SVM)" 215 | elif self.clf_num == 1: 216 | print "使用alpha=" + str(self.bayes_alpha) + "的多项式贝叶斯分类模型" 217 | self.clf = MultinomialNB(alpha=self.bayes_alpha) 218 | elif self.clf_num == 2: 219 | print "使用决策树分类模型" 220 | self.clf = DecisionTreeClassifier() 221 | elif self.clf_num == 3: 222 | print "使用逻辑回归分类模型" 223 | self.clf = LogisticRegression() 224 | elif self.clf_num == 4: 225 | print "使用随机森林分类模型" 226 | self.clf = RandomForestClassifier() 227 | elif self.clf_num == 5: 228 | print "使用kNN聚类模型" 229 | self.clf = KNeighborsClassifier(self.kNN_neighbors) 230 | elif self.clf_num == 6: 231 | print "使用GBDT聚类模型" 232 | self.clf = GradientBoostingClassifier() 233 | 234 | def train(self, train_data): 235 | """训练文本分类模型""" 236 | self.train_data = train_data 237 | start_time = time.time() 238 | self.clf.fit(train_data.tdm, train_data.labels) 239 | print "训练所用时间 : {0:.4f} sec".format(time.time() - start_time) 240 | 241 | def predicted(self, test_data): 242 | """进行文本分类""" 243 | self.test_data = test_data 244 | start_time = time.time() 245 | self.predicted_data = self.clf.predict(test_data.tdm) 246 | print "分类所用时间 : {0:.4f} sec".format(time.time() - start_time) 247 | return self.predicted_data 248 | 249 | def metrics_result(self): 250 | """对测试集合进行比较""" 251 | print '精度:{0:.5f}'.format( 252 | metrics.precision_score(self.test_data.labels, self.predicted_data, average='weighted')) 253 | print '召回:{0:.5f}'.format(metrics.recall_score(self.test_data.labels, self.predicted_data, average='weighted')) 254 | print 'f1-score:{0:.5f}'.format( 255 | metrics.f1_score(self.test_data.labels, self.predicted_data, average='weighted')) 256 | 257 | 258 | if __name__ == '__main__': 259 | # ===========================文本分类模型================================ 260 | train_data = DataSet() 261 | test_data = DataSet() 262 | 263 | train_data.read_tf_idf_data("./data/train.dat") 264 | test_data.read_tf_idf_data("./data/test.dat") 265 | 266 | t = TextClassifie() 267 | t.set_classifie_model() 268 | # t.set_bayes_alpha(0.0001) 269 | t.init_clf() 270 | 271 | t.train(train_data.tf_idf_vector_space) 272 | t.predicted(test_data.tf_idf_vector_space) 273 | 274 | t.metrics_result() 275 | 276 | # --------------------- RESULT ------------------------ 277 | # 使用alpha=0.0001的多项式贝叶斯分类模型 278 | # 训练所用时间 : 0.3540 sec 279 | # 分类所用时间 : 0.0060 sec 280 | # 精度:0.96798 281 | # 召回:0.96962 282 | # f1-score:0.96301 283 | 284 | # after add user dict 285 | # 使用alpha=0.001的多项式贝叶斯分类模型 286 | # 训练所用时间 : 0.3670 sec 287 | # 分类所用时间 : 0.0080 sec 288 | # 精度:0.96878 289 | # 召回:0.97030 290 | # f1-score:0.96409 291 | 292 | # 正负 1:5 293 | # 使用alpha=0.001的多项式贝叶斯分类模型 294 | # 训练所用时间 : 0.0920 sec 295 | # 分类所用时间 : 0.0020 sec 296 | # 精度:0.90207 297 | # 召回:0.90250 298 | # f1-score:0.88676 299 | 300 | # ==========================生成测试数据========================== 301 | # malicious_data_url = './data/minitrill/malicious_text.txt' 302 | # normal_data_url = './data/minitrill/normal_text_s.txt' 303 | # 304 | # p = 0 305 | # id_count = 0 306 | # # dataset init 307 | # train_data = DataSet() 308 | # test_data = DataSet() 309 | # 310 | # train_data.set_labels(["0", "20001", "20002", "20004", "20006"]) 311 | # test_data.set_labels(["0", "20001", "20002", "20004", "20006"]) 312 | # # read file 313 | # with open(malicious_data_url, "rb") as f: 314 | # for line in f: 315 | # l = line.decode('utf8').strip() 316 | # x = l.split('-', 1) 317 | # if p > 4: # 4:1 train/test 318 | # p = 0 319 | # test_data.add_data(x[1], str(id_count), data_labels=x[0]) 320 | # else: 321 | # train_data.add_data(x[1], str(id_count), data_labels=x[0]) 322 | # 323 | # id_count += 1 324 | # p += 1 325 | # with open(normal_data_url, "rb") as f: 326 | # for line in f: 327 | # l = line.decode('utf8').strip() 328 | # x = l.split('-', 1) 329 | # if p > 8: 330 | # p = 0 331 | # test_data.add_data(x[1], str(id_count), data_labels=x[0]) 332 | # else: 333 | # train_data.add_data(x[1], str(id_count), data_labels=x[0]) 334 | # 335 | # id_count += 1 336 | # p += 1 337 | # 338 | # # tf-idf 339 | # train_data.train2tf_idf() 340 | # test_data.train2tf_idf() 341 | # # save 342 | # train_data.save_tf_idf_data("./data/train.dat") 343 | # test_data.save_tf_idf_data("./data/test.dat") 344 | 345 | # ==========================构造测试文本 5 -> 1===================== 346 | # malicious_data_url = './data/minitrill/malicious.txt' 347 | # normal_data_url = './data/minitrill/normal.txt' 348 | # 349 | # count = 0 350 | # fr = open('./data/minitrill/normal_text_s.txt', 'wb') 351 | # with open(normal_data_url, 'rb') as f: 352 | # for line in f: 353 | # line = line.decode('utf8').strip() 354 | # t = line.split('\t') 355 | # count += 1 356 | # if count >= 4: 357 | # fr.write(str(t[0]) + '-' + str(t[-1]) + '\n') 358 | # count = 0 -------------------------------------------------------------------------------- /text_filter.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 文本过滤器 7 | 基于DFA与字典树实现的高效文本过滤器 8 | 9 | >>>t = TextFilter() # 初始化 # 贪婪模式,匹配所有敏感词 10 | >>>t.is_contain('气死我了,卧槽. 免费提供无抵押贷款') # 监测是否有敏感词,返回(敏感词在字符串的起始位置,敏感词,敏感词类型)构成的列表 11 | [(5, u'\u5367\u69fd', 'dirty'), (13, u'\u65e0\u62b5\u62bc\u8d37\u6b3e', 'ad')] 12 | >>>t.filter('习近平修宪') # 敏感词过滤 str 13 | ***修宪 14 | >>>t.filter(u'卧槽,我真是草泥马') # 敏感词过滤 unicode 15 | **,我真是*** 16 | >>>t.filter(u'法论功大发好,真善忍好',replace_char=u'-') # 敏感词过滤,指定替换字符 17 | ---大发好,真善忍好 18 | >>>t.filter('高效低价英雄联盟代练') # 测试添加敏感词功能 19 | 高效低价英雄联盟代练 20 | >>>t.add_word(u'英雄联盟代练') 21 | >>>t.filter('高效低价英雄联盟代练') 22 | 高效低价****** 23 | >>>t.classifie('出售幼,女私房照,小萝,莉私房,联系QQxxx') # 文本敏感词统计(敏感词类型,出现次数) (会提前过滤符号) 24 | [('pron-child', 2), ('ad', 1)] 25 | 26 | author : @h-j-13 27 | time : 2018-7-19 28 | """ 29 | 30 | import re 31 | from collections import Counter 32 | 33 | from sensitive_word import SensitiveWords 34 | 35 | 36 | class Node(object): 37 | """字典树节点""" 38 | 39 | def __init__(self): 40 | self.children = None # dict格式 {u'char1':node1, u'char2':node2...} 41 | self.sensitive_word = None 42 | self.sensitive_word_type = None 43 | 44 | 45 | class TextFilter(object): 46 | """文本过滤""" 47 | 48 | # Singleton 49 | _instance = None 50 | 51 | def __new__(cls, *args, **kw): 52 | """单例模式""" 53 | if not cls._instance: 54 | cls._instance = super(TextFilter, cls).__new__(cls, *args, **kw) 55 | return cls._instance 56 | 57 | def __init__(self): 58 | self.root = Node() 59 | self.sensitive_word = SensitiveWords().sensitive_word_dict 60 | for word_type in self.sensitive_word.keys(): 61 | for word in self.sensitive_word[word_type]: 62 | self.add_word(word, word_type) 63 | 64 | def add_word(self, word, word_type=u'common'): 65 | """向字典树里添加敏感词汇及敏感词类型""" 66 | # 处理编码 67 | if type(word) == str: 68 | word = word.decode('utf-8') 69 | # 向tire树添加节点 70 | node = self.root 71 | for i in range(len(word)): 72 | if not node.children: # 该节点是叶节点 73 | node.children = {word[i]: Node()} 74 | elif word[i] not in node.children: # note : 监测dict中是否有某个key, 用 k in d 比用 k in d.keys() 快三倍 75 | node.children[word[i]] = Node() 76 | node = node.children[word[i]] 77 | node.sensitive_word = word # 在最后一个节点上记录整个词 78 | node.sensitive_word_type = word_type 79 | 80 | def is_contain(self, message): 81 | """监测文本是否含有字典树的敏感词 82 | 返回一个列表,每一个元祖都是敏感词(出现在字符串文中的位置,敏感词,类型)""" 83 | # 处理编码 84 | if type(message) == str: 85 | message = message.decode('utf-8') 86 | # 初始化结果变量 87 | result = [] 88 | i, j, message_length = 0, 0, len(message) 89 | # tire树 查找 90 | while i < message_length: 91 | j = i 92 | p = self.root 93 | while j < message_length and p.children is not None and message[j] in p.children: # 匹配最长的词 94 | p = p.children[message[j]] 95 | j = j + 1 96 | if p.sensitive_word: # 查找时最后落到了敏感词叶节点上 97 | result.append((j - len(p.sensitive_word), 98 | p.sensitive_word, 99 | p.sensitive_word_type)) 100 | i += len(p.sensitive_word) # 直接跳跃到敏感词下一个字符进行继续匹配 101 | else: 102 | i += 1 103 | return result 104 | 105 | def filter(self, message, replace_char=u'*'): 106 | """过滤文本,将其中的敏感词替换为过滤字符(默认为*)""" 107 | # 处理编码 108 | if type(message) == str: 109 | message = message.decode('utf-8') 110 | res = self.is_contain(message) 111 | for (i, word, _) in res: 112 | message = message[:i] + u"".join([replace_char for _ in xrange(len(word))]) + message[i + len(word):] 113 | return message 114 | 115 | def classifie(self, message): 116 | """过滤字符串,获取字符串分类及恶意程度""" 117 | result = [] 118 | # 处理编码 119 | if type(message) == str: 120 | message = message.decode('utf-8') 121 | # 去除各种标点符号 122 | message = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"), message) 123 | res = self.is_contain(message) 124 | # 聚合语句中的敏感词信息及权重 125 | for _, _, word_type in res: 126 | result.append(word_type) 127 | d = dict(Counter(result)) 128 | d = sorted(d.items(), key=lambda x: x[1], reverse=True) 129 | return d 130 | 131 | if __name__ == '__main__': 132 | t = TextFilter() # 初始化 # 贪婪模式,匹配所有敏感词 133 | print t.is_contain('气死我了,卧槽. 免费提供无抵押贷款') # 监测是否有敏感词,返回(敏感词在字符串的起始位置,敏感词,敏感词类型)构成的列表 134 | print t.filter('习近平修宪') # 敏感词过滤 str 135 | print t.filter(u'卧槽,我真是草泥马') # 敏感词过滤 unicode 136 | t.filter(u'法论功大发好,真善忍好', replace_char=u'-') # 敏感词过滤,指定替换字符 137 | t.filter('高效低价英雄联盟代练') # 测试添加敏感词功能 138 | t.add_word(u'英雄联盟代练') 139 | t.filter('高效低价英雄联盟代练') 140 | print t.classifie('出售幼,女私房照,小萝,莉私房,联系QQxxx') -------------------------------------------------------------------------------- /text_filter_simple.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 文本过滤器 7 | 使用python内建的 in,replace 实现文本过滤 8 | 9 | 10 | author : @h-j-13 11 | time : 2018-7-19 12 | """ 13 | 14 | from sensitive_word import SensitiveWords 15 | 16 | senstive_data_list = [] 17 | 18 | 19 | def init_data(): 20 | global senstive_data_list 21 | temp = SensitiveWords().sensitive_word_dict 22 | data = [] 23 | for k in temp.keys(): 24 | data.extend(list(temp[k])) 25 | senstive_data_list = data 26 | 27 | 28 | def text_filter(s): 29 | """文本过滤""" 30 | global senstive_data_list 31 | data = senstive_data_list 32 | 33 | if type(s) == str: 34 | s = s.decode('utf-8') 35 | 36 | for word in data: 37 | if word in s: 38 | s = s.replace(word, u'*') 39 | return s 40 | 41 | 42 | if __name__ == '__main__': 43 | init_data() 44 | print text_filter(u'ABC') 45 | print text_filter(u'人妻') 46 | -------------------------------------------------------------------------------- /word_count.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | """ 5 | 词频统计 6 | 7 | author : @h-j-13 8 | time : 2018-7-31 9 | """ 10 | 11 | import nltk 12 | import jieba 13 | from collections import Counter 14 | 15 | from stop_words import get_stop_words 16 | 17 | malicious_data_url = './data/minitrill/malicious_text.txt' 18 | normal_data_url = './data/minitrill/normal_text.txt' 19 | 20 | 21 | class WordCount(object): 22 | """词频及其他信息统计""" 23 | 24 | def __init__(self, file_path): 25 | self.file_path = file_path 26 | self.stop_words = get_stop_words() 27 | self.text = [] 28 | self.text_analysis = {} 29 | self.word_count_dict = {} 30 | self.add_user_dict() 31 | 32 | def add_user_dict(self): 33 | """针对结巴分词加载自定义词典""" 34 | jieba.add_word("法轮大法") 35 | # add malicious word... 36 | 37 | def read_file(self): 38 | """读取文件内容""" 39 | with open(self.file_path, 'rb') as f: 40 | for line in f: 41 | self.text.append(line.decode('utf8').strip()) 42 | print "读取文本完毕 - 共" + str(len(self.text)) + "行" 43 | 44 | def analysis_text(self): 45 | """分析文本数据""" 46 | for t in self.text: 47 | temp = t.split(u'-') 48 | t_type = temp[0] 49 | t_text = temp[1] 50 | if self.text_analysis.has_key(t_type): 51 | self.text_analysis[t_type].append(t_text) 52 | else: 53 | self.text_analysis[t_type] = [t_text] 54 | 55 | print "文本分析结果:" 56 | for k in self.text_analysis.keys(): 57 | print str(k) + " 类 - 文本数量 " + str(len(self.text_analysis[k])) 58 | 59 | def word_count(self, top_n=50): 60 | """分词后统计词频""" 61 | for k in self.text_analysis.keys(): 62 | self.word_count_dict[k] = [] 63 | temp = [] 64 | for text in self.text_analysis[k]: 65 | # 分词后去除停用词 66 | temp.extend(list(set(jieba.cut(text, cut_all=True)) - set(self.stop_words))) 67 | d = dict(Counter(temp)) 68 | d = sorted(d.items(), key=lambda x: x[1], reverse=True) 69 | for x in d[:top_n]: 70 | if x[0]: 71 | 72 | self.word_count_dict[k].append(x[0]) 73 | 74 | def save_word_count_dict(self): 75 | """保存分词之后的数据""" 76 | for k in self.word_count_dict.keys(): 77 | with open(str(k) + ".txt", "wb") as f: 78 | for t in self.word_count_dict[k]: 79 | f.write(str(t.encode('utf8')) + "\n") 80 | 81 | 82 | if __name__ == '__main__': 83 | w = WordCount(malicious_data_url) 84 | w.read_file() 85 | w.analysis_text() 86 | w.word_count() 87 | w.save_word_count_dict() 88 | -------------------------------------------------------------------------------- /word_segment.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python 2 | # encoding:utf-8 3 | 4 | 5 | """ 6 | 通过jieba分词对文本文件数据进行分词并保存到文件中 7 | 8 | author : @h-j-13 9 | time : 2018-7-20 10 | """ 11 | 12 | import os 13 | import sys 14 | import jieba 15 | 16 | reload(sys) 17 | sys.setdefaultencoding('utf8') 18 | 19 | train_data_url = './data/FudanTrainData/' 20 | segment_data_url = './data/WordSegment/' 21 | 22 | from stop_words import get_stop_words 23 | 24 | STOP_WORDS_SET = get_stop_words() 25 | 26 | 27 | def get_all_file_by_path(path=train_data_url): 28 | """获取某个目录下的所有训练文件""" 29 | file_path = [] 30 | dir_list = os.listdir(train_data_url) 31 | for d in dir_list: 32 | file_path.extend(map(lambda x: train_data_url + d + '/' + x, os.listdir(train_data_url + d))) 33 | return file_path 34 | 35 | 36 | def read_file_sentence(file_path='./data/FudanTrainData/C3-Art/C3-Art0002.txt'): 37 | """读取文件,将全文转化为句子并进行分词,然后去除停用词,返回分词之后的结果 'w1 w2 w3'""" 38 | 39 | with open(file_path, 'rb') as f: 40 | content = f.read().encode('utf8') 41 | 42 | content = content.replace("\r\n", "") # 删除换行 43 | content = content.replace(" ", "") # 删除空行、多余的空格 44 | content_seg = jieba.cut(content) # 为文件内容分词,注意分词之后是unicode 45 | content_seg_list = [word for word in content_seg] # jieba默认返回一个迭代器,转化为list 46 | content_seg_without_stopwords = list(set(content_seg_list) - STOP_WORDS_SET) # 去除停用词 47 | content_seg_without_stopwords.sort(key=content_seg_list.index) # 按原列表排序 48 | 49 | return u" ".join(content_seg_without_stopwords).encode('utf8') 50 | 51 | 52 | if __name__ == '__main__': 53 | old_data_type = '' 54 | 55 | for file_path in get_all_file_by_path(): 56 | [data_type, file_name] = file_path.split('/')[-2:] 57 | 58 | res = read_file_sentence(file_path) 59 | 60 | if old_data_type != data_type: 61 | os.makedirs(segment_data_url + data_type) 62 | old_data_type = data_type 63 | 64 | with open(segment_data_url + data_type + '/' + file_name, 'wb') as f: 65 | f.write(res) 66 | --------------------------------------------------------------------------------