├── _config.yml ├── image ├── book.png ├── jpm-1.jpg ├── jpm-2.jpg ├── jpm-3.jpg ├── jpm-4.jpg ├── jpm-5.jpg ├── jpm-6.jpg ├── jpm-7.jpg ├── jpm-8.jpg └── screenshot-1.png ├── model └── 金瓶梅.model ├── README.md ├── data ├── 金瓶梅人物.dict ├── 金瓶梅.dict └── stop_words.txt ├── 2_金瓶梅_生成model和vector.ipynb ├── 3_金瓶梅_load_model.ipynb ├── .ipynb_checkpoints ├── 3_金瓶梅_load_model-checkpoint.ipynb └── 1_金瓶梅_preprocess-checkpoint.ipynb ├── 4_金瓶梅人物.ipynb └── 1_金瓶梅_preprocess.ipynb /_config.yml: -------------------------------------------------------------------------------- 1 | theme: jekyll-theme-modernist -------------------------------------------------------------------------------- /image/book.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/book.png -------------------------------------------------------------------------------- /image/jpm-1.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-1.jpg -------------------------------------------------------------------------------- /image/jpm-2.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-2.jpg -------------------------------------------------------------------------------- /image/jpm-3.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-3.jpg -------------------------------------------------------------------------------- /image/jpm-4.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-4.jpg -------------------------------------------------------------------------------- /image/jpm-5.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-5.jpg -------------------------------------------------------------------------------- /image/jpm-6.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-6.jpg -------------------------------------------------------------------------------- /image/jpm-7.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-7.jpg -------------------------------------------------------------------------------- /image/jpm-8.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-8.jpg -------------------------------------------------------------------------------- /model/金瓶梅.model: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/model/金瓶梅.model -------------------------------------------------------------------------------- /image/screenshot-1.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/screenshot-1.png -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | 分析《金瓶梅》 2 | ======== 3 | 4 | 所用到的库,jieba,gensim,用的版本是网上下载的无删节“崇祯本”,好像也不全,比如武大郎死后做法事时候的一段这个版本就没有: 5 | 6 | * 『只听见妇人在房里颤声柔气,呻呻吟吟,哼哼唧唧,恰似有人在房里交姤,于是推洗手,立住了脚,听了起来。只听妇人嗽声呼叫西门庆:“达达,你休只顾搧打到几时,只怕和尚来了听见,饶了奴罢。”西门庆道:“你且休慌,我还要在盖子上烧一下儿哩!”不想都被这个秃厮听了个不亦乐乎。落后众和尚都到齐了,吹打起法事来,一个传一个,都知道妇人有汉子在屋里,不觉都手之舞之,足之蹈之。待到佛事将完,潘金莲换了一身艳服,在帘里与西门庆两个并肩而立,看着和尚化烧灵座。和尚看到帘子里的汉子,想起起先听到的那些勾当,只个乱打鼓𢵞钹不住,被风把长老的僧伽帽刮在地上,露见青旋旋光头,不去拾,只顾𢵞钹打鼓,笑成一团』 7 | 8 | 9 | 难点 10 | ======== 11 | 主要还是分词,jieba是通用性的,对于古汉语(虽然还算是白话文)没有针对性,所以缺省下效果很不好。增加分词准确性主要通过: 12 | 13 | * stopwords,过滤之乎者也这些虚词和常用的虚词,比如“恨不能 哼 哼唷 后来 乎 呼 呼哧 忽然” 14 | * 通过使用用户字典,我把金瓶梅的下列专门用户放进字典避免分错: 15 | * 主要人物(李瓶儿,潘金莲,吴月娘,陈敬济), 16 | http://www.360doc.com/content/15/0227/15/3328689_451241184.shtml 17 | * 职业(道士,府尹,秀才,喇嘛), 18 | * 物件(舍利,茄袋,香囊,银托子), 19 | * 习俗(头七,会亲,拜见钱,猜枚), 20 | http://www.360doc.com/content/17/1202/23/50407527_709377774.shtml 21 | * 当然还有一些色情的用语(勉铃,吮咂,蛙口,牝户) 22 | * 过滤jieba处理后的单字节,主要是动词(打,骂,追,叫),对分析关系帮助不大,反而形成干扰 23 | * 还有就是一个人物在文中不同的称呼要处理,比如吴月娘,月娘,大娘,因为西门庆有六个老婆,她们互相之间会称呼二姐,三姐,四姐,六妹之类的,要把这些称呼转换成对应的人物,不然结果不准确,我并没有在程序里处理,而是直接在 vi 里用search/replace处理掉了,还有就是“达达”,主要是对西门庆的昵称(通常在苟且之时),但我不确定是不是全部的“达达”都是指西门庆,因为我也没仔细去查找,所以没有替换 24 | * 另外一个难点就是“你我他”的称呼,因为“你”到底指谁要通过上下文来判断,暂时不知道如何处理 25 | 26 | 27 | 结果 28 | ======== 29 | ![](image/screenshot-1.png) 30 | 31 | * 原来吴月娘在小说中的比重比潘金莲还大
32 | (注:大姐就是西门大姐,西门庆的女儿,四娘就是贲四娘子,小玉和玉箫是吴月娘的丫头,其余5人皆为西门庆的妻妾) 33 | * 要对小说事前做很多预处理,不对小说有所了解就没法做预处理,这也就是说没法做全自动化,不然就是 garbage in garbage out,其实这也是人工智能要面对的,你需要一个行业专家才能具体落地解决方案,不能期望一个算法,再扔一堆数据就期望出来好结果 34 | 35 | 后续 36 | ======== 37 | * 建立一个多义词词典,因为对同一个人会存在不同的称呼,比如{乾隆:朕,陛下,万岁爷,圣上,老佛爷,十全老人,乾隆爷}在一部小说里都指同一个人,如果不做整合统计就会不准确,但是如果一部小说里写清朝几代,那么(朕,陛下,圣上)就可能指几个人比如顺治,乾隆,雍正,这就是复杂的地方 38 | * 通过深度学习,用LSTM之类的方法,和传统的方法比较一下结果 39 | 40 | 41 | 未完待续 42 | ======== 43 | -------------------------------------------------------------------------------- /data/金瓶梅人物.dict: -------------------------------------------------------------------------------- 1 | 安童 2 | 暗娼 3 | 白赉光 4 | 鲍太医 5 | 贲第传 6 | 贲四 7 | 贲四娘子 8 | 卜龟卦 9 | 卜志道 10 | 蔡京 11 | 蔡一泉 12 | 蔡蕴 13 | 草里蛇 14 | 曾孝序 15 | 常峙节 16 | 车淡 17 | 陈敬济 18 | 陈文昭 19 | 春鸿 20 | 春梅 21 | 春燕 22 | 崔本 23 | 翠儿 24 | 大师父 25 | 玳安 26 | 狄混 27 | 狄斯彬 28 | 翟谦 29 | 翟云峰 30 | 董娇儿 31 | 董玉仙 32 | 樊奴儿 33 | 梵僧 34 | 飞天鬼 35 | 冯金宝 36 | 冯妈妈 37 | 傅伙计 38 | 傅铭 39 | 傅自新 40 | 高安 41 | 葛翠屏 42 | 官哥儿 43 | 管事宽 44 | 过街鼠 45 | 韩爱姐 46 | 韩道国 47 | 韩二 48 | 韩金钏儿 49 | 韩钳 50 | 韩消愁儿 51 | 韩玉钏儿 52 | 郝闲 53 | 何老人 54 | 何沂 55 | 何永寿 56 | 贺金 57 | 洪四儿 58 | 侯林儿 59 | 侯蒙 60 | 侯石泉 61 | 胡太医 62 | 胡秀 63 | 花子虚 64 | 画童 65 | 黄四 66 | 黄先生 67 | 黄真人 68 | 惠莲 69 | 惠庆 70 | 惠祥 71 | 惠秀 72 | 惠元 73 | 即章四儿 74 | 蒋文蕙 75 | 蒋竹山 76 | 金儿 77 | 金哥 78 | 金宗明 79 | 荆南冈 80 | 荆忠 81 | 孔目 82 | 葵轩 83 | 腊梅 84 | 来安儿 85 | 来保儿 86 | 来旺 87 | 来旺儿 88 | 来兴儿 89 | 来昭儿 90 | 兰香 91 | 老婆子 92 | 李安 93 | 李达天 94 | 李拱璧 95 | 李桂姐 96 | 李桂卿 97 | 李娇儿 98 | 李铭 99 | 李瓶儿 100 | 李日新 101 | 李三 102 | 李三妈 103 | 李智 104 | 林太太 105 | 刘二 106 | 刘公公 107 | 刘菊斋 108 | 刘理星 109 | 刘婆子 110 | 刘瞎子 111 | 鲁长腿 112 | 鲁华 113 | 吕赛儿 114 | 孟玉楼 115 | 奶子如意儿 116 | 南坡 117 | 潘道士 118 | 潘金莲 119 | 金莲 120 | 潘姥姥 121 | 平安儿 122 | 棋童 123 | 齐香儿 124 | 乔郓哥 125 | 琴童 126 | 秦玉芝 127 | 秋菊 128 | 屈铛 129 | 任道士 130 | 任后溪 131 | 任医官 132 | 瑞云 133 | 书童 134 | 宋惠莲 135 | 宋乔年 136 | 宋松原 137 | 孙二娘 138 | 孙寡嘴 139 | 孙天化 140 | 孙雪娥 141 | 桃花儿 142 | 陶扒灰 143 | 陶妈妈 144 | 天福儿 145 | 铁指甲 146 | 王采 147 | 王潮儿 148 | 王姑子 149 | 王经 150 | 王六儿 151 | 王婆 152 | 王三官儿 153 | 王宣 154 | 王逸轩 155 | 王招宣 156 | 温必古 157 | 文嫂 158 | 吴大妗子 159 | 吴大舅 160 | 吴大姨 161 | 吴道官 162 | 吴典恩 163 | 吴二妗子 164 | 吴惠 165 | 吴恺 166 | 吴神仙 167 | 吴爽 168 | 吴舜臣 169 | 吴四妈 170 | 吴银儿 171 | 吴月娘 172 | 吴宗哲 173 | 武大郎 174 | 武松 175 | 武植 176 | 西门大姐 177 | 西门庆 178 | 大官人 179 | 夏花儿 180 | 夏龙溪 181 | 夏延龄 182 | 小鸾 183 | 小玉 184 | 小张松 185 | 小张闲 186 | 孝哥儿 187 | 谢希大 188 | 谢字纯 189 | 杏庵居士 190 | 绣春 191 | 徐葑 192 | 徐先生 193 | 薛公公 194 | 薛姑子 195 | 薛嫂 196 | 杨二风 197 | 杨二郎 198 | 杨姑娘 199 | 杨光彦 200 | 杨时 201 | 叶五儿 202 | 阴骘 203 | 应伯爵 204 | 应春 205 | 应光侯 206 | 应花子 207 | 迎春 208 | 迎儿 209 | 游守 210 | 玉箫 211 | 郁大姐 212 | 元宵儿 213 | 郓哥 214 | 张妈 215 | 张胜 216 | 张团练 217 | 张惜春 218 | 赵龙岗 219 | 赵太医 220 | 郑爱香儿 221 | 郑爱月儿 222 | 郑奉 223 | 郑观音 224 | 郑娇儿 225 | 郑妈 226 | 郑三姐 227 | 郑旺 228 | 中秋儿 229 | 周菊轩 230 | 周仁 231 | 周秀 232 | 周义 233 | 祝实念 234 | 字伯修 235 | 坐地虎 236 | -------------------------------------------------------------------------------- /2_金瓶梅_生成model和vector.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 1, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "import multiprocessing\n", 10 | "from gensim.models import Word2Vec\n", 11 | "from gensim.models.word2vec import LineSentence\n", 12 | "\n", 13 | "in_file = 'data/金瓶梅.jieba.after_stop_words.txt'\n", 14 | "model_file = 'model/金瓶梅.model'\n", 15 | "vector_file = 'model/金瓶梅.vector'\n", 16 | "\n", 17 | "model = Word2Vec(LineSentence(in_file), size=200, window=10, min_count=10, workers=multiprocessing.cpu_count())\n", 18 | "model.save(model_file)\n", 19 | "model.wv.save_word2vec_format(vector_file, binary=False)\n" 20 | ] 21 | }, 22 | { 23 | "cell_type": "code", 24 | "execution_count": null, 25 | "metadata": {}, 26 | "outputs": [], 27 | "source": [] 28 | } 29 | ], 30 | "metadata": { 31 | "kernelspec": { 32 | "display_name": "Python 3", 33 | "language": "python", 34 | "name": "python3" 35 | }, 36 | "language_info": { 37 | "codemirror_mode": { 38 | "name": "ipython", 39 | "version": 3 40 | }, 41 | "file_extension": ".py", 42 | "mimetype": "text/x-python", 43 | "name": "python", 44 | "nbconvert_exporter": "python", 45 | "pygments_lexer": "ipython3", 46 | "version": "3.5.2" 47 | }, 48 | "toc": { 49 | "colors": { 50 | "hover_highlight": "#DAA520", 51 | "navigate_num": "#000000", 52 | "navigate_text": "#333333", 53 | "running_highlight": "#FF0000", 54 | "selected_highlight": "#FFD700", 55 | "sidebar_border": "#EEEEEE", 56 | "wrapper_background": "#FFFFFF" 57 | }, 58 | "moveMenuLeft": true, 59 | "nav_menu": { 60 | "height": "12px", 61 | "width": "252px" 62 | }, 63 | "navigate_menu": true, 64 | "number_sections": true, 65 | "sideBar": true, 66 | "threshold": 4, 67 | "toc_cell": false, 68 | "toc_section_display": "block", 69 | "toc_window_display": false, 70 | "widenNotebook": false 71 | }, 72 | "varInspector": { 73 | "cols": { 74 | "lenName": 16, 75 | "lenType": 16, 76 | "lenVar": 40 77 | }, 78 | "kernels_config": { 79 | "python": { 80 | "delete_cmd_postfix": "", 81 | "delete_cmd_prefix": "del ", 82 | "library": "var_list.py", 83 | "varRefreshCmd": "print(var_dic_list())" 84 | }, 85 | "r": { 86 | "delete_cmd_postfix": ") ", 87 | "delete_cmd_prefix": "rm(", 88 | "library": "var_list.r", 89 | "varRefreshCmd": "cat(var_dic_list()) " 90 | } 91 | }, 92 | "types_to_exclude": [ 93 | "module", 94 | "function", 95 | "builtin_function_or_method", 96 | "instance", 97 | "_Feature" 98 | ], 99 | "window_display": false 100 | } 101 | }, 102 | "nbformat": 4, 103 | "nbformat_minor": 2 104 | } 105 | -------------------------------------------------------------------------------- /3_金瓶梅_load_model.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 3, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "from gensim.models import Word2Vec\n", 10 | "\n", 11 | "def get_result(result):\n", 12 | " if result:\n", 13 | " for distance in result:\n", 14 | " print (distance[0], \"\\t\", distance[1])\n", 15 | " \n", 16 | "model = Word2Vec.load(\"model/金瓶梅.model\")" 17 | ] 18 | }, 19 | { 20 | "cell_type": "code", 21 | "execution_count": 4, 22 | "metadata": {}, 23 | "outputs": [ 24 | { 25 | "name": "stdout", 26 | "output_type": "stream", 27 | "text": [ 28 | "孟玉楼 \t 0.9992923140525818\n", 29 | "吴月娘 \t 0.9968578815460205\n", 30 | "李娇儿 \t 0.9962125420570374\n", 31 | "李瓶儿 \t 0.9941150546073914\n", 32 | "玉箫 \t 0.9863290190696716\n", 33 | "屋里 \t 0.9841687083244324\n", 34 | "房里 \t 0.9839107394218445\n", 35 | "大姐 \t 0.9824092984199524\n", 36 | "小玉 \t 0.9701352119445801\n", 37 | "孙雪娥 \t 0.9647384285926819\n" 38 | ] 39 | } 40 | ], 41 | "source": [ 42 | "result = model.most_similar(u\"潘金莲\",topn=10)\n", 43 | "get_result(result)" 44 | ] 45 | }, 46 | { 47 | "cell_type": "code", 48 | "execution_count": null, 49 | "metadata": {}, 50 | "outputs": [], 51 | "source": [ 52 | "result = model.most_similar(positive=u\"西门庆 陈敬济\".split(\" \"), negative=u\"潘金莲\".split(\" \"),topn=5)\n", 53 | "get_result(result)" 54 | ] 55 | } 56 | ], 57 | "metadata": { 58 | "kernelspec": { 59 | "display_name": "Python 3", 60 | "language": "python", 61 | "name": "python3" 62 | }, 63 | "language_info": { 64 | "codemirror_mode": { 65 | "name": "ipython", 66 | "version": 3 67 | }, 68 | "file_extension": ".py", 69 | "mimetype": "text/x-python", 70 | "name": "python", 71 | "nbconvert_exporter": "python", 72 | "pygments_lexer": "ipython3", 73 | "version": "3.5.2" 74 | }, 75 | "toc": { 76 | "colors": { 77 | "hover_highlight": "#DAA520", 78 | "navigate_num": "#000000", 79 | "navigate_text": "#333333", 80 | "running_highlight": "#FF0000", 81 | "selected_highlight": "#FFD700", 82 | "sidebar_border": "#EEEEEE", 83 | "wrapper_background": "#FFFFFF" 84 | }, 85 | "moveMenuLeft": true, 86 | "nav_menu": { 87 | "height": "12px", 88 | "width": "252px" 89 | }, 90 | "navigate_menu": true, 91 | "number_sections": true, 92 | "sideBar": true, 93 | "threshold": 4, 94 | "toc_cell": false, 95 | "toc_section_display": "block", 96 | "toc_window_display": false, 97 | "widenNotebook": false 98 | }, 99 | "varInspector": { 100 | "cols": { 101 | "lenName": 16, 102 | "lenType": 16, 103 | "lenVar": 40 104 | }, 105 | "kernels_config": { 106 | "python": { 107 | "delete_cmd_postfix": "", 108 | "delete_cmd_prefix": "del ", 109 | "library": "var_list.py", 110 | "varRefreshCmd": "print(var_dic_list())" 111 | }, 112 | "r": { 113 | "delete_cmd_postfix": ") ", 114 | "delete_cmd_prefix": "rm(", 115 | "library": "var_list.r", 116 | "varRefreshCmd": "cat(var_dic_list()) " 117 | } 118 | }, 119 | "types_to_exclude": [ 120 | "module", 121 | "function", 122 | "builtin_function_or_method", 123 | "instance", 124 | "_Feature" 125 | ], 126 | "window_display": false 127 | } 128 | }, 129 | "nbformat": 4, 130 | "nbformat_minor": 2 131 | } 132 | -------------------------------------------------------------------------------- /.ipynb_checkpoints/3_金瓶梅_load_model-checkpoint.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 3, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "from gensim.models import Word2Vec\n", 10 | "\n", 11 | "def get_result(result):\n", 12 | " if result:\n", 13 | " for distance in result:\n", 14 | " print (distance[0], \"\\t\", distance[1])\n", 15 | " \n", 16 | "model = Word2Vec.load(\"model/金瓶梅.model\")" 17 | ] 18 | }, 19 | { 20 | "cell_type": "code", 21 | "execution_count": 4, 22 | "metadata": {}, 23 | "outputs": [ 24 | { 25 | "name": "stdout", 26 | "output_type": "stream", 27 | "text": [ 28 | "孟玉楼 \t 0.9992923140525818\n", 29 | "吴月娘 \t 0.9968578815460205\n", 30 | "李娇儿 \t 0.9962125420570374\n", 31 | "李瓶儿 \t 0.9941150546073914\n", 32 | "玉箫 \t 0.9863290190696716\n", 33 | "屋里 \t 0.9841687083244324\n", 34 | "房里 \t 0.9839107394218445\n", 35 | "大姐 \t 0.9824092984199524\n", 36 | "小玉 \t 0.9701352119445801\n", 37 | "孙雪娥 \t 0.9647384285926819\n" 38 | ] 39 | } 40 | ], 41 | "source": [ 42 | "result = model.most_similar(u\"潘金莲\",topn=10)\n", 43 | "get_result(result)" 44 | ] 45 | }, 46 | { 47 | "cell_type": "code", 48 | "execution_count": null, 49 | "metadata": {}, 50 | "outputs": [], 51 | "source": [ 52 | "result = model.most_similar(positive=u\"西门庆 陈敬济\".split(\" \"), negative=u\"潘金莲\".split(\" \"),topn=5)\n", 53 | "get_result(result)" 54 | ] 55 | } 56 | ], 57 | "metadata": { 58 | "kernelspec": { 59 | "display_name": "Python 3", 60 | "language": "python", 61 | "name": "python3" 62 | }, 63 | "language_info": { 64 | "codemirror_mode": { 65 | "name": "ipython", 66 | "version": 3 67 | }, 68 | "file_extension": ".py", 69 | "mimetype": "text/x-python", 70 | "name": "python", 71 | "nbconvert_exporter": "python", 72 | "pygments_lexer": "ipython3", 73 | "version": "3.5.2" 74 | }, 75 | "toc": { 76 | "colors": { 77 | "hover_highlight": "#DAA520", 78 | "navigate_num": "#000000", 79 | "navigate_text": "#333333", 80 | "running_highlight": "#FF0000", 81 | "selected_highlight": "#FFD700", 82 | "sidebar_border": "#EEEEEE", 83 | "wrapper_background": "#FFFFFF" 84 | }, 85 | "moveMenuLeft": true, 86 | "nav_menu": { 87 | "height": "12px", 88 | "width": "252px" 89 | }, 90 | "navigate_menu": true, 91 | "number_sections": true, 92 | "sideBar": true, 93 | "threshold": 4, 94 | "toc_cell": false, 95 | "toc_section_display": "block", 96 | "toc_window_display": false, 97 | "widenNotebook": false 98 | }, 99 | "varInspector": { 100 | "cols": { 101 | "lenName": 16, 102 | "lenType": 16, 103 | "lenVar": 40 104 | }, 105 | "kernels_config": { 106 | "python": { 107 | "delete_cmd_postfix": "", 108 | "delete_cmd_prefix": "del ", 109 | "library": "var_list.py", 110 | "varRefreshCmd": "print(var_dic_list())" 111 | }, 112 | "r": { 113 | "delete_cmd_postfix": ") ", 114 | "delete_cmd_prefix": "rm(", 115 | "library": "var_list.r", 116 | "varRefreshCmd": "cat(var_dic_list()) " 117 | } 118 | }, 119 | "types_to_exclude": [ 120 | "module", 121 | "function", 122 | "builtin_function_or_method", 123 | "instance", 124 | "_Feature" 125 | ], 126 | "window_display": false 127 | } 128 | }, 129 | "nbformat": 4, 130 | "nbformat_minor": 2 131 | } 132 | -------------------------------------------------------------------------------- /4_金瓶梅人物.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 62, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'r')\n", 10 | "text = file.read()\n", 11 | "file.close()\n", 12 | "\n", 13 | "text_list = text.split(\" \")" 14 | ] 15 | }, 16 | { 17 | "cell_type": "code", 18 | "execution_count": 63, 19 | "metadata": {}, 20 | "outputs": [], 21 | "source": [ 22 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n", 23 | "characters = file.read()\n", 24 | "file.close()\n", 25 | "\n", 26 | "character_list = characters.split(\"\\n\")" 27 | ] 28 | }, 29 | { 30 | "cell_type": "code", 31 | "execution_count": null, 32 | "metadata": {}, 33 | "outputs": [], 34 | "source": [ 35 | "import pandas as pd\n", 36 | "\n", 37 | "a = pd.DataFrame(text_list,columns=['人物'])\n", 38 | "c = a.groupby('人物')['人物'].agg({'出场次数':'count'}).reset_index()\n", 39 | "d = c.sort_values('出场次数',ascending=False)\n", 40 | "\n", 41 | "character = pd.DataFrame()\n", 42 | "character = d[d['人物'].isin(character_list)]\n", 43 | "character.sort_values(by='出场次数',ascending=False, inplace=True) # 这个阶段排序可做可不做,可以等到查询结果后再排序\n", 44 | "character.reset_index(drop=True, inplace=True) # reset index 可做可不做,reset 之后看起来整洁顺眼一点" 45 | ] 46 | }, 47 | { 48 | "cell_type": "code", 49 | "execution_count": 65, 50 | "metadata": {}, 51 | "outputs": [ 52 | { 53 | "data": { 54 | "text/html": [ 55 | "
\n", 56 | "\n", 69 | "\n", 70 | " \n", 71 | " \n", 72 | " \n", 73 | " \n", 74 | " \n", 75 | " \n", 76 | " \n", 77 | " \n", 78 | " \n", 79 | " \n", 80 | " \n", 81 | " \n", 82 | " \n", 83 | " \n", 84 | " \n", 85 | " \n", 86 | " \n", 87 | " \n", 88 | " \n", 89 | " \n", 90 | " \n", 91 | " \n", 92 | " \n", 93 | " \n", 94 | " \n", 95 | " \n", 96 | " \n", 97 | " \n", 98 | " \n", 99 | " \n", 100 | " \n", 101 | " \n", 102 | " \n", 103 | " \n", 104 | " \n", 105 | " \n", 106 | " \n", 107 | " \n", 108 | " \n", 109 | " \n", 110 | " \n", 111 | " \n", 112 | " \n", 113 | " \n", 114 | " \n", 115 | " \n", 116 | " \n", 117 | " \n", 118 | " \n", 119 | " \n", 120 | " \n", 121 | " \n", 122 | " \n", 123 | " \n", 124 | " \n", 125 | " \n", 126 | " \n", 127 | " \n", 128 | " \n", 129 | " \n", 130 | " \n", 131 | " \n", 132 | " \n", 133 | " \n", 134 | " \n", 135 | " \n", 136 | " \n", 137 | " \n", 138 | " \n", 139 | " \n", 140 | " \n", 141 | " \n", 142 | " \n", 143 | " \n", 144 | " \n", 145 | " \n", 146 | " \n", 147 | " \n", 148 | " \n", 149 | " \n", 150 | " \n", 151 | " \n", 152 | " \n", 153 | " \n", 154 | " \n", 155 | " \n", 156 | " \n", 157 | " \n", 158 | " \n", 159 | " \n", 160 | " \n", 161 | " \n", 162 | " \n", 163 | " \n", 164 | " \n", 165 | " \n", 166 | " \n", 167 | " \n", 168 | " \n", 169 | " \n", 170 | " \n", 171 | " \n", 172 | " \n", 173 | " \n", 174 | " \n", 175 | " \n", 176 | " \n", 177 | " \n", 178 | " \n", 179 | "
人物出场次数
0西门庆5270
1吴月娘1929
2潘金莲1221
3应伯爵990
4陈敬济946
5李瓶儿871
6春梅814
7玳安798
8孟玉楼697
9李娇儿393
10李桂姐382
11玉箫261
12孙雪娥239
13薛嫂235
14王婆234
15小玉231
16武松226
17迎春214
18吴大舅201
19韩道国200
\n", 180 | "
" 181 | ], 182 | "text/plain": [ 183 | " 人物 出场次数\n", 184 | "0 西门庆 5270\n", 185 | "1 吴月娘 1929\n", 186 | "2 潘金莲 1221\n", 187 | "3 应伯爵 990\n", 188 | "4 陈敬济 946\n", 189 | "5 李瓶儿 871\n", 190 | "6 春梅 814\n", 191 | "7 玳安 798\n", 192 | "8 孟玉楼 697\n", 193 | "9 李娇儿 393\n", 194 | "10 李桂姐 382\n", 195 | "11 玉箫 261\n", 196 | "12 孙雪娥 239\n", 197 | "13 薛嫂 235\n", 198 | "14 王婆 234\n", 199 | "15 小玉 231\n", 200 | "16 武松 226\n", 201 | "17 迎春 214\n", 202 | "18 吴大舅 201\n", 203 | "19 韩道国 200" 204 | ] 205 | }, 206 | "execution_count": 65, 207 | "metadata": {}, 208 | "output_type": "execute_result" 209 | } 210 | ], 211 | "source": [ 212 | "character.head(20)" 213 | ] 214 | }, 215 | { 216 | "cell_type": "code", 217 | "execution_count": null, 218 | "metadata": {}, 219 | "outputs": [], 220 | "source": [] 221 | } 222 | ], 223 | "metadata": { 224 | "kernelspec": { 225 | "display_name": "Python 3", 226 | "language": "python", 227 | "name": "python3" 228 | }, 229 | "language_info": { 230 | "codemirror_mode": { 231 | "name": "ipython", 232 | "version": 3 233 | }, 234 | "file_extension": ".py", 235 | "mimetype": "text/x-python", 236 | "name": "python", 237 | "nbconvert_exporter": "python", 238 | "pygments_lexer": "ipython3", 239 | "version": "3.5.2" 240 | }, 241 | "varInspector": { 242 | "cols": { 243 | "lenName": 16, 244 | "lenType": 16, 245 | "lenVar": 40 246 | }, 247 | "kernels_config": { 248 | "python": { 249 | "delete_cmd_postfix": "", 250 | "delete_cmd_prefix": "del ", 251 | "library": "var_list.py", 252 | "varRefreshCmd": "print(var_dic_list())" 253 | }, 254 | "r": { 255 | "delete_cmd_postfix": ") ", 256 | "delete_cmd_prefix": "rm(", 257 | "library": "var_list.r", 258 | "varRefreshCmd": "cat(var_dic_list()) " 259 | } 260 | }, 261 | "types_to_exclude": [ 262 | "module", 263 | "function", 264 | "builtin_function_or_method", 265 | "instance", 266 | "_Feature" 267 | ], 268 | "window_display": false 269 | } 270 | }, 271 | "nbformat": 4, 272 | "nbformat_minor": 2 273 | } 274 | -------------------------------------------------------------------------------- /data/金瓶梅.dict: -------------------------------------------------------------------------------- 1 | 西门庆 2 | 吴月娘 3 | 李娇儿 4 | 孟玉楼 5 | 孙雪娥 6 | 潘金莲 7 | 李瓶儿 8 | 西门大姐 9 | 官哥儿 10 | 孝哥儿 11 | 陈敬济 12 | 吴大舅 13 | 吴恺 14 | 吴舜臣 15 | 吴大妗子 16 | 吴二妗子 17 | 潘姥姥 18 | 吴大姨 19 | 杨姑娘 20 | 崔本 21 | 郑三姐 22 | 玳安 23 | 来旺儿 24 | 郑旺 25 | 来兴儿 26 | 来保儿 27 | 来昭儿 28 | 平安儿 29 | 来安儿 30 | 棋童 31 | 琴童 32 | 天福儿 33 | 书童 34 | 春鸿 35 | 春燕 36 | 小张松 37 | 王经 38 | 画童 39 | 玉箫 40 | 小玉 41 | 元宵儿 42 | 夏花儿 43 | 兰香 44 | 小鸾 45 | 中秋儿 46 | 翠儿 47 | 春梅 48 | 秋菊 49 | 迎春 50 | 绣春 51 | 惠祥 52 | 惠秀 53 | 惠庆 54 | 惠元 55 | 惠莲 56 | 傅伙计 57 | 傅铭 58 | 傅自新 59 | 贲四 60 | 贲四娘子 61 | 贲第传 62 | 韩道国 63 | 胡秀 64 | 蔡京 65 | 翟云峰 66 | 翟谦 67 | 高安 68 | 韩爱姐 69 | 韩钳 70 | 蔡蕴 71 | 蔡一泉 72 | 宋松原 73 | 宋乔年 74 | 周秀 75 | 周菊轩 76 | 孙二娘 77 | 金哥 78 | 周仁 79 | 周义 80 | 李安 81 | 葛翠屏 82 | 张胜 83 | 过街鼠 84 | 夏延龄 85 | 夏龙溪 86 | 瑞云 87 | 张团练 88 | 荆忠 89 | 荆南冈 90 | 李达天 91 | 侯蒙 92 | 侯石泉 93 | 贺金 94 | 何永寿 95 | 薛公公 96 | 刘公公 97 | 何沂 98 | 宋惠莲 99 | 王六儿 100 | 奶子如意儿 101 | 即章四儿 102 | 叶五儿 103 | 林太太 104 | 王招宣 105 | 王逸轩 106 | 暗娼 107 | 张惜春 108 | 李三妈 109 | 李铭 110 | 李日新 111 | 郑妈 112 | 郑奉 113 | 桃花儿 114 | 吴四妈 115 | 吴惠 116 | 腊梅 117 | 鲁长腿 118 | 应伯爵 119 | 应光侯 120 | 南坡 121 | 应花子 122 | 吴典恩 123 | 巡检司 124 | 谢希大 125 | 谢字纯 126 | 清河卫 127 | 千户 128 | 子孙 129 | 谢希大 130 | 谢字纯 131 | 祝实念 132 | 孙寡嘴 133 | 撺掇 134 | 王三官儿 135 | 嫖玩 136 | 包妓 137 | 李桂姐 138 | 孙天化 139 | 字伯修 140 | 绰号 141 | 结拜 142 | 兄弟 143 | 年龄 144 | 云理守 145 | 常峙节 146 | 白赉光 147 | 花子虚 148 | 卜志道 149 | 出家人 150 | 阴阳 151 | 先生 152 | 吴宗哲 153 | 玉皇庙 154 | 道长 155 | 尊称 156 | 吴道官 157 | 应春 158 | 徒弟 159 | 黄先生 160 | 真武庙 161 | 算卦 162 | 潘道士 163 | 五岳观 164 | 道士 165 | 捉鬼 166 | 黄真人 167 | 吴神仙 168 | 吴爽 169 | 道号 170 | 梵僧 171 | 永福寺 172 | 云游和尚 173 | 性药 174 | 任道士 175 | 晏公庙 176 | 盗财 177 | 嫖妓 178 | 官司 179 | 金宗明 180 | 鸡奸 181 | 刘理星 182 | 刘瞎子 183 | 算卦 184 | 徐先生 185 | 卜龟卦 186 | 老婆子 187 | 大师父 188 | 佛经 189 | 王姑子 190 | 观音庵 191 | 首座 192 | 姑子 193 | 怀胎药 194 | 薛姑子 195 | 法华庵 196 | 首座 197 | 医生 198 | 太医 199 | 蒋竹山 200 | 蒋文蕙 201 | 任医官 202 | 任后溪 203 | 牌匾 204 | 沽名钓誉 205 | 鲍太医 206 | 胡太医 207 | 赵太医 208 | 赵龙岗 209 | 何老人 210 | 刘菊斋 211 | 刘婆子 212 | 媒婆 213 | 王婆 214 | 薛嫂 215 | 捏合 216 | 再嫁 217 | 文嫂 218 | 官媒 219 | 遗孀 220 | 陶妈妈 221 | 李拱璧 222 | 冯妈妈 223 | 张妈 224 | 隔壁 225 | 邻居 226 | 临清码头 227 | 妓院。 228 | 陈文昭 229 | 东平 230 | 府尹 231 | 武松 232 | 杨时 233 | 开封 234 | 阴骘 235 | 法院 236 | 孔目 237 | 来旺 238 | 曾孝序 239 | 巡按 240 | 御史 241 | 参劾 242 | 弄奸 243 | 作弊 244 | 狄斯彬 245 | 狄混 246 | 阳谷 247 | 县丞 248 | 徐葑 249 | 严州 250 | 知府 251 | 郓哥 252 | 乔郓哥 253 | 鲁华 254 | 草里蛇 255 | 地痞 256 | 讹诈 257 | 杨二郎 258 | 杨光彦 259 | 铁指甲 260 | 统制 261 | 周秀 262 | 杨二风 263 | 痛打 264 | 刘二 265 | 坐地虎 266 | 小张闲 267 | 吃喝玩乐 268 | 黄四 269 | 应伯爵 270 | 合谋 271 | 钱财 272 | 李三 273 | 李智 274 | 车淡 275 | 管事宽 276 | 游守 277 | 郝闲 278 | 陶扒灰 279 | 扒灰 280 | 通奸 281 | 李桂姐 282 | 李桂卿 283 | 郑爱月儿 284 | 郑爱香儿 285 | 郑观音 286 | 郑娇儿 287 | 侄女 288 | 吴银儿 289 | 董娇儿 290 | 董玉仙 291 | 韩金钏儿 292 | 韩玉钏儿 293 | 韩消愁儿 294 | 郁大姐 295 | 洪四儿 296 | 齐香儿 297 | 秦玉芝 298 | 金儿 299 | 吕赛儿 300 | 樊奴儿 301 | 冯金宝 302 | 武大郎 303 | 武植 304 | 武松 305 | 王潮儿 306 | 磨房 307 | 迎儿 308 | 王三官儿 309 | 王采 310 | 林太太 311 | 干儿子 312 | 温必古 313 | 葵轩 314 | 吃里扒外 315 | 侯林儿 316 | 飞天鬼 317 | 屈铛 318 | 王宣 319 | 杏庵居士 320 | 居士 321 | 善人 322 | 韩二 323 | 安童 324 | 偷觑 325 | 调戏 326 | 散官 327 | 虞姬 328 | 石佛寺 329 | 四眼井 330 | 四泉 331 | 大悲庵 332 | 莲华庵 333 | 济南 334 | 应天 335 | 袭庆 336 | 兴仁 337 | 东平 338 | 察院 339 | 盐运司 340 | 工部 341 | 提刑院 342 | 都临 343 | 帅府 344 | 分付 345 | 提刑司 346 | 朝廷 347 | 敕命 348 | 安抚使 349 | 总管 350 | 浙东 351 | 运河 352 | 知县 353 | 县前街 354 | 县东街 355 | 大街 356 | 南门 357 | 东街 358 | 东街口 359 | 大街 360 | 大街口 361 | 狮子桥 362 | 五里原 363 | 新河口闸 364 | 广济闸 365 | 大桥 366 | 晏公庙 367 | 秀才 368 | 祝融 369 | 郓哥 370 | 茶坊 371 | 巫山 372 | 托子 373 | 红赤赤 374 | 牝户 375 | 牝口 376 | 风流 377 | 淫声 378 | 达达 379 | 鸣咂 380 | 良久 381 | 肏捣 382 | 沉甸甸 383 | 勉铃 384 | 勉甸国 385 | 牝中 386 | 白生生 387 | 葡萄架 388 | 淫器 389 | 蛙口 390 | 牝屋 391 | 茎首 392 | 后庭 393 | 吮舔 394 | 银托子 395 | 相思套 396 | 硫黄圈 397 | 白绫带子 398 | 悬玉环 399 | 封脐膏 400 | 缅铃 401 | 吮咂 402 | 胡僧 403 | 丢身子 404 | 龟头 405 | 龟棱 406 | 濡搅 407 | 眉头 408 | 阴户 409 | 淫妇 410 | 勾当 411 | 书房 412 | 赏雪 413 | 那话 414 | 麈柄 415 | 尘柄 416 | 呜咂 417 | 淫器 418 | 丧命 419 | 淫水 420 | 泉涌 421 | 麻痒 422 | 复送 423 | 淫津 424 | 掇弄 425 | 熟鹅 426 | 烧鸭 427 | 蹄膀 428 | 排骨 429 | 鲜鱼 430 | 岁时 431 | 节令 432 | 年除日 433 | 元旦 434 | 元宵 435 | 清明 436 | 端午 437 | 鱼篮会 438 | 重阳 439 | 洗三 440 | 五道将军 441 | 三尸神 442 | 门神 443 | 户尉 444 | 生刹神 445 | 无常 446 | 增福神 447 | 秃 448 | 长老 449 | 禅和子 450 | 瞿昙 451 | 头陀 452 | 行脚僧 453 | 业障 454 | 众生 455 | 斋衬 456 | 水陆 457 | 超度 458 | 法华经 459 | 梁王忏 460 | 斋戒 461 | 纸马 462 | 檀越 463 | 阿鼻地狱 464 | 超生 465 | 卓锡 466 | 舍利 467 | 圆寂 468 | 袈裟 469 | 阿弥陀佛 470 | 由旬 471 | 轮回 472 | 佛曲 473 | 宝卷 474 | 蒲甸儿 475 | 度牒 476 | 玉箸 477 | 散福物 478 | 血盆经 479 | 龙天 480 | 喇嘛 481 | 番经 482 | 真人 483 | 高功 484 | 醮 485 | 小太乙儿 486 | 天生天化 487 | 教下人家 488 | 祆庙火 489 | 跳神 490 | 回背 491 | 罗经吊向 492 | 星相卜卦 493 | 子平 494 | 麻衣相法 495 | 六壬神课 496 | 算命 497 | 相思卦 498 | 金钱卜 499 | 龟儿卦 500 | 灼龟 501 | 上上签 502 | 看水碗 503 | 禄马数 504 | 演禽 505 | 圆梦 506 | 黄道好日 507 | 服饰 508 | 器物 509 | 家火 510 | 裹帻 511 | 毡笠 512 | 缠带 513 | 附犀角带 514 | 袄 515 | 注子 516 | 劝杯 517 | 坏钞 518 | 裙子 519 | 比甲 520 | 网巾 521 | 茄袋 522 | 褶子 523 | 眼罩 524 | 眼纱 525 | 水鬓 526 | 大海青 527 | 花箱 528 | 拔步床 529 | 头面 530 | 月琴 531 | 嚣段子 532 | 尺头 533 | 插戴 534 | 托盘 535 | 家活 536 | 方胜儿 537 | 马嚼环 538 | 川扇 539 | 护膝 540 | 兜肚 541 | 拣妆 542 | 汤瓶 543 | 香囊 544 | 顺袋 545 | 鞋扇 546 | 金三事儿 547 | 内家妆束 548 | 翠面花儿 549 | 邸报 550 | 白米 551 | 串铃 552 | 脚带 553 | 九凤垫根儿 554 | 银香球 555 | 等子 556 | 法郎 557 | 睡鞋 558 | 香桶子 559 | 搭头 560 | 生辰担 561 | 脚步钱 562 | 肥皂 563 | 风车 564 | 新月莲花 565 | 鞋拽靶儿 566 | 云头子 567 | 定粉 568 | 告身 569 | 官诰 570 | 七香车 571 | 手本 572 | 揭帖 573 | 符儿 574 | 过肩蟒 575 | 搭连 576 | 宽杯 577 | 青衣 578 | 书帕 579 | 忠靖冠 580 | 甜香饼 581 | 香茶饼 582 | 阡张 583 | 砚瓦 584 | 麒麟补子 585 | 中人打扮 586 | 禁步 587 | 云板 588 | 放告牌 589 | 闹妆 590 | 蓝旗清道 591 | 獬豸绣服 592 | 盐引 593 | 白鹇 594 | 安息香 595 | 玉屏风 596 | 奇南香 597 | 火浣布 598 | 佛桑花 599 | 孔方兄 600 | 栲栳 601 | 束脩 602 | 银狮子 603 | 巴斗 604 | 叉口 605 | 云鹭补子 606 | 绒袜 607 | 火笼儿 608 | 历日 609 | 素珠 610 | 婚丧 611 | 礼仪 612 | 说媒 613 | 讨庚帖 614 | 说八字 615 | 插定 616 | 带戒指 617 | 纳采 618 | 行茶礼 619 | 送嫁妆 620 | 择吉 621 | 迎娶 622 | 奠雁过门 623 | 新娘 624 | 大轿 625 | 夫家 626 | 添妆含饭 627 | 抱瓶入门 628 | 参拜家堂 629 | 坐床撒帐 630 | 谢亲 631 | 合卺 632 | 会亲 633 | 割衫襟 634 | 丧葬点 635 | 随身灯 636 | 请阴阳 637 | 看批书 638 | 写殃榜 639 | 制孝服 640 | 搭彩棚 641 | 画影 642 | 小殓 643 | 念倒头经 644 | 三日做诵斋经 645 | 大殓 646 | 题铭旌 647 | 题神主 648 | 吊丧 649 | 首七 650 | 水陆道场 651 | 伴宿 652 | 二七 653 | 三七 654 | 四七 655 | 发引 656 | 起棺 657 | 柩前摔盆 658 | 殡仪 659 | 收头 660 | 下葬掩土 661 | 点主 662 | 回灵 663 | 燎火而入 664 | 水火炼度 665 | 谢孝 666 | 暖墓 667 | 火葬 668 | 祭祀 669 | 日常礼仪 670 | 叉手 671 | 万福 672 | 唱喏 673 | 拜见钱 674 | 见面鞋脚 675 | 打问讯 676 | 饮食 677 | 酒席家宴 678 | 炊饼 679 | 河漏子 680 | 匾食 681 | 角儿 682 | 艾窝窝 683 | 糕点 684 | 勒鲞鱼 685 | 糟鲥鱼 686 | 泡螺 687 | 衣梅 688 | 梅汤 689 | 和合汤 690 | 点茶 691 | 香茶 692 | 鞋杯 693 | 百补延龄丹 694 | 娱乐 695 | 双陆 696 | 投壶 697 | 斗百草 698 | 跳百索 699 | 踢气毯 700 | 打秋千 701 | 斗叶儿 702 | 抢红 703 | 抹牌 704 | 拆白道字 705 | 顶真续麻 706 | 酒令 707 | 急口令 708 | 笑话 709 | 猜枚 710 | 称谓 711 | 浑家 712 | 正头娘子 713 | 房下 714 | 堂客 715 | 贱累 716 | 秋胡戏 717 | 太太 718 | 细君 719 | 露水夫妻 720 | 小院儿里的 721 | 身边人 722 | 回头人 723 | 盖老 724 | 汉子 725 | 强人 726 | 官儿· 727 | 羔子 728 | 大官 729 | 小顽 730 | 尿泡种 731 | 墓生子 732 | 拾儿 733 | 冰人 734 | 媒婆 735 | 卖婆 736 | 牙婆 737 | 马泊六 738 | 养家经纪人 739 | 太医 740 | 仵作 741 | 四门亲家 742 | 刁徒泼皮 743 | 小妮子 744 | 帮闲勤儿 745 | 歪刺骨 746 | 门生 747 | 达达 748 | 蛮子 749 | 乐工 750 | 员外 751 | 黄花女儿 752 | 白衣人 753 | 女又十撇儿 754 | 破纱帽 755 | 干生子 756 | 望门寡 757 | 酸子 758 | 光身汉 759 | 皮子 760 | 小姐 761 | 家奴 762 | 家生哨儿 763 | 衙内 764 | 坐地虎 765 | 水客 766 | 蓄奴 767 | 娼妓 768 | 巫娼 769 | 奴娼 770 | 官妓 771 | 女乐 772 | 营妓 773 | 男色 774 | 奴隶 775 | 家妓 776 | 冶游 777 | 女尼 778 | 女冠 779 | 南妓 780 | 私娼 781 | 抅栏 782 | 窠子 783 | 唱的 784 | 粉头 785 | 缠足 786 | 唱门词儿 787 | 乐户 788 | 陷人坑 789 | 迷魂洞 790 | 买笑金 791 | 缠头锦 792 | 卖花钱 793 | 风月窝 794 | 莺花寨 795 | 闯寡门 796 | 小娘 797 | 南曲 798 | 梳笼 799 | 子弟 800 | 孤老 801 | 表子 802 | 角妓 803 | 令翠 804 | 路歧人 805 | 道路 806 | 营生 807 | 院里 808 | 本司 809 | 送茶 810 | 眠花卧柳 811 | 乐星堂 812 | 厮锣儿 813 | 赶趁 814 | 坊子 815 | 王八 816 | 鸨儿 817 | 扶头 818 | 物价 819 | 米价 820 | 酒饭 821 | 穿戴 822 | 房地价 823 | 螺器用 824 | 诗画 825 | 迷信 826 | 盘缠 827 | 抬轿 828 | 丧葬 829 | 赏钱 830 | 丫头 831 | 高利贷 832 | 放债 833 | 典当 834 | 技艺 835 | 磨镜 836 | 画裱 837 | 银作 838 | 漆器 839 | 酿酒 840 | 织造 841 | 酒饭 842 | 枣糕 843 | 荷花饼 844 | 猪蹄 845 | 茴香 846 | 大料 847 | 姜蒜 848 | 碟儿 849 | 茉莉花酒 850 | 金华酒 851 | 金莲 852 | 三寸 853 | 白食 854 | 裁缝 855 | 张大户 856 | 市井 857 | 无赖 858 | 勾引 859 | 果品 860 | 白绢 861 | 酒席 862 | 琵琶 863 | 巷口 864 | 欢喜 865 | 粉颈 866 | 守寡 867 | 尺头 868 | 齐整 869 | 小厮 870 | 家产 871 | 奴家 872 | -------------------------------------------------------------------------------- /1_金瓶梅_preprocess.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 1, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "file = open(\"data/金瓶梅.jieba.txt\", 'r')\n", 10 | "text = file.read()\n", 11 | "file.close()\n", 12 | "\n", 13 | "file = open(\"data/stop_words.txt\", 'r')\n", 14 | "stop_words = file.read()\n", 15 | "file.close()\n", 16 | "\n", 17 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n", 18 | "characters = file.read()\n", 19 | "file.close()" 20 | ] 21 | }, 22 | { 23 | "cell_type": "code", 24 | "execution_count": 2, 25 | "metadata": {}, 26 | "outputs": [], 27 | "source": [ 28 | "# 去除 stopwords 和 去除 单字节\n", 29 | "import re\n", 30 | "\n", 31 | "text_list1 = text.split(\" \")\n", 32 | "stop_words_list = stop_words.split(\"\\n\")\n", 33 | "character_list = characters.split(\"\\n\")\n", 34 | "final_text_list = ''\n", 35 | "\n", 36 | "for seg in text_list1:\n", 37 | " if not ((seg in stop_words_list) or re.search(r\"^\\S$\", seg)): # 不在stopwords_list, 同时不是单字节\n", 38 | " final_text_list += seg\n", 39 | " final_text_list += \" \"" 40 | ] 41 | }, 42 | { 43 | "cell_type": "code", 44 | "execution_count": null, 45 | "metadata": {}, 46 | "outputs": [], 47 | "source": [ 48 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'wt')\n", 49 | "file.write(final_text_list)\n", 50 | "file.close()" 51 | ] 52 | }, 53 | { 54 | "cell_type": "code", 55 | "execution_count": null, 56 | "metadata": {}, 57 | "outputs": [], 58 | "source": [ 59 | "text_list2 = final_text_list.split(\" \")\n", 60 | "import pandas as pd\n", 61 | "import numpy\n", 62 | "\n", 63 | "a = pd.DataFrame(text_list2, columns=['人物'])\n", 64 | "c = a.groupby('人物')['人物'].agg({'出场次数':numpy.size}).reset_index()\n", 65 | "d = c.sort_values('出场次数', ascending=False)" 66 | ] 67 | }, 68 | { 69 | "cell_type": "code", 70 | "execution_count": null, 71 | "metadata": {}, 72 | "outputs": [], 73 | "source": [ 74 | "people1 = pd.DataFrame()\n", 75 | "people1 = d[d['人物'].isin(character_list)]\n", 76 | "people1['出场次数'] = people1['出场次数'].astype('uint16')" 77 | ] 78 | }, 79 | { 80 | "cell_type": "code", 81 | "execution_count": 6, 82 | "metadata": {}, 83 | "outputs": [ 84 | { 85 | "data": { 86 | "text/html": [ 87 | "
\n", 88 | "\n", 101 | "\n", 102 | " \n", 103 | " \n", 104 | " \n", 105 | " \n", 106 | " \n", 107 | " \n", 108 | " \n", 109 | " \n", 110 | " \n", 111 | " \n", 112 | " \n", 113 | " \n", 114 | " \n", 115 | " \n", 116 | " \n", 117 | " \n", 118 | " \n", 119 | " \n", 120 | " \n", 121 | " \n", 122 | " \n", 123 | " \n", 124 | " \n", 125 | " \n", 126 | " \n", 127 | " \n", 128 | " \n", 129 | " \n", 130 | " \n", 131 | " \n", 132 | " \n", 133 | " \n", 134 | " \n", 135 | " \n", 136 | " \n", 137 | " \n", 138 | " \n", 139 | " \n", 140 | " \n", 141 | " \n", 142 | " \n", 143 | " \n", 144 | " \n", 145 | " \n", 146 | " \n", 147 | " \n", 148 | " \n", 149 | " \n", 150 | " \n", 151 | " \n", 152 | " \n", 153 | " \n", 154 | " \n", 155 | " \n", 156 | " \n", 157 | " \n", 158 | " \n", 159 | " \n", 160 | " \n", 161 | " \n", 162 | " \n", 163 | " \n", 164 | " \n", 165 | " \n", 166 | " \n", 167 | " \n", 168 | " \n", 169 | " \n", 170 | " \n", 171 | " \n", 172 | " \n", 173 | " \n", 174 | " \n", 175 | " \n", 176 | " \n", 177 | " \n", 178 | " \n", 179 | " \n", 180 | " \n", 181 | " \n", 182 | " \n", 183 | " \n", 184 | " \n", 185 | " \n", 186 | " \n", 187 | " \n", 188 | " \n", 189 | " \n", 190 | " \n", 191 | " \n", 192 | " \n", 193 | " \n", 194 | " \n", 195 | " \n", 196 | " \n", 197 | " \n", 198 | " \n", 199 | " \n", 200 | " \n", 201 | " \n", 202 | " \n", 203 | " \n", 204 | " \n", 205 | " \n", 206 | " \n", 207 | " \n", 208 | " \n", 209 | " \n", 210 | " \n", 211 | "
人物出场次数
33544西门庆5270
10561吴月娘1929
25975潘金莲1221
16472应伯爵990
38244陈敬济946
23069李瓶儿871
22212春梅814
27169玳安798
14035孟玉楼697
23050李娇儿393
23063李桂姐382
27002玉箫261
14001孙雪娥239
32943薛嫂235
27070王婆234
15226小玉231
24285武松226
35658迎春214
10552吴大舅201
38907韩道国200
\n", 212 | "
" 213 | ], 214 | "text/plain": [ 215 | " 人物 出场次数\n", 216 | "33544 西门庆 5270\n", 217 | "10561 吴月娘 1929\n", 218 | "25975 潘金莲 1221\n", 219 | "16472 应伯爵 990\n", 220 | "38244 陈敬济 946\n", 221 | "23069 李瓶儿 871\n", 222 | "22212 春梅 814\n", 223 | "27169 玳安 798\n", 224 | "14035 孟玉楼 697\n", 225 | "23050 李娇儿 393\n", 226 | "23063 李桂姐 382\n", 227 | "27002 玉箫 261\n", 228 | "14001 孙雪娥 239\n", 229 | "32943 薛嫂 235\n", 230 | "27070 王婆 234\n", 231 | "15226 小玉 231\n", 232 | "24285 武松 226\n", 233 | "35658 迎春 214\n", 234 | "10552 吴大舅 201\n", 235 | "38907 韩道国 200" 236 | ] 237 | }, 238 | "execution_count": 6, 239 | "metadata": {}, 240 | "output_type": "execute_result" 241 | } 242 | ], 243 | "source": [ 244 | "people1.head(20)" 245 | ] 246 | }, 247 | { 248 | "cell_type": "code", 249 | "execution_count": null, 250 | "metadata": {}, 251 | "outputs": [], 252 | "source": [] 253 | } 254 | ], 255 | "metadata": { 256 | "kernelspec": { 257 | "display_name": "Python 3", 258 | "language": "python", 259 | "name": "python3" 260 | }, 261 | "language_info": { 262 | "codemirror_mode": { 263 | "name": "ipython", 264 | "version": 3 265 | }, 266 | "file_extension": ".py", 267 | "mimetype": "text/x-python", 268 | "name": "python", 269 | "nbconvert_exporter": "python", 270 | "pygments_lexer": "ipython3", 271 | "version": "3.5.2" 272 | }, 273 | "toc": { 274 | "colors": { 275 | "hover_highlight": "#DAA520", 276 | "navigate_num": "#000000", 277 | "navigate_text": "#333333", 278 | "running_highlight": "#FF0000", 279 | "selected_highlight": "#FFD700", 280 | "sidebar_border": "#EEEEEE", 281 | "wrapper_background": "#FFFFFF" 282 | }, 283 | "moveMenuLeft": true, 284 | "nav_menu": { 285 | "height": "12px", 286 | "width": "252px" 287 | }, 288 | "navigate_menu": true, 289 | "number_sections": true, 290 | "sideBar": true, 291 | "threshold": 4, 292 | "toc_cell": false, 293 | "toc_section_display": "block", 294 | "toc_window_display": false, 295 | "widenNotebook": false 296 | }, 297 | "varInspector": { 298 | "cols": { 299 | "lenName": 16, 300 | "lenType": 16, 301 | "lenVar": 40 302 | }, 303 | "kernels_config": { 304 | "python": { 305 | "delete_cmd_postfix": "", 306 | "delete_cmd_prefix": "del ", 307 | "library": "var_list.py", 308 | "varRefreshCmd": "print(var_dic_list())" 309 | }, 310 | "r": { 311 | "delete_cmd_postfix": ") ", 312 | "delete_cmd_prefix": "rm(", 313 | "library": "var_list.r", 314 | "varRefreshCmd": "cat(var_dic_list()) " 315 | } 316 | }, 317 | "types_to_exclude": [ 318 | "module", 319 | "function", 320 | "builtin_function_or_method", 321 | "instance", 322 | "_Feature" 323 | ], 324 | "window_display": false 325 | } 326 | }, 327 | "nbformat": 4, 328 | "nbformat_minor": 2 329 | } 330 | -------------------------------------------------------------------------------- /.ipynb_checkpoints/1_金瓶梅_preprocess-checkpoint.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 1, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "file = open(\"data/金瓶梅.jieba.txt\", 'r')\n", 10 | "text = file.read()\n", 11 | "file.close()\n", 12 | "\n", 13 | "file = open(\"data/stop_words.txt\", 'r')\n", 14 | "stop_words = file.read()\n", 15 | "file.close()\n", 16 | "\n", 17 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n", 18 | "characters = file.read()\n", 19 | "file.close()" 20 | ] 21 | }, 22 | { 23 | "cell_type": "code", 24 | "execution_count": 2, 25 | "metadata": {}, 26 | "outputs": [], 27 | "source": [ 28 | "# 去除 stopwords 和 去除 单字节\n", 29 | "import re\n", 30 | "\n", 31 | "text_list1 = text.split(\" \")\n", 32 | "stop_words_list = stop_words.split(\"\\n\")\n", 33 | "character_list = characters.split(\"\\n\")\n", 34 | "final_text_list = ''\n", 35 | "\n", 36 | "for seg in text_list1:\n", 37 | " if not ((seg in stop_words_list) or re.search(r\"^\\S$\", seg)): # 不在stopwords_list, 同时不是单字节\n", 38 | " final_text_list += seg\n", 39 | " final_text_list += \" \"" 40 | ] 41 | }, 42 | { 43 | "cell_type": "code", 44 | "execution_count": null, 45 | "metadata": {}, 46 | "outputs": [], 47 | "source": [ 48 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'wt')\n", 49 | "file.write(final_text_list)\n", 50 | "file.close()" 51 | ] 52 | }, 53 | { 54 | "cell_type": "code", 55 | "execution_count": null, 56 | "metadata": {}, 57 | "outputs": [], 58 | "source": [ 59 | "text_list2 = final_text_list.split(\" \")\n", 60 | "import pandas as pd\n", 61 | "import numpy\n", 62 | "\n", 63 | "a = pd.DataFrame(text_list2, columns=['人物'])\n", 64 | "c = a.groupby('人物')['人物'].agg({'出场次数':numpy.size}).reset_index()\n", 65 | "d = c.sort_values('出场次数', ascending=False)" 66 | ] 67 | }, 68 | { 69 | "cell_type": "code", 70 | "execution_count": null, 71 | "metadata": {}, 72 | "outputs": [], 73 | "source": [ 74 | "people1 = pd.DataFrame()\n", 75 | "people1 = d[d['人物'].isin(character_list)]\n", 76 | "people1['出场次数'] = people1['出场次数'].astype('uint16')" 77 | ] 78 | }, 79 | { 80 | "cell_type": "code", 81 | "execution_count": 6, 82 | "metadata": {}, 83 | "outputs": [ 84 | { 85 | "data": { 86 | "text/html": [ 87 | "
\n", 88 | "\n", 101 | "\n", 102 | " \n", 103 | " \n", 104 | " \n", 105 | " \n", 106 | " \n", 107 | " \n", 108 | " \n", 109 | " \n", 110 | " \n", 111 | " \n", 112 | " \n", 113 | " \n", 114 | " \n", 115 | " \n", 116 | " \n", 117 | " \n", 118 | " \n", 119 | " \n", 120 | " \n", 121 | " \n", 122 | " \n", 123 | " \n", 124 | " \n", 125 | " \n", 126 | " \n", 127 | " \n", 128 | " \n", 129 | " \n", 130 | " \n", 131 | " \n", 132 | " \n", 133 | " \n", 134 | " \n", 135 | " \n", 136 | " \n", 137 | " \n", 138 | " \n", 139 | " \n", 140 | " \n", 141 | " \n", 142 | " \n", 143 | " \n", 144 | " \n", 145 | " \n", 146 | " \n", 147 | " \n", 148 | " \n", 149 | " \n", 150 | " \n", 151 | " \n", 152 | " \n", 153 | " \n", 154 | " \n", 155 | " \n", 156 | " \n", 157 | " \n", 158 | " \n", 159 | " \n", 160 | " \n", 161 | " \n", 162 | " \n", 163 | " \n", 164 | " \n", 165 | " \n", 166 | " \n", 167 | " \n", 168 | " \n", 169 | " \n", 170 | " \n", 171 | " \n", 172 | " \n", 173 | " \n", 174 | " \n", 175 | " \n", 176 | " \n", 177 | " \n", 178 | " \n", 179 | " \n", 180 | " \n", 181 | " \n", 182 | " \n", 183 | " \n", 184 | " \n", 185 | " \n", 186 | " \n", 187 | " \n", 188 | " \n", 189 | " \n", 190 | " \n", 191 | " \n", 192 | " \n", 193 | " \n", 194 | " \n", 195 | " \n", 196 | " \n", 197 | " \n", 198 | " \n", 199 | " \n", 200 | " \n", 201 | " \n", 202 | " \n", 203 | " \n", 204 | " \n", 205 | " \n", 206 | " \n", 207 | " \n", 208 | " \n", 209 | " \n", 210 | " \n", 211 | "
人物出场次数
33544西门庆5270
10561吴月娘1929
25975潘金莲1221
16472应伯爵990
38244陈敬济946
23069李瓶儿871
22212春梅814
27169玳安798
14035孟玉楼697
23050李娇儿393
23063李桂姐382
27002玉箫261
14001孙雪娥239
32943薛嫂235
27070王婆234
15226小玉231
24285武松226
35658迎春214
10552吴大舅201
38907韩道国200
\n", 212 | "
" 213 | ], 214 | "text/plain": [ 215 | " 人物 出场次数\n", 216 | "33544 西门庆 5270\n", 217 | "10561 吴月娘 1929\n", 218 | "25975 潘金莲 1221\n", 219 | "16472 应伯爵 990\n", 220 | "38244 陈敬济 946\n", 221 | "23069 李瓶儿 871\n", 222 | "22212 春梅 814\n", 223 | "27169 玳安 798\n", 224 | "14035 孟玉楼 697\n", 225 | "23050 李娇儿 393\n", 226 | "23063 李桂姐 382\n", 227 | "27002 玉箫 261\n", 228 | "14001 孙雪娥 239\n", 229 | "32943 薛嫂 235\n", 230 | "27070 王婆 234\n", 231 | "15226 小玉 231\n", 232 | "24285 武松 226\n", 233 | "35658 迎春 214\n", 234 | "10552 吴大舅 201\n", 235 | "38907 韩道国 200" 236 | ] 237 | }, 238 | "execution_count": 6, 239 | "metadata": {}, 240 | "output_type": "execute_result" 241 | } 242 | ], 243 | "source": [ 244 | "people1.head(20)" 245 | ] 246 | }, 247 | { 248 | "cell_type": "code", 249 | "execution_count": null, 250 | "metadata": {}, 251 | "outputs": [], 252 | "source": [] 253 | } 254 | ], 255 | "metadata": { 256 | "kernelspec": { 257 | "display_name": "Python 3", 258 | "language": "python", 259 | "name": "python3" 260 | }, 261 | "language_info": { 262 | "codemirror_mode": { 263 | "name": "ipython", 264 | "version": 3 265 | }, 266 | "file_extension": ".py", 267 | "mimetype": "text/x-python", 268 | "name": "python", 269 | "nbconvert_exporter": "python", 270 | "pygments_lexer": "ipython3", 271 | "version": "3.5.2" 272 | }, 273 | "toc": { 274 | "colors": { 275 | "hover_highlight": "#DAA520", 276 | "navigate_num": "#000000", 277 | "navigate_text": "#333333", 278 | "running_highlight": "#FF0000", 279 | "selected_highlight": "#FFD700", 280 | "sidebar_border": "#EEEEEE", 281 | "wrapper_background": "#FFFFFF" 282 | }, 283 | "moveMenuLeft": true, 284 | "nav_menu": { 285 | "height": "12px", 286 | "width": "252px" 287 | }, 288 | "navigate_menu": true, 289 | "number_sections": true, 290 | "sideBar": true, 291 | "threshold": 4, 292 | "toc_cell": false, 293 | "toc_section_display": "block", 294 | "toc_window_display": false, 295 | "widenNotebook": false 296 | }, 297 | "varInspector": { 298 | "cols": { 299 | "lenName": 16, 300 | "lenType": 16, 301 | "lenVar": 40 302 | }, 303 | "kernels_config": { 304 | "python": { 305 | "delete_cmd_postfix": "", 306 | "delete_cmd_prefix": "del ", 307 | "library": "var_list.py", 308 | "varRefreshCmd": "print(var_dic_list())" 309 | }, 310 | "r": { 311 | "delete_cmd_postfix": ") ", 312 | "delete_cmd_prefix": "rm(", 313 | "library": "var_list.r", 314 | "varRefreshCmd": "cat(var_dic_list()) " 315 | } 316 | }, 317 | "types_to_exclude": [ 318 | "module", 319 | "function", 320 | "builtin_function_or_method", 321 | "instance", 322 | "_Feature" 323 | ], 324 | "window_display": false 325 | } 326 | }, 327 | "nbformat": 4, 328 | "nbformat_minor": 2 329 | } 330 | -------------------------------------------------------------------------------- /data/stop_words.txt: -------------------------------------------------------------------------------- 1 | 。 2 | “ 3 | ” 4 | 《 5 | 》 6 | ! 7 | , 8 | : 9 | ; 10 | ? 11 | 【 12 | 】 13 | | 14 | ( 15 | ) 16 | 丶 17 | _ 18 | 〖 19 | 〗 20 | 『 21 | 』 22 | 「 23 | 」 24 | [ 25 | ] 26 | 〕 27 | 〔 28 | { 29 | } 30 | … 31 | < 32 | > 33 | ‘ 34 | ’ 35 | 〝 36 | 〞 37 | ' 38 | ´ 39 | 40 | ´ 41 | ^ 42 | = 43 | | 44 | ! 45 | ? 46 | ‘ 47 | ’ 48 | “ 49 | ” 50 | @ 51 | $ 52 | * 53 | \ 54 | & 55 | # 56 | % 57 | + 58 | 、 59 | 腌 60 | 阿 61 | 啊 62 | 哎 63 | 哎呀 64 | 哎哟 65 | 唉 66 | 嗳 67 | 俺 68 | 俺们 69 | 按 70 | 按照 71 | 吧 72 | 吧哒 73 | 把 74 | 罢了 75 | 呗 76 | 被 77 | 本 78 | 本地 79 | 本官 80 | 本家 81 | 本来 82 | 本人 83 | 本是 84 | 本要 85 | 本着 86 | 彼 87 | 彼此 88 | 比 89 | 比方 90 | 比如 91 | 鄙人 92 | 必 93 | 必得 94 | 必定 95 | 必然 96 | 必是 97 | 必须 98 | 必要 99 | 必有 100 | 边 101 | 便 102 | 便来 103 | 便是 104 | 便用 105 | 便知 106 | 别 107 | 别处 108 | 别的 109 | 别动 110 | 别管 111 | 别后 112 | 别家 113 | 别理 114 | 别闹 115 | 别怕 116 | 别人 117 | 别生气 118 | 别是 119 | 别说 120 | 别提 121 | 并 122 | 并不知道 123 | 并非 124 | 并且 125 | 并未 126 | 不 127 | 不比 128 | 不必 129 | 不便 130 | 不表 131 | 不曾 132 | 不差 133 | 不成 134 | 不出 135 | 不打紧 136 | 不大 137 | 不大好 138 | 不待 139 | 不单 140 | 不但 141 | 不到 142 | 不得 143 | 不得不 144 | 不得了 145 | 不得闲 146 | 不得已 147 | 不迭 148 | 不定 149 | 不懂事 150 | 不动 151 | 不多时 152 | 不凡 153 | 不妨 154 | 不防 155 | 不够 156 | 不光 157 | 不过 158 | 不过如此 159 | 不好 160 | 不好意思 161 | 不会 162 | 不及 163 | 不济 164 | 不介意 165 | 不仅 166 | 不尽 167 | 不久 168 | 不觉 169 | 不堪 170 | 不可 171 | 不了 172 | 不论 173 | 不免 174 | 不能 175 | 不怕 176 | 不去 177 | 不然 178 | 不让 179 | 不容分说 180 | 不如意 181 | 不时 182 | 不爽快 183 | 不似 184 | 不俗 185 | 不算 186 | 不同 187 | 不妥 188 | 不往 189 | 不闻 190 | 不问 191 | 不喜 192 | 不暇 193 | 不下 194 | 不想 195 | 不像 196 | 不小 197 | 不要紧 198 | 不依 199 | 不宜 200 | 不已 201 | 不意 202 | 不应 203 | 不用 204 | 不用说 205 | 不由 206 | 不语 207 | 不远 208 | 不愿 209 | 不悦 210 | 不再 211 | 不在话下 212 | 不在意 213 | 不早 214 | 不怎么样 215 | 不知不觉 216 | 不知好歹 217 | 不只 218 | 不止 219 | 不致 220 | 不中用 221 | 不自在 222 | 不作声 223 | 才 224 | 才刚 225 | 才能 226 | 踩 227 | 差 228 | 差不多 229 | 拆开 230 | 尝尝 231 | 常 232 | 常常 233 | 常见 234 | 常时 235 | 常事 236 | 常说 237 | 常有 238 | 常在 239 | 趁 240 | 趁便 241 | 趁此 242 | 趁此机会 243 | 趁势 244 | 趁早 245 | 趁着 246 | 乘 247 | 吃些 248 | 冲 249 | 出来 250 | 出入 251 | 除 252 | 除此之外 253 | 除非 254 | 除了 255 | 穿着 256 | 此 257 | 此案 258 | 此处 259 | 此地 260 | 此后 261 | 此花 262 | 此话 263 | 此间 264 | 此刻 265 | 此来 266 | 此人 267 | 此时 268 | 此事 269 | 此外 270 | 此物 271 | 此系 272 | 此心 273 | 此信 274 | 此言 275 | 从 276 | 从不 277 | 从此 278 | 从此以后 279 | 从而 280 | 从古至今 281 | 从今 282 | 从今以后 283 | 从来 284 | 从来不 285 | 从没 286 | 从前 287 | 从头 288 | 从未 289 | 从小 290 | 啐 291 | 打 292 | 大半 293 | 待 294 | 但 295 | 但凡 296 | 但是 297 | 但愿 298 | 当 299 | 当初 300 | 当今 301 | 当面 302 | 当年 303 | 当着 304 | 当真 305 | 当中 306 | 当作 307 | 当做 308 | 倒不如 309 | 倒也罢了 310 | 到 311 | 到底 312 | 到家 313 | 道 314 | 得 315 | 的 316 | 的话 317 | 等 318 | 等待 319 | 等到 320 | 等等 321 | 等候 322 | 等一等 323 | 地 324 | 第 325 | 第八 326 | 第二 327 | 第九 328 | 第六 329 | 第七 330 | 第三 331 | 第十 332 | 第四 333 | 第五 334 | 第一 335 | 第一百 336 | 第一个 337 | 第一件 338 | 叮咚 339 | 咚 340 | 都 341 | 对 342 | 对于 343 | 多 344 | 多半 345 | 多少 346 | 多事 347 | 多天 348 | 呃 349 | 而 350 | 而况 351 | 而且 352 | 而是 353 | 而外 354 | 而言 355 | 而已 356 | 尔后 357 | 反 358 | 反倒 359 | 反而 360 | 反过来 361 | 反过来说 362 | 反之 363 | 方 364 | 方可 365 | 方知 366 | 非但 367 | 非徒 368 | 否则 369 | 嘎 370 | 嘎登 371 | 该 372 | 该死 373 | 干什么 374 | 赶 375 | 刚 376 | 刚才 377 | 刚到 378 | 刚刚 379 | 刚要 380 | 个 381 | 各 382 | 各个 383 | 各位 384 | 各种 385 | 各自 386 | 给 387 | 根据 388 | 跟 389 | 更 390 | 更好 391 | 更加 392 | 更是 393 | 共 394 | 固然 395 | 固是 396 | 故 397 | 故此 398 | 怪不得 399 | 关于 400 | 管 401 | 归 402 | 果然 403 | 果真 404 | 过 405 | 哈 406 | 哈哈 407 | 咳 408 | 还 409 | 还敢 410 | 还好 411 | 还求 412 | 还少 413 | 还是 414 | 还要 415 | 还有 416 | 好 417 | 好似 418 | 好像 419 | 好些 420 | 呵 421 | 嗬 422 | 何 423 | 何必 424 | 何不 425 | 何曾 426 | 何尝 427 | 何处 428 | 何妨 429 | 何故 430 | 何苦 431 | 何况 432 | 何如 433 | 何时 434 | 何往 435 | 何为 436 | 何物 437 | 何以 438 | 何意 439 | 何用 440 | 和 441 | 嘿 442 | 很 443 | 恨不得 444 | 恨不能 445 | 哼 446 | 哼唷 447 | 后来 448 | 乎 449 | 呼 450 | 呼哧 451 | 忽然 452 | 忽闻 453 | 哗 454 | 换句话说 455 | 换言之 456 | 回头一看 457 | 回想 458 | 或 459 | 或是 460 | 或者 461 | 即 462 | 即便 463 | 即或 464 | 即令 465 | 即若 466 | 即使 467 | 及 468 | 及其 469 | 及至 470 | 几 471 | 几百 472 | 几杯 473 | 几遍 474 | 几步 475 | 几处 476 | 几次 477 | 几点 478 | 几分 479 | 几个 480 | 几根 481 | 几乎 482 | 几户 483 | 几家 484 | 几间 485 | 几件 486 | 几句 487 | 几句话 488 | 几口 489 | 几两 490 | 几年 491 | 几千 492 | 几人 493 | 几日 494 | 几声 495 | 几时 496 | 几首 497 | 几岁 498 | 几天 499 | 几位 500 | 几下 501 | 几样 502 | 己 503 | 既 504 | 既然 505 | 既是 506 | 继而 507 | 加之 508 | 假如 509 | 假若 510 | 假使 511 | 鉴于 512 | 将 513 | 叫 514 | 较 515 | 较之 516 | 接着 517 | 皆 518 | 结果 519 | 借 520 | 紧接着 521 | 尽 522 | 尽管 523 | 进而 524 | 经 525 | 经过 526 | 竟 527 | 竟比 528 | 竟成 529 | 竟是 530 | 竟有 531 | 竟自 532 | 就 533 | 就是 534 | 就是说 535 | 具体地说 536 | 具体来说 537 | 据 538 | 开始 539 | 开外 540 | 靠 541 | 可 542 | 可不 543 | 可不是 544 | 可好 545 | 可见 546 | 可能 547 | 可怕 548 | 可巧 549 | 可是 550 | 可叹 551 | 可谓 552 | 可惜 553 | 可喜 554 | 可笑 555 | 可要 556 | 可以 557 | 可用 558 | 可有 559 | 可知 560 | 口口声声 561 | 口中 562 | 快 563 | 快回去 564 | 快进去 565 | 快快 566 | 快来 567 | 快去 568 | 快些 569 | 况 570 | 况且 571 | 况是 572 | 啦 573 | 来 574 | 来到 575 | 来得 576 | 来回 577 | 来家 578 | 来见 579 | 来看 580 | 来时 581 | 来要 582 | 来着 583 | 劳什子 584 | 了 585 | 了不得 586 | 离 587 | 哩 588 | 例如 589 | 立即 590 | 立刻 591 | 立马 592 | 连 593 | 连同 594 | 两者 595 | 咧 596 | 另 597 | 另外 598 | 另一方面 599 | 另有 600 | 另作 601 | 论 602 | 吗 603 | 嘛 604 | 慢说 605 | 漫说 606 | 冒 607 | 么 608 | 没 609 | 没处 610 | 没得 611 | 没法 612 | 没法儿 613 | 没福 614 | 没敢 615 | 没个 616 | 没工夫 617 | 没好气 618 | 没话 619 | 没精打采 620 | 没来 621 | 没趣 622 | 没趣儿 623 | 没人 624 | 没什么 625 | 没事 626 | 没事人 627 | 没收 628 | 没心 629 | 没眼 630 | 没意思 631 | 没用 632 | 没有 633 | 没造化 634 | 没主意 635 | 每 636 | 每当 637 | 们 638 | 免不得 639 | 莫若 640 | 某 641 | 某个 642 | 某些 643 | 拿 644 | 拿出 645 | 拿话 646 | 拿回去 647 | 拿来 648 | 拿些 649 | 哪 650 | 哪边 651 | 哪儿 652 | 哪个 653 | 哪里 654 | 哪年 655 | 哪怕 656 | 哪天 657 | 哪些 658 | 哪样 659 | 那 660 | 那边 661 | 那儿 662 | 那个 663 | 那会儿 664 | 那里 665 | 那么 666 | 那么些 667 | 那么样 668 | 那年 669 | 那人 670 | 那时 671 | 那天 672 | 那条 673 | 那位 674 | 那些 675 | 那丫头 676 | 那样 677 | 乃 678 | 乃是 679 | 乃至 680 | 奈何 681 | 难 682 | 难缠 683 | 难处 684 | 难道 685 | 难得 686 | 难禁 687 | 难事 688 | 难说 689 | 难为 690 | 难以 691 | 呢 692 | 能 693 | 嗯 694 | 你 695 | 你别 696 | 你好 697 | 你家 698 | 你们 699 | 您 700 | 宁 701 | 宁可 702 | 宁肯 703 | 宁愿 704 | 侬 705 | 哝 706 | 喏 707 | 喔唷 708 | 哦 709 | 啪达 710 | 旁人 711 | 呸 712 | 偏 713 | 凭 714 | 凭借 715 | 平白 716 | 平常 717 | 其 718 | 其次 719 | 其二 720 | 其间 721 | 其实 722 | 其他 723 | 其它 724 | 其一 725 | 其余 726 | 其中 727 | 岂但 728 | 起 729 | 起见 730 | 起来 731 | 恰好 732 | 恰恰 733 | 恰恰相反 734 | 恰是 735 | 前后 736 | 前面 737 | 前头 738 | 前往 739 | 前者 740 | 且 741 | 去 742 | 去不成 743 | 去不去 744 | 却 745 | 却是 746 | 却说 747 | 然而 748 | 然后 749 | 然则 750 | 让 751 | 人家 752 | 任 753 | 任何 754 | 任凭 755 | 仍 756 | 仍旧 757 | 仍然 758 | 如 759 | 如此 760 | 如此这般 761 | 如得 762 | 如果 763 | 如海 764 | 如何 765 | 如今 766 | 如其 767 | 如若 768 | 如上所述 769 | 如是 770 | 如同 771 | 汝 772 | 若 773 | 若非 774 | 若是 775 | 啥 776 | 上次 777 | 上来 778 | 上去 779 | 上头 780 | 上下 781 | 尚 782 | 尚且 783 | 少 784 | 少不得 785 | 设若 786 | 设使 787 | 甚而 788 | 甚么 789 | 甚至 790 | 省得 791 | 什么 792 | 什么样 793 | 时候 794 | 使不得 795 | 使得 796 | 是 797 | 是不是 798 | 是的 799 | 首先 800 | 殊不知 801 | 谁 802 | 谁知 803 | 顺 804 | 顺着 805 | 说 806 | 说不出 807 | 说不出来 808 | 说不得 809 | 说出 810 | 说道 811 | 说起 812 | 说完 813 | 似的 814 | 虽 815 | 虽多 816 | 虽好 817 | 虽然 818 | 虽是 819 | 虽说 820 | 虽未 821 | 虽系 822 | 虽小 823 | 虽有 824 | 虽则 825 | 虽知 826 | 随 827 | 随便 828 | 随分 829 | 随后 830 | 随口 831 | 随身 832 | 随手 833 | 随喜 834 | 随意 835 | 随着 836 | 所 837 | 所见 838 | 所说 839 | 所谓 840 | 所以 841 | 所在 842 | 所致 843 | 他 844 | 他们 845 | 他人 846 | 她 847 | 她们 848 | 它 849 | 它们 850 | 太 851 | 太多 852 | 太过 853 | 倘 854 | 倘或 855 | 倘然 856 | 倘若 857 | 倘使 858 | 腾 859 | 替 860 | 通过 861 | 同 862 | 同时 863 | 哇 864 | 完 865 | 万一 866 | 往 867 | 往常 868 | 往后 869 | 往前 870 | 望 871 | 为 872 | 为的是 873 | 为何 874 | 为了 875 | 为什么 876 | 为着 877 | 喂 878 | 嗡嗡 879 | 我 880 | 我们 881 | 乌乎 882 | 呜 883 | 呜呼 884 | 无 885 | 无碍 886 | 无不 887 | 无精打采 888 | 无可 889 | 无可奈何 890 | 无可如何 891 | 无论 892 | 无奈 893 | 无宁 894 | 无数 895 | 无疑 896 | 毋宁 897 | 兮 898 | 嘻 899 | 下 900 | 下车 901 | 下处 902 | 下次 903 | 下个 904 | 下回分解 905 | 吓 906 | 吓了一跳 907 | 先 908 | 先到 909 | 先回 910 | 先来 911 | 先请 912 | 先去 913 | 先要 914 | 现在 915 | 相对而言 916 | 想必 917 | 想到 918 | 想道 919 | 想想 920 | 想一想 921 | 像 922 | 向 923 | 向着 924 | 笑 925 | 嘘 926 | 呀 927 | 焉 928 | 沿 929 | 沿着 930 | 样子 931 | 要 932 | 要不 933 | 要不然 934 | 要不是 935 | 要么 936 | 要是 937 | 要些 938 | 也 939 | 也罢 940 | 也好 941 | 一 942 | 一把 943 | 一般 944 | 一大堆 945 | 一旦 946 | 一到 947 | 一点 948 | 一点儿 949 | 一方面 950 | 一共 951 | 一件 952 | 一见 953 | 一口 954 | 一口气 955 | 一块 956 | 一块儿 957 | 一来 958 | 一连 959 | 一年半载 960 | 一齐 961 | 一起 962 | 一切 963 | 一时 964 | 一时半刻 965 | 一同 966 | 一下 967 | 一下子 968 | 一样 969 | 一则 970 | 一直 971 | 依 972 | 依照 973 | 咦 974 | 以 975 | 以便 976 | 以后 977 | 以及 978 | 以免 979 | 以至 980 | 以至于 981 | 以致 982 | 已 983 | 已经 984 | 矣 985 | 亦 986 | 抑或 987 | 因 988 | 因此 989 | 因而 990 | 因为 991 | 哟 992 | 用 993 | 用不着 994 | 由 995 | 由此可见 996 | 由于 997 | 有 998 | 有的 999 | 有的是 1000 | 有点 1001 | 有关 1002 | 有何 1003 | 有时 1004 | 有些 1005 | 又 1006 | 于 1007 | 于是 1008 | 于是乎 1009 | 与 1010 | 与此同时 1011 | 与否 1012 | 与其 1013 | 原本 1014 | 原该 1015 | 原来 1016 | 原来如此 1017 | 原是 1018 | 原说 1019 | 原为 1020 | 原委 1021 | 原系 1022 | 原想 1023 | 原要 1024 | 原有 1025 | 怨不得 1026 | 曰 1027 | 越 1028 | 越是 1029 | 云云 1030 | 咋 1031 | 哉 1032 | 再 1033 | 再不然 1034 | 再三 1035 | 再说 1036 | 再要 1037 | 再也 1038 | 再有 1039 | 再者 1040 | 在 1041 | 在下 1042 | 咱 1043 | 咱们 1044 | 则 1045 | 怎 1046 | 怎得 1047 | 怎好 1048 | 怎么 1049 | 怎么办 1050 | 怎么样 1051 | 怎么着 1052 | 怎奈 1053 | 怎能 1054 | 怎生 1055 | 怎样 1056 | 朝 1057 | 朝着 1058 | 照 1059 | 照着 1060 | 者 1061 | 这 1062 | 这般 1063 | 这般光景 1064 | 这边 1065 | 这步田地 1066 | 这才 1067 | 这次 1068 | 这倒 1069 | 这段 1070 | 这儿 1071 | 这番 1072 | 这个 1073 | 这话 1074 | 这回 1075 | 这会儿 1076 | 这就是说 1077 | 这里 1078 | 这么 1079 | 这么点儿 1080 | 这么些 1081 | 这么样 1082 | 这么着 1083 | 这们 1084 | 这时 1085 | 这时候 1086 | 这是 1087 | 这项 1088 | 这些 1089 | 这样 1090 | 着 1091 | 着呢 1092 | 正如 1093 | 之 1094 | 之类 1095 | 之所以 1096 | 之一 1097 | 吱 1098 | 只 1099 | 只不过 1100 | 只当 1101 | 只到 1102 | 只道 1103 | 只得 1104 | 只是 1105 | 只为 1106 | 只限 1107 | 只想 1108 | 只许 1109 | 只要 1110 | 只以 1111 | 只因 1112 | 只用 1113 | 只有 1114 | 只愿 1115 | 至 1116 | 至此 1117 | 至今 1118 | 至于 1119 | 致使 1120 | 诸位 1121 | 丶 1122 | 自 1123 | 自便 1124 | 自不必说 1125 | 自称 1126 | 自吃 1127 | 自此 1128 | 自从 1129 | 自忖 1130 | 自个儿 1131 | 自各儿 1132 | 自古 1133 | 自行 1134 | 自己 1135 | 自家 1136 | 自身 1137 | 自是 1138 | 自思 1139 | 自思道 1140 | 自叹 1141 | 自谓 1142 | 自寻 1143 | 自有 1144 | 自怨 1145 | 自知 1146 | 自作自受 1147 | 综上所述 1148 | 总的来看 1149 | 总的来说 1150 | 总的说来 1151 | 总而言之 1152 | 总共 1153 | 总是 1154 | 总要 1155 | 总之 1156 | 纵 1157 | 纵令 1158 | 纵然 1159 | 纵使 1160 | 最 1161 | 最好 1162 | 最妙 1163 | 最是 1164 | 遵照 1165 | 作为 1166 | --------------------------------------------------------------------------------