├── _config.yml
├── image
├── book.png
├── jpm-1.jpg
├── jpm-2.jpg
├── jpm-3.jpg
├── jpm-4.jpg
├── jpm-5.jpg
├── jpm-6.jpg
├── jpm-7.jpg
├── jpm-8.jpg
└── screenshot-1.png
├── model
└── 金瓶梅.model
├── README.md
├── data
├── 金瓶梅人物.dict
├── 金瓶梅.dict
└── stop_words.txt
├── 2_金瓶梅_生成model和vector.ipynb
├── 3_金瓶梅_load_model.ipynb
├── .ipynb_checkpoints
├── 3_金瓶梅_load_model-checkpoint.ipynb
└── 1_金瓶梅_preprocess-checkpoint.ipynb
├── 4_金瓶梅人物.ipynb
└── 1_金瓶梅_preprocess.ipynb
/_config.yml:
--------------------------------------------------------------------------------
1 | theme: jekyll-theme-modernist
--------------------------------------------------------------------------------
/image/book.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/book.png
--------------------------------------------------------------------------------
/image/jpm-1.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-1.jpg
--------------------------------------------------------------------------------
/image/jpm-2.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-2.jpg
--------------------------------------------------------------------------------
/image/jpm-3.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-3.jpg
--------------------------------------------------------------------------------
/image/jpm-4.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-4.jpg
--------------------------------------------------------------------------------
/image/jpm-5.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-5.jpg
--------------------------------------------------------------------------------
/image/jpm-6.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-6.jpg
--------------------------------------------------------------------------------
/image/jpm-7.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-7.jpg
--------------------------------------------------------------------------------
/image/jpm-8.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/jpm-8.jpg
--------------------------------------------------------------------------------
/model/金瓶梅.model:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/model/金瓶梅.model
--------------------------------------------------------------------------------
/image/screenshot-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/paowan/wenxue/HEAD/image/screenshot-1.png
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | 分析《金瓶梅》
2 | ========
3 |
4 | 所用到的库,jieba,gensim,用的版本是网上下载的无删节“崇祯本”,好像也不全,比如武大郎死后做法事时候的一段这个版本就没有:
5 |
6 | * 『只听见妇人在房里颤声柔气,呻呻吟吟,哼哼唧唧,恰似有人在房里交姤,于是推洗手,立住了脚,听了起来。只听妇人嗽声呼叫西门庆:“达达,你休只顾搧打到几时,只怕和尚来了听见,饶了奴罢。”西门庆道:“你且休慌,我还要在盖子上烧一下儿哩!”不想都被这个秃厮听了个不亦乐乎。落后众和尚都到齐了,吹打起法事来,一个传一个,都知道妇人有汉子在屋里,不觉都手之舞之,足之蹈之。待到佛事将完,潘金莲换了一身艳服,在帘里与西门庆两个并肩而立,看着和尚化烧灵座。和尚看到帘子里的汉子,想起起先听到的那些勾当,只个乱打鼓𢵞钹不住,被风把长老的僧伽帽刮在地上,露见青旋旋光头,不去拾,只顾𢵞钹打鼓,笑成一团』
7 |
8 |
9 | 难点
10 | ========
11 | 主要还是分词,jieba是通用性的,对于古汉语(虽然还算是白话文)没有针对性,所以缺省下效果很不好。增加分词准确性主要通过:
12 |
13 | * stopwords,过滤之乎者也这些虚词和常用的虚词,比如“恨不能 哼 哼唷 后来 乎 呼 呼哧 忽然”
14 | * 通过使用用户字典,我把金瓶梅的下列专门用户放进字典避免分错:
15 | * 主要人物(李瓶儿,潘金莲,吴月娘,陈敬济),
16 | http://www.360doc.com/content/15/0227/15/3328689_451241184.shtml
17 | * 职业(道士,府尹,秀才,喇嘛),
18 | * 物件(舍利,茄袋,香囊,银托子),
19 | * 习俗(头七,会亲,拜见钱,猜枚),
20 | http://www.360doc.com/content/17/1202/23/50407527_709377774.shtml
21 | * 当然还有一些色情的用语(勉铃,吮咂,蛙口,牝户)
22 | * 过滤jieba处理后的单字节,主要是动词(打,骂,追,叫),对分析关系帮助不大,反而形成干扰
23 | * 还有就是一个人物在文中不同的称呼要处理,比如吴月娘,月娘,大娘,因为西门庆有六个老婆,她们互相之间会称呼二姐,三姐,四姐,六妹之类的,要把这些称呼转换成对应的人物,不然结果不准确,我并没有在程序里处理,而是直接在 vi 里用search/replace处理掉了,还有就是“达达”,主要是对西门庆的昵称(通常在苟且之时),但我不确定是不是全部的“达达”都是指西门庆,因为我也没仔细去查找,所以没有替换
24 | * 另外一个难点就是“你我他”的称呼,因为“你”到底指谁要通过上下文来判断,暂时不知道如何处理
25 |
26 |
27 | 结果
28 | ========
29 | 
30 |
31 | * 原来吴月娘在小说中的比重比潘金莲还大
32 | (注:大姐就是西门大姐,西门庆的女儿,四娘就是贲四娘子,小玉和玉箫是吴月娘的丫头,其余5人皆为西门庆的妻妾)
33 | * 要对小说事前做很多预处理,不对小说有所了解就没法做预处理,这也就是说没法做全自动化,不然就是 garbage in garbage out,其实这也是人工智能要面对的,你需要一个行业专家才能具体落地解决方案,不能期望一个算法,再扔一堆数据就期望出来好结果
34 |
35 | 后续
36 | ========
37 | * 建立一个多义词词典,因为对同一个人会存在不同的称呼,比如{乾隆:朕,陛下,万岁爷,圣上,老佛爷,十全老人,乾隆爷}在一部小说里都指同一个人,如果不做整合统计就会不准确,但是如果一部小说里写清朝几代,那么(朕,陛下,圣上)就可能指几个人比如顺治,乾隆,雍正,这就是复杂的地方
38 | * 通过深度学习,用LSTM之类的方法,和传统的方法比较一下结果
39 |
40 |
41 | 未完待续
42 | ========
43 |
--------------------------------------------------------------------------------
/data/金瓶梅人物.dict:
--------------------------------------------------------------------------------
1 | 安童
2 | 暗娼
3 | 白赉光
4 | 鲍太医
5 | 贲第传
6 | 贲四
7 | 贲四娘子
8 | 卜龟卦
9 | 卜志道
10 | 蔡京
11 | 蔡一泉
12 | 蔡蕴
13 | 草里蛇
14 | 曾孝序
15 | 常峙节
16 | 车淡
17 | 陈敬济
18 | 陈文昭
19 | 春鸿
20 | 春梅
21 | 春燕
22 | 崔本
23 | 翠儿
24 | 大师父
25 | 玳安
26 | 狄混
27 | 狄斯彬
28 | 翟谦
29 | 翟云峰
30 | 董娇儿
31 | 董玉仙
32 | 樊奴儿
33 | 梵僧
34 | 飞天鬼
35 | 冯金宝
36 | 冯妈妈
37 | 傅伙计
38 | 傅铭
39 | 傅自新
40 | 高安
41 | 葛翠屏
42 | 官哥儿
43 | 管事宽
44 | 过街鼠
45 | 韩爱姐
46 | 韩道国
47 | 韩二
48 | 韩金钏儿
49 | 韩钳
50 | 韩消愁儿
51 | 韩玉钏儿
52 | 郝闲
53 | 何老人
54 | 何沂
55 | 何永寿
56 | 贺金
57 | 洪四儿
58 | 侯林儿
59 | 侯蒙
60 | 侯石泉
61 | 胡太医
62 | 胡秀
63 | 花子虚
64 | 画童
65 | 黄四
66 | 黄先生
67 | 黄真人
68 | 惠莲
69 | 惠庆
70 | 惠祥
71 | 惠秀
72 | 惠元
73 | 即章四儿
74 | 蒋文蕙
75 | 蒋竹山
76 | 金儿
77 | 金哥
78 | 金宗明
79 | 荆南冈
80 | 荆忠
81 | 孔目
82 | 葵轩
83 | 腊梅
84 | 来安儿
85 | 来保儿
86 | 来旺
87 | 来旺儿
88 | 来兴儿
89 | 来昭儿
90 | 兰香
91 | 老婆子
92 | 李安
93 | 李达天
94 | 李拱璧
95 | 李桂姐
96 | 李桂卿
97 | 李娇儿
98 | 李铭
99 | 李瓶儿
100 | 李日新
101 | 李三
102 | 李三妈
103 | 李智
104 | 林太太
105 | 刘二
106 | 刘公公
107 | 刘菊斋
108 | 刘理星
109 | 刘婆子
110 | 刘瞎子
111 | 鲁长腿
112 | 鲁华
113 | 吕赛儿
114 | 孟玉楼
115 | 奶子如意儿
116 | 南坡
117 | 潘道士
118 | 潘金莲
119 | 金莲
120 | 潘姥姥
121 | 平安儿
122 | 棋童
123 | 齐香儿
124 | 乔郓哥
125 | 琴童
126 | 秦玉芝
127 | 秋菊
128 | 屈铛
129 | 任道士
130 | 任后溪
131 | 任医官
132 | 瑞云
133 | 书童
134 | 宋惠莲
135 | 宋乔年
136 | 宋松原
137 | 孙二娘
138 | 孙寡嘴
139 | 孙天化
140 | 孙雪娥
141 | 桃花儿
142 | 陶扒灰
143 | 陶妈妈
144 | 天福儿
145 | 铁指甲
146 | 王采
147 | 王潮儿
148 | 王姑子
149 | 王经
150 | 王六儿
151 | 王婆
152 | 王三官儿
153 | 王宣
154 | 王逸轩
155 | 王招宣
156 | 温必古
157 | 文嫂
158 | 吴大妗子
159 | 吴大舅
160 | 吴大姨
161 | 吴道官
162 | 吴典恩
163 | 吴二妗子
164 | 吴惠
165 | 吴恺
166 | 吴神仙
167 | 吴爽
168 | 吴舜臣
169 | 吴四妈
170 | 吴银儿
171 | 吴月娘
172 | 吴宗哲
173 | 武大郎
174 | 武松
175 | 武植
176 | 西门大姐
177 | 西门庆
178 | 大官人
179 | 夏花儿
180 | 夏龙溪
181 | 夏延龄
182 | 小鸾
183 | 小玉
184 | 小张松
185 | 小张闲
186 | 孝哥儿
187 | 谢希大
188 | 谢字纯
189 | 杏庵居士
190 | 绣春
191 | 徐葑
192 | 徐先生
193 | 薛公公
194 | 薛姑子
195 | 薛嫂
196 | 杨二风
197 | 杨二郎
198 | 杨姑娘
199 | 杨光彦
200 | 杨时
201 | 叶五儿
202 | 阴骘
203 | 应伯爵
204 | 应春
205 | 应光侯
206 | 应花子
207 | 迎春
208 | 迎儿
209 | 游守
210 | 玉箫
211 | 郁大姐
212 | 元宵儿
213 | 郓哥
214 | 张妈
215 | 张胜
216 | 张团练
217 | 张惜春
218 | 赵龙岗
219 | 赵太医
220 | 郑爱香儿
221 | 郑爱月儿
222 | 郑奉
223 | 郑观音
224 | 郑娇儿
225 | 郑妈
226 | 郑三姐
227 | 郑旺
228 | 中秋儿
229 | 周菊轩
230 | 周仁
231 | 周秀
232 | 周义
233 | 祝实念
234 | 字伯修
235 | 坐地虎
236 |
--------------------------------------------------------------------------------
/2_金瓶梅_生成model和vector.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 1,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "import multiprocessing\n",
10 | "from gensim.models import Word2Vec\n",
11 | "from gensim.models.word2vec import LineSentence\n",
12 | "\n",
13 | "in_file = 'data/金瓶梅.jieba.after_stop_words.txt'\n",
14 | "model_file = 'model/金瓶梅.model'\n",
15 | "vector_file = 'model/金瓶梅.vector'\n",
16 | "\n",
17 | "model = Word2Vec(LineSentence(in_file), size=200, window=10, min_count=10, workers=multiprocessing.cpu_count())\n",
18 | "model.save(model_file)\n",
19 | "model.wv.save_word2vec_format(vector_file, binary=False)\n"
20 | ]
21 | },
22 | {
23 | "cell_type": "code",
24 | "execution_count": null,
25 | "metadata": {},
26 | "outputs": [],
27 | "source": []
28 | }
29 | ],
30 | "metadata": {
31 | "kernelspec": {
32 | "display_name": "Python 3",
33 | "language": "python",
34 | "name": "python3"
35 | },
36 | "language_info": {
37 | "codemirror_mode": {
38 | "name": "ipython",
39 | "version": 3
40 | },
41 | "file_extension": ".py",
42 | "mimetype": "text/x-python",
43 | "name": "python",
44 | "nbconvert_exporter": "python",
45 | "pygments_lexer": "ipython3",
46 | "version": "3.5.2"
47 | },
48 | "toc": {
49 | "colors": {
50 | "hover_highlight": "#DAA520",
51 | "navigate_num": "#000000",
52 | "navigate_text": "#333333",
53 | "running_highlight": "#FF0000",
54 | "selected_highlight": "#FFD700",
55 | "sidebar_border": "#EEEEEE",
56 | "wrapper_background": "#FFFFFF"
57 | },
58 | "moveMenuLeft": true,
59 | "nav_menu": {
60 | "height": "12px",
61 | "width": "252px"
62 | },
63 | "navigate_menu": true,
64 | "number_sections": true,
65 | "sideBar": true,
66 | "threshold": 4,
67 | "toc_cell": false,
68 | "toc_section_display": "block",
69 | "toc_window_display": false,
70 | "widenNotebook": false
71 | },
72 | "varInspector": {
73 | "cols": {
74 | "lenName": 16,
75 | "lenType": 16,
76 | "lenVar": 40
77 | },
78 | "kernels_config": {
79 | "python": {
80 | "delete_cmd_postfix": "",
81 | "delete_cmd_prefix": "del ",
82 | "library": "var_list.py",
83 | "varRefreshCmd": "print(var_dic_list())"
84 | },
85 | "r": {
86 | "delete_cmd_postfix": ") ",
87 | "delete_cmd_prefix": "rm(",
88 | "library": "var_list.r",
89 | "varRefreshCmd": "cat(var_dic_list()) "
90 | }
91 | },
92 | "types_to_exclude": [
93 | "module",
94 | "function",
95 | "builtin_function_or_method",
96 | "instance",
97 | "_Feature"
98 | ],
99 | "window_display": false
100 | }
101 | },
102 | "nbformat": 4,
103 | "nbformat_minor": 2
104 | }
105 |
--------------------------------------------------------------------------------
/3_金瓶梅_load_model.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 3,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "from gensim.models import Word2Vec\n",
10 | "\n",
11 | "def get_result(result):\n",
12 | " if result:\n",
13 | " for distance in result:\n",
14 | " print (distance[0], \"\\t\", distance[1])\n",
15 | " \n",
16 | "model = Word2Vec.load(\"model/金瓶梅.model\")"
17 | ]
18 | },
19 | {
20 | "cell_type": "code",
21 | "execution_count": 4,
22 | "metadata": {},
23 | "outputs": [
24 | {
25 | "name": "stdout",
26 | "output_type": "stream",
27 | "text": [
28 | "孟玉楼 \t 0.9992923140525818\n",
29 | "吴月娘 \t 0.9968578815460205\n",
30 | "李娇儿 \t 0.9962125420570374\n",
31 | "李瓶儿 \t 0.9941150546073914\n",
32 | "玉箫 \t 0.9863290190696716\n",
33 | "屋里 \t 0.9841687083244324\n",
34 | "房里 \t 0.9839107394218445\n",
35 | "大姐 \t 0.9824092984199524\n",
36 | "小玉 \t 0.9701352119445801\n",
37 | "孙雪娥 \t 0.9647384285926819\n"
38 | ]
39 | }
40 | ],
41 | "source": [
42 | "result = model.most_similar(u\"潘金莲\",topn=10)\n",
43 | "get_result(result)"
44 | ]
45 | },
46 | {
47 | "cell_type": "code",
48 | "execution_count": null,
49 | "metadata": {},
50 | "outputs": [],
51 | "source": [
52 | "result = model.most_similar(positive=u\"西门庆 陈敬济\".split(\" \"), negative=u\"潘金莲\".split(\" \"),topn=5)\n",
53 | "get_result(result)"
54 | ]
55 | }
56 | ],
57 | "metadata": {
58 | "kernelspec": {
59 | "display_name": "Python 3",
60 | "language": "python",
61 | "name": "python3"
62 | },
63 | "language_info": {
64 | "codemirror_mode": {
65 | "name": "ipython",
66 | "version": 3
67 | },
68 | "file_extension": ".py",
69 | "mimetype": "text/x-python",
70 | "name": "python",
71 | "nbconvert_exporter": "python",
72 | "pygments_lexer": "ipython3",
73 | "version": "3.5.2"
74 | },
75 | "toc": {
76 | "colors": {
77 | "hover_highlight": "#DAA520",
78 | "navigate_num": "#000000",
79 | "navigate_text": "#333333",
80 | "running_highlight": "#FF0000",
81 | "selected_highlight": "#FFD700",
82 | "sidebar_border": "#EEEEEE",
83 | "wrapper_background": "#FFFFFF"
84 | },
85 | "moveMenuLeft": true,
86 | "nav_menu": {
87 | "height": "12px",
88 | "width": "252px"
89 | },
90 | "navigate_menu": true,
91 | "number_sections": true,
92 | "sideBar": true,
93 | "threshold": 4,
94 | "toc_cell": false,
95 | "toc_section_display": "block",
96 | "toc_window_display": false,
97 | "widenNotebook": false
98 | },
99 | "varInspector": {
100 | "cols": {
101 | "lenName": 16,
102 | "lenType": 16,
103 | "lenVar": 40
104 | },
105 | "kernels_config": {
106 | "python": {
107 | "delete_cmd_postfix": "",
108 | "delete_cmd_prefix": "del ",
109 | "library": "var_list.py",
110 | "varRefreshCmd": "print(var_dic_list())"
111 | },
112 | "r": {
113 | "delete_cmd_postfix": ") ",
114 | "delete_cmd_prefix": "rm(",
115 | "library": "var_list.r",
116 | "varRefreshCmd": "cat(var_dic_list()) "
117 | }
118 | },
119 | "types_to_exclude": [
120 | "module",
121 | "function",
122 | "builtin_function_or_method",
123 | "instance",
124 | "_Feature"
125 | ],
126 | "window_display": false
127 | }
128 | },
129 | "nbformat": 4,
130 | "nbformat_minor": 2
131 | }
132 |
--------------------------------------------------------------------------------
/.ipynb_checkpoints/3_金瓶梅_load_model-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 3,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "from gensim.models import Word2Vec\n",
10 | "\n",
11 | "def get_result(result):\n",
12 | " if result:\n",
13 | " for distance in result:\n",
14 | " print (distance[0], \"\\t\", distance[1])\n",
15 | " \n",
16 | "model = Word2Vec.load(\"model/金瓶梅.model\")"
17 | ]
18 | },
19 | {
20 | "cell_type": "code",
21 | "execution_count": 4,
22 | "metadata": {},
23 | "outputs": [
24 | {
25 | "name": "stdout",
26 | "output_type": "stream",
27 | "text": [
28 | "孟玉楼 \t 0.9992923140525818\n",
29 | "吴月娘 \t 0.9968578815460205\n",
30 | "李娇儿 \t 0.9962125420570374\n",
31 | "李瓶儿 \t 0.9941150546073914\n",
32 | "玉箫 \t 0.9863290190696716\n",
33 | "屋里 \t 0.9841687083244324\n",
34 | "房里 \t 0.9839107394218445\n",
35 | "大姐 \t 0.9824092984199524\n",
36 | "小玉 \t 0.9701352119445801\n",
37 | "孙雪娥 \t 0.9647384285926819\n"
38 | ]
39 | }
40 | ],
41 | "source": [
42 | "result = model.most_similar(u\"潘金莲\",topn=10)\n",
43 | "get_result(result)"
44 | ]
45 | },
46 | {
47 | "cell_type": "code",
48 | "execution_count": null,
49 | "metadata": {},
50 | "outputs": [],
51 | "source": [
52 | "result = model.most_similar(positive=u\"西门庆 陈敬济\".split(\" \"), negative=u\"潘金莲\".split(\" \"),topn=5)\n",
53 | "get_result(result)"
54 | ]
55 | }
56 | ],
57 | "metadata": {
58 | "kernelspec": {
59 | "display_name": "Python 3",
60 | "language": "python",
61 | "name": "python3"
62 | },
63 | "language_info": {
64 | "codemirror_mode": {
65 | "name": "ipython",
66 | "version": 3
67 | },
68 | "file_extension": ".py",
69 | "mimetype": "text/x-python",
70 | "name": "python",
71 | "nbconvert_exporter": "python",
72 | "pygments_lexer": "ipython3",
73 | "version": "3.5.2"
74 | },
75 | "toc": {
76 | "colors": {
77 | "hover_highlight": "#DAA520",
78 | "navigate_num": "#000000",
79 | "navigate_text": "#333333",
80 | "running_highlight": "#FF0000",
81 | "selected_highlight": "#FFD700",
82 | "sidebar_border": "#EEEEEE",
83 | "wrapper_background": "#FFFFFF"
84 | },
85 | "moveMenuLeft": true,
86 | "nav_menu": {
87 | "height": "12px",
88 | "width": "252px"
89 | },
90 | "navigate_menu": true,
91 | "number_sections": true,
92 | "sideBar": true,
93 | "threshold": 4,
94 | "toc_cell": false,
95 | "toc_section_display": "block",
96 | "toc_window_display": false,
97 | "widenNotebook": false
98 | },
99 | "varInspector": {
100 | "cols": {
101 | "lenName": 16,
102 | "lenType": 16,
103 | "lenVar": 40
104 | },
105 | "kernels_config": {
106 | "python": {
107 | "delete_cmd_postfix": "",
108 | "delete_cmd_prefix": "del ",
109 | "library": "var_list.py",
110 | "varRefreshCmd": "print(var_dic_list())"
111 | },
112 | "r": {
113 | "delete_cmd_postfix": ") ",
114 | "delete_cmd_prefix": "rm(",
115 | "library": "var_list.r",
116 | "varRefreshCmd": "cat(var_dic_list()) "
117 | }
118 | },
119 | "types_to_exclude": [
120 | "module",
121 | "function",
122 | "builtin_function_or_method",
123 | "instance",
124 | "_Feature"
125 | ],
126 | "window_display": false
127 | }
128 | },
129 | "nbformat": 4,
130 | "nbformat_minor": 2
131 | }
132 |
--------------------------------------------------------------------------------
/4_金瓶梅人物.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 62,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'r')\n",
10 | "text = file.read()\n",
11 | "file.close()\n",
12 | "\n",
13 | "text_list = text.split(\" \")"
14 | ]
15 | },
16 | {
17 | "cell_type": "code",
18 | "execution_count": 63,
19 | "metadata": {},
20 | "outputs": [],
21 | "source": [
22 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n",
23 | "characters = file.read()\n",
24 | "file.close()\n",
25 | "\n",
26 | "character_list = characters.split(\"\\n\")"
27 | ]
28 | },
29 | {
30 | "cell_type": "code",
31 | "execution_count": null,
32 | "metadata": {},
33 | "outputs": [],
34 | "source": [
35 | "import pandas as pd\n",
36 | "\n",
37 | "a = pd.DataFrame(text_list,columns=['人物'])\n",
38 | "c = a.groupby('人物')['人物'].agg({'出场次数':'count'}).reset_index()\n",
39 | "d = c.sort_values('出场次数',ascending=False)\n",
40 | "\n",
41 | "character = pd.DataFrame()\n",
42 | "character = d[d['人物'].isin(character_list)]\n",
43 | "character.sort_values(by='出场次数',ascending=False, inplace=True) # 这个阶段排序可做可不做,可以等到查询结果后再排序\n",
44 | "character.reset_index(drop=True, inplace=True) # reset index 可做可不做,reset 之后看起来整洁顺眼一点"
45 | ]
46 | },
47 | {
48 | "cell_type": "code",
49 | "execution_count": 65,
50 | "metadata": {},
51 | "outputs": [
52 | {
53 | "data": {
54 | "text/html": [
55 | "
\n",
56 | "\n",
69 | "
\n",
70 | " \n",
71 | " \n",
72 | " | \n",
73 | " 人物 | \n",
74 | " 出场次数 | \n",
75 | "
\n",
76 | " \n",
77 | " \n",
78 | " \n",
79 | " | 0 | \n",
80 | " 西门庆 | \n",
81 | " 5270 | \n",
82 | "
\n",
83 | " \n",
84 | " | 1 | \n",
85 | " 吴月娘 | \n",
86 | " 1929 | \n",
87 | "
\n",
88 | " \n",
89 | " | 2 | \n",
90 | " 潘金莲 | \n",
91 | " 1221 | \n",
92 | "
\n",
93 | " \n",
94 | " | 3 | \n",
95 | " 应伯爵 | \n",
96 | " 990 | \n",
97 | "
\n",
98 | " \n",
99 | " | 4 | \n",
100 | " 陈敬济 | \n",
101 | " 946 | \n",
102 | "
\n",
103 | " \n",
104 | " | 5 | \n",
105 | " 李瓶儿 | \n",
106 | " 871 | \n",
107 | "
\n",
108 | " \n",
109 | " | 6 | \n",
110 | " 春梅 | \n",
111 | " 814 | \n",
112 | "
\n",
113 | " \n",
114 | " | 7 | \n",
115 | " 玳安 | \n",
116 | " 798 | \n",
117 | "
\n",
118 | " \n",
119 | " | 8 | \n",
120 | " 孟玉楼 | \n",
121 | " 697 | \n",
122 | "
\n",
123 | " \n",
124 | " | 9 | \n",
125 | " 李娇儿 | \n",
126 | " 393 | \n",
127 | "
\n",
128 | " \n",
129 | " | 10 | \n",
130 | " 李桂姐 | \n",
131 | " 382 | \n",
132 | "
\n",
133 | " \n",
134 | " | 11 | \n",
135 | " 玉箫 | \n",
136 | " 261 | \n",
137 | "
\n",
138 | " \n",
139 | " | 12 | \n",
140 | " 孙雪娥 | \n",
141 | " 239 | \n",
142 | "
\n",
143 | " \n",
144 | " | 13 | \n",
145 | " 薛嫂 | \n",
146 | " 235 | \n",
147 | "
\n",
148 | " \n",
149 | " | 14 | \n",
150 | " 王婆 | \n",
151 | " 234 | \n",
152 | "
\n",
153 | " \n",
154 | " | 15 | \n",
155 | " 小玉 | \n",
156 | " 231 | \n",
157 | "
\n",
158 | " \n",
159 | " | 16 | \n",
160 | " 武松 | \n",
161 | " 226 | \n",
162 | "
\n",
163 | " \n",
164 | " | 17 | \n",
165 | " 迎春 | \n",
166 | " 214 | \n",
167 | "
\n",
168 | " \n",
169 | " | 18 | \n",
170 | " 吴大舅 | \n",
171 | " 201 | \n",
172 | "
\n",
173 | " \n",
174 | " | 19 | \n",
175 | " 韩道国 | \n",
176 | " 200 | \n",
177 | "
\n",
178 | " \n",
179 | "
\n",
180 | "
"
181 | ],
182 | "text/plain": [
183 | " 人物 出场次数\n",
184 | "0 西门庆 5270\n",
185 | "1 吴月娘 1929\n",
186 | "2 潘金莲 1221\n",
187 | "3 应伯爵 990\n",
188 | "4 陈敬济 946\n",
189 | "5 李瓶儿 871\n",
190 | "6 春梅 814\n",
191 | "7 玳安 798\n",
192 | "8 孟玉楼 697\n",
193 | "9 李娇儿 393\n",
194 | "10 李桂姐 382\n",
195 | "11 玉箫 261\n",
196 | "12 孙雪娥 239\n",
197 | "13 薛嫂 235\n",
198 | "14 王婆 234\n",
199 | "15 小玉 231\n",
200 | "16 武松 226\n",
201 | "17 迎春 214\n",
202 | "18 吴大舅 201\n",
203 | "19 韩道国 200"
204 | ]
205 | },
206 | "execution_count": 65,
207 | "metadata": {},
208 | "output_type": "execute_result"
209 | }
210 | ],
211 | "source": [
212 | "character.head(20)"
213 | ]
214 | },
215 | {
216 | "cell_type": "code",
217 | "execution_count": null,
218 | "metadata": {},
219 | "outputs": [],
220 | "source": []
221 | }
222 | ],
223 | "metadata": {
224 | "kernelspec": {
225 | "display_name": "Python 3",
226 | "language": "python",
227 | "name": "python3"
228 | },
229 | "language_info": {
230 | "codemirror_mode": {
231 | "name": "ipython",
232 | "version": 3
233 | },
234 | "file_extension": ".py",
235 | "mimetype": "text/x-python",
236 | "name": "python",
237 | "nbconvert_exporter": "python",
238 | "pygments_lexer": "ipython3",
239 | "version": "3.5.2"
240 | },
241 | "varInspector": {
242 | "cols": {
243 | "lenName": 16,
244 | "lenType": 16,
245 | "lenVar": 40
246 | },
247 | "kernels_config": {
248 | "python": {
249 | "delete_cmd_postfix": "",
250 | "delete_cmd_prefix": "del ",
251 | "library": "var_list.py",
252 | "varRefreshCmd": "print(var_dic_list())"
253 | },
254 | "r": {
255 | "delete_cmd_postfix": ") ",
256 | "delete_cmd_prefix": "rm(",
257 | "library": "var_list.r",
258 | "varRefreshCmd": "cat(var_dic_list()) "
259 | }
260 | },
261 | "types_to_exclude": [
262 | "module",
263 | "function",
264 | "builtin_function_or_method",
265 | "instance",
266 | "_Feature"
267 | ],
268 | "window_display": false
269 | }
270 | },
271 | "nbformat": 4,
272 | "nbformat_minor": 2
273 | }
274 |
--------------------------------------------------------------------------------
/data/金瓶梅.dict:
--------------------------------------------------------------------------------
1 | 西门庆
2 | 吴月娘
3 | 李娇儿
4 | 孟玉楼
5 | 孙雪娥
6 | 潘金莲
7 | 李瓶儿
8 | 西门大姐
9 | 官哥儿
10 | 孝哥儿
11 | 陈敬济
12 | 吴大舅
13 | 吴恺
14 | 吴舜臣
15 | 吴大妗子
16 | 吴二妗子
17 | 潘姥姥
18 | 吴大姨
19 | 杨姑娘
20 | 崔本
21 | 郑三姐
22 | 玳安
23 | 来旺儿
24 | 郑旺
25 | 来兴儿
26 | 来保儿
27 | 来昭儿
28 | 平安儿
29 | 来安儿
30 | 棋童
31 | 琴童
32 | 天福儿
33 | 书童
34 | 春鸿
35 | 春燕
36 | 小张松
37 | 王经
38 | 画童
39 | 玉箫
40 | 小玉
41 | 元宵儿
42 | 夏花儿
43 | 兰香
44 | 小鸾
45 | 中秋儿
46 | 翠儿
47 | 春梅
48 | 秋菊
49 | 迎春
50 | 绣春
51 | 惠祥
52 | 惠秀
53 | 惠庆
54 | 惠元
55 | 惠莲
56 | 傅伙计
57 | 傅铭
58 | 傅自新
59 | 贲四
60 | 贲四娘子
61 | 贲第传
62 | 韩道国
63 | 胡秀
64 | 蔡京
65 | 翟云峰
66 | 翟谦
67 | 高安
68 | 韩爱姐
69 | 韩钳
70 | 蔡蕴
71 | 蔡一泉
72 | 宋松原
73 | 宋乔年
74 | 周秀
75 | 周菊轩
76 | 孙二娘
77 | 金哥
78 | 周仁
79 | 周义
80 | 李安
81 | 葛翠屏
82 | 张胜
83 | 过街鼠
84 | 夏延龄
85 | 夏龙溪
86 | 瑞云
87 | 张团练
88 | 荆忠
89 | 荆南冈
90 | 李达天
91 | 侯蒙
92 | 侯石泉
93 | 贺金
94 | 何永寿
95 | 薛公公
96 | 刘公公
97 | 何沂
98 | 宋惠莲
99 | 王六儿
100 | 奶子如意儿
101 | 即章四儿
102 | 叶五儿
103 | 林太太
104 | 王招宣
105 | 王逸轩
106 | 暗娼
107 | 张惜春
108 | 李三妈
109 | 李铭
110 | 李日新
111 | 郑妈
112 | 郑奉
113 | 桃花儿
114 | 吴四妈
115 | 吴惠
116 | 腊梅
117 | 鲁长腿
118 | 应伯爵
119 | 应光侯
120 | 南坡
121 | 应花子
122 | 吴典恩
123 | 巡检司
124 | 谢希大
125 | 谢字纯
126 | 清河卫
127 | 千户
128 | 子孙
129 | 谢希大
130 | 谢字纯
131 | 祝实念
132 | 孙寡嘴
133 | 撺掇
134 | 王三官儿
135 | 嫖玩
136 | 包妓
137 | 李桂姐
138 | 孙天化
139 | 字伯修
140 | 绰号
141 | 结拜
142 | 兄弟
143 | 年龄
144 | 云理守
145 | 常峙节
146 | 白赉光
147 | 花子虚
148 | 卜志道
149 | 出家人
150 | 阴阳
151 | 先生
152 | 吴宗哲
153 | 玉皇庙
154 | 道长
155 | 尊称
156 | 吴道官
157 | 应春
158 | 徒弟
159 | 黄先生
160 | 真武庙
161 | 算卦
162 | 潘道士
163 | 五岳观
164 | 道士
165 | 捉鬼
166 | 黄真人
167 | 吴神仙
168 | 吴爽
169 | 道号
170 | 梵僧
171 | 永福寺
172 | 云游和尚
173 | 性药
174 | 任道士
175 | 晏公庙
176 | 盗财
177 | 嫖妓
178 | 官司
179 | 金宗明
180 | 鸡奸
181 | 刘理星
182 | 刘瞎子
183 | 算卦
184 | 徐先生
185 | 卜龟卦
186 | 老婆子
187 | 大师父
188 | 佛经
189 | 王姑子
190 | 观音庵
191 | 首座
192 | 姑子
193 | 怀胎药
194 | 薛姑子
195 | 法华庵
196 | 首座
197 | 医生
198 | 太医
199 | 蒋竹山
200 | 蒋文蕙
201 | 任医官
202 | 任后溪
203 | 牌匾
204 | 沽名钓誉
205 | 鲍太医
206 | 胡太医
207 | 赵太医
208 | 赵龙岗
209 | 何老人
210 | 刘菊斋
211 | 刘婆子
212 | 媒婆
213 | 王婆
214 | 薛嫂
215 | 捏合
216 | 再嫁
217 | 文嫂
218 | 官媒
219 | 遗孀
220 | 陶妈妈
221 | 李拱璧
222 | 冯妈妈
223 | 张妈
224 | 隔壁
225 | 邻居
226 | 临清码头
227 | 妓院。
228 | 陈文昭
229 | 东平
230 | 府尹
231 | 武松
232 | 杨时
233 | 开封
234 | 阴骘
235 | 法院
236 | 孔目
237 | 来旺
238 | 曾孝序
239 | 巡按
240 | 御史
241 | 参劾
242 | 弄奸
243 | 作弊
244 | 狄斯彬
245 | 狄混
246 | 阳谷
247 | 县丞
248 | 徐葑
249 | 严州
250 | 知府
251 | 郓哥
252 | 乔郓哥
253 | 鲁华
254 | 草里蛇
255 | 地痞
256 | 讹诈
257 | 杨二郎
258 | 杨光彦
259 | 铁指甲
260 | 统制
261 | 周秀
262 | 杨二风
263 | 痛打
264 | 刘二
265 | 坐地虎
266 | 小张闲
267 | 吃喝玩乐
268 | 黄四
269 | 应伯爵
270 | 合谋
271 | 钱财
272 | 李三
273 | 李智
274 | 车淡
275 | 管事宽
276 | 游守
277 | 郝闲
278 | 陶扒灰
279 | 扒灰
280 | 通奸
281 | 李桂姐
282 | 李桂卿
283 | 郑爱月儿
284 | 郑爱香儿
285 | 郑观音
286 | 郑娇儿
287 | 侄女
288 | 吴银儿
289 | 董娇儿
290 | 董玉仙
291 | 韩金钏儿
292 | 韩玉钏儿
293 | 韩消愁儿
294 | 郁大姐
295 | 洪四儿
296 | 齐香儿
297 | 秦玉芝
298 | 金儿
299 | 吕赛儿
300 | 樊奴儿
301 | 冯金宝
302 | 武大郎
303 | 武植
304 | 武松
305 | 王潮儿
306 | 磨房
307 | 迎儿
308 | 王三官儿
309 | 王采
310 | 林太太
311 | 干儿子
312 | 温必古
313 | 葵轩
314 | 吃里扒外
315 | 侯林儿
316 | 飞天鬼
317 | 屈铛
318 | 王宣
319 | 杏庵居士
320 | 居士
321 | 善人
322 | 韩二
323 | 安童
324 | 偷觑
325 | 调戏
326 | 散官
327 | 虞姬
328 | 石佛寺
329 | 四眼井
330 | 四泉
331 | 大悲庵
332 | 莲华庵
333 | 济南
334 | 应天
335 | 袭庆
336 | 兴仁
337 | 东平
338 | 察院
339 | 盐运司
340 | 工部
341 | 提刑院
342 | 都临
343 | 帅府
344 | 分付
345 | 提刑司
346 | 朝廷
347 | 敕命
348 | 安抚使
349 | 总管
350 | 浙东
351 | 运河
352 | 知县
353 | 县前街
354 | 县东街
355 | 大街
356 | 南门
357 | 东街
358 | 东街口
359 | 大街
360 | 大街口
361 | 狮子桥
362 | 五里原
363 | 新河口闸
364 | 广济闸
365 | 大桥
366 | 晏公庙
367 | 秀才
368 | 祝融
369 | 郓哥
370 | 茶坊
371 | 巫山
372 | 托子
373 | 红赤赤
374 | 牝户
375 | 牝口
376 | 风流
377 | 淫声
378 | 达达
379 | 鸣咂
380 | 良久
381 | 肏捣
382 | 沉甸甸
383 | 勉铃
384 | 勉甸国
385 | 牝中
386 | 白生生
387 | 葡萄架
388 | 淫器
389 | 蛙口
390 | 牝屋
391 | 茎首
392 | 后庭
393 | 吮舔
394 | 银托子
395 | 相思套
396 | 硫黄圈
397 | 白绫带子
398 | 悬玉环
399 | 封脐膏
400 | 缅铃
401 | 吮咂
402 | 胡僧
403 | 丢身子
404 | 龟头
405 | 龟棱
406 | 濡搅
407 | 眉头
408 | 阴户
409 | 淫妇
410 | 勾当
411 | 书房
412 | 赏雪
413 | 那话
414 | 麈柄
415 | 尘柄
416 | 呜咂
417 | 淫器
418 | 丧命
419 | 淫水
420 | 泉涌
421 | 麻痒
422 | 复送
423 | 淫津
424 | 掇弄
425 | 熟鹅
426 | 烧鸭
427 | 蹄膀
428 | 排骨
429 | 鲜鱼
430 | 岁时
431 | 节令
432 | 年除日
433 | 元旦
434 | 元宵
435 | 清明
436 | 端午
437 | 鱼篮会
438 | 重阳
439 | 洗三
440 | 五道将军
441 | 三尸神
442 | 门神
443 | 户尉
444 | 生刹神
445 | 无常
446 | 增福神
447 | 秃
448 | 长老
449 | 禅和子
450 | 瞿昙
451 | 头陀
452 | 行脚僧
453 | 业障
454 | 众生
455 | 斋衬
456 | 水陆
457 | 超度
458 | 法华经
459 | 梁王忏
460 | 斋戒
461 | 纸马
462 | 檀越
463 | 阿鼻地狱
464 | 超生
465 | 卓锡
466 | 舍利
467 | 圆寂
468 | 袈裟
469 | 阿弥陀佛
470 | 由旬
471 | 轮回
472 | 佛曲
473 | 宝卷
474 | 蒲甸儿
475 | 度牒
476 | 玉箸
477 | 散福物
478 | 血盆经
479 | 龙天
480 | 喇嘛
481 | 番经
482 | 真人
483 | 高功
484 | 醮
485 | 小太乙儿
486 | 天生天化
487 | 教下人家
488 | 祆庙火
489 | 跳神
490 | 回背
491 | 罗经吊向
492 | 星相卜卦
493 | 子平
494 | 麻衣相法
495 | 六壬神课
496 | 算命
497 | 相思卦
498 | 金钱卜
499 | 龟儿卦
500 | 灼龟
501 | 上上签
502 | 看水碗
503 | 禄马数
504 | 演禽
505 | 圆梦
506 | 黄道好日
507 | 服饰
508 | 器物
509 | 家火
510 | 裹帻
511 | 毡笠
512 | 缠带
513 | 附犀角带
514 | 袄
515 | 注子
516 | 劝杯
517 | 坏钞
518 | 裙子
519 | 比甲
520 | 网巾
521 | 茄袋
522 | 褶子
523 | 眼罩
524 | 眼纱
525 | 水鬓
526 | 大海青
527 | 花箱
528 | 拔步床
529 | 头面
530 | 月琴
531 | 嚣段子
532 | 尺头
533 | 插戴
534 | 托盘
535 | 家活
536 | 方胜儿
537 | 马嚼环
538 | 川扇
539 | 护膝
540 | 兜肚
541 | 拣妆
542 | 汤瓶
543 | 香囊
544 | 顺袋
545 | 鞋扇
546 | 金三事儿
547 | 内家妆束
548 | 翠面花儿
549 | 邸报
550 | 白米
551 | 串铃
552 | 脚带
553 | 九凤垫根儿
554 | 银香球
555 | 等子
556 | 法郎
557 | 睡鞋
558 | 香桶子
559 | 搭头
560 | 生辰担
561 | 脚步钱
562 | 肥皂
563 | 风车
564 | 新月莲花
565 | 鞋拽靶儿
566 | 云头子
567 | 定粉
568 | 告身
569 | 官诰
570 | 七香车
571 | 手本
572 | 揭帖
573 | 符儿
574 | 过肩蟒
575 | 搭连
576 | 宽杯
577 | 青衣
578 | 书帕
579 | 忠靖冠
580 | 甜香饼
581 | 香茶饼
582 | 阡张
583 | 砚瓦
584 | 麒麟补子
585 | 中人打扮
586 | 禁步
587 | 云板
588 | 放告牌
589 | 闹妆
590 | 蓝旗清道
591 | 獬豸绣服
592 | 盐引
593 | 白鹇
594 | 安息香
595 | 玉屏风
596 | 奇南香
597 | 火浣布
598 | 佛桑花
599 | 孔方兄
600 | 栲栳
601 | 束脩
602 | 银狮子
603 | 巴斗
604 | 叉口
605 | 云鹭补子
606 | 绒袜
607 | 火笼儿
608 | 历日
609 | 素珠
610 | 婚丧
611 | 礼仪
612 | 说媒
613 | 讨庚帖
614 | 说八字
615 | 插定
616 | 带戒指
617 | 纳采
618 | 行茶礼
619 | 送嫁妆
620 | 择吉
621 | 迎娶
622 | 奠雁过门
623 | 新娘
624 | 大轿
625 | 夫家
626 | 添妆含饭
627 | 抱瓶入门
628 | 参拜家堂
629 | 坐床撒帐
630 | 谢亲
631 | 合卺
632 | 会亲
633 | 割衫襟
634 | 丧葬点
635 | 随身灯
636 | 请阴阳
637 | 看批书
638 | 写殃榜
639 | 制孝服
640 | 搭彩棚
641 | 画影
642 | 小殓
643 | 念倒头经
644 | 三日做诵斋经
645 | 大殓
646 | 题铭旌
647 | 题神主
648 | 吊丧
649 | 首七
650 | 水陆道场
651 | 伴宿
652 | 二七
653 | 三七
654 | 四七
655 | 发引
656 | 起棺
657 | 柩前摔盆
658 | 殡仪
659 | 收头
660 | 下葬掩土
661 | 点主
662 | 回灵
663 | 燎火而入
664 | 水火炼度
665 | 谢孝
666 | 暖墓
667 | 火葬
668 | 祭祀
669 | 日常礼仪
670 | 叉手
671 | 万福
672 | 唱喏
673 | 拜见钱
674 | 见面鞋脚
675 | 打问讯
676 | 饮食
677 | 酒席家宴
678 | 炊饼
679 | 河漏子
680 | 匾食
681 | 角儿
682 | 艾窝窝
683 | 糕点
684 | 勒鲞鱼
685 | 糟鲥鱼
686 | 泡螺
687 | 衣梅
688 | 梅汤
689 | 和合汤
690 | 点茶
691 | 香茶
692 | 鞋杯
693 | 百补延龄丹
694 | 娱乐
695 | 双陆
696 | 投壶
697 | 斗百草
698 | 跳百索
699 | 踢气毯
700 | 打秋千
701 | 斗叶儿
702 | 抢红
703 | 抹牌
704 | 拆白道字
705 | 顶真续麻
706 | 酒令
707 | 急口令
708 | 笑话
709 | 猜枚
710 | 称谓
711 | 浑家
712 | 正头娘子
713 | 房下
714 | 堂客
715 | 贱累
716 | 秋胡戏
717 | 太太
718 | 细君
719 | 露水夫妻
720 | 小院儿里的
721 | 身边人
722 | 回头人
723 | 盖老
724 | 汉子
725 | 强人
726 | 官儿·
727 | 羔子
728 | 大官
729 | 小顽
730 | 尿泡种
731 | 墓生子
732 | 拾儿
733 | 冰人
734 | 媒婆
735 | 卖婆
736 | 牙婆
737 | 马泊六
738 | 养家经纪人
739 | 太医
740 | 仵作
741 | 四门亲家
742 | 刁徒泼皮
743 | 小妮子
744 | 帮闲勤儿
745 | 歪刺骨
746 | 门生
747 | 达达
748 | 蛮子
749 | 乐工
750 | 员外
751 | 黄花女儿
752 | 白衣人
753 | 女又十撇儿
754 | 破纱帽
755 | 干生子
756 | 望门寡
757 | 酸子
758 | 光身汉
759 | 皮子
760 | 小姐
761 | 家奴
762 | 家生哨儿
763 | 衙内
764 | 坐地虎
765 | 水客
766 | 蓄奴
767 | 娼妓
768 | 巫娼
769 | 奴娼
770 | 官妓
771 | 女乐
772 | 营妓
773 | 男色
774 | 奴隶
775 | 家妓
776 | 冶游
777 | 女尼
778 | 女冠
779 | 南妓
780 | 私娼
781 | 抅栏
782 | 窠子
783 | 唱的
784 | 粉头
785 | 缠足
786 | 唱门词儿
787 | 乐户
788 | 陷人坑
789 | 迷魂洞
790 | 买笑金
791 | 缠头锦
792 | 卖花钱
793 | 风月窝
794 | 莺花寨
795 | 闯寡门
796 | 小娘
797 | 南曲
798 | 梳笼
799 | 子弟
800 | 孤老
801 | 表子
802 | 角妓
803 | 令翠
804 | 路歧人
805 | 道路
806 | 营生
807 | 院里
808 | 本司
809 | 送茶
810 | 眠花卧柳
811 | 乐星堂
812 | 厮锣儿
813 | 赶趁
814 | 坊子
815 | 王八
816 | 鸨儿
817 | 扶头
818 | 物价
819 | 米价
820 | 酒饭
821 | 穿戴
822 | 房地价
823 | 螺器用
824 | 诗画
825 | 迷信
826 | 盘缠
827 | 抬轿
828 | 丧葬
829 | 赏钱
830 | 丫头
831 | 高利贷
832 | 放债
833 | 典当
834 | 技艺
835 | 磨镜
836 | 画裱
837 | 银作
838 | 漆器
839 | 酿酒
840 | 织造
841 | 酒饭
842 | 枣糕
843 | 荷花饼
844 | 猪蹄
845 | 茴香
846 | 大料
847 | 姜蒜
848 | 碟儿
849 | 茉莉花酒
850 | 金华酒
851 | 金莲
852 | 三寸
853 | 白食
854 | 裁缝
855 | 张大户
856 | 市井
857 | 无赖
858 | 勾引
859 | 果品
860 | 白绢
861 | 酒席
862 | 琵琶
863 | 巷口
864 | 欢喜
865 | 粉颈
866 | 守寡
867 | 尺头
868 | 齐整
869 | 小厮
870 | 家产
871 | 奴家
872 |
--------------------------------------------------------------------------------
/1_金瓶梅_preprocess.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 1,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "file = open(\"data/金瓶梅.jieba.txt\", 'r')\n",
10 | "text = file.read()\n",
11 | "file.close()\n",
12 | "\n",
13 | "file = open(\"data/stop_words.txt\", 'r')\n",
14 | "stop_words = file.read()\n",
15 | "file.close()\n",
16 | "\n",
17 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n",
18 | "characters = file.read()\n",
19 | "file.close()"
20 | ]
21 | },
22 | {
23 | "cell_type": "code",
24 | "execution_count": 2,
25 | "metadata": {},
26 | "outputs": [],
27 | "source": [
28 | "# 去除 stopwords 和 去除 单字节\n",
29 | "import re\n",
30 | "\n",
31 | "text_list1 = text.split(\" \")\n",
32 | "stop_words_list = stop_words.split(\"\\n\")\n",
33 | "character_list = characters.split(\"\\n\")\n",
34 | "final_text_list = ''\n",
35 | "\n",
36 | "for seg in text_list1:\n",
37 | " if not ((seg in stop_words_list) or re.search(r\"^\\S$\", seg)): # 不在stopwords_list, 同时不是单字节\n",
38 | " final_text_list += seg\n",
39 | " final_text_list += \" \""
40 | ]
41 | },
42 | {
43 | "cell_type": "code",
44 | "execution_count": null,
45 | "metadata": {},
46 | "outputs": [],
47 | "source": [
48 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'wt')\n",
49 | "file.write(final_text_list)\n",
50 | "file.close()"
51 | ]
52 | },
53 | {
54 | "cell_type": "code",
55 | "execution_count": null,
56 | "metadata": {},
57 | "outputs": [],
58 | "source": [
59 | "text_list2 = final_text_list.split(\" \")\n",
60 | "import pandas as pd\n",
61 | "import numpy\n",
62 | "\n",
63 | "a = pd.DataFrame(text_list2, columns=['人物'])\n",
64 | "c = a.groupby('人物')['人物'].agg({'出场次数':numpy.size}).reset_index()\n",
65 | "d = c.sort_values('出场次数', ascending=False)"
66 | ]
67 | },
68 | {
69 | "cell_type": "code",
70 | "execution_count": null,
71 | "metadata": {},
72 | "outputs": [],
73 | "source": [
74 | "people1 = pd.DataFrame()\n",
75 | "people1 = d[d['人物'].isin(character_list)]\n",
76 | "people1['出场次数'] = people1['出场次数'].astype('uint16')"
77 | ]
78 | },
79 | {
80 | "cell_type": "code",
81 | "execution_count": 6,
82 | "metadata": {},
83 | "outputs": [
84 | {
85 | "data": {
86 | "text/html": [
87 | "\n",
88 | "\n",
101 | "
\n",
102 | " \n",
103 | " \n",
104 | " | \n",
105 | " 人物 | \n",
106 | " 出场次数 | \n",
107 | "
\n",
108 | " \n",
109 | " \n",
110 | " \n",
111 | " | 33544 | \n",
112 | " 西门庆 | \n",
113 | " 5270 | \n",
114 | "
\n",
115 | " \n",
116 | " | 10561 | \n",
117 | " 吴月娘 | \n",
118 | " 1929 | \n",
119 | "
\n",
120 | " \n",
121 | " | 25975 | \n",
122 | " 潘金莲 | \n",
123 | " 1221 | \n",
124 | "
\n",
125 | " \n",
126 | " | 16472 | \n",
127 | " 应伯爵 | \n",
128 | " 990 | \n",
129 | "
\n",
130 | " \n",
131 | " | 38244 | \n",
132 | " 陈敬济 | \n",
133 | " 946 | \n",
134 | "
\n",
135 | " \n",
136 | " | 23069 | \n",
137 | " 李瓶儿 | \n",
138 | " 871 | \n",
139 | "
\n",
140 | " \n",
141 | " | 22212 | \n",
142 | " 春梅 | \n",
143 | " 814 | \n",
144 | "
\n",
145 | " \n",
146 | " | 27169 | \n",
147 | " 玳安 | \n",
148 | " 798 | \n",
149 | "
\n",
150 | " \n",
151 | " | 14035 | \n",
152 | " 孟玉楼 | \n",
153 | " 697 | \n",
154 | "
\n",
155 | " \n",
156 | " | 23050 | \n",
157 | " 李娇儿 | \n",
158 | " 393 | \n",
159 | "
\n",
160 | " \n",
161 | " | 23063 | \n",
162 | " 李桂姐 | \n",
163 | " 382 | \n",
164 | "
\n",
165 | " \n",
166 | " | 27002 | \n",
167 | " 玉箫 | \n",
168 | " 261 | \n",
169 | "
\n",
170 | " \n",
171 | " | 14001 | \n",
172 | " 孙雪娥 | \n",
173 | " 239 | \n",
174 | "
\n",
175 | " \n",
176 | " | 32943 | \n",
177 | " 薛嫂 | \n",
178 | " 235 | \n",
179 | "
\n",
180 | " \n",
181 | " | 27070 | \n",
182 | " 王婆 | \n",
183 | " 234 | \n",
184 | "
\n",
185 | " \n",
186 | " | 15226 | \n",
187 | " 小玉 | \n",
188 | " 231 | \n",
189 | "
\n",
190 | " \n",
191 | " | 24285 | \n",
192 | " 武松 | \n",
193 | " 226 | \n",
194 | "
\n",
195 | " \n",
196 | " | 35658 | \n",
197 | " 迎春 | \n",
198 | " 214 | \n",
199 | "
\n",
200 | " \n",
201 | " | 10552 | \n",
202 | " 吴大舅 | \n",
203 | " 201 | \n",
204 | "
\n",
205 | " \n",
206 | " | 38907 | \n",
207 | " 韩道国 | \n",
208 | " 200 | \n",
209 | "
\n",
210 | " \n",
211 | "
\n",
212 | "
"
213 | ],
214 | "text/plain": [
215 | " 人物 出场次数\n",
216 | "33544 西门庆 5270\n",
217 | "10561 吴月娘 1929\n",
218 | "25975 潘金莲 1221\n",
219 | "16472 应伯爵 990\n",
220 | "38244 陈敬济 946\n",
221 | "23069 李瓶儿 871\n",
222 | "22212 春梅 814\n",
223 | "27169 玳安 798\n",
224 | "14035 孟玉楼 697\n",
225 | "23050 李娇儿 393\n",
226 | "23063 李桂姐 382\n",
227 | "27002 玉箫 261\n",
228 | "14001 孙雪娥 239\n",
229 | "32943 薛嫂 235\n",
230 | "27070 王婆 234\n",
231 | "15226 小玉 231\n",
232 | "24285 武松 226\n",
233 | "35658 迎春 214\n",
234 | "10552 吴大舅 201\n",
235 | "38907 韩道国 200"
236 | ]
237 | },
238 | "execution_count": 6,
239 | "metadata": {},
240 | "output_type": "execute_result"
241 | }
242 | ],
243 | "source": [
244 | "people1.head(20)"
245 | ]
246 | },
247 | {
248 | "cell_type": "code",
249 | "execution_count": null,
250 | "metadata": {},
251 | "outputs": [],
252 | "source": []
253 | }
254 | ],
255 | "metadata": {
256 | "kernelspec": {
257 | "display_name": "Python 3",
258 | "language": "python",
259 | "name": "python3"
260 | },
261 | "language_info": {
262 | "codemirror_mode": {
263 | "name": "ipython",
264 | "version": 3
265 | },
266 | "file_extension": ".py",
267 | "mimetype": "text/x-python",
268 | "name": "python",
269 | "nbconvert_exporter": "python",
270 | "pygments_lexer": "ipython3",
271 | "version": "3.5.2"
272 | },
273 | "toc": {
274 | "colors": {
275 | "hover_highlight": "#DAA520",
276 | "navigate_num": "#000000",
277 | "navigate_text": "#333333",
278 | "running_highlight": "#FF0000",
279 | "selected_highlight": "#FFD700",
280 | "sidebar_border": "#EEEEEE",
281 | "wrapper_background": "#FFFFFF"
282 | },
283 | "moveMenuLeft": true,
284 | "nav_menu": {
285 | "height": "12px",
286 | "width": "252px"
287 | },
288 | "navigate_menu": true,
289 | "number_sections": true,
290 | "sideBar": true,
291 | "threshold": 4,
292 | "toc_cell": false,
293 | "toc_section_display": "block",
294 | "toc_window_display": false,
295 | "widenNotebook": false
296 | },
297 | "varInspector": {
298 | "cols": {
299 | "lenName": 16,
300 | "lenType": 16,
301 | "lenVar": 40
302 | },
303 | "kernels_config": {
304 | "python": {
305 | "delete_cmd_postfix": "",
306 | "delete_cmd_prefix": "del ",
307 | "library": "var_list.py",
308 | "varRefreshCmd": "print(var_dic_list())"
309 | },
310 | "r": {
311 | "delete_cmd_postfix": ") ",
312 | "delete_cmd_prefix": "rm(",
313 | "library": "var_list.r",
314 | "varRefreshCmd": "cat(var_dic_list()) "
315 | }
316 | },
317 | "types_to_exclude": [
318 | "module",
319 | "function",
320 | "builtin_function_or_method",
321 | "instance",
322 | "_Feature"
323 | ],
324 | "window_display": false
325 | }
326 | },
327 | "nbformat": 4,
328 | "nbformat_minor": 2
329 | }
330 |
--------------------------------------------------------------------------------
/.ipynb_checkpoints/1_金瓶梅_preprocess-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 1,
6 | "metadata": {},
7 | "outputs": [],
8 | "source": [
9 | "file = open(\"data/金瓶梅.jieba.txt\", 'r')\n",
10 | "text = file.read()\n",
11 | "file.close()\n",
12 | "\n",
13 | "file = open(\"data/stop_words.txt\", 'r')\n",
14 | "stop_words = file.read()\n",
15 | "file.close()\n",
16 | "\n",
17 | "file = open(\"data/金瓶梅人物.dict\", 'r')\n",
18 | "characters = file.read()\n",
19 | "file.close()"
20 | ]
21 | },
22 | {
23 | "cell_type": "code",
24 | "execution_count": 2,
25 | "metadata": {},
26 | "outputs": [],
27 | "source": [
28 | "# 去除 stopwords 和 去除 单字节\n",
29 | "import re\n",
30 | "\n",
31 | "text_list1 = text.split(\" \")\n",
32 | "stop_words_list = stop_words.split(\"\\n\")\n",
33 | "character_list = characters.split(\"\\n\")\n",
34 | "final_text_list = ''\n",
35 | "\n",
36 | "for seg in text_list1:\n",
37 | " if not ((seg in stop_words_list) or re.search(r\"^\\S$\", seg)): # 不在stopwords_list, 同时不是单字节\n",
38 | " final_text_list += seg\n",
39 | " final_text_list += \" \""
40 | ]
41 | },
42 | {
43 | "cell_type": "code",
44 | "execution_count": null,
45 | "metadata": {},
46 | "outputs": [],
47 | "source": [
48 | "file = open(\"data/金瓶梅.jieba.after_stop_words.txt\", 'wt')\n",
49 | "file.write(final_text_list)\n",
50 | "file.close()"
51 | ]
52 | },
53 | {
54 | "cell_type": "code",
55 | "execution_count": null,
56 | "metadata": {},
57 | "outputs": [],
58 | "source": [
59 | "text_list2 = final_text_list.split(\" \")\n",
60 | "import pandas as pd\n",
61 | "import numpy\n",
62 | "\n",
63 | "a = pd.DataFrame(text_list2, columns=['人物'])\n",
64 | "c = a.groupby('人物')['人物'].agg({'出场次数':numpy.size}).reset_index()\n",
65 | "d = c.sort_values('出场次数', ascending=False)"
66 | ]
67 | },
68 | {
69 | "cell_type": "code",
70 | "execution_count": null,
71 | "metadata": {},
72 | "outputs": [],
73 | "source": [
74 | "people1 = pd.DataFrame()\n",
75 | "people1 = d[d['人物'].isin(character_list)]\n",
76 | "people1['出场次数'] = people1['出场次数'].astype('uint16')"
77 | ]
78 | },
79 | {
80 | "cell_type": "code",
81 | "execution_count": 6,
82 | "metadata": {},
83 | "outputs": [
84 | {
85 | "data": {
86 | "text/html": [
87 | "\n",
88 | "\n",
101 | "
\n",
102 | " \n",
103 | " \n",
104 | " | \n",
105 | " 人物 | \n",
106 | " 出场次数 | \n",
107 | "
\n",
108 | " \n",
109 | " \n",
110 | " \n",
111 | " | 33544 | \n",
112 | " 西门庆 | \n",
113 | " 5270 | \n",
114 | "
\n",
115 | " \n",
116 | " | 10561 | \n",
117 | " 吴月娘 | \n",
118 | " 1929 | \n",
119 | "
\n",
120 | " \n",
121 | " | 25975 | \n",
122 | " 潘金莲 | \n",
123 | " 1221 | \n",
124 | "
\n",
125 | " \n",
126 | " | 16472 | \n",
127 | " 应伯爵 | \n",
128 | " 990 | \n",
129 | "
\n",
130 | " \n",
131 | " | 38244 | \n",
132 | " 陈敬济 | \n",
133 | " 946 | \n",
134 | "
\n",
135 | " \n",
136 | " | 23069 | \n",
137 | " 李瓶儿 | \n",
138 | " 871 | \n",
139 | "
\n",
140 | " \n",
141 | " | 22212 | \n",
142 | " 春梅 | \n",
143 | " 814 | \n",
144 | "
\n",
145 | " \n",
146 | " | 27169 | \n",
147 | " 玳安 | \n",
148 | " 798 | \n",
149 | "
\n",
150 | " \n",
151 | " | 14035 | \n",
152 | " 孟玉楼 | \n",
153 | " 697 | \n",
154 | "
\n",
155 | " \n",
156 | " | 23050 | \n",
157 | " 李娇儿 | \n",
158 | " 393 | \n",
159 | "
\n",
160 | " \n",
161 | " | 23063 | \n",
162 | " 李桂姐 | \n",
163 | " 382 | \n",
164 | "
\n",
165 | " \n",
166 | " | 27002 | \n",
167 | " 玉箫 | \n",
168 | " 261 | \n",
169 | "
\n",
170 | " \n",
171 | " | 14001 | \n",
172 | " 孙雪娥 | \n",
173 | " 239 | \n",
174 | "
\n",
175 | " \n",
176 | " | 32943 | \n",
177 | " 薛嫂 | \n",
178 | " 235 | \n",
179 | "
\n",
180 | " \n",
181 | " | 27070 | \n",
182 | " 王婆 | \n",
183 | " 234 | \n",
184 | "
\n",
185 | " \n",
186 | " | 15226 | \n",
187 | " 小玉 | \n",
188 | " 231 | \n",
189 | "
\n",
190 | " \n",
191 | " | 24285 | \n",
192 | " 武松 | \n",
193 | " 226 | \n",
194 | "
\n",
195 | " \n",
196 | " | 35658 | \n",
197 | " 迎春 | \n",
198 | " 214 | \n",
199 | "
\n",
200 | " \n",
201 | " | 10552 | \n",
202 | " 吴大舅 | \n",
203 | " 201 | \n",
204 | "
\n",
205 | " \n",
206 | " | 38907 | \n",
207 | " 韩道国 | \n",
208 | " 200 | \n",
209 | "
\n",
210 | " \n",
211 | "
\n",
212 | "
"
213 | ],
214 | "text/plain": [
215 | " 人物 出场次数\n",
216 | "33544 西门庆 5270\n",
217 | "10561 吴月娘 1929\n",
218 | "25975 潘金莲 1221\n",
219 | "16472 应伯爵 990\n",
220 | "38244 陈敬济 946\n",
221 | "23069 李瓶儿 871\n",
222 | "22212 春梅 814\n",
223 | "27169 玳安 798\n",
224 | "14035 孟玉楼 697\n",
225 | "23050 李娇儿 393\n",
226 | "23063 李桂姐 382\n",
227 | "27002 玉箫 261\n",
228 | "14001 孙雪娥 239\n",
229 | "32943 薛嫂 235\n",
230 | "27070 王婆 234\n",
231 | "15226 小玉 231\n",
232 | "24285 武松 226\n",
233 | "35658 迎春 214\n",
234 | "10552 吴大舅 201\n",
235 | "38907 韩道国 200"
236 | ]
237 | },
238 | "execution_count": 6,
239 | "metadata": {},
240 | "output_type": "execute_result"
241 | }
242 | ],
243 | "source": [
244 | "people1.head(20)"
245 | ]
246 | },
247 | {
248 | "cell_type": "code",
249 | "execution_count": null,
250 | "metadata": {},
251 | "outputs": [],
252 | "source": []
253 | }
254 | ],
255 | "metadata": {
256 | "kernelspec": {
257 | "display_name": "Python 3",
258 | "language": "python",
259 | "name": "python3"
260 | },
261 | "language_info": {
262 | "codemirror_mode": {
263 | "name": "ipython",
264 | "version": 3
265 | },
266 | "file_extension": ".py",
267 | "mimetype": "text/x-python",
268 | "name": "python",
269 | "nbconvert_exporter": "python",
270 | "pygments_lexer": "ipython3",
271 | "version": "3.5.2"
272 | },
273 | "toc": {
274 | "colors": {
275 | "hover_highlight": "#DAA520",
276 | "navigate_num": "#000000",
277 | "navigate_text": "#333333",
278 | "running_highlight": "#FF0000",
279 | "selected_highlight": "#FFD700",
280 | "sidebar_border": "#EEEEEE",
281 | "wrapper_background": "#FFFFFF"
282 | },
283 | "moveMenuLeft": true,
284 | "nav_menu": {
285 | "height": "12px",
286 | "width": "252px"
287 | },
288 | "navigate_menu": true,
289 | "number_sections": true,
290 | "sideBar": true,
291 | "threshold": 4,
292 | "toc_cell": false,
293 | "toc_section_display": "block",
294 | "toc_window_display": false,
295 | "widenNotebook": false
296 | },
297 | "varInspector": {
298 | "cols": {
299 | "lenName": 16,
300 | "lenType": 16,
301 | "lenVar": 40
302 | },
303 | "kernels_config": {
304 | "python": {
305 | "delete_cmd_postfix": "",
306 | "delete_cmd_prefix": "del ",
307 | "library": "var_list.py",
308 | "varRefreshCmd": "print(var_dic_list())"
309 | },
310 | "r": {
311 | "delete_cmd_postfix": ") ",
312 | "delete_cmd_prefix": "rm(",
313 | "library": "var_list.r",
314 | "varRefreshCmd": "cat(var_dic_list()) "
315 | }
316 | },
317 | "types_to_exclude": [
318 | "module",
319 | "function",
320 | "builtin_function_or_method",
321 | "instance",
322 | "_Feature"
323 | ],
324 | "window_display": false
325 | }
326 | },
327 | "nbformat": 4,
328 | "nbformat_minor": 2
329 | }
330 |
--------------------------------------------------------------------------------
/data/stop_words.txt:
--------------------------------------------------------------------------------
1 | 。
2 | “
3 | ”
4 | 《
5 | 》
6 | !
7 | ,
8 | :
9 | ;
10 | ?
11 | 【
12 | 】
13 | |
14 | (
15 | )
16 | 丶
17 | _
18 | 〖
19 | 〗
20 | 『
21 | 』
22 | 「
23 | 」
24 | [
25 | ]
26 | 〕
27 | 〔
28 | {
29 | }
30 | …
31 | <
32 | >
33 | ‘
34 | ’
35 | 〝
36 | 〞
37 | '
38 | ´
39 |
40 | ´
41 | ^
42 | =
43 | |
44 | !
45 | ?
46 | ‘
47 | ’
48 | “
49 | ”
50 | @
51 | $
52 | *
53 | \
54 | &
55 | #
56 | %
57 | +
58 | 、
59 | 腌
60 | 阿
61 | 啊
62 | 哎
63 | 哎呀
64 | 哎哟
65 | 唉
66 | 嗳
67 | 俺
68 | 俺们
69 | 按
70 | 按照
71 | 吧
72 | 吧哒
73 | 把
74 | 罢了
75 | 呗
76 | 被
77 | 本
78 | 本地
79 | 本官
80 | 本家
81 | 本来
82 | 本人
83 | 本是
84 | 本要
85 | 本着
86 | 彼
87 | 彼此
88 | 比
89 | 比方
90 | 比如
91 | 鄙人
92 | 必
93 | 必得
94 | 必定
95 | 必然
96 | 必是
97 | 必须
98 | 必要
99 | 必有
100 | 边
101 | 便
102 | 便来
103 | 便是
104 | 便用
105 | 便知
106 | 别
107 | 别处
108 | 别的
109 | 别动
110 | 别管
111 | 别后
112 | 别家
113 | 别理
114 | 别闹
115 | 别怕
116 | 别人
117 | 别生气
118 | 别是
119 | 别说
120 | 别提
121 | 并
122 | 并不知道
123 | 并非
124 | 并且
125 | 并未
126 | 不
127 | 不比
128 | 不必
129 | 不便
130 | 不表
131 | 不曾
132 | 不差
133 | 不成
134 | 不出
135 | 不打紧
136 | 不大
137 | 不大好
138 | 不待
139 | 不单
140 | 不但
141 | 不到
142 | 不得
143 | 不得不
144 | 不得了
145 | 不得闲
146 | 不得已
147 | 不迭
148 | 不定
149 | 不懂事
150 | 不动
151 | 不多时
152 | 不凡
153 | 不妨
154 | 不防
155 | 不够
156 | 不光
157 | 不过
158 | 不过如此
159 | 不好
160 | 不好意思
161 | 不会
162 | 不及
163 | 不济
164 | 不介意
165 | 不仅
166 | 不尽
167 | 不久
168 | 不觉
169 | 不堪
170 | 不可
171 | 不了
172 | 不论
173 | 不免
174 | 不能
175 | 不怕
176 | 不去
177 | 不然
178 | 不让
179 | 不容分说
180 | 不如意
181 | 不时
182 | 不爽快
183 | 不似
184 | 不俗
185 | 不算
186 | 不同
187 | 不妥
188 | 不往
189 | 不闻
190 | 不问
191 | 不喜
192 | 不暇
193 | 不下
194 | 不想
195 | 不像
196 | 不小
197 | 不要紧
198 | 不依
199 | 不宜
200 | 不已
201 | 不意
202 | 不应
203 | 不用
204 | 不用说
205 | 不由
206 | 不语
207 | 不远
208 | 不愿
209 | 不悦
210 | 不再
211 | 不在话下
212 | 不在意
213 | 不早
214 | 不怎么样
215 | 不知不觉
216 | 不知好歹
217 | 不只
218 | 不止
219 | 不致
220 | 不中用
221 | 不自在
222 | 不作声
223 | 才
224 | 才刚
225 | 才能
226 | 踩
227 | 差
228 | 差不多
229 | 拆开
230 | 尝尝
231 | 常
232 | 常常
233 | 常见
234 | 常时
235 | 常事
236 | 常说
237 | 常有
238 | 常在
239 | 趁
240 | 趁便
241 | 趁此
242 | 趁此机会
243 | 趁势
244 | 趁早
245 | 趁着
246 | 乘
247 | 吃些
248 | 冲
249 | 出来
250 | 出入
251 | 除
252 | 除此之外
253 | 除非
254 | 除了
255 | 穿着
256 | 此
257 | 此案
258 | 此处
259 | 此地
260 | 此后
261 | 此花
262 | 此话
263 | 此间
264 | 此刻
265 | 此来
266 | 此人
267 | 此时
268 | 此事
269 | 此外
270 | 此物
271 | 此系
272 | 此心
273 | 此信
274 | 此言
275 | 从
276 | 从不
277 | 从此
278 | 从此以后
279 | 从而
280 | 从古至今
281 | 从今
282 | 从今以后
283 | 从来
284 | 从来不
285 | 从没
286 | 从前
287 | 从头
288 | 从未
289 | 从小
290 | 啐
291 | 打
292 | 大半
293 | 待
294 | 但
295 | 但凡
296 | 但是
297 | 但愿
298 | 当
299 | 当初
300 | 当今
301 | 当面
302 | 当年
303 | 当着
304 | 当真
305 | 当中
306 | 当作
307 | 当做
308 | 倒不如
309 | 倒也罢了
310 | 到
311 | 到底
312 | 到家
313 | 道
314 | 得
315 | 的
316 | 的话
317 | 等
318 | 等待
319 | 等到
320 | 等等
321 | 等候
322 | 等一等
323 | 地
324 | 第
325 | 第八
326 | 第二
327 | 第九
328 | 第六
329 | 第七
330 | 第三
331 | 第十
332 | 第四
333 | 第五
334 | 第一
335 | 第一百
336 | 第一个
337 | 第一件
338 | 叮咚
339 | 咚
340 | 都
341 | 对
342 | 对于
343 | 多
344 | 多半
345 | 多少
346 | 多事
347 | 多天
348 | 呃
349 | 而
350 | 而况
351 | 而且
352 | 而是
353 | 而外
354 | 而言
355 | 而已
356 | 尔后
357 | 反
358 | 反倒
359 | 反而
360 | 反过来
361 | 反过来说
362 | 反之
363 | 方
364 | 方可
365 | 方知
366 | 非但
367 | 非徒
368 | 否则
369 | 嘎
370 | 嘎登
371 | 该
372 | 该死
373 | 干什么
374 | 赶
375 | 刚
376 | 刚才
377 | 刚到
378 | 刚刚
379 | 刚要
380 | 个
381 | 各
382 | 各个
383 | 各位
384 | 各种
385 | 各自
386 | 给
387 | 根据
388 | 跟
389 | 更
390 | 更好
391 | 更加
392 | 更是
393 | 共
394 | 固然
395 | 固是
396 | 故
397 | 故此
398 | 怪不得
399 | 关于
400 | 管
401 | 归
402 | 果然
403 | 果真
404 | 过
405 | 哈
406 | 哈哈
407 | 咳
408 | 还
409 | 还敢
410 | 还好
411 | 还求
412 | 还少
413 | 还是
414 | 还要
415 | 还有
416 | 好
417 | 好似
418 | 好像
419 | 好些
420 | 呵
421 | 嗬
422 | 何
423 | 何必
424 | 何不
425 | 何曾
426 | 何尝
427 | 何处
428 | 何妨
429 | 何故
430 | 何苦
431 | 何况
432 | 何如
433 | 何时
434 | 何往
435 | 何为
436 | 何物
437 | 何以
438 | 何意
439 | 何用
440 | 和
441 | 嘿
442 | 很
443 | 恨不得
444 | 恨不能
445 | 哼
446 | 哼唷
447 | 后来
448 | 乎
449 | 呼
450 | 呼哧
451 | 忽然
452 | 忽闻
453 | 哗
454 | 换句话说
455 | 换言之
456 | 回头一看
457 | 回想
458 | 或
459 | 或是
460 | 或者
461 | 即
462 | 即便
463 | 即或
464 | 即令
465 | 即若
466 | 即使
467 | 及
468 | 及其
469 | 及至
470 | 几
471 | 几百
472 | 几杯
473 | 几遍
474 | 几步
475 | 几处
476 | 几次
477 | 几点
478 | 几分
479 | 几个
480 | 几根
481 | 几乎
482 | 几户
483 | 几家
484 | 几间
485 | 几件
486 | 几句
487 | 几句话
488 | 几口
489 | 几两
490 | 几年
491 | 几千
492 | 几人
493 | 几日
494 | 几声
495 | 几时
496 | 几首
497 | 几岁
498 | 几天
499 | 几位
500 | 几下
501 | 几样
502 | 己
503 | 既
504 | 既然
505 | 既是
506 | 继而
507 | 加之
508 | 假如
509 | 假若
510 | 假使
511 | 鉴于
512 | 将
513 | 叫
514 | 较
515 | 较之
516 | 接着
517 | 皆
518 | 结果
519 | 借
520 | 紧接着
521 | 尽
522 | 尽管
523 | 进而
524 | 经
525 | 经过
526 | 竟
527 | 竟比
528 | 竟成
529 | 竟是
530 | 竟有
531 | 竟自
532 | 就
533 | 就是
534 | 就是说
535 | 具体地说
536 | 具体来说
537 | 据
538 | 开始
539 | 开外
540 | 靠
541 | 可
542 | 可不
543 | 可不是
544 | 可好
545 | 可见
546 | 可能
547 | 可怕
548 | 可巧
549 | 可是
550 | 可叹
551 | 可谓
552 | 可惜
553 | 可喜
554 | 可笑
555 | 可要
556 | 可以
557 | 可用
558 | 可有
559 | 可知
560 | 口口声声
561 | 口中
562 | 快
563 | 快回去
564 | 快进去
565 | 快快
566 | 快来
567 | 快去
568 | 快些
569 | 况
570 | 况且
571 | 况是
572 | 啦
573 | 来
574 | 来到
575 | 来得
576 | 来回
577 | 来家
578 | 来见
579 | 来看
580 | 来时
581 | 来要
582 | 来着
583 | 劳什子
584 | 了
585 | 了不得
586 | 离
587 | 哩
588 | 例如
589 | 立即
590 | 立刻
591 | 立马
592 | 连
593 | 连同
594 | 两者
595 | 咧
596 | 另
597 | 另外
598 | 另一方面
599 | 另有
600 | 另作
601 | 论
602 | 吗
603 | 嘛
604 | 慢说
605 | 漫说
606 | 冒
607 | 么
608 | 没
609 | 没处
610 | 没得
611 | 没法
612 | 没法儿
613 | 没福
614 | 没敢
615 | 没个
616 | 没工夫
617 | 没好气
618 | 没话
619 | 没精打采
620 | 没来
621 | 没趣
622 | 没趣儿
623 | 没人
624 | 没什么
625 | 没事
626 | 没事人
627 | 没收
628 | 没心
629 | 没眼
630 | 没意思
631 | 没用
632 | 没有
633 | 没造化
634 | 没主意
635 | 每
636 | 每当
637 | 们
638 | 免不得
639 | 莫若
640 | 某
641 | 某个
642 | 某些
643 | 拿
644 | 拿出
645 | 拿话
646 | 拿回去
647 | 拿来
648 | 拿些
649 | 哪
650 | 哪边
651 | 哪儿
652 | 哪个
653 | 哪里
654 | 哪年
655 | 哪怕
656 | 哪天
657 | 哪些
658 | 哪样
659 | 那
660 | 那边
661 | 那儿
662 | 那个
663 | 那会儿
664 | 那里
665 | 那么
666 | 那么些
667 | 那么样
668 | 那年
669 | 那人
670 | 那时
671 | 那天
672 | 那条
673 | 那位
674 | 那些
675 | 那丫头
676 | 那样
677 | 乃
678 | 乃是
679 | 乃至
680 | 奈何
681 | 难
682 | 难缠
683 | 难处
684 | 难道
685 | 难得
686 | 难禁
687 | 难事
688 | 难说
689 | 难为
690 | 难以
691 | 呢
692 | 能
693 | 嗯
694 | 你
695 | 你别
696 | 你好
697 | 你家
698 | 你们
699 | 您
700 | 宁
701 | 宁可
702 | 宁肯
703 | 宁愿
704 | 侬
705 | 哝
706 | 喏
707 | 喔唷
708 | 哦
709 | 啪达
710 | 旁人
711 | 呸
712 | 偏
713 | 凭
714 | 凭借
715 | 平白
716 | 平常
717 | 其
718 | 其次
719 | 其二
720 | 其间
721 | 其实
722 | 其他
723 | 其它
724 | 其一
725 | 其余
726 | 其中
727 | 岂但
728 | 起
729 | 起见
730 | 起来
731 | 恰好
732 | 恰恰
733 | 恰恰相反
734 | 恰是
735 | 前后
736 | 前面
737 | 前头
738 | 前往
739 | 前者
740 | 且
741 | 去
742 | 去不成
743 | 去不去
744 | 却
745 | 却是
746 | 却说
747 | 然而
748 | 然后
749 | 然则
750 | 让
751 | 人家
752 | 任
753 | 任何
754 | 任凭
755 | 仍
756 | 仍旧
757 | 仍然
758 | 如
759 | 如此
760 | 如此这般
761 | 如得
762 | 如果
763 | 如海
764 | 如何
765 | 如今
766 | 如其
767 | 如若
768 | 如上所述
769 | 如是
770 | 如同
771 | 汝
772 | 若
773 | 若非
774 | 若是
775 | 啥
776 | 上次
777 | 上来
778 | 上去
779 | 上头
780 | 上下
781 | 尚
782 | 尚且
783 | 少
784 | 少不得
785 | 设若
786 | 设使
787 | 甚而
788 | 甚么
789 | 甚至
790 | 省得
791 | 什么
792 | 什么样
793 | 时候
794 | 使不得
795 | 使得
796 | 是
797 | 是不是
798 | 是的
799 | 首先
800 | 殊不知
801 | 谁
802 | 谁知
803 | 顺
804 | 顺着
805 | 说
806 | 说不出
807 | 说不出来
808 | 说不得
809 | 说出
810 | 说道
811 | 说起
812 | 说完
813 | 似的
814 | 虽
815 | 虽多
816 | 虽好
817 | 虽然
818 | 虽是
819 | 虽说
820 | 虽未
821 | 虽系
822 | 虽小
823 | 虽有
824 | 虽则
825 | 虽知
826 | 随
827 | 随便
828 | 随分
829 | 随后
830 | 随口
831 | 随身
832 | 随手
833 | 随喜
834 | 随意
835 | 随着
836 | 所
837 | 所见
838 | 所说
839 | 所谓
840 | 所以
841 | 所在
842 | 所致
843 | 他
844 | 他们
845 | 他人
846 | 她
847 | 她们
848 | 它
849 | 它们
850 | 太
851 | 太多
852 | 太过
853 | 倘
854 | 倘或
855 | 倘然
856 | 倘若
857 | 倘使
858 | 腾
859 | 替
860 | 通过
861 | 同
862 | 同时
863 | 哇
864 | 完
865 | 万一
866 | 往
867 | 往常
868 | 往后
869 | 往前
870 | 望
871 | 为
872 | 为的是
873 | 为何
874 | 为了
875 | 为什么
876 | 为着
877 | 喂
878 | 嗡嗡
879 | 我
880 | 我们
881 | 乌乎
882 | 呜
883 | 呜呼
884 | 无
885 | 无碍
886 | 无不
887 | 无精打采
888 | 无可
889 | 无可奈何
890 | 无可如何
891 | 无论
892 | 无奈
893 | 无宁
894 | 无数
895 | 无疑
896 | 毋宁
897 | 兮
898 | 嘻
899 | 下
900 | 下车
901 | 下处
902 | 下次
903 | 下个
904 | 下回分解
905 | 吓
906 | 吓了一跳
907 | 先
908 | 先到
909 | 先回
910 | 先来
911 | 先请
912 | 先去
913 | 先要
914 | 现在
915 | 相对而言
916 | 想必
917 | 想到
918 | 想道
919 | 想想
920 | 想一想
921 | 像
922 | 向
923 | 向着
924 | 笑
925 | 嘘
926 | 呀
927 | 焉
928 | 沿
929 | 沿着
930 | 样子
931 | 要
932 | 要不
933 | 要不然
934 | 要不是
935 | 要么
936 | 要是
937 | 要些
938 | 也
939 | 也罢
940 | 也好
941 | 一
942 | 一把
943 | 一般
944 | 一大堆
945 | 一旦
946 | 一到
947 | 一点
948 | 一点儿
949 | 一方面
950 | 一共
951 | 一件
952 | 一见
953 | 一口
954 | 一口气
955 | 一块
956 | 一块儿
957 | 一来
958 | 一连
959 | 一年半载
960 | 一齐
961 | 一起
962 | 一切
963 | 一时
964 | 一时半刻
965 | 一同
966 | 一下
967 | 一下子
968 | 一样
969 | 一则
970 | 一直
971 | 依
972 | 依照
973 | 咦
974 | 以
975 | 以便
976 | 以后
977 | 以及
978 | 以免
979 | 以至
980 | 以至于
981 | 以致
982 | 已
983 | 已经
984 | 矣
985 | 亦
986 | 抑或
987 | 因
988 | 因此
989 | 因而
990 | 因为
991 | 哟
992 | 用
993 | 用不着
994 | 由
995 | 由此可见
996 | 由于
997 | 有
998 | 有的
999 | 有的是
1000 | 有点
1001 | 有关
1002 | 有何
1003 | 有时
1004 | 有些
1005 | 又
1006 | 于
1007 | 于是
1008 | 于是乎
1009 | 与
1010 | 与此同时
1011 | 与否
1012 | 与其
1013 | 原本
1014 | 原该
1015 | 原来
1016 | 原来如此
1017 | 原是
1018 | 原说
1019 | 原为
1020 | 原委
1021 | 原系
1022 | 原想
1023 | 原要
1024 | 原有
1025 | 怨不得
1026 | 曰
1027 | 越
1028 | 越是
1029 | 云云
1030 | 咋
1031 | 哉
1032 | 再
1033 | 再不然
1034 | 再三
1035 | 再说
1036 | 再要
1037 | 再也
1038 | 再有
1039 | 再者
1040 | 在
1041 | 在下
1042 | 咱
1043 | 咱们
1044 | 则
1045 | 怎
1046 | 怎得
1047 | 怎好
1048 | 怎么
1049 | 怎么办
1050 | 怎么样
1051 | 怎么着
1052 | 怎奈
1053 | 怎能
1054 | 怎生
1055 | 怎样
1056 | 朝
1057 | 朝着
1058 | 照
1059 | 照着
1060 | 者
1061 | 这
1062 | 这般
1063 | 这般光景
1064 | 这边
1065 | 这步田地
1066 | 这才
1067 | 这次
1068 | 这倒
1069 | 这段
1070 | 这儿
1071 | 这番
1072 | 这个
1073 | 这话
1074 | 这回
1075 | 这会儿
1076 | 这就是说
1077 | 这里
1078 | 这么
1079 | 这么点儿
1080 | 这么些
1081 | 这么样
1082 | 这么着
1083 | 这们
1084 | 这时
1085 | 这时候
1086 | 这是
1087 | 这项
1088 | 这些
1089 | 这样
1090 | 着
1091 | 着呢
1092 | 正如
1093 | 之
1094 | 之类
1095 | 之所以
1096 | 之一
1097 | 吱
1098 | 只
1099 | 只不过
1100 | 只当
1101 | 只到
1102 | 只道
1103 | 只得
1104 | 只是
1105 | 只为
1106 | 只限
1107 | 只想
1108 | 只许
1109 | 只要
1110 | 只以
1111 | 只因
1112 | 只用
1113 | 只有
1114 | 只愿
1115 | 至
1116 | 至此
1117 | 至今
1118 | 至于
1119 | 致使
1120 | 诸位
1121 | 丶
1122 | 自
1123 | 自便
1124 | 自不必说
1125 | 自称
1126 | 自吃
1127 | 自此
1128 | 自从
1129 | 自忖
1130 | 自个儿
1131 | 自各儿
1132 | 自古
1133 | 自行
1134 | 自己
1135 | 自家
1136 | 自身
1137 | 自是
1138 | 自思
1139 | 自思道
1140 | 自叹
1141 | 自谓
1142 | 自寻
1143 | 自有
1144 | 自怨
1145 | 自知
1146 | 自作自受
1147 | 综上所述
1148 | 总的来看
1149 | 总的来说
1150 | 总的说来
1151 | 总而言之
1152 | 总共
1153 | 总是
1154 | 总要
1155 | 总之
1156 | 纵
1157 | 纵令
1158 | 纵然
1159 | 纵使
1160 | 最
1161 | 最好
1162 | 最妙
1163 | 最是
1164 | 遵照
1165 | 作为
1166 |
--------------------------------------------------------------------------------