├── LDA_sensitive.ipynb ├── README.md ├── stopWord.txt ├── 微博数据.xls └── 情感词汇本体.xlsx /LDA_sensitive.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"name":"LDA_sensitive.ipynb","provenance":[],"collapsed_sections":["dZ3ZnpW4keMT","ZTb9IPoreRSu","kTpk994H_m6C","0UjoB8FUJjiu","f7Df9pzX_yC7"],"authorship_tag":"ABX9TyNZn6SLpyi3A8vZIM1aEn2+"},"kernelspec":{"name":"python3","display_name":"Python 3"}},"cells":[{"cell_type":"markdown","metadata":{"id":"dZ3ZnpW4keMT"},"source":["##Load Google Drive"]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"Mr2b7mnqCzxr","executionInfo":{"status":"ok","timestamp":1611183120126,"user_tz":-480,"elapsed":1013,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"cd9c0b7d-dee2-4ecc-9773-925aabe16b74"},"source":["#connect google drive\r\n","from google.colab import drive\r\n","drive.mount('/content/drive')"],"execution_count":13,"outputs":[{"output_type":"stream","text":["Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount(\"/content/drive\", force_remount=True).\n"],"name":"stdout"}]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"sY3AqyrVDqUK","executionInfo":{"status":"ok","timestamp":1611183120631,"user_tz":-480,"elapsed":1512,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"117a7a9b-4202-49ec-85ec-cd8ad6fbb52f"},"source":["#access current folder\r\n","!ls\r\n","import os\r\n","os.chdir('/content/drive/My Drive/Project/情感分析')\r\n","!ls\r\n","#!git clone https://github.com/AimeeLee77/keyword_extraction"],"execution_count":14,"outputs":[{"output_type":"stream","text":["LDA_sensitive.ipynb 微博数据.xls 情感词汇本体.xlsx\n","stopWord.txt\t 情感词库.xlsx\n","LDA_sensitive.ipynb 微博数据.xls 情感词汇本体.xlsx\n","stopWord.txt\t 情感词库.xlsx\n"],"name":"stdout"}]},{"cell_type":"markdown","metadata":{"id":"ZTb9IPoreRSu"},"source":["##sensitive corpus"]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"gLs-VZbdYlEi","executionInfo":{"status":"ok","timestamp":1611183126998,"user_tz":-480,"elapsed":7873,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"140a7a3d-b4ca-4c7c-c15f-e94ee355f73f"},"source":["import pandas as pd\r\n","import jieba\r\n","import time\r\n","\r\n","def sensitive_corpus():\r\n"," '''\r\n"," 生成positive和negative的词库\r\n"," '''\r\n"," df = pd.read_excel('情感词汇本体.xlsx')\r\n"," print(df.head(2))\r\n"," Happy = []\r\n"," Good = []\r\n"," Surprise = []\r\n"," Anger = []\r\n"," Sad = []\r\n"," Fear = []\r\n"," Disgust = []\r\n"," for idx, row in df.iterrows():\r\n"," if row['情感分类'] in ['PA', 'PE']:\r\n"," Happy.append(row['词语'])\r\n"," if row['情感分类'] in ['PD', 'PH', 'PG', 'PB', 'PK']:\r\n"," Good.append(row['词语']) \r\n"," if row['情感分类'] in ['PC']:\r\n"," Surprise.append(row['词语']) \r\n"," if row['情感分类'] in ['NA']:\r\n"," Anger.append(row['词语']) \r\n"," if row['情感分类'] in ['NB', 'NJ', 'NH', 'PF']:\r\n"," Sad.append(row['词语'])\r\n"," if row['情感分类'] in ['NI', 'NC', 'NG']:\r\n"," Fear.append(row['词语'])\r\n"," if row['情感分类'] in ['NE', 'ND', 'NN', 'NK', 'NL']:\r\n"," Disgust.append(row['词语'])\r\n"," Positive = Happy + Good +Surprise\r\n"," Negative = Anger + Sad + Fear + Disgust\r\n"," print('情绪词语列表整理完成') \r\n"," return Positive, Negative\r\n","\r\n","def emotion_caculate(text):\r\n"," '''\r\n"," 计算每一段文本的情感分数\r\n"," '''\r\n"," positive = 0\r\n"," negative = 0\r\n"," wordlist = jieba.lcut(text)\r\n"," wordset = set(wordlist)\r\n"," wordfreq = []\r\n"," for word in wordset:\r\n"," freq = wordlist.count(word)\r\n"," if word in Positive:\r\n"," positive+=freq\r\n"," if word in Negative:\r\n"," negative+=freq\r\n"," emotion_info = {\r\n"," 'positive': positive,\r\n"," 'negative': negative,\r\n"," }\r\n"," indexs = ['positive', 'negative']\r\n"," return pd.Series(emotion_info, index=indexs)\r\n","\r\n","Positive, Negative = sensitive_corpus()"],"execution_count":15,"outputs":[{"output_type":"stream","text":[" 词语 词性种类 词义数 词义序号 情感分类 强度 极性 辅助情感分类 强度.1 极性.1 Unnamed: 10 Unnamed: 11\n","0 脏乱 adj 1.0 1.0 NN 7 2 NaN NaN NaN NaN NaN\n","1 糟报 adj 1.0 1.0 NN 5 2 NaN NaN NaN NaN NaN\n","情绪词语列表整理完成\n"],"name":"stdout"}]},{"cell_type":"markdown","metadata":{"id":"kTpk994H_m6C"},"source":["##sensitive analysis"]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"QzaacozQfb11","executionInfo":{"status":"ok","timestamp":1611183141738,"user_tz":-480,"elapsed":22609,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"d98b9ca5-a930-49de-b452-fb436c1ed849"},"source":["!pip3 install pandarallel\r\n","import numpy as np\r\n","import pandas as pd\r\n","import matplotlib.pyplot as plt\r\n","from pandarallel import pandarallel\r\n","\r\n","def data_pp():\r\n"," '''\r\n"," 为每条文本赋予对应的情绪分数\r\n"," '''\r\n"," weibo = pd.read_excel('微博数据.xls',sheet_name = 1).astype(str).iloc[:,2:3]#sheet name 为不同的表\r\n"," weibo = weibo.dropna()\r\n"," print(weibo.head())\r\n"," #并行初始化\r\n"," pandarallel.initialize()\r\n"," start = time.time() \r\n"," emotion_df = weibo['正文'].parallel_apply(emotion_caculate)\r\n"," #emotion_df = weibo_df['review'].apply(emotion_caculate)\r\n"," end = time.time()\r\n"," print(end-start)\r\n"," print(emotion_df.head())\r\n"," #将情绪分数转化为二值\r\n"," emotion_df['po>ne'] = [1 if emotion_df['positive'][i]>=emotion_df['negative'][i] else 0 for i in range(len(emotion_df))]\r\n"," emotion_df.head()\r\n"," #将文本与对应的情感合并\r\n"," output_df = pd.concat([weibo, emotion_df['po>ne']], axis=1)\r\n"," output_df.head()\r\n"," return output_df\r\n","\r\n","def split_data(output_df):\r\n"," '''\r\n"," 把两种情感分别保存在两个表中\r\n"," '''\r\n"," po = []\r\n"," ne = []\r\n"," for i, value in enumerate(output_df['po>ne']):\r\n"," if value==1:\r\n"," po.append(output_df['正文'][i])\r\n"," else:\r\n"," ne.append(output_df['正文'][i])\r\n"," print('len(po)\\n',len(po))\r\n"," print('len(ne)\\n',len(ne))\r\n"," po = pd.DataFrame(po)\r\n"," ne = pd.DataFrame(ne)\r\n"," print('po.head()\\n',po.head())\r\n"," return po, ne\r\n"," \r\n","output_df = data_pp()\r\n","po, ne = split_data(output_df)"],"execution_count":16,"outputs":[{"output_type":"stream","text":["Requirement already satisfied: pandarallel in /usr/local/lib/python3.6/dist-packages (1.5.1)\n","Requirement already satisfied: dill in /usr/local/lib/python3.6/dist-packages (from pandarallel) (0.3.3)\n"," 正文\n","0 通州早就比首都拥堵了,这下该挤爆了 //@RODGA:然后通州也变北京那样[doge][do...\n","1 北京减负,疏散非首都功能,最该迁出去的就是央企总部。像中外运长航、三峡集团、中国能源建设集团...\n","2 不是疏散北京非首都功能吗? //【宝沃国产项目落户北京 斥资50亿搞研发】宝沃国产项目落户北...\n","3 【疏解北京】《纲要》明确了京津冀区域的目标定位,即要打造成以首都为核心的世界级城市群。这表明...\n","4 #生态京津冀#“以减法换加法”。近年来,本市非首都功能产业疏散的减法换来园林绿化建设的加法。...\n","INFO: Pandarallel will run on 2 workers.\n","INFO: Pandarallel will use Memory file system to transfer data between the main process and workers.\n","11.48845100402832\n"," positive negative\n","0 1 1\n","1 2 1\n","2 0 1\n","3 4 2\n","4 5 0\n","len(po)\n"," 233\n","len(ne)\n"," 19\n","po.head()\n"," 0\n","0 通州早就比首都拥堵了,这下该挤爆了 //@RODGA:然后通州也变北京那样[doge][do...\n","1 北京减负,疏散非首都功能,最该迁出去的就是央企总部。像中外运长航、三峡集团、中国能源建设集团...\n","2 【疏解北京】《纲要》明确了京津冀区域的目标定位,即要打造成以首都为核心的世界级城市群。这表明...\n","3 #生态京津冀#“以减法换加法”。近年来,本市非首都功能产业疏散的减法换来园林绿化建设的加法。...\n","4 北京市为了疏散人口,转移非首都功能,立志要把全部或部分行政事业单位迁出,劳民伤财啊?能不能不...\n"],"name":"stdout"}]},{"cell_type":"markdown","metadata":{"id":"0UjoB8FUJjiu"},"source":["##data pre-processing"]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"OCC9XYTgD83R","executionInfo":{"status":"ok","timestamp":1611183146038,"user_tz":-480,"elapsed":26903,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"411ed1fc-0709-4858-94c4-55934a765f08"},"source":["import sys,codecs\r\n","import jieba.posseg\r\n","import jieba.analyse\r\n","\r\n","def dataPrepos(text, stopkey):\r\n"," '''\r\n"," 数据预处理操作:分词,去停用词,词性筛选\r\n"," '''\r\n"," l = []\r\n"," pos = ['n', 'nz', 'v', 'vd', 'vn', 'l', 'a', 'd'] # 定义选取的词性\r\n"," seg = jieba.posseg.cut(text) # 分词\r\n"," for i in seg:\r\n"," if i.word not in stopkey and i.flag in pos: # 去停用词 + 词性筛选\r\n"," l.append(i.word)\r\n"," return l\r\n","\r\n","def data_pp(data, stopkey):\r\n"," '''\r\n"," 对每一行文本预处理\r\n"," '''\r\n"," idList, abstractList = data.index, data[0]\r\n"," corpus = [] # 将所有文档输出到一个list中,一行就是一个文档\r\n"," for index in range(len(idList)):\r\n"," text = abstractList[index] # \r\n"," text = dataPrepos(text,stopkey) # 文本预处理\r\n"," #text = \",\".join(text) # 连接成字符串,空格分隔\r\n"," corpus.append(text)\r\n"," print(corpus[1:3])\r\n"," return corpus\r\n","\r\n","stopkey = [w.strip() for w in codecs.open('stopWord.txt', 'r').readlines()]\r\n","data = po#选择positive的情感\r\n","corpus = data_pp(data, stopkey)"],"execution_count":17,"outputs":[{"output_type":"stream","text":["[['减负', '疏散', '首都', '功能', '最该', '迁出去', '总部', '集团', '能源建设', '集团', '集团', '石油', '铝业', '必要', '总部', '设在', '迁来', '领导', '经济', '利益', '欢迎', '总部', '加剧', '企业', '总部', '功能', '首都', '功能'], ['疏解', '纲要', '京津冀', '区域', '目标', '定位', '造成', '首都', '核心', '世界级', '城市群', '表明', '低端', '产业', '疏散', '发展', '区域', '辐射', '作用', '高端', '产业', '重点', '疏散', '首都', '功能', '一定', '时间段', '主城区', '人口', '降下来', '重点', '在于', '人口', '重新聚集']]\n"],"name":"stdout"}]},{"cell_type":"markdown","metadata":{"id":"f7Df9pzX_yC7"},"source":["##LDA "]},{"cell_type":"code","metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"Dh3IBhHG_Hvy","executionInfo":{"status":"ok","timestamp":1611183146594,"user_tz":-480,"elapsed":27454,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}},"outputId":"8bf0053e-eb50-4886-b650-a7f09b505707"},"source":["from gensim import corpora,models\n","import re\n","\n","def lda_result(corpus):\n"," # 主题分析\n"," neg_dict = corpora.Dictionary(corpus)\n"," neg_corpus = [neg_dict.doc2bow(i) for i in corpus]\n"," neg_lda = models.LdaModel(neg_corpus,num_topics = 3,id2word = neg_dict)\n"," neg_theme = neg_lda.show_topics()\n"," # print(neg_theme)#展示主题\n"," pattern = re.compile(r'[\\u4e00-\\u9fa5]+')\n"," print(pattern.findall(neg_theme[0][1]))# 取出高频词\n"," pos_key_words =[]\n"," for i in range(3):\n"," pos_key_words.append(pattern.findall(neg_theme[i][1]))\n"," pos_key_words = pd.DataFrame(data=pos_key_words,index=['主题1','主题2','主题3'])\n"," print(pos_key_words) \n"," return pos_key_words\n","\n","record_topic = lda_result(corpus)"],"execution_count":18,"outputs":[{"output_type":"stream","text":["['投资', '首都', '发展', '功能', '疏散', '产业', '经济', '物流', '国际', '京津冀']\n"," 0 1 2 3 4 5 6 7 8 9\n","主题1 投资 首都 发展 功能 疏散 产业 经济 物流 国际 京津冀\n","主题2 功能 首都 疏散 投资 雄安 发展 产业 企业 经济 物流\n","主题3 投资 发展 产业 功能 经济 雾 首都 疏散 企业 大哥\n"],"name":"stdout"}]},{"cell_type":"code","metadata":{"id":"0bX_Ggg7_Q8S","executionInfo":{"status":"ok","timestamp":1611183146595,"user_tz":-480,"elapsed":27453,"user":{"displayName":"Expss Xu","photoUrl":"","userId":"17480852382145563764"}}},"source":[""],"execution_count":18,"outputs":[]}]} -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Chinese-Sensitive-Analysis-and-LDA-Topic 2 | 使用中文情感词汇本体库进行情感分析,之后对每种情感的文本进行主题分析。Using Chinese Sensitive Dictionary for Sensitive Analysis, Then applying LDA Topic Analysis for each Emotion. 3 | -------------------------------------------------------------------------------- /stopWord.txt: -------------------------------------------------------------------------------- 1 | 银行 2 | 支行 3 | 办理 4 | 告知 5 | 女士 6 | 村民 7 | 先生 8 | 认为 9 | 进行 10 | 给予 11 | 街道 12 | 口镇 13 | 小区 14 | 办事处 15 | 进行 16 | 给予 17 | 认为 18 | 来电 19 | 处理 20 | 反映 21 | 希望 22 | 相关 23 | 落实 24 | 回复 25 | 单位 26 | 要求 27 | 包括 28 | 相对 29 | 免受 30 | 用于 31 | 结合 32 | , 33 | ? 34 | 、 35 | 。 36 | “ 37 | ” 38 | 《 39 | 》 40 | ! 41 | , 42 | : 43 | ; 44 | ? 45 | 人民 46 | 末##末 47 | 啊 48 | 阿 49 | 哎 50 | 哎呀 51 | 哎哟 52 | 唉 53 | 俺 54 | 俺们 55 | 按 56 | 按照 57 | 吧 58 | 吧哒 59 | 把 60 | 罢了 61 | 被 62 | 本 63 | 本着 64 | 比 65 | 比方 66 | 比如 67 | 鄙人 68 | 彼 69 | 彼此 70 | 边 71 | 别 72 | 别的 73 | 别说 74 | 并 75 | 并且 76 | 不比 77 | 不成 78 | 不单 79 | 不但 80 | 不独 81 | 不管 82 | 不光 83 | 不过 84 | 不仅 85 | 不拘 86 | 不论 87 | 不怕 88 | 不然 89 | 不如 90 | 不特 91 | 不惟 92 | 不问 93 | 不只 94 | 朝 95 | 朝着 96 | 趁 97 | 趁着 98 | 乘 99 | 冲 100 | 除 101 | 除此之外 102 | 除非 103 | 除了 104 | 此 105 | 此间 106 | 此外 107 | 从 108 | 从而 109 | 打 110 | 待 111 | 但 112 | 但是 113 | 当 114 | 当着 115 | 到 116 | 得 117 | 的 118 | 的话 119 | 等 120 | 等等 121 | 地 122 | 第 123 | 叮咚 124 | 对 125 | 对于 126 | 多 127 | 多少 128 | 而 129 | 而况 130 | 而且 131 | 而是 132 | 而外 133 | 而言 134 | 而已 135 | 尔后 136 | 反过来 137 | 反过来说 138 | 反之 139 | 非但 140 | 非徒 141 | 否则 142 | 嘎 143 | 嘎登 144 | 该 145 | 赶 146 | 个 147 | 各 148 | 各个 149 | 各位 150 | 各种 151 | 各自 152 | 给 153 | 根据 154 | 跟 155 | 故 156 | 故此 157 | 固然 158 | 关于 159 | 管 160 | 归 161 | 果然 162 | 果真 163 | 过 164 | 哈 165 | 哈哈 166 | 呵 167 | 和 168 | 何 169 | 何处 170 | 何况 171 | 何时 172 | 嘿 173 | 哼 174 | 哼唷 175 | 呼哧 176 | 乎 177 | 哗 178 | 还是 179 | 还有 180 | 换句话说 181 | 换言之 182 | 或 183 | 或是 184 | 或者 185 | 极了 186 | 及 187 | 及其 188 | 及至 189 | 即 190 | 即便 191 | 即或 192 | 即令 193 | 即若 194 | 即使 195 | 几 196 | 几时 197 | 己 198 | 既 199 | 既然 200 | 既是 201 | 继而 202 | 加之 203 | 假如 204 | 假若 205 | 假使 206 | 鉴于 207 | 将 208 | 较 209 | 较之 210 | 叫 211 | 接着 212 | 结果 213 | 借 214 | 紧接着 215 | 进而 216 | 尽 217 | 尽管 218 | 经 219 | 经过 220 | 就 221 | 就是 222 | 就是说 223 | 据 224 | 具体地说 225 | 具体说来 226 | 开始 227 | 开外 228 | 靠 229 | 咳 230 | 可 231 | 可见 232 | 可是 233 | 可以 234 | 况且 235 | 啦 236 | 来 237 | 来着 238 | 离 239 | 例如 240 | 哩 241 | 连 242 | 连同 243 | 两者 244 | 了 245 | 临 246 | 另 247 | 另外 248 | 另一方面 249 | 论 250 | 嘛 251 | 吗 252 | 慢说 253 | 漫说 254 | 冒 255 | 么 256 | 每 257 | 每当 258 | 们 259 | 莫若 260 | 某 261 | 某个 262 | 某些 263 | 拿 264 | 哪 265 | 哪边 266 | 哪儿 267 | 哪个 268 | 哪里 269 | 哪年 270 | 哪怕 271 | 哪天 272 | 哪些 273 | 哪样 274 | 那 275 | 那边 276 | 那儿 277 | 那个 278 | 那会儿 279 | 那里 280 | 那么 281 | 那么些 282 | 那么样 283 | 那时 284 | 那些 285 | 那样 286 | 乃 287 | 乃至 288 | 呢 289 | 能 290 | 你 291 | 你们 292 | 您 293 | 宁 294 | 宁可 295 | 宁肯 296 | 宁愿 297 | 哦 298 | 呕 299 | 啪达 300 | 旁人 301 | 呸 302 | 凭 303 | 凭借 304 | 其 305 | 其次 306 | 其二 307 | 其他 308 | 其它 309 | 其一 310 | 其余 311 | 其中 312 | 起 313 | 起见 314 | 岂但 315 | 恰恰相反 316 | 前后 317 | 前者 318 | 且 319 | 然而 320 | 然后 321 | 然则 322 | 让 323 | 人家 324 | 任 325 | 任何 326 | 任凭 327 | 如 328 | 如此 329 | 如果 330 | 如何 331 | 如其 332 | 如若 333 | 如上所述 334 | 若 335 | 若非 336 | 若是 337 | 啥 338 | 上下 339 | 尚且 340 | 设若 341 | 设使 342 | 甚而 343 | 甚么 344 | 甚至 345 | 省得 346 | 时候 347 | 什么 348 | 什么样 349 | 使得 350 | 是 351 | 是的 352 | 首先 353 | 谁 354 | 谁知 355 | 顺 356 | 顺着 357 | 似的 358 | 虽 359 | 虽然 360 | 虽说 361 | 虽则 362 | 随 363 | 随着 364 | 所 365 | 所以 366 | 他 367 | 他们 368 | 他人 369 | 它 370 | 它们 371 | 她 372 | 她们 373 | 倘 374 | 倘或 375 | 倘然 376 | 倘若 377 | 倘使 378 | 腾 379 | 替 380 | 通过 381 | 同 382 | 同时 383 | 哇 384 | 万一 385 | 往 386 | 望 387 | 为 388 | 为何 389 | 为了 390 | 为什么 391 | 为着 392 | 喂 393 | 嗡嗡 394 | 我 395 | 我们 396 | 呜 397 | 呜呼 398 | 乌乎 399 | 无论 400 | 无宁 401 | 毋宁 402 | 嘻 403 | 吓 404 | 相对而言 405 | 像 406 | 向 407 | 向着 408 | 嘘 409 | 呀 410 | 焉 411 | 沿 412 | 沿着 413 | 要 414 | 要不 415 | 要不然 416 | 要不是 417 | 要么 418 | 要是 419 | 也 420 | 也罢 421 | 也好 422 | 一 423 | 一般 424 | 一旦 425 | 一方面 426 | 一来 427 | 一切 428 | 一样 429 | 一则 430 | 依 431 | 依照 432 | 矣 433 | 以 434 | 以便 435 | 以及 436 | 以免 437 | 以至 438 | 以至于 439 | 以致 440 | 抑或 441 | 因 442 | 因此 443 | 因而 444 | 因为 445 | 哟 446 | 用 447 | 由 448 | 由此可见 449 | 由于 450 | 有 451 | 有的 452 | 有关 453 | 有些 454 | 又 455 | 于 456 | 于是 457 | 于是乎 458 | 与 459 | 与此同时 460 | 与否 461 | 与其 462 | 越是 463 | 云云 464 | 哉 465 | 再说 466 | 再者 467 | 在 468 | 在下 469 | 咱 470 | 咱们 471 | 则 472 | 怎 473 | 怎么 474 | 怎么办 475 | 怎么样 476 | 怎样 477 | 咋 478 | 照 479 | 照着 480 | 者 481 | 这 482 | 这边 483 | 这儿 484 | 这个 485 | 这会儿 486 | 这就是说 487 | 这里 488 | 这么 489 | 这么点儿 490 | 这么些 491 | 这么样 492 | 这时 493 | 这些 494 | 这样 495 | 正如 496 | 吱 497 | 之 498 | 之类 499 | 之所以 500 | 之一 501 | 只是 502 | 只限 503 | 只要 504 | 只有 505 | 至 506 | 至于 507 | 诸位 508 | 着 509 | 着呢 510 | 自 511 | 自从 512 | 自个儿 513 | 自各儿 514 | 自己 515 | 自家 516 | 自身 517 | 综上所述 518 | 总的来看 519 | 总的来说 520 | 总的说来 521 | 总而言之 522 | 总之 523 | 纵 524 | 纵令 525 | 纵然 526 | 纵使 527 | 遵照 528 | 作为 529 | 兮 530 | 呃 531 | 呗 532 | 咚 533 | 咦 534 | 喏 535 | 啐 536 | 喔唷 537 | 嗬 538 | 嗯 539 | 嗳 540 | ~ 541 | ! 542 | . 543 | : 544 | " 545 | ' 546 | ( 547 | ) 548 | * 549 | A 550 | 白 551 | 社会主义 552 | -- 553 | .. 554 | >> 555 | [ 556 | ] 557 | 558 | < 559 | > 560 | / 561 | \ 562 | | 563 | - 564 | _ 565 | + 566 | = 567 | & 568 | ^ 569 | % 570 | # 571 | @ 572 | ` 573 | ; 574 | $ 575 | ( 576 | ) 577 | —— 578 | — 579 | ¥ 580 | · 581 | ... 582 | ‘ 583 | ’ 584 | 〉 585 | 〈 586 | … 587 |   588 | 0 589 | 1 590 | 2 591 | 3 592 | 4 593 | 5 594 | 6 595 | 7 596 | 8 597 | 9 598 | 0 599 | 1 600 | 2 601 | 3 602 | 4 603 | 5 604 | 6 605 | 7 606 | 8 607 | 9 608 | 二 609 | 三 610 | 四 611 | 五 612 | 六 613 | 七 614 | 八 615 | 九 616 | 零 617 | > 618 | < 619 | @ 620 | # 621 | $ 622 | % 623 | ︿ 624 | & 625 | * 626 | + 627 | ~ 628 | | 629 | [ 630 | ] 631 | { 632 | } 633 | 啊哈 634 | 啊呀 635 | 啊哟 636 | 挨次 637 | 挨个 638 | 挨家挨户 639 | 挨门挨户 640 | 挨门逐户 641 | 挨着 642 | 按理 643 | 按期 644 | 按时 645 | 按说 646 | 暗地里 647 | 暗中 648 | 暗自 649 | 昂然 650 | 八成 651 | 白白 652 | 半 653 | 梆 654 | 保管 655 | 保险 656 | 饱 657 | 背地里 658 | 背靠背 659 | 倍感 660 | 倍加 661 | 本人 662 | 本身 663 | 甭 664 | 比起 665 | 比如说 666 | 比照 667 | 毕竟 668 | 必 669 | 必定 670 | 必将 671 | 必须 672 | 便 673 | 别人 674 | 并非 675 | 并肩 676 | 并没 677 | 并没有 678 | 并排 679 | 并无 680 | 勃然 681 | 不 682 | 不必 683 | 不常 684 | 不大 685 | 不但...而且 686 | 不得 687 | 不得不 688 | 不得了 689 | 不得已 690 | 不迭 691 | 不定 692 | 不对 693 | 不妨 694 | 不管怎样 695 | 不会 696 | 不仅...而且 697 | 不仅仅 698 | 不仅仅是 699 | 不经意 700 | 不可开交 701 | 不可抗拒 702 | 不力 703 | 不了 704 | 不料 705 | 不满 706 | 不免 707 | 不能不 708 | 不起 709 | 不巧 710 | 不然的话 711 | 不日 712 | 不少 713 | 不胜 714 | 不时 715 | 不是 716 | 不同 717 | 不能 718 | 不要 719 | 不外 720 | 不外乎 721 | 不下 722 | 不限 723 | 不消 724 | 不已 725 | 不亦乐乎 726 | 不由得 727 | 不再 728 | 不择手段 729 | 不怎么 730 | 不曾 731 | 不知不觉 732 | 不止 733 | 不止一次 734 | 不至于 735 | 才 736 | 才能 737 | 策略地 738 | 差不多 739 | 差一点 740 | 常 741 | 常常 742 | 常言道 743 | 常言说 744 | 常言说得好 745 | 长此下去 746 | 长话短说 747 | 长期以来 748 | 长线 749 | 敞开儿 750 | 彻夜 751 | 陈年 752 | 趁便 753 | 趁机 754 | 趁热 755 | 趁势 756 | 趁早 757 | 成年 758 | 成年累月 759 | 成心 760 | 乘机 761 | 乘胜 762 | 乘势 763 | 乘隙 764 | 乘虚 765 | 诚然 766 | 迟早 767 | 充分 768 | 充其极 769 | 充其量 770 | 抽冷子 771 | 臭 772 | 初 773 | 出 774 | 出来 775 | 出去 776 | 除此 777 | 除此而外 778 | 除此以外 779 | 除开 780 | 除去 781 | 除却 782 | 除外 783 | 处处 784 | 川流不息 785 | 传 786 | 传说 787 | 传闻 788 | 串行 789 | 纯 790 | 纯粹 791 | 此后 792 | 此中 793 | 次第 794 | 匆匆 795 | 从不 796 | 从此 797 | 从此以后 798 | 从古到今 799 | 从古至今 800 | 从今以后 801 | 从宽 802 | 从来 803 | 从轻 804 | 从速 805 | 从头 806 | 从未 807 | 从无到有 808 | 从小 809 | 从新 810 | 从严 811 | 从优 812 | 从早到晚 813 | 从中 814 | 从重 815 | 凑巧 816 | 粗 817 | 存心 818 | 达旦 819 | 打从 820 | 打开天窗说亮话 821 | 大 822 | 大不了 823 | 大大 824 | 大抵 825 | 大都 826 | 大多 827 | 大凡 828 | 大概 829 | 大家 830 | 大举 831 | 大略 832 | 大面儿上 833 | 大事 834 | 大体 835 | 大体上 836 | 大约 837 | 大张旗鼓 838 | 大致 839 | 呆呆地 840 | 带 841 | 殆 842 | 待到 843 | 单 844 | 单纯 845 | 单单 846 | 但愿 847 | 弹指之间 848 | 当场 849 | 当儿 850 | 当即 851 | 当口儿 852 | 当然 853 | 当庭 854 | 当头 855 | 当下 856 | 当真 857 | 当中 858 | 倒不如 859 | 倒不如说 860 | 倒是 861 | 到处 862 | 到底 863 | 到了儿 864 | 到目前为止 865 | 到头 866 | 到头来 867 | 得起 868 | 得天独厚 869 | 的确 870 | 等到 871 | 叮当 872 | 顶多 873 | 定 874 | 动不动 875 | 动辄 876 | 陡然 877 | 都 878 | 独 879 | 独自 880 | 断然 881 | 顿时 882 | 多次 883 | 多多 884 | 多多少少 885 | 多多益善 886 | 多亏 887 | 多年来 888 | 多年前 889 | 而后 890 | 而论 891 | 而又 892 | 尔等 893 | 二话不说 894 | 二话没说 895 | 反倒 896 | 反倒是 897 | 反而 898 | 反手 899 | 反之亦然 900 | 反之则 901 | 方 902 | 方才 903 | 方能 904 | 放量 905 | 非常 906 | 非得 907 | 分期 908 | 分期分批 909 | 分头 910 | 奋勇 911 | 愤然 912 | 风雨无阻 913 | 逢 914 | 弗 915 | 甫 916 | 嘎嘎 917 | 该当 918 | 概 919 | 赶快 920 | 赶早不赶晚 921 | 敢 922 | 敢情 923 | 敢于 924 | 刚 925 | 刚才 926 | 刚好 927 | 刚巧 928 | 高低 929 | 格外 930 | 隔日 931 | 隔夜 932 | 个人 933 | 各式 934 | 更 935 | 更加 936 | 更进一步 937 | 更为 938 | 公然 939 | 共 940 | 共总 941 | 够瞧的 942 | 姑且 943 | 古来 944 | 故而 945 | 故意 946 | 固 947 | 怪 948 | 怪不得 949 | 惯常 950 | 光 951 | 光是 952 | 归根到底 953 | 归根结底 954 | 过于 955 | 毫不 956 | 毫无 957 | 毫无保留地 958 | 毫无例外 959 | 好在 960 | 何必 961 | 何尝 962 | 何妨 963 | 何苦 964 | 何乐而不为 965 | 何须 966 | 何止 967 | 很 968 | 很多 969 | 很少 970 | 轰然 971 | 后来 972 | 呼啦 973 | 忽地 974 | 忽然 975 | 互 976 | 互相 977 | 哗啦 978 | 话说 979 | 还 980 | 恍然 981 | 会 982 | 豁然 983 | 活 984 | 伙同 985 | 或多或少 986 | 或许 987 | 基本 988 | 基本上 989 | 基于 990 | 极 991 | 极大 992 | 极度 993 | 极端 994 | 极力 995 | 极其 996 | 极为 997 | 急匆匆 998 | 即将 999 | 即刻 1000 | 即是说 1001 | 几度 1002 | 几番 1003 | 几乎 1004 | 几经 1005 | 既...又 1006 | 继之 1007 | 加上 1008 | 加以 1009 | 间或 1010 | 简而言之 1011 | 简言之 1012 | 简直 1013 | 见 1014 | 将才 1015 | 将近 1016 | 将要 1017 | 交口 1018 | 较比 1019 | 较为 1020 | 接连不断 1021 | 接下来 1022 | 皆可 1023 | 截然 1024 | 截至 1025 | 藉以 1026 | 借此 1027 | 借以 1028 | 届时 1029 | 仅 1030 | 仅仅 1031 | 谨 1032 | 进来 1033 | 进去 1034 | 近 1035 | 近几年来 1036 | 近来 1037 | 近年来 1038 | 尽管如此 1039 | 尽可能 1040 | 尽快 1041 | 尽量 1042 | 尽然 1043 | 尽如人意 1044 | 尽心竭力 1045 | 尽心尽力 1046 | 尽早 1047 | 精光 1048 | 经常 1049 | 竟 1050 | 竟然 1051 | 究竟 1052 | 就此 1053 | 就地 1054 | 就算 1055 | 居然 1056 | 局外 1057 | 举凡 1058 | 据称 1059 | 据此 1060 | 据实 1061 | 据说 1062 | 据我所知 1063 | 据悉 1064 | 具体来说 1065 | 决不 1066 | 决非 1067 | 绝 1068 | 绝不 1069 | 绝顶 1070 | 绝对 1071 | 绝非 1072 | 均 1073 | 喀 1074 | 看 1075 | 看来 1076 | 看起来 1077 | 看上去 1078 | 看样子 1079 | 可好 1080 | 可能 1081 | 恐怕 1082 | 快 1083 | 快要 1084 | 来不及 1085 | 来得及 1086 | 来讲 1087 | 来看 1088 | 拦腰 1089 | 牢牢 1090 | 老 1091 | 老大 1092 | 老老实实 1093 | 老是 1094 | 累次 1095 | 累年 1096 | 理当 1097 | 理该 1098 | 理应 1099 | 历 1100 | 立 1101 | 立地 1102 | 立刻 1103 | 立马 1104 | 立时 1105 | 联袂 1106 | 连连 1107 | 连日 1108 | 连日来 1109 | 连声 1110 | 连袂 1111 | 临到 1112 | 另方面 1113 | 另行 1114 | 另一个 1115 | 路经 1116 | 屡 1117 | 屡次 1118 | 屡次三番 1119 | 屡屡 1120 | 缕缕 1121 | 率尔 1122 | 率然 1123 | 略 1124 | 略加 1125 | 略微 1126 | 略为 1127 | 论说 1128 | 马上 1129 | 蛮 1130 | 满 1131 | 没 1132 | 没有 1133 | 每逢 1134 | 每每 1135 | 每时每刻 1136 | 猛然 1137 | 猛然间 1138 | 莫 1139 | 莫不 1140 | 莫非 1141 | 莫如 1142 | 默默地 1143 | 默然 1144 | 呐 1145 | 那末 1146 | 奈 1147 | 难道 1148 | 难得 1149 | 难怪 1150 | 难说 1151 | 内 1152 | 年复一年 1153 | 凝神 1154 | 偶而 1155 | 偶尔 1156 | 怕 1157 | 砰 1158 | 碰巧 1159 | 譬如 1160 | 偏偏 1161 | 乒 1162 | 平素 1163 | 颇 1164 | 迫于 1165 | 扑通 1166 | 其后 1167 | 其实 1168 | 奇 1169 | 齐 1170 | 起初 1171 | 起来 1172 | 起首 1173 | 起头 1174 | 起先 1175 | 岂 1176 | 岂非 1177 | 岂止 1178 | 迄 1179 | 恰逢 1180 | 恰好 1181 | 恰恰 1182 | 恰巧 1183 | 恰如 1184 | 恰似 1185 | 千 1186 | 千万 1187 | 千万千万 1188 | 切 1189 | 切不可 1190 | 切莫 1191 | 切切 1192 | 切勿 1193 | 窃 1194 | 亲口 1195 | 亲身 1196 | 亲手 1197 | 亲眼 1198 | 亲自 1199 | 顷 1200 | 顷刻 1201 | 顷刻间 1202 | 顷刻之间 1203 | 请勿 1204 | 穷年累月 1205 | 取道 1206 | 去 1207 | 权时 1208 | 全都 1209 | 全力 1210 | 全年 1211 | 全然 1212 | 全身心 1213 | 然 1214 | 人人 1215 | 仍 1216 | 仍旧 1217 | 仍然 1218 | 日复一日 1219 | 日见 1220 | 日渐 1221 | 日益 1222 | 日臻 1223 | 如常 1224 | 如此等等 1225 | 如次 1226 | 如今 1227 | 如期 1228 | 如前所述 1229 | 如上 1230 | 如下 1231 | 汝 1232 | 三番两次 1233 | 三番五次 1234 | 三天两头 1235 | 瑟瑟 1236 | 沙沙 1237 | 上 1238 | 上来 1239 | 上去 -------------------------------------------------------------------------------- /微博数据.xls: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/stxupengyu/Chinese-Sentiment-Analysis-and-LDA-Topic/fc0c5f18d48eaf8f1481445bdeefe62437db869a/微博数据.xls -------------------------------------------------------------------------------- /情感词汇本体.xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/stxupengyu/Chinese-Sentiment-Analysis-and-LDA-Topic/fc0c5f18d48eaf8f1481445bdeefe62437db869a/情感词汇本体.xlsx --------------------------------------------------------------------------------