├── .DS_Store ├── .ipynb_checkpoints └── meng_models-checkpoint.ipynb ├── Behavior_Analysis ├── Data Exploration Plot │ ├── 01.png │ ├── 02.png │ ├── 03.png │ ├── 04.png │ ├── 05.png │ ├── 06.png │ ├── 07.png │ ├── 08.png │ ├── 09.png │ ├── 10.png │ └── 11.png └── EDA+Model.ipynb ├── README.md └── SentimentAnalysis ├── 01-data_prep_EDA.ipynb ├── 02-tokenization.ipynb ├── 03-preprocessing.ipynb ├── 04-models.ipynb ├── data └── train_df.csv └── stopwords.txt /.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/.DS_Store -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/01.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/01.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/02.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/02.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/03.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/03.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/04.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/04.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/05.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/05.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/06.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/06.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/07.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/07.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/08.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/08.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/09.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/09.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/10.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/10.png -------------------------------------------------------------------------------- /Behavior_Analysis/Data Exploration Plot/11.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/LakiLiu/Covid-19-Analysis/0905894869d861e6f8beab986d3b4fd6be170532/Behavior_Analysis/Data Exploration Plot/11.png -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Covid-19-Analysis 2 | 3 | ### 1. Covid-19 Human Behaviour Analysis: A creative Reseach 4 | ##### (A) Description: 5 | - Herd Behavior is commonly used in Financial Markets to predict uncertainty. 6 | - Common Models : Econometrics Regression and Time Series 7 | - Research Value : Very Rarely applied in the Covid-19 Mobility case but Human behavior uncertainty affects the policy effectiveness 8 | 9 | #### (B) Model: 10 | - Baseline Model : Bayesian Ridge Regression 11 | 12 | --- 13 | ### 2. Covid-19 Sentiment Analysis: A Chinese NLP Study 14 | ##### (A) Description: 15 | - The dataset was based on 230 keywords related to the topic of COVID, and a total of 1 million blogs were collected from 1 January 2020 to 20 February 2020. THis includes sentiments : 1 (positive), 0 (neutral) and -1 (negative) 16 | (数据集依据与“新冠肺炎”相关的230个主题关键词进行数据采集,抓取了2020年1月1日—2020年2月20日期间共计100万条微博数据,并对其中10万条数据进行人工标注,标注分为三类,分别为:1(积极),0(中性)和-1(消极)) 17 | - 评价指标 Evaluation Matrix: Macro-F1 score 18 | 19 | #### (B) Model: 20 | - Preprocessing:tokenisation, remove duplicate, remove similar words 21 | - Machine Learning Model: Naive Bayes, Logistic regression -> result F1 score : 0.74 22 | - Deep Learning Model:RNN (RNN+LSTM), CNN 23 | 24 | -------------------------------------------------------------------------------- /SentimentAnalysis/01-data_prep_EDA.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "# **Covid-19 Sentiment Analysis - Part I**\n", 8 | "This part contains data cleaning and exploratory data analysis\n", 9 | "## 1. Data Cleaning" 10 | ] 11 | }, 12 | { 13 | "cell_type": "code", 14 | "execution_count": 1, 15 | "metadata": {}, 16 | "outputs": [ 17 | { 18 | "data": { 19 | "text/html": [ 20 | "
\n", 21 | "\n", 34 | "\n", 35 | " \n", 36 | " \n", 37 | " \n", 38 | " \n", 39 | " \n", 40 | " \n", 41 | " \n", 42 | " \n", 43 | " \n", 44 | " \n", 45 | " \n", 46 | " \n", 47 | " \n", 48 | " \n", 49 | " \n", 50 | " \n", 51 | " \n", 52 | " \n", 53 | " \n", 54 | " \n", 55 | " \n", 56 | " \n", 57 | " \n", 58 | " \n", 59 | " \n", 60 | " \n", 61 | " \n", 62 | " \n", 63 | " \n", 64 | " \n", 65 | " \n", 66 | " \n", 67 | " \n", 68 | " \n", 69 | " \n", 70 | " \n", 71 | " \n", 72 | " \n", 73 | " \n", 74 | " \n", 75 | " \n", 76 | " \n", 77 | " \n", 78 | " \n", 79 | " \n", 80 | " \n", 81 | " \n", 82 | " \n", 83 | " \n", 84 | " \n", 85 | " \n", 86 | " \n", 87 | " \n", 88 | " \n", 89 | " \n", 90 | " \n", 91 | " \n", 92 | " \n", 93 | " \n", 94 | " \n", 95 | " \n", 96 | " \n", 97 | " \n", 98 | " \n", 99 | "
IDtimeusercontentpicvideosentiment
0445607202912550001月01日 23:50存曦1988写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早...['https://ww2.sinaimg.cn/orj360/005VnA1zly1gah...[]0
1445607416748098001月01日 23:58LunaKrys开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#?[][]-1
2445605425326452001月01日 22:39小王爷学辩论o_O邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新...['https://ww2.sinaimg.cn/thumb150/006ymYXKgy1g...[]1
3445606150912647001月01日 23:08芩鎟新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的?['https://ww2.sinaimg.cn/orj360/005FL9LZgy1gah...[]1
4445597932252819001月01日 17:42changlwj问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。...[][]1
\n", 100 | "
" 101 | ], 102 | "text/plain": [ 103 | " ID time user \\\n", 104 | "0 4456072029125500 01月01日 23:50 存曦1988 \n", 105 | "1 4456074167480980 01月01日 23:58 LunaKrys \n", 106 | "2 4456054253264520 01月01日 22:39 小王爷学辩论o_O \n", 107 | "3 4456061509126470 01月01日 23:08 芩鎟 \n", 108 | "4 4455979322528190 01月01日 17:42 changlwj \n", 109 | "\n", 110 | " content \\\n", 111 | "0 写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早... \n", 112 | "1 开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#? \n", 113 | "2 邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新... \n", 114 | "3 新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的? \n", 115 | "4 问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。... \n", 116 | "\n", 117 | " pic video sentiment \n", 118 | "0 ['https://ww2.sinaimg.cn/orj360/005VnA1zly1gah... [] 0 \n", 119 | "1 [] [] -1 \n", 120 | "2 ['https://ww2.sinaimg.cn/thumb150/006ymYXKgy1g... [] 1 \n", 121 | "3 ['https://ww2.sinaimg.cn/orj360/005FL9LZgy1gah... [] 1 \n", 122 | "4 [] [] 1 " 123 | ] 124 | }, 125 | "execution_count": 1, 126 | "metadata": {}, 127 | "output_type": "execute_result" 128 | } 129 | ], 130 | "source": [ 131 | "import numpy as np\n", 132 | "import pandas as pd\n", 133 | "import matplotlib.pyplot as plt \n", 134 | "import seaborn as sns\n", 135 | "import warnings \n", 136 | "warnings.filterwarnings('ignore')\n", 137 | "\n", 138 | "path = './nCoV_100k_train.csv'\n", 139 | "with open(path,'r',encoding = 'GB18030', errors = 'ignore') as f:\n", 140 | " raw_data = pd.read_csv(f)\n", 141 | " \n", 142 | "raw_data.columns = ['ID', 'time', 'user', 'content', 'pic', 'video', 'sentiment']\n", 143 | "raw_data.head()" 144 | ] 145 | }, 146 | { 147 | "cell_type": "code", 148 | "execution_count": 2, 149 | "metadata": {}, 150 | "outputs": [ 151 | { 152 | "data": { 153 | "text/plain": [ 154 | "(100000, 7)" 155 | ] 156 | }, 157 | "execution_count": 2, 158 | "metadata": {}, 159 | "output_type": "execute_result" 160 | } 161 | ], 162 | "source": [ 163 | "raw_data.shape" 164 | ] 165 | }, 166 | { 167 | "cell_type": "markdown", 168 | "metadata": {}, 169 | "source": [ 170 | "- **target variable : sentiment**" 171 | ] 172 | }, 173 | { 174 | "cell_type": "code", 175 | "execution_count": 3, 176 | "metadata": {}, 177 | "outputs": [ 178 | { 179 | "data": { 180 | "text/plain": [ 181 | "(99913, 7)" 182 | ] 183 | }, 184 | "execution_count": 3, 185 | "metadata": {}, 186 | "output_type": "execute_result" 187 | } 188 | ], 189 | "source": [ 190 | "# keep y with only 1,0,-1\n", 191 | "raw_data = raw_data[(raw_data.sentiment == '0') | (raw_data.sentiment == '1') | (raw_data.sentiment == '-1')]\n", 192 | "raw_data.shape" 193 | ] 194 | }, 195 | { 196 | "cell_type": "code", 197 | "execution_count": 4, 198 | "metadata": {}, 199 | "outputs": [ 200 | { 201 | "data": { 202 | "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXQAAAD6CAYAAACxrrxPAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjAsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8GearUAAAMoUlEQVR4nO3dYajd913H8fdnCfGBHQrmWmeS7gaXKVGHzmvmIx2zw5RCImxKAsIqm0EwOKnIMpQ+iCDdCvNRHizTwhBqVvtgXG00yNweqHTmtpZKErJdYrckoLvtykTEtXFfH+S0Hm/vzfnf5Nyc5Zv3CwL3//v/es63HHjzz/+cc5OqQpJ053vLrAeQJE2HQZekJgy6JDVh0CWpCYMuSU0YdElqYlDQk+xPcjHJcpJj6+z51STnk5xL8sR0x5QkTZJJn0NPsgX4CvB+4ApwFjhcVefH9uwBngTeV1WvJPnBqvrGjR53+/btNT8/f4vjS9Ld5dlnn32pqubWOrd1wH+/D1iuqksASU4BB4HzY3t+AzhRVa8ATIo5wPz8PEtLSwOeXpL0uiRfW+/ckFsuO4DLY8dXRmvj3gm8M8k/JHkmyf51BjmSZCnJ0srKyoCnliQNNa03RbcCe4D3AoeBzyT5/tWbqupkVS1U1cLc3Jp/Y5Ak3aQhQb8K7Bo73jlaG3cFWKyq16rqX7l+z33PdEaUJA0xJOhngT1JdifZBhwCFlft+TzXr85Jsp3rt2AuTXFOSdIEE4NeVdeAo8AZ4ALwZFWdS3I8yYHRtjPAy0nOA18Efq+qXt6soSVJbzbxY4ubZWFhofyUiyRtTJJnq2phrXN+U1SSmjDoktSEQZekJoZ8U7SF+WNPz3qETfXiow/OegRJM+YVuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUxKCgJ9mf5GKS5STH1jj/UJKVJM+P/nxk+qNKkm5k66QNSbYAJ4D3A1eAs0kWq+r8qq2fq6qjmzCjJGmAIVfo+4DlqrpUVa8Cp4CDmzuWJGmjhgR9B3B57PjKaG21DyR5IclTSXat9UBJjiRZSrK0srJyE+NKktYzrTdF/xKYr6p3AX8LfHatTVV1sqoWqmphbm5uSk8tSYJhQb8KjF9x7xytvaGqXq6qb48O/wT4memMJ0kaakjQzwJ7kuxOsg04BCyOb0jytrHDA8CF6Y0oSRpi4qdcqupakqPAGWAL8HhVnUtyHFiqqkXgt5McAK4B3wQe2sSZJUlrmBh0gKo6DZxetfbI2M8fBz4+3dEkSRvhN0UlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJamJQ0JPsT3IxyXKSYzfY94EklWRheiNKkoaYGPQkW4ATwAPAXuBwkr1r7Hsr8FHgy9MeUpI02ZAr9H3AclVdqqpXgVPAwTX2/SHwCeC/pzifJGmgIUHfAVweO74yWntDkncDu6rq6Rs9UJIjSZaSLK2srGx4WEnS+m75TdEkbwE+BfzupL1VdbKqFqpqYW5u7lafWpI0ZkjQrwK7xo53jtZe91bgJ4AvJXkR+Dlg0TdGJen2GhL0s8CeJLuTbAMOAYuvn6yqb1XV9qqar6p54BngQFUtbcrEkqQ1TQx6VV0DjgJngAvAk1V1LsnxJAc2e0BJ0jBbh2yqqtPA6VVrj6yz9723PpYkaaP8pqgkNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTQwKepL9SS4mWU5ybI3zv5nkX5I8n+Tvk+yd/qiSpBuZGPQkW4ATwAPAXuDwGsF+oqp+sqp+Cvgk8KmpTypJuqEhV+j7gOWqulRVrwKngIPjG6rqP8YOvxeo6Y0oSRpi64A9O4DLY8dXgPes3pTkt4CHgW3A+9Z6oCRHgCMA991330ZnlSTdwNTeFK2qE1X1I8DHgD9YZ8/JqlqoqoW5ublpPbUkiWFBvwrsGjveOVpbzyngl29lKEnSxg0J+llgT5LdSbYBh4DF8Q1J9owdPgh8dXojSpKGmHgPvaquJTkKnAG2AI9X1bkkx4GlqloEjia5H3gNeAX40GYOLUl6syFvilJVp4HTq9YeGfv5o1OeS5K0QX5TVJKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYG/S4Xadbmjz096xE2zYuPPjjrEdSEV+iS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITg4KeZH+Si0mWkxxb4/zDSc4neSHJF5K8ffqjSpJuZGLQk2wBTgAPAHuBw0n2rtr2z8BCVb0LeAr45LQHlSTd2JAr9H3AclVdqqpXgVPAwfENVfXFqvqv0eEzwM7pjilJmmRI0HcAl8eOr4zW1vNh4K/XOpHkSJKlJEsrKyvDp5QkTTTVN0WT/BqwADy21vmqOllVC1W1MDc3N82nlqS73pB/JPoqsGvseOdo7f9Jcj/w+8AvVNW3pzOeJGmoIVfoZ4E9SXYn2QYcAhbHNyT5aeDTwIGq+sb0x5QkTTIx6FV1DTgKnAEuAE9W1bkkx5McGG17DLgH+IskzydZXOfhJEmbZMgtF6rqNHB61dojYz/fP+W5JEkb5DdFJakJgy5JTRh0SWrCoEtSEwZdkpoY9CkXSbpZ88eenvUIm+rFRx+c9Qhv8Apdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJamJQUFPsj/JxSTLSY6tcf7nkzyX5FqSD05/TEnSJBODnmQLcAJ4ANgLHE6yd9W2rwMPAU9Me0BJ0jBbB+zZByxX1SWAJKeAg8D51zdU1Yujc9/ZhBklSQMMueWyA7g8dnxltLZhSY4kWUqytLKycjMPIUlax219U7SqTlbVQlUtzM3N3c6nlqT2hgT9KrBr7HjnaE2S9F1kSNDPAnuS7E6yDTgELG7uWJKkjZoY9Kq6BhwFzgAXgCer6lyS40kOACT52SRXgF8BPp3k3GYOLUl6syGfcqGqTgOnV609MvbzWa7fipEkzYjfFJWkJgy6JDVh0CWpCYMuSU0YdElqwqBLUhMGXZKaMOiS1IRBl6QmDLokNWHQJakJgy5JTRh0SWrCoEtSEwZdkpow6JLUhEGXpCYMuiQ1YdAlqQmDLklNGHRJasKgS1ITBl2SmjDoktSEQZekJgy6JDVh0CWpiUFBT7I/ycUky0mOrXH+e5J8bnT+y0nmpz2oJOnGJgY9yRbgBPAAsBc4nGTvqm0fBl6pqncAfwx8YtqDSpJubMgV+j5guaouVdWrwCng4Ko9B4HPjn5+CvjFJJnemJKkSbYO2LMDuDx2fAV4z3p7qupakm8BPwC8NL4pyRHgyOjwP5NcvJmh7xDbWfX/v5ni34mmydfuztb99Xv7eieGBH1qquokcPJ2PuesJFmqqoVZz6GN87W7s93Nr9+QWy5XgV1jxztHa2vuSbIV+D7g5WkMKEkaZkjQzwJ7kuxOsg04BCyu2rMIfGj08weBv6uqmt6YkqRJJt5yGd0TPwqcAbYAj1fVuSTHgaWqWgT+FPizJMvAN7ke/bvdXXFrqSlfuzvbXfv6xQtpSerBb4pKUhMGXZKaMOiS1MRt/Rx6Z0l+jOvfmN0xWroKLFbVhdlNJelu4hX6FCT5GNd/JUKAfxr9CfDna/0yM905kvz6rGfQzUlyz6xnuN38lMsUJPkK8ONV9dqq9W3AuaraM5vJdKuSfL2q7pv1HNq4u/G185bLdHwH+GHga6vW3zY6p+9iSV5Y7xRw7+2cRRuT5OH1TgF33RW6QZ+O3wG+kOSr/N8vMrsPeAdwdGZTaah7gV8CXlm1HuAfb/842oA/Ah4Drq1x7q67pWzQp6Cq/ibJO7n+q4bH3xQ9W1X/M7vJNNBfAfdU1fOrTyT50u0fRxvwHPD5qnp29YkkH5nBPDPlPXRJd6wkPwq8XFUvja39UFX9W5J7q+rfZzjebWfQJbWS5Lmqeves55iFu+4ek6T27tp/Lc2gS+rmM7MeYFa85SJJTXiFLklNGHRJasKgS1ITBl2Smvhf+pzliuwzjhYAAAAASUVORK5CYII=\n", 203 | "text/plain": [ 204 | "
" 205 | ] 206 | }, 207 | "metadata": { 208 | "needs_background": "light" 209 | }, 210 | "output_type": "display_data" 211 | } 212 | ], 213 | "source": [ 214 | "raw_data.sentiment.value_counts(normalize=True).plot(kind='bar')\n", 215 | "plt.show()" 216 | ] 217 | }, 218 | { 219 | "cell_type": "markdown", 220 | "metadata": {}, 221 | "source": [ 222 | "- **pic and video variables**" 223 | ] 224 | }, 225 | { 226 | "cell_type": "code", 227 | "execution_count": 5, 228 | "metadata": {}, 229 | "outputs": [ 230 | { 231 | "data": { 232 | "text/plain": [ 233 | "\"['https://ww2.sinaimg.cn/orj360/005VnA1zly1gahhwworn5j30m80fyq4n.jpg']\"" 234 | ] 235 | }, 236 | "execution_count": 5, 237 | "metadata": {}, 238 | "output_type": "execute_result" 239 | } 240 | ], 241 | "source": [ 242 | "raw_data.pic[0] # the url does not contain to much information, we convert photo and video to dummy variables" 243 | ] 244 | }, 245 | { 246 | "cell_type": "code", 247 | "execution_count": 6, 248 | "metadata": {}, 249 | "outputs": [ 250 | { 251 | "data": { 252 | "text/html": [ 253 | "
\n", 254 | "\n", 267 | "\n", 268 | " \n", 269 | " \n", 270 | " \n", 271 | " \n", 272 | " \n", 273 | " \n", 274 | " \n", 275 | " \n", 276 | " \n", 277 | " \n", 278 | " \n", 279 | " \n", 280 | " \n", 281 | " \n", 282 | " \n", 283 | " \n", 284 | " \n", 285 | " \n", 286 | " \n", 287 | " \n", 288 | " \n", 289 | " \n", 290 | " \n", 291 | " \n", 292 | " \n", 293 | " \n", 294 | " \n", 295 | " \n", 296 | " \n", 297 | " \n", 298 | " \n", 299 | " \n", 300 | " \n", 301 | " \n", 302 | " \n", 303 | " \n", 304 | " \n", 305 | " \n", 306 | " \n", 307 | " \n", 308 | " \n", 309 | " \n", 310 | " \n", 311 | " \n", 312 | " \n", 313 | " \n", 314 | " \n", 315 | " \n", 316 | " \n", 317 | " \n", 318 | " \n", 319 | " \n", 320 | " \n", 321 | " \n", 322 | " \n", 323 | " \n", 324 | " \n", 325 | " \n", 326 | " \n", 327 | " \n", 328 | " \n", 329 | " \n", 330 | " \n", 331 | " \n", 332 | "
IDtimeusercontentpicvideosentiment
0445607202912550001月01日 23:50存曦1988写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早...100
1445607416748098001月01日 23:58LunaKrys开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#?00-1
2445605425326452001月01日 22:39小王爷学辩论o_O邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新...101
3445606150912647001月01日 23:08芩鎟新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的?101
4445597932252819001月01日 17:42changlwj问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。...001
\n", 333 | "
" 334 | ], 335 | "text/plain": [ 336 | " ID time user \\\n", 337 | "0 4456072029125500 01月01日 23:50 存曦1988 \n", 338 | "1 4456074167480980 01月01日 23:58 LunaKrys \n", 339 | "2 4456054253264520 01月01日 22:39 小王爷学辩论o_O \n", 340 | "3 4456061509126470 01月01日 23:08 芩鎟 \n", 341 | "4 4455979322528190 01月01日 17:42 changlwj \n", 342 | "\n", 343 | " content pic video sentiment \n", 344 | "0 写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早... 1 0 0 \n", 345 | "1 开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#? 0 0 -1 \n", 346 | "2 邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新... 1 0 1 \n", 347 | "3 新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的? 1 0 1 \n", 348 | "4 问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。... 0 0 1 " 349 | ] 350 | }, 351 | "execution_count": 6, 352 | "metadata": {}, 353 | "output_type": "execute_result" 354 | } 355 | ], 356 | "source": [ 357 | "def dummy(series):\n", 358 | " if series == '[]':\n", 359 | " series = 0\n", 360 | " else:\n", 361 | " series = 1\n", 362 | " return series\n", 363 | "raw_data.pic = raw_data.pic.apply(lambda x: dummy(x))\n", 364 | "raw_data.video = raw_data.video.apply(lambda x: dummy(x))\n", 365 | "raw_data.head()" 366 | ] 367 | }, 368 | { 369 | "cell_type": "markdown", 370 | "metadata": {}, 371 | "source": [ 372 | "- **drop duplicates**" 373 | ] 374 | }, 375 | { 376 | "cell_type": "code", 377 | "execution_count": 7, 378 | "metadata": {}, 379 | "outputs": [ 380 | { 381 | "data": { 382 | "text/plain": [ 383 | "4466220575191380 2\n", 384 | "4463683088077780 2\n", 385 | "4470569351337640 2\n", 386 | "4460684139742960 1\n", 387 | "4465820153259820 1\n", 388 | "Name: ID, dtype: int64" 389 | ] 390 | }, 391 | "execution_count": 7, 392 | "metadata": {}, 393 | "output_type": "execute_result" 394 | } 395 | ], 396 | "source": [ 397 | "raw_data.ID.value_counts(ascending=False).head()" 398 | ] 399 | }, 400 | { 401 | "cell_type": "code", 402 | "execution_count": 8, 403 | "metadata": {}, 404 | "outputs": [ 405 | { 406 | "data": { 407 | "text/html": [ 408 | "
\n", 409 | "\n", 422 | "\n", 423 | " \n", 424 | " \n", 425 | " \n", 426 | " \n", 427 | " \n", 428 | " \n", 429 | " \n", 430 | " \n", 431 | " \n", 432 | " \n", 433 | " \n", 434 | " \n", 435 | " \n", 436 | " \n", 437 | " \n", 438 | " \n", 439 | " \n", 440 | " \n", 441 | " \n", 442 | " \n", 443 | " \n", 444 | " \n", 445 | " \n", 446 | " \n", 447 | " \n", 448 | " \n", 449 | " \n", 450 | " \n", 451 | " \n", 452 | " \n", 453 | " \n", 454 | " \n", 455 | " \n", 456 | " \n", 457 | "
IDtimeusercontentpicvideosentiment
35202446368308807778001月22日 23:54爱你的Moment愿好人一生平安!//@努力努力再努力x:#抗击新型肺炎第一线#致敬伟大的逆行者们一定要平平安安100
62850446368308807778001月22日 23:54爱你的Moment愿好人一生平安!//@努力努力再努力x:#抗击新型肺炎第一线#致敬伟大的逆行者们一定要平平安安101
\n", 458 | "
" 459 | ], 460 | "text/plain": [ 461 | " ID time user \\\n", 462 | "35202 4463683088077780 01月22日 23:54 爱你的Moment \n", 463 | "62850 4463683088077780 01月22日 23:54 爱你的Moment \n", 464 | "\n", 465 | " content pic video sentiment \n", 466 | "35202 愿好人一生平安!//@努力努力再努力x:#抗击新型肺炎第一线#致敬伟大的逆行者们一定要平平安安 1 0 0 \n", 467 | "62850 愿好人一生平安!//@努力努力再努力x:#抗击新型肺炎第一线#致敬伟大的逆行者们一定要平平安安 1 0 1 " 468 | ] 469 | }, 470 | "execution_count": 8, 471 | "metadata": {}, 472 | "output_type": "execute_result" 473 | } 474 | ], 475 | "source": [ 476 | "raw_data[raw_data.ID == 4463683088077780]\n", 477 | "# labels are contradictory, so we drop these three observations" 478 | ] 479 | }, 480 | { 481 | "cell_type": "code", 482 | "execution_count": 9, 483 | "metadata": {}, 484 | "outputs": [ 485 | { 486 | "data": { 487 | "text/plain": [ 488 | "(99907, 7)" 489 | ] 490 | }, 491 | "execution_count": 9, 492 | "metadata": {}, 493 | "output_type": "execute_result" 494 | } 495 | ], 496 | "source": [ 497 | "raw_data = raw_data[(raw_data.ID !=4470569351337640) & (raw_data.ID !=4463683088077780) & (raw_data.ID !=4466220575191380)]\n", 498 | "raw_data.shape" 499 | ] 500 | }, 501 | { 502 | "cell_type": "markdown", 503 | "metadata": {}, 504 | "source": [ 505 | "- **time**" 506 | ] 507 | }, 508 | { 509 | "cell_type": "code", 510 | "execution_count": 10, 511 | "metadata": {}, 512 | "outputs": [ 513 | { 514 | "data": { 515 | "text/html": [ 516 | "
\n", 517 | "\n", 530 | "\n", 531 | " \n", 532 | " \n", 533 | " \n", 534 | " \n", 535 | " \n", 536 | " \n", 537 | " \n", 538 | " \n", 539 | " \n", 540 | " \n", 541 | " \n", 542 | " \n", 543 | " \n", 544 | " \n", 545 | " \n", 546 | " \n", 547 | " \n", 548 | " \n", 549 | " \n", 550 | " \n", 551 | " \n", 552 | " \n", 553 | " \n", 554 | " \n", 555 | " \n", 556 | " \n", 557 | " \n", 558 | " \n", 559 | " \n", 560 | " \n", 561 | " \n", 562 | " \n", 563 | " \n", 564 | " \n", 565 | " \n", 566 | " \n", 567 | " \n", 568 | " \n", 569 | " \n", 570 | " \n", 571 | " \n", 572 | " \n", 573 | " \n", 574 | " \n", 575 | " \n", 576 | " \n", 577 | " \n", 578 | " \n", 579 | " \n", 580 | " \n", 581 | " \n", 582 | " \n", 583 | " \n", 584 | " \n", 585 | " \n", 586 | " \n", 587 | " \n", 588 | " \n", 589 | " \n", 590 | " \n", 591 | " \n", 592 | " \n", 593 | " \n", 594 | " \n", 595 | "
IDtimeusercontentpicvideosentiment
044560720291255002020-01-01 23:50:00存曦1988写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早...100
144560741674809802020-01-01 23:58:00LunaKrys开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#?00-1
244560542532645202020-01-01 22:39:00小王爷学辩论o_O邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新...101
344560615091264702020-01-01 23:08:00芩鎟新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的?101
444559793225281902020-01-01 17:42:00changlwj问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。...001
\n", 596 | "
" 597 | ], 598 | "text/plain": [ 599 | " ID time user \\\n", 600 | "0 4456072029125500 2020-01-01 23:50:00 存曦1988 \n", 601 | "1 4456074167480980 2020-01-01 23:58:00 LunaKrys \n", 602 | "2 4456054253264520 2020-01-01 22:39:00 小王爷学辩论o_O \n", 603 | "3 4456061509126470 2020-01-01 23:08:00 芩鎟 \n", 604 | "4 4455979322528190 2020-01-01 17:42:00 changlwj \n", 605 | "\n", 606 | " content pic video sentiment \n", 607 | "0 写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早... 1 0 0 \n", 608 | "1 开年大模型…累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼#Luna的Krystallife#? 0 0 -1 \n", 609 | "2 邱晨这就是我爹,爹,发烧快好,毕竟美好的假期拿来养病不太好,假期还是要好好享受快乐,爹,新... 1 0 1 \n", 610 | "3 新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的? 1 0 1 \n", 611 | "4 问:我们意念里有坏的想法了,天神就会给记下来,那如果有好的想法也会被记下来吗?答:那当然了。... 0 0 1 " 612 | ] 613 | }, 614 | "execution_count": 10, 615 | "metadata": {}, 616 | "output_type": "execute_result" 617 | } 618 | ], 619 | "source": [ 620 | "raw_data.time = pd.to_datetime('2020年'+raw_data.time,errors='coerce', format='%Y年%m月%d日 %H:%M')\n", 621 | "raw_data.head()" 622 | ] 623 | }, 624 | { 625 | "cell_type": "code", 626 | "execution_count": 11, 627 | "metadata": {}, 628 | "outputs": [], 629 | "source": [ 630 | "# save to file\n", 631 | "raw_data.drop(['user'], axis=1, inplace=True)\n", 632 | "raw_data.to_csv('train_df.csv',index_label=False)" 633 | ] 634 | }, 635 | { 636 | "cell_type": "markdown", 637 | "metadata": {}, 638 | "source": [ 639 | "## 2. EDA " 640 | ] 641 | } 642 | ], 643 | "metadata": { 644 | "kernelspec": { 645 | "display_name": "Python 3", 646 | "language": "python", 647 | "name": "python3" 648 | }, 649 | "language_info": { 650 | "codemirror_mode": { 651 | "name": "ipython", 652 | "version": 3 653 | }, 654 | "file_extension": ".py", 655 | "mimetype": "text/x-python", 656 | "name": "python", 657 | "nbconvert_exporter": "python", 658 | "pygments_lexer": "ipython3", 659 | "version": "3.7.6" 660 | } 661 | }, 662 | "nbformat": 4, 663 | "nbformat_minor": 4 664 | } 665 | -------------------------------------------------------------------------------- /SentimentAnalysis/02-tokenization.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "# **Covid-19 Sentiment Analysis - Part II**\n", 8 | "This part contains the word tokenizaiton and cleaning process" 9 | ] 10 | }, 11 | { 12 | "cell_type": "code", 13 | "execution_count": 1, 14 | "metadata": {}, 15 | "outputs": [], 16 | "source": [ 17 | "import pandas as pd\n", 18 | "import thulac\n", 19 | "import seaborn as sns\n", 20 | "import matplotlib.pyplot as plt\n", 21 | "\n", 22 | "myfile = './train_df.csv'\n", 23 | "with open(myfile,'r', errors = 'ignore') as f:\n", 24 | " raw_data = pd.read_csv(f,)\n", 25 | " \n", 26 | "# raw_data = raw_data.rename(columns={\"微博id\": \"ID\", \"微博发布时间\": \"time\", '发布人账号':'user','微博中文内容':'content',\n", 27 | "# '微博图片':'pic', '微博视频':'video','情感倾向':'sentiment'})" 28 | ] 29 | }, 30 | { 31 | "cell_type": "code", 32 | "execution_count": 2, 33 | "metadata": {}, 34 | "outputs": [], 35 | "source": [ 36 | "df = raw_data.copy()" 37 | ] 38 | }, 39 | { 40 | "cell_type": "code", 41 | "execution_count": 3, 42 | "metadata": {}, 43 | "outputs": [ 44 | { 45 | "data": { 46 | "text/plain": [ 47 | "(99907, 6)" 48 | ] 49 | }, 50 | "execution_count": 3, 51 | "metadata": {}, 52 | "output_type": "execute_result" 53 | } 54 | ], 55 | "source": [ 56 | "df.shape" 57 | ] 58 | }, 59 | { 60 | "cell_type": "markdown", 61 | "metadata": {}, 62 | "source": [ 63 | "## 1. Constraint content length \n", 64 | "According to density plot, we only keep contents <= 150 words" 65 | ] 66 | }, 67 | { 68 | "cell_type": "code", 69 | "execution_count": 4, 70 | "metadata": {}, 71 | "outputs": [ 72 | { 73 | "data": { 74 | "image/png": "\n", 75 | "text/plain": [ 76 | "
" 77 | ] 78 | }, 79 | "metadata": { 80 | "needs_background": "light" 81 | }, 82 | "output_type": "display_data" 83 | } 84 | ], 85 | "source": [ 86 | "df['weibo_len'] = df['content'].astype(str).apply(len)\n", 87 | "sns.kdeplot(df['weibo_len'])\n", 88 | "plt.title('weibo_len')\n", 89 | "plt.show()" 90 | ] 91 | }, 92 | { 93 | "cell_type": "code", 94 | "execution_count": 5, 95 | "metadata": {}, 96 | "outputs": [ 97 | { 98 | "data": { 99 | "text/plain": [ 100 | "(93361, 7)" 101 | ] 102 | }, 103 | "execution_count": 5, 104 | "metadata": {}, 105 | "output_type": "execute_result" 106 | } 107 | ], 108 | "source": [ 109 | "df = df[df.weibo_len<=150]\n", 110 | "df.shape" 111 | ] 112 | }, 113 | { 114 | "cell_type": "markdown", 115 | "metadata": {}, 116 | "source": [ 117 | "## 3.Remove symbols and non-Chinese" 118 | ] 119 | }, 120 | { 121 | "cell_type": "code", 122 | "execution_count": 6, 123 | "metadata": {}, 124 | "outputs": [ 125 | { 126 | "data": { 127 | "text/plain": [ 128 | "'写在年末冬初孩子流感的第五天,我们仍然没有忘记热情拥抱这2020年的第一天。带着一丝迷信,早晨给孩子穿上红色的羽绒服羽绒裤,祈祷新的一年,孩子们身体康健。仍然会有一丝焦虑,焦虑我的孩子为什么会过早的懂事,从两岁多开始关注我的情绪,会深沉地说:妈妈,你终于笑了!这句话像刀子一样扎入我?展开全文c'" 129 | ] 130 | }, 131 | "execution_count": 6, 132 | "metadata": {}, 133 | "output_type": "execute_result" 134 | } 135 | ], 136 | "source": [ 137 | "df.content[0]" 138 | ] 139 | }, 140 | { 141 | "cell_type": "code", 142 | "execution_count": 7, 143 | "metadata": {}, 144 | "outputs": [], 145 | "source": [ 146 | "import regex as re\n", 147 | "# remove symbol, number and letter\n", 148 | "symbols = \"[a-zA-Z0-9\\s+\\.\\!\\/_,$%^*()??;;:【】+\\\"\\'\\[\\]\\\\]+|[+——!,;:。?《》、~@#¥%……&*()“”.=-]+\"\n", 149 | "df['content'] = df['content'].astype(str).apply(lambda x : re.sub(symbols, '', x))\n", 150 | "\n", 151 | "#pre-cleaning, deleting or filtering unnecessary words like 'show more'\n", 152 | "df['content'] = df['content'].astype(str).apply(lambda x : x.replace(\"展开全文\", \"\"))\n", 153 | "\n", 154 | "#remove non-chinese\n", 155 | "pattern = re.compile(r'[^\\u4e00-\\u9fa5]')\n", 156 | "df['content'] = df['content'].astype(str).apply(lambda x : re.sub(pattern,'',x))" 157 | ] 158 | }, 159 | { 160 | "cell_type": "code", 161 | "execution_count": 8, 162 | "metadata": {}, 163 | "outputs": [ 164 | { 165 | "data": { 166 | "text/html": [ 167 | "
\n", 168 | "\n", 181 | "\n", 182 | " \n", 183 | " \n", 184 | " \n", 185 | " \n", 186 | " \n", 187 | " \n", 188 | " \n", 189 | " \n", 190 | " \n", 191 | " \n", 192 | " \n", 193 | " \n", 194 | " \n", 195 | " \n", 196 | " \n", 197 | " \n", 198 | " \n", 199 | " \n", 200 | " \n", 201 | " \n", 202 | " \n", 203 | " \n", 204 | " \n", 205 | " \n", 206 | " \n", 207 | " \n", 208 | " \n", 209 | " \n", 210 | " \n", 211 | " \n", 212 | " \n", 213 | " \n", 214 | " \n", 215 | " \n", 216 | " \n", 217 | " \n", 218 | " \n", 219 | " \n", 220 | " \n", 221 | " \n", 222 | " \n", 223 | " \n", 224 | " \n", 225 | " \n", 226 | " \n", 227 | " \n", 228 | " \n", 229 | " \n", 230 | " \n", 231 | " \n", 232 | " \n", 233 | " \n", 234 | " \n", 235 | " \n", 236 | " \n", 237 | " \n", 238 | " \n", 239 | " \n", 240 | " \n", 241 | " \n", 242 | " \n", 243 | " \n", 244 | " \n", 245 | " \n", 246 | "
IDtimecontentpicvideosentimentweibo_len
044560720291255002020-01-01 23:50:00写在年末冬初孩子流感的第五天我们仍然没有忘记热情拥抱这年的第一天带着一丝迷信早晨给孩子穿上红...100147
144560741674809802020-01-01 23:58:00开年大模型累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼的00-147
244560542532645202020-01-01 22:39:00邱晨这就是我爹爹发烧快好毕竟美好的假期拿来养病不太好假期还是要好好享受快乐爹新年快乐发烧好了...10199
344560615091264702020-01-01 23:08:00新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的10130
444559793225281902020-01-01 17:42:00问我们意念里有坏的想法了天神就会给记下来那如果有好的想法也会被记下来吗答那当然了有坏的想法天...001145
\n", 247 | "
" 248 | ], 249 | "text/plain": [ 250 | " ID time \\\n", 251 | "0 4456072029125500 2020-01-01 23:50:00 \n", 252 | "1 4456074167480980 2020-01-01 23:58:00 \n", 253 | "2 4456054253264520 2020-01-01 22:39:00 \n", 254 | "3 4456061509126470 2020-01-01 23:08:00 \n", 255 | "4 4455979322528190 2020-01-01 17:42:00 \n", 256 | "\n", 257 | " content pic video sentiment \\\n", 258 | "0 写在年末冬初孩子流感的第五天我们仍然没有忘记热情拥抱这年的第一天带着一丝迷信早晨给孩子穿上红... 1 0 0 \n", 259 | "1 开年大模型累到以为自己发烧了腰疼膝盖疼腿疼胳膊疼脖子疼的 0 0 -1 \n", 260 | "2 邱晨这就是我爹爹发烧快好毕竟美好的假期拿来养病不太好假期还是要好好享受快乐爹新年快乐发烧好了... 1 0 1 \n", 261 | "3 新年的第一天感冒又发烧的也太衰了但是我要想着明天一定会好的 1 0 1 \n", 262 | "4 问我们意念里有坏的想法了天神就会给记下来那如果有好的想法也会被记下来吗答那当然了有坏的想法天... 0 0 1 \n", 263 | "\n", 264 | " weibo_len \n", 265 | "0 147 \n", 266 | "1 47 \n", 267 | "2 99 \n", 268 | "3 30 \n", 269 | "4 145 " 270 | ] 271 | }, 272 | "execution_count": 8, 273 | "metadata": {}, 274 | "output_type": "execute_result" 275 | } 276 | ], 277 | "source": [ 278 | "df.head()" 279 | ] 280 | }, 281 | { 282 | "cell_type": "code", 283 | "execution_count": 9, 284 | "metadata": {}, 285 | "outputs": [ 286 | { 287 | "data": { 288 | "text/plain": [ 289 | "'写在年末冬初孩子流感的第五天我们仍然没有忘记热情拥抱这年的第一天带着一丝迷信早晨给孩子穿上红色的羽绒服羽绒裤祈祷新的一年孩子们身体康健仍然会有一丝焦虑焦虑我的孩子为什么会过早的懂事从两岁多开始关注我的情绪会深沉地说妈妈你终于笑了这句话像刀子一样扎入我'" 290 | ] 291 | }, 292 | "execution_count": 9, 293 | "metadata": {}, 294 | "output_type": "execute_result" 295 | } 296 | ], 297 | "source": [ 298 | "df.content[0]" 299 | ] 300 | }, 301 | { 302 | "cell_type": "markdown", 303 | "metadata": {}, 304 | "source": [ 305 | "## 2. Word Tokenization" 306 | ] 307 | }, 308 | { 309 | "cell_type": "code", 310 | "execution_count": 10, 311 | "metadata": {}, 312 | "outputs": [ 313 | { 314 | "name": "stdout", 315 | "output_type": "stream", 316 | "text": [ 317 | "Model loaded succeed\n" 318 | ] 319 | }, 320 | { 321 | "data": { 322 | "text/html": [ 323 | "
\n", 324 | "\n", 337 | "\n", 338 | " \n", 339 | " \n", 340 | " \n", 341 | " \n", 342 | " \n", 343 | " \n", 344 | " \n", 345 | " \n", 346 | " \n", 347 | " \n", 348 | " \n", 349 | " \n", 350 | " \n", 351 | " \n", 352 | " \n", 353 | " \n", 354 | " \n", 355 | " \n", 356 | " \n", 357 | " \n", 358 | " \n", 359 | " \n", 360 | " \n", 361 | " \n", 362 | " \n", 363 | " \n", 364 | " \n", 365 | " \n", 366 | " \n", 367 | " \n", 368 | " \n", 369 | " \n", 370 | " \n", 371 | " \n", 372 | " \n", 373 | " \n", 374 | " \n", 375 | " \n", 376 | " \n", 377 | " \n", 378 | " \n", 379 | " \n", 380 | " \n", 381 | " \n", 382 | " \n", 383 | " \n", 384 | " \n", 385 | " \n", 386 | " \n", 387 | " \n", 388 | " \n", 389 | " \n", 390 | " \n", 391 | " \n", 392 | " \n", 393 | " \n", 394 | " \n", 395 | " \n", 396 | " \n", 397 | " \n", 398 | " \n", 399 | " \n", 400 | " \n", 401 | " \n", 402 | " \n", 403 | " \n", 404 | " \n", 405 | " \n", 406 | " \n", 407 | " \n", 408 | " \n", 409 | " \n", 410 | " \n", 411 | " \n", 412 | " \n", 413 | " \n", 414 | " \n", 415 | " \n", 416 | " \n", 417 | " \n", 418 | " \n", 419 | " \n", 420 | " \n", 421 | " \n", 422 | " \n", 423 | " \n", 424 | " \n", 425 | " \n", 426 | " \n", 427 | " \n", 428 | " \n", 429 | " \n", 430 | " \n", 431 | " \n", 432 | " \n", 433 | " \n", 434 | " \n", 435 | " \n", 436 | " \n", 437 | " \n", 438 | " \n", 439 | " \n", 440 | " \n", 441 | " \n", 442 | " \n", 443 | " \n", 444 | " \n", 445 | " \n", 446 | " \n", 447 | " \n", 448 | " \n", 449 | " \n", 450 | " \n", 451 | " \n", 452 | "
IDtimecontentpicvideosentimentweibo_len
044560720291255002020-01-01 23:50:00写 在 年末 冬初 孩子 流感 的 第五 天 我们 仍然 没有 忘记 热情 拥抱 这 年 的...100147
144560741674809802020-01-01 23:58:00开 年 大模型 累 到 以为 自己 发烧 了 腰 疼 膝盖 疼 腿 疼 胳膊 疼 脖子 疼 的00-147
244560542532645202020-01-01 22:39:00邱晨 这 就 是 我 爹 爹 发烧 快 好 毕竟 美好 的 假期 拿 来 养 病 不 太 好...10199
344560615091264702020-01-01 23:08:00新年 的 第一 天 感冒 又 发烧 的 也 太 衰 了 但是 我 要 想 着 明天 一定 会...10130
444559793225281902020-01-01 17:42:00问 我们 意念 里 有 坏 的 想法 了 天神 就 会 给 记 下 来 那 如果 有 好 的...001145
544559607035742702020-01-01 16:28:00发高烧 反反复复 眼睛 都 快 睁 不 开 了 今天 室友 带 我 去 看 还 在 发烧 中...10-1139
644560441413113702020-01-01 21:59:00明天 考试 今天 发烧 跨年 给 我 跨 坏 了 兰州 兰州 交通 大学00-128
744560729305973802020-01-01 23:53:00元旦 快乐 枇杷 手法 小结 每个 娃 都 是 有 故事 的 娃 每个 大人 也 是 有 故...100143
844560595467663202020-01-01 23:00:00我 真 的 服 了 昨天 去 和 她 说 自己 不 舒服 描述 了 症状 她 说 啊 你 这...00-1144
944560643617302002020-01-01 23:19:00新年 第一 天 为 自己 鼓掌 发烧 了 也 要 来 看 线 下 演出 因为 热爱 所以 才...101127
\n", 453 | "
" 454 | ], 455 | "text/plain": [ 456 | " ID time \\\n", 457 | "0 4456072029125500 2020-01-01 23:50:00 \n", 458 | "1 4456074167480980 2020-01-01 23:58:00 \n", 459 | "2 4456054253264520 2020-01-01 22:39:00 \n", 460 | "3 4456061509126470 2020-01-01 23:08:00 \n", 461 | "4 4455979322528190 2020-01-01 17:42:00 \n", 462 | "5 4455960703574270 2020-01-01 16:28:00 \n", 463 | "6 4456044141311370 2020-01-01 21:59:00 \n", 464 | "7 4456072930597380 2020-01-01 23:53:00 \n", 465 | "8 4456059546766320 2020-01-01 23:00:00 \n", 466 | "9 4456064361730200 2020-01-01 23:19:00 \n", 467 | "\n", 468 | " content pic video sentiment \\\n", 469 | "0 写 在 年末 冬初 孩子 流感 的 第五 天 我们 仍然 没有 忘记 热情 拥抱 这 年 的... 1 0 0 \n", 470 | "1 开 年 大模型 累 到 以为 自己 发烧 了 腰 疼 膝盖 疼 腿 疼 胳膊 疼 脖子 疼 的 0 0 -1 \n", 471 | "2 邱晨 这 就 是 我 爹 爹 发烧 快 好 毕竟 美好 的 假期 拿 来 养 病 不 太 好... 1 0 1 \n", 472 | "3 新年 的 第一 天 感冒 又 发烧 的 也 太 衰 了 但是 我 要 想 着 明天 一定 会... 1 0 1 \n", 473 | "4 问 我们 意念 里 有 坏 的 想法 了 天神 就 会 给 记 下 来 那 如果 有 好 的... 0 0 1 \n", 474 | "5 发高烧 反反复复 眼睛 都 快 睁 不 开 了 今天 室友 带 我 去 看 还 在 发烧 中... 1 0 -1 \n", 475 | "6 明天 考试 今天 发烧 跨年 给 我 跨 坏 了 兰州 兰州 交通 大学 0 0 -1 \n", 476 | "7 元旦 快乐 枇杷 手法 小结 每个 娃 都 是 有 故事 的 娃 每个 大人 也 是 有 故... 1 0 0 \n", 477 | "8 我 真 的 服 了 昨天 去 和 她 说 自己 不 舒服 描述 了 症状 她 说 啊 你 这... 0 0 -1 \n", 478 | "9 新年 第一 天 为 自己 鼓掌 发烧 了 也 要 来 看 线 下 演出 因为 热爱 所以 才... 1 0 1 \n", 479 | "\n", 480 | " weibo_len \n", 481 | "0 147 \n", 482 | "1 47 \n", 483 | "2 99 \n", 484 | "3 30 \n", 485 | "4 145 \n", 486 | "5 139 \n", 487 | "6 28 \n", 488 | "7 143 \n", 489 | "8 144 \n", 490 | "9 127 " 491 | ] 492 | }, 493 | "execution_count": 10, 494 | "metadata": {}, 495 | "output_type": "execute_result" 496 | } 497 | ], 498 | "source": [ 499 | "# tokenize by http://thulac.thunlp.org/\n", 500 | "\n", 501 | "thul = thulac.thulac(seg_only=True) # by default\n", 502 | "\n", 503 | "df['content'] = df['content'].astype(str).apply(lambda x : thul.cut(x,text = True))\n", 504 | "#text = thu1.cut(df0.content[0], text=True) #进行一句话分词\n", 505 | "#print(text)\n", 506 | "df.head(10)" 507 | ] 508 | }, 509 | { 510 | "cell_type": "markdown", 511 | "metadata": {}, 512 | "source": [ 513 | "## 4. Remove meaningfulless words\n", 514 | "Import word list and filter word lists during the count vectorizer part\n", 515 | "e.g. stopwords, adverbs..." 516 | ] 517 | }, 518 | { 519 | "cell_type": "code", 520 | "execution_count": 11, 521 | "metadata": {}, 522 | "outputs": [ 523 | { 524 | "data": { 525 | "text/plain": [ 526 | "(1893, 1)" 527 | ] 528 | }, 529 | "execution_count": 11, 530 | "metadata": {}, 531 | "output_type": "execute_result" 532 | } 533 | ], 534 | "source": [ 535 | "import csv\n", 536 | "myfile = './mystopwords.csv'\n", 537 | "\n", 538 | "stopwords = pd.read_csv(myfile, delimiter='\\n', header=None, encoding='utf-8', quoting=csv.QUOTE_NONE)\n", 539 | "stopwords.shape" 540 | ] 541 | }, 542 | { 543 | "cell_type": "code", 544 | "execution_count": 12, 545 | "metadata": { 546 | "collapsed": true, 547 | "jupyter": { 548 | "outputs_hidden": true 549 | } 550 | }, 551 | "outputs": [ 552 | { 553 | "name": "stderr", 554 | "output_type": "stream", 555 | "text": [ 556 | "/anaconda3/lib/python3.7/site-packages/sklearn/feature_extraction/text.py:300: UserWarning: Your stop_words may be inconsistent with your preprocessing. Tokenizing the stop words generated tokens ['lex', '①①', '①②', '①③', '①④', '①⑤', '①⑥', '①⑦', '①⑧', '①⑨', '①a', '①b', '①c', '①d', '①e', '①f', '①g', '①h', '①i', '①o', '②①', '②②', '②③', '②④', '②⑤', '②⑥', '②⑦', '②⑧', '②⑩', '②a', '②b', '②d', '②e', '②f', '②g', '②h', '②i', '②j', '③①', '③⑩', '③a', '③b', '③c', '③d', '③e', '③f', '③g', '③h', '④a', '④b', '④c', '④d', '④e', '⑤a', '⑤b', '⑤d', '⑤e', '⑤f', '12', 'li', 'zxfitl'] not in stop_words.\n", 557 | " 'stop_words.' % sorted(inconsistent))\n" 558 | ] 559 | }, 560 | { 561 | "data": { 562 | "text/plain": [ 563 | "{'酒精': 161,\n", 564 | " '网页链': 150,\n", 565 | " '社区': 141,\n", 566 | " '口罩': 53,\n", 567 | " '医用': 41,\n", 568 | " '工作': 69,\n", 569 | " '疫情': 129,\n", 570 | " '消毒': 122,\n", 571 | " '小时': 68,\n", 572 | " '病例': 133,\n", 573 | " '确诊': 139,\n", 574 | " '第一': 145,\n", 575 | " '患者': 79,\n", 576 | " '政府': 99,\n", 577 | " '重症': 162,\n", 578 | " '肺炎': 152,\n", 579 | " '疾病': 131,\n", 580 | " '武汉': 116,\n", 581 | " '市场': 70,\n", 582 | " '感冒': 81,\n", 583 | " '病毒': 134,\n", 584 | " '研究': 138,\n", 585 | " '上海': 1,\n", 586 | " '预防': 171,\n", 587 | " '上班': 2,\n", 588 | " '老师': 151,\n", 589 | " '视频': 154,\n", 590 | " '微博': 76,\n", 591 | " '隔离': 169,\n", 592 | " '中国': 6,\n", 593 | " '野味': 163,\n", 594 | " '春节': 109,\n", 595 | " '希望': 71,\n", 596 | " '晚上': 110,\n", 597 | " '出院': 30,\n", 598 | " '影响': 75,\n", 599 | " '感染': 82,\n", 600 | " '加油': 34,\n", 601 | " '致敬': 153,\n", 602 | " '前线': 32,\n", 603 | " '医护': 39,\n", 604 | " '人员': 11,\n", 605 | " '感谢': 84,\n", 606 | " '抗击': 89,\n", 607 | " '新型': 103,\n", 608 | " '第一线': 146,\n", 609 | " '湖北': 123,\n", 610 | " '社会': 140,\n", 611 | " '冠状': 28,\n", 612 | " '动物': 35,\n", 613 | " '发生': 52,\n", 614 | " '出门': 29,\n", 615 | " '今日': 12,\n", 616 | " '发现': 51,\n", 617 | " '新增': 104,\n", 618 | " '消息': 121,\n", 619 | " '评论': 156,\n", 620 | " '发热': 50,\n", 621 | " '困难': 57,\n", 622 | " '控制': 95,\n", 623 | " '建议': 73,\n", 624 | " '医院': 44,\n", 625 | " '支持': 97,\n", 626 | " '基层': 60,\n", 627 | " '防疫': 167,\n", 628 | " '防控': 166,\n", 629 | " '公益': 26,\n", 630 | " '发布': 48,\n", 631 | " '增强': 61,\n", 632 | " '抵抗力': 92,\n", 633 | " '转发': 158,\n", 634 | " '特别': 125,\n", 635 | " '领导': 172,\n", 636 | " '期间': 114,\n", 637 | " '咳嗽': 55,\n", 638 | " '生活': 127,\n", 639 | " '全国': 22,\n", 640 | " '新冠肺炎': 102,\n", 641 | " '月日': 112,\n", 642 | " '医务': 38,\n", 643 | " '新闻': 105,\n", 644 | " '喜欢': 56,\n", 645 | " '防护': 165,\n", 646 | " '公司': 25,\n", 647 | " '身体': 157,\n", 648 | " '医生': 40,\n", 649 | " '措施': 96,\n", 650 | " '平安': 72,\n", 651 | " '健康': 21,\n", 652 | " '辛苦': 159,\n", 653 | " '钟南山': 164,\n", 654 | " '原因': 47,\n", 655 | " '地方': 58,\n", 656 | " '朋友': 113,\n", 657 | " '情况': 80,\n", 658 | " '抗疫': 90,\n", 659 | " '一线': 0,\n", 660 | " '奋战': 64,\n", 661 | " '公共': 24,\n", 662 | " '卫生': 46,\n", 663 | " '传染病': 17,\n", 664 | " '传播': 15,\n", 665 | " '传人': 14,\n", 666 | " '手机': 87,\n", 667 | " '院士': 168,\n", 668 | " '捐赠': 93,\n", 669 | " '卫健委': 45,\n", 670 | " '发烧': 49,\n", 671 | " '症状': 135,\n", 672 | " '检测': 115,\n", 673 | " '治疗': 119,\n", 674 | " '企业': 13,\n", 675 | " '复工': 62,\n", 676 | " '护士': 91,\n", 677 | " '治愈': 118,\n", 678 | " '小区': 67,\n", 679 | " '物资': 124,\n", 680 | " '志愿者': 77,\n", 681 | " '祈福': 142,\n", 682 | " '直播': 136,\n", 683 | " '方案': 106,\n", 684 | " '分享': 31,\n", 685 | " '医疗': 42,\n", 686 | " '战疫': 85,\n", 687 | " '关注': 27,\n", 688 | " '城市': 59,\n", 689 | " '感觉': 83,\n", 690 | " '武汉市': 117,\n", 691 | " '紧急': 147,\n", 692 | " '世界': 4,\n", 693 | " '接触': 94,\n", 694 | " '疑似': 128,\n", 695 | " '孩子': 66,\n", 696 | " '快乐': 78,\n", 697 | " '组织': 148,\n", 698 | " '时间': 107,\n", 699 | " '活动': 120,\n", 700 | " '为什': 9,\n", 701 | " '通知': 160,\n", 702 | " '好好': 65,\n", 703 | " '戴口罩': 86,\n", 704 | " '传染': 16,\n", 705 | " '记者': 155,\n", 706 | " '临床': 8,\n", 707 | " '保护': 19,\n", 708 | " '体温': 18,\n", 709 | " '病人': 132,\n", 710 | " '中心': 7,\n", 711 | " '新冠': 101,\n", 712 | " '中医药': 5,\n", 713 | " '医疗队': 43,\n", 714 | " '大学': 63,\n", 715 | " '相关': 137,\n", 716 | " '力量': 33,\n", 717 | " '呼吸': 54,\n", 718 | " '明天': 108,\n", 719 | " '全球': 23,\n", 720 | " '科学': 143,\n", 721 | " '疫苗': 130,\n", 722 | " '空气': 144,\n", 723 | " '开学': 74,\n", 724 | " '页链': 170,\n", 725 | " '努力': 36,\n", 726 | " '结束': 149,\n", 727 | " '下午': 3,\n", 728 | " '北京': 37,\n", 729 | " '信息': 20,\n", 730 | " '最新': 111,\n", 731 | " '打卡': 88,\n", 732 | " '救治': 100,\n", 733 | " '事件': 10,\n", 734 | " '支援': 98,\n", 735 | " '生命': 126}" 736 | ] 737 | }, 738 | "execution_count": 12, 739 | "metadata": {}, 740 | "output_type": "execute_result" 741 | } 742 | ], 743 | "source": [ 744 | "from sklearn.model_selection import train_test_split\n", 745 | "from sklearn.feature_extraction.text import TfidfVectorizer\n", 746 | "\n", 747 | "\n", 748 | "X_train_pre, X_test_pre, y_train, y_test = train_test_split(df['content'].astype(str), df['sentiment'].tolist(), test_size=0.2, random_state=0)\n", 749 | "\n", 750 | "tfidf = TfidfVectorizer(ngram_range = (1,1), stop_words = list(stopwords.values.reshape(1893,)), analyzer = 'word', min_df=0.01)\n", 751 | "tfidffit = tfidf.fit(X_train_pre)\n", 752 | "X_train = tfidffit.transform(X_train_pre)\n", 753 | "tfidf.vocabulary_" 754 | ] 755 | }, 756 | { 757 | "cell_type": "code", 758 | "execution_count": 13, 759 | "metadata": {}, 760 | "outputs": [ 761 | { 762 | "data": { 763 | "text/plain": [ 764 | "<74688x173 sparse matrix of type ''\n", 765 | "\twith 321189 stored elements in Compressed Sparse Row format>" 766 | ] 767 | }, 768 | "execution_count": 13, 769 | "metadata": {}, 770 | "output_type": "execute_result" 771 | } 772 | ], 773 | "source": [ 774 | "X_train" 775 | ] 776 | } 777 | ], 778 | "metadata": { 779 | "kernelspec": { 780 | "display_name": "Python 3", 781 | "language": "python", 782 | "name": "python3" 783 | }, 784 | "language_info": { 785 | "codemirror_mode": { 786 | "name": "ipython", 787 | "version": 3 788 | }, 789 | "file_extension": ".py", 790 | "mimetype": "text/x-python", 791 | "name": "python", 792 | "nbconvert_exporter": "python", 793 | "pygments_lexer": "ipython3", 794 | "version": "3.7.6" 795 | } 796 | }, 797 | "nbformat": 4, 798 | "nbformat_minor": 4 799 | } 800 | -------------------------------------------------------------------------------- /SentimentAnalysis/03-preprocessing.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 1, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "import pandas as pd\n", 10 | "import thulac\n", 11 | "import seaborn as sns\n", 12 | "import matplotlib.pyplot as plt\n", 13 | "import regex as re\n", 14 | "import csv" 15 | ] 16 | }, 17 | { 18 | "cell_type": "code", 19 | "execution_count": 2, 20 | "metadata": {}, 21 | "outputs": [], 22 | "source": [ 23 | "myfile = '/Users/zhangmeng/Desktop/study/ESCP_SEP/NLP/sentiment/train_ dataset/labled.csv'\n", 24 | "with open(myfile,'r',encoding = 'GB18030', errors = 'ignore') as f:\n", 25 | " raw_data = pd.read_csv(f)" 26 | ] 27 | }, 28 | { 29 | "cell_type": "code", 30 | "execution_count": 3, 31 | "metadata": {}, 32 | "outputs": [], 33 | "source": [ 34 | "raw_data = raw_data.rename(columns={\"微博id\": \"ID\", \"微博发布时间\": \"time\", '发布人账号':'user','微博中文内容':'content',\n", 35 | " '微博图片':'pic', '微博视频':'video','情感倾向':'sentiment'})" 36 | ] 37 | }, 38 | { 39 | "cell_type": "code", 40 | "execution_count": 30, 41 | "metadata": {}, 42 | "outputs": [], 43 | "source": [ 44 | "df0 = raw_data\n", 45 | "df0 = df0.drop(columns=['time','user','pic', 'video'])" 46 | ] 47 | }, 48 | { 49 | "cell_type": "markdown", 50 | "metadata": {}, 51 | "source": [ 52 | "# Understand data, check target value distribution and the distribution of Weibo length" 53 | ] 54 | }, 55 | { 56 | "cell_type": "code", 57 | "execution_count": 31, 58 | "metadata": {}, 59 | "outputs": [ 60 | { 61 | "data": { 62 | "text/plain": [ 63 | "Text(0.5,1,'sentiment(target) distribution')" 64 | ] 65 | }, 66 | "execution_count": 31, 67 | "metadata": {}, 68 | "output_type": "execute_result" 69 | }, 70 | { 71 | "data": { 72 | "image/png": "\n", 73 | "text/plain": [ 74 | "
" 75 | ] 76 | }, 77 | "metadata": { 78 | "needs_background": "light" 79 | }, 80 | "output_type": "display_data" 81 | } 82 | ], 83 | "source": [ 84 | "df0.sentiment.value_counts().plot.bar()\n", 85 | "plt.title('sentiment(target) distribution')" 86 | ] 87 | }, 88 | { 89 | "cell_type": "code", 90 | "execution_count": 34, 91 | "metadata": {}, 92 | "outputs": [], 93 | "source": [ 94 | "df0['sentiment'] = df0['sentiment'].astype(str)\n", 95 | "valid_value = [\"0\",\"1\",\"-1\"]\n", 96 | "is_valid = df0['sentiment'].isin(valid_value)\n", 97 | "df0 = df0[is_valid]" 98 | ] 99 | }, 100 | { 101 | "cell_type": "code", 102 | "execution_count": 36, 103 | "metadata": {}, 104 | "outputs": [ 105 | { 106 | "data": { 107 | "text/plain": [ 108 | "Text(0.5,1,'sentiment(target) distribution')" 109 | ] 110 | }, 111 | "execution_count": 36, 112 | "metadata": {}, 113 | "output_type": "execute_result" 114 | }, 115 | { 116 | "data": { 117 | "image/png": "\n", 118 | "text/plain": [ 119 | "
" 120 | ] 121 | }, 122 | "metadata": { 123 | "needs_background": "light" 124 | }, 125 | "output_type": "display_data" 126 | } 127 | ], 128 | "source": [ 129 | "df0.sentiment.value_counts().plot.bar()\n", 130 | "plt.title('sentiment(target) distribution')" 131 | ] 132 | }, 133 | { 134 | "cell_type": "code", 135 | "execution_count": 37, 136 | "metadata": {}, 137 | "outputs": [ 138 | { 139 | "data": { 140 | "text/plain": [ 141 | "Text(0.5,1,'sentiment(target) distribution')" 142 | ] 143 | }, 144 | "execution_count": 37, 145 | "metadata": {}, 146 | "output_type": "execute_result" 147 | }, 148 | { 149 | "data": { 150 | "image/png": "\n", 151 | "text/plain": [ 152 | "
" 153 | ] 154 | }, 155 | "metadata": { 156 | "needs_background": "light" 157 | }, 158 | "output_type": "display_data" 159 | } 160 | ], 161 | "source": [ 162 | "df0.sentiment.value_counts().plot.bar()\n", 163 | "plt.title('sentiment(target) distribution')" 164 | ] 165 | }, 166 | { 167 | "cell_type": "code", 168 | "execution_count": 38, 169 | "metadata": {}, 170 | "outputs": [ 171 | { 172 | "name": "stderr", 173 | "output_type": "stream", 174 | "text": [ 175 | "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/ipykernel_launcher.py:1: SettingWithCopyWarning: \n", 176 | "A value is trying to be set on a copy of a slice from a DataFrame.\n", 177 | "Try using .loc[row_indexer,col_indexer] = value instead\n", 178 | "\n", 179 | "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n", 180 | " \"\"\"Entry point for launching an IPython kernel.\n" 181 | ] 182 | }, 183 | { 184 | "data": { 185 | "text/plain": [ 186 | "Text(0.5,1,'weibo length')" 187 | ] 188 | }, 189 | "execution_count": 38, 190 | "metadata": {}, 191 | "output_type": "execute_result" 192 | }, 193 | { 194 | "data": { 195 | "image/png": "\n", 196 | "text/plain": [ 197 | "
" 198 | ] 199 | }, 200 | "metadata": { 201 | "needs_background": "light" 202 | }, 203 | "output_type": "display_data" 204 | } 205 | ], 206 | "source": [ 207 | "df0['weibo_len'] = df0['content'].astype(str).apply(len)\n", 208 | "sns.kdeplot(df0['weibo_len'])\n", 209 | "plt.title('weibo length')" 210 | ] 211 | }, 212 | { 213 | "cell_type": "code", 214 | "execution_count": 39, 215 | "metadata": {}, 216 | "outputs": [ 217 | { 218 | "data": { 219 | "text/plain": [ 220 | "Text(0.5,1,'weibo length new')" 221 | ] 222 | }, 223 | "execution_count": 39, 224 | "metadata": {}, 225 | "output_type": "execute_result" 226 | }, 227 | { 228 | "data": { 229 | "image/png": "\n", 230 | "text/plain": [ 231 | "
" 232 | ] 233 | }, 234 | "metadata": { 235 | "needs_background": "light" 236 | }, 237 | "output_type": "display_data" 238 | } 239 | ], 240 | "source": [ 241 | "df1 = df0[df0.content.astype(str).apply(len)<=170]\n", 242 | "sns.kdeplot(df1['weibo_len'])\n", 243 | "plt.title('weibo length new')" 244 | ] 245 | }, 246 | { 247 | "cell_type": "markdown", 248 | "metadata": {}, 249 | "source": [ 250 | "# pre-cleaning, deleting or filtering unnecessary words like 'show more'" 251 | ] 252 | }, 253 | { 254 | "cell_type": "code", 255 | "execution_count": 40, 256 | "metadata": {}, 257 | "outputs": [ 258 | { 259 | "name": "stderr", 260 | "output_type": "stream", 261 | "text": [ 262 | "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/ipykernel_launcher.py:2: SettingWithCopyWarning: \n", 263 | "A value is trying to be set on a copy of a slice from a DataFrame.\n", 264 | "Try using .loc[row_indexer,col_indexer] = value instead\n", 265 | "\n", 266 | "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n", 267 | " \n", 268 | "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/ipykernel_launcher.py:5: SettingWithCopyWarning: \n", 269 | "A value is trying to be set on a copy of a slice from a DataFrame.\n", 270 | "Try using .loc[row_indexer,col_indexer] = value instead\n", 271 | "\n", 272 | "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n", 273 | " \"\"\"\n" 274 | ] 275 | } 276 | ], 277 | "source": [ 278 | "#remove \"show more\"\n", 279 | "df1['content'] = df1['content'].astype(str).apply(lambda x : x.replace(\"展开全文\", \"\"))\n", 280 | "# remove symbol, number and letter\n", 281 | "symbols = \"[a-zA-Z0-9\\s+\\.\\!\\/_,$%^*()??;;:【】+\\\"\\'\\[\\]\\\\]+|[+——!,;:。?《》、~@#¥%……&*()“”.=-]+\"\n", 282 | "df1['content'] = df1['content'].astype(str).apply(lambda x : re.sub(symbols, '', x))" 283 | ] 284 | }, 285 | { 286 | "cell_type": "code", 287 | "execution_count": 41, 288 | "metadata": {}, 289 | "outputs": [ 290 | { 291 | "name": "stderr", 292 | "output_type": "stream", 293 | "text": [ 294 | "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/ipykernel_launcher.py:2: SettingWithCopyWarning: \n", 295 | "A value is trying to be set on a copy of a slice from a DataFrame.\n", 296 | "Try using .loc[row_indexer,col_indexer] = value instead\n", 297 | "\n", 298 | "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n", 299 | " \n" 300 | ] 301 | } 302 | ], 303 | "source": [ 304 | "pattern = re.compile(r'[^\\u4e00-\\u9fa5]')\n", 305 | "df1['content'] = df1['content'].astype(str).apply(lambda x: re.sub(pattern, '', x))" 306 | ] 307 | }, 308 | { 309 | "cell_type": "code", 310 | "execution_count": 42, 311 | "metadata": {}, 312 | "outputs": [ 313 | { 314 | "name": "stdout", 315 | "output_type": "stream", 316 | "text": [ 317 | "Model loaded succeed\n" 318 | ] 319 | }, 320 | { 321 | "name": "stderr", 322 | "output_type": "stream", 323 | "text": [ 324 | "/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/ipykernel_launcher.py:2: SettingWithCopyWarning: \n", 325 | "A value is trying to be set on a copy of a slice from a DataFrame.\n", 326 | "Try using .loc[row_indexer,col_indexer] = value instead\n", 327 | "\n", 328 | "See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy\n", 329 | " \n" 330 | ] 331 | } 332 | ], 333 | "source": [ 334 | "#tokenization using http://thulac.thunlp.org/\n", 335 | "thu1 = thulac.thulac(seg_only=True) #默认模式\n", 336 | "df1['content'] = df1['content'].astype(str).apply(lambda x : thu1.cut(x,text = True))" 337 | ] 338 | }, 339 | { 340 | "cell_type": "code", 341 | "execution_count": 43, 342 | "metadata": {}, 343 | "outputs": [ 344 | { 345 | "data": { 346 | "text/plain": [ 347 | "'写 在 年末 冬初 孩子 流感 的 第五 天 我们 仍然 没有 忘记 热情 拥抱 这 年 的 第一 天 带 着 一 丝 迷信 早晨 给 孩子 穿 上 红色 的 羽绒服 羽绒 裤祈祷 新 的 一 年 孩子 们 身体 康健 仍然 会 有 一 丝 焦虑 焦虑 我 的 孩子 为什 么 会 过早 的 懂事 从 两 岁 多 开始 关注 我 的 情绪 会 深沉 地 说 妈妈 你 终于 笑 了 这 句 话 像 刀子 一样 扎入 我'" 348 | ] 349 | }, 350 | "execution_count": 43, 351 | "metadata": {}, 352 | "output_type": "execute_result" 353 | } 354 | ], 355 | "source": [ 356 | "df1.content[0]" 357 | ] 358 | }, 359 | { 360 | "cell_type": "code", 361 | "execution_count": 44, 362 | "metadata": {}, 363 | "outputs": [], 364 | "source": [ 365 | "df1.to_csv(\"precleaned.csv\")" 366 | ] 367 | }, 368 | { 369 | "cell_type": "code", 370 | "execution_count": null, 371 | "metadata": {}, 372 | "outputs": [], 373 | "source": [ 374 | "myfile = './mystopwords.csv'\n", 375 | "stopwords = pd.read_csv(myfile, delimiter='\\n', header=None, encoding='utf-8', quoting=csv.QUOTE_NONE)\n", 376 | "stopwords.shape" 377 | ] 378 | }, 379 | { 380 | "cell_type": "code", 381 | "execution_count": null, 382 | "metadata": {}, 383 | "outputs": [], 384 | "source": [ 385 | "# thu1 = thulac.thulac(seg_only=True) #默认模式\n", 386 | "# df1 = df0\n", 387 | "# df1['content'] = df1['content'].astype(str).apply(lambda x : thu1.cut(x,text = True))\n", 388 | "# #text = thu1.cut(df0.content[0], text=True) #进行一句话分词\n", 389 | "# #print(text)\n", 390 | "# df1.head(10)" 391 | ] 392 | }, 393 | { 394 | "cell_type": "code", 395 | "execution_count": null, 396 | "metadata": {}, 397 | "outputs": [], 398 | "source": [ 399 | "count_vect = CountVectorizer(analyzer='word', token_pattern=r'\\w{1,}')\n", 400 | "count_vect.fit(df1['content'])\n", 401 | "xtrain_count = count_vect.transform(train_df['text_cut'])" 402 | ] 403 | } 404 | ], 405 | "metadata": { 406 | "kernelspec": { 407 | "display_name": "py_35_env", 408 | "language": "python", 409 | "name": "py_35_env" 410 | }, 411 | "language_info": { 412 | "codemirror_mode": { 413 | "name": "ipython", 414 | "version": 3 415 | }, 416 | "file_extension": ".py", 417 | "mimetype": "text/x-python", 418 | "name": "python", 419 | "nbconvert_exporter": "python", 420 | "pygments_lexer": "ipython3", 421 | "version": "3.5.4" 422 | } 423 | }, 424 | "nbformat": 4, 425 | "nbformat_minor": 4 426 | } 427 | -------------------------------------------------------------------------------- /SentimentAnalysis/stopwords.txt: -------------------------------------------------------------------------------- 1 | ! 2 | " 3 | # 4 | $ 5 | % 6 | & 7 | ' 8 | ( 9 | ) 10 | * 11 | + 12 | , 13 | - 14 | -- 15 | . 16 | .. 17 | ... 18 | ...... 19 | ................... 20 | ./ 21 | .一 22 | .数 23 | .日 24 | / 25 | // 26 | 0 27 | 1 28 | 2 29 | 3 30 | 4 31 | 5 32 | 6 33 | 7 34 | 8 35 | 9 36 | : 37 | :// 38 | :: 39 | ; 40 | < 41 | = 42 | > 43 | >> 44 | ? 45 | @ 46 | A 47 | Lex 48 | [ 49 | \ 50 | ] 51 | ^ 52 | _ 53 | ` 54 | exp 55 | sub 56 | sup 57 | | 58 | } 59 | ~ 60 | ~~~~ 61 | · 62 | × 63 | ××× 64 | Δ 65 | Ψ 66 | γ 67 | μ 68 | φ 69 | φ. 70 | В 71 | — 72 | —— 73 | ——— 74 | ‘ 75 | ’ 76 | ’‘ 77 | “ 78 | ” 79 | ”, 80 | … 81 | …… 82 | …………………………………………………③ 83 | ′∈ 84 | ′| 85 | ℃ 86 | Ⅲ 87 | ↑ 88 | → 89 | ∈[ 90 | ∪φ∈ 91 | ≈ 92 | ① 93 | ② 94 | ②c 95 | ③ 96 | ③] 97 | ④ 98 | ⑤ 99 | ⑥ 100 | ⑦ 101 | ⑧ 102 | ⑨ 103 | ⑩ 104 | ── 105 | ■ 106 | ▲ 107 |   108 | 、 109 | 。 110 | 〈 111 | 〉 112 | 《 113 | 》 114 | 》), 115 | 」 116 | 『 117 | 』 118 | 【 119 | 】 120 | 〔 121 | 〕 122 | 〕〔 123 | ㈧ 124 | 一 125 | 一. 126 | 一一 127 | 一下 128 | 一个 129 | 一些 130 | 一何 131 | 一切 132 | 一则 133 | 一则通过 134 | 一天 135 | 一定 136 | 一方面 137 | 一旦 138 | 一时 139 | 一来 140 | 一样 141 | 一次 142 | 一片 143 | 一番 144 | 一直 145 | 一致 146 | 一般 147 | 一起 148 | 一转眼 149 | 一边 150 | 一面 151 | 七 152 | 万一 153 | 三 154 | 三天两头 155 | 三番两次 156 | 三番五次 157 | 上 158 | 上下 159 | 上升 160 | 上去 161 | 上来 162 | 上述 163 | 上面 164 | 下 165 | 下列 166 | 下去 167 | 下来 168 | 下面 169 | 不 170 | 不一 171 | 不下 172 | 不久 173 | 不了 174 | 不亦乐乎 175 | 不仅 176 | 不仅...而且 177 | 不仅仅 178 | 不仅仅是 179 | 不会 180 | 不但 181 | 不但...而且 182 | 不光 183 | 不免 184 | 不再 185 | 不力 186 | 不单 187 | 不变 188 | 不只 189 | 不可 190 | 不可开交 191 | 不可抗拒 192 | 不同 193 | 不外 194 | 不外乎 195 | 不够 196 | 不大 197 | 不如 198 | 不妨 199 | 不定 200 | 不对 201 | 不少 202 | 不尽 203 | 不尽然 204 | 不巧 205 | 不已 206 | 不常 207 | 不得 208 | 不得不 209 | 不得了 210 | 不得已 211 | 不必 212 | 不怎么 213 | 不怕 214 | 不惟 215 | 不成 216 | 不拘 217 | 不择手段 218 | 不敢 219 | 不料 220 | 不断 221 | 不日 222 | 不时 223 | 不是 224 | 不曾 225 | 不止 226 | 不止一次 227 | 不比 228 | 不消 229 | 不满 230 | 不然 231 | 不然的话 232 | 不特 233 | 不独 234 | 不由得 235 | 不知不觉 236 | 不管 237 | 不管怎样 238 | 不经意 239 | 不胜 240 | 不能 241 | 不能不 242 | 不至于 243 | 不若 244 | 不要 245 | 不论 246 | 不起 247 | 不足 248 | 不过 249 | 不迭 250 | 不问 251 | 不限 252 | 与 253 | 与其 254 | 与其说 255 | 与否 256 | 与此同时 257 | 专门 258 | 且 259 | 且不说 260 | 且说 261 | 两者 262 | 严格 263 | 严重 264 | 个 265 | 个人 266 | 个别 267 | 中小 268 | 中间 269 | 丰富 270 | 串行 271 | 临 272 | 临到 273 | 为 274 | 为主 275 | 为了 276 | 为什么 277 | 为什麽 278 | 为何 279 | 为止 280 | 为此 281 | 为着 282 | 主张 283 | 主要 284 | 举凡 285 | 举行 286 | 乃 287 | 乃至 288 | 乃至于 289 | 么 290 | 之 291 | 之一 292 | 之前 293 | 之后 294 | 之後 295 | 之所以 296 | 之类 297 | 乌乎 298 | 乎 299 | 乒 300 | 乘 301 | 乘势 302 | 乘机 303 | 乘胜 304 | 乘虚 305 | 乘隙 306 | 九 307 | 也 308 | 也好 309 | 也就是说 310 | 也是 311 | 也罢 312 | 了 313 | 了解 314 | 争取 315 | 二 316 | 二来 317 | 二话不说 318 | 二话没说 319 | 于 320 | 于是 321 | 于是乎 322 | 云云 323 | 云尔 324 | 互 325 | 互相 326 | 五 327 | 些 328 | 交口 329 | 亦 330 | 产生 331 | 亲口 332 | 亲手 333 | 亲眼 334 | 亲自 335 | 亲身 336 | 人 337 | 人人 338 | 人们 339 | 人家 340 | 人民 341 | 什么 342 | 什么样 343 | 什麽 344 | 仅 345 | 仅仅 346 | 今 347 | 今后 348 | 今天 349 | 今年 350 | 今後 351 | 介于 352 | 仍 353 | 仍旧 354 | 仍然 355 | 从 356 | 从不 357 | 从严 358 | 从中 359 | 从事 360 | 从今以后 361 | 从优 362 | 从古到今 363 | 从古至今 364 | 从头 365 | 从宽 366 | 从小 367 | 从新 368 | 从无到有 369 | 从早到晚 370 | 从未 371 | 从来 372 | 从此 373 | 从此以后 374 | 从而 375 | 从轻 376 | 从速 377 | 从重 378 | 他 379 | 他人 380 | 他们 381 | 他是 382 | 他的 383 | 代替 384 | 以 385 | 以上 386 | 以下 387 | 以为 388 | 以便 389 | 以免 390 | 以前 391 | 以及 392 | 以后 393 | 以外 394 | 以後 395 | 以故 396 | 以期 397 | 以来 398 | 以至 399 | 以至于 400 | 以致 401 | 们 402 | 任 403 | 任何 404 | 任凭 405 | 任务 406 | 企图 407 | 伙同 408 | 会 409 | 伟大 410 | 传 411 | 传说 412 | 传闻 413 | 似乎 414 | 似的 415 | 但 416 | 但凡 417 | 但愿 418 | 但是 419 | 何 420 | 何乐而不为 421 | 何以 422 | 何况 423 | 何处 424 | 何妨 425 | 何尝 426 | 何必 427 | 何时 428 | 何止 429 | 何苦 430 | 何须 431 | 余外 432 | 作为 433 | 你 434 | 你们 435 | 你是 436 | 你的 437 | 使 438 | 使得 439 | 使用 440 | 例如 441 | 依 442 | 依据 443 | 依照 444 | 依靠 445 | 便 446 | 便于 447 | 促进 448 | 保持 449 | 保管 450 | 保险 451 | 俺 452 | 俺们 453 | 倍加 454 | 倍感 455 | 倒不如 456 | 倒不如说 457 | 倒是 458 | 倘 459 | 倘使 460 | 倘或 461 | 倘然 462 | 倘若 463 | 借 464 | 借以 465 | 借此 466 | 假使 467 | 假如 468 | 假若 469 | 偏偏 470 | 做到 471 | 偶尔 472 | 偶而 473 | 傥然 474 | 像 475 | 儿 476 | 允许 477 | 元/吨 478 | 充其极 479 | 充其量 480 | 充分 481 | 先不先 482 | 先后 483 | 先後 484 | 先生 485 | 光 486 | 光是 487 | 全体 488 | 全力 489 | 全年 490 | 全然 491 | 全身心 492 | 全部 493 | 全都 494 | 全面 495 | 八 496 | 八成 497 | 公然 498 | 六 499 | 兮 500 | 共 501 | 共同 502 | 共总 503 | 关于 504 | 其 505 | 其一 506 | 其中 507 | 其二 508 | 其他 509 | 其余 510 | 其后 511 | 其它 512 | 其实 513 | 其次 514 | 具体 515 | 具体地说 516 | 具体来说 517 | 具体说来 518 | 具有 519 | 兼之 520 | 内 521 | 再 522 | 再其次 523 | 再则 524 | 再有 525 | 再次 526 | 再者 527 | 再者说 528 | 再说 529 | 冒 530 | 冲 531 | 决不 532 | 决定 533 | 决非 534 | 况且 535 | 准备 536 | 凑巧 537 | 凝神 538 | 几 539 | 几乎 540 | 几度 541 | 几时 542 | 几番 543 | 几经 544 | 凡 545 | 凡是 546 | 凭 547 | 凭借 548 | 出 549 | 出于 550 | 出去 551 | 出来 552 | 出现 553 | 分别 554 | 分头 555 | 分期 556 | 分期分批 557 | 切 558 | 切不可 559 | 切切 560 | 切勿 561 | 切莫 562 | 则 563 | 则甚 564 | 刚 565 | 刚好 566 | 刚巧 567 | 刚才 568 | 初 569 | 别 570 | 别人 571 | 别处 572 | 别是 573 | 别的 574 | 别管 575 | 别说 576 | 到 577 | 到了儿 578 | 到处 579 | 到头 580 | 到头来 581 | 到底 582 | 到目前为止 583 | 前后 584 | 前此 585 | 前者 586 | 前进 587 | 前面 588 | 加上 589 | 加之 590 | 加以 591 | 加入 592 | 加强 593 | 动不动 594 | 动辄 595 | 勃然 596 | 匆匆 597 | 十分 598 | 千 599 | 千万 600 | 千万千万 601 | 半 602 | 单 603 | 单单 604 | 单纯 605 | 即 606 | 即令 607 | 即使 608 | 即便 609 | 即刻 610 | 即如 611 | 即将 612 | 即或 613 | 即是说 614 | 即若 615 | 却 616 | 却不 617 | 历 618 | 原来 619 | 去 620 | 又 621 | 又及 622 | 及 623 | 及其 624 | 及时 625 | 及至 626 | 双方 627 | 反之 628 | 反之亦然 629 | 反之则 630 | 反倒 631 | 反倒是 632 | 反应 633 | 反手 634 | 反映 635 | 反而 636 | 反过来 637 | 反过来说 638 | 取得 639 | 取道 640 | 受到 641 | 变成 642 | 古来 643 | 另 644 | 另一个 645 | 另一方面 646 | 另外 647 | 另悉 648 | 另方面 649 | 另行 650 | 只 651 | 只当 652 | 只怕 653 | 只是 654 | 只有 655 | 只消 656 | 只要 657 | 只限 658 | 叫 659 | 叫做 660 | 召开 661 | 叮咚 662 | 叮当 663 | 可 664 | 可以 665 | 可好 666 | 可是 667 | 可能 668 | 可见 669 | 各 670 | 各个 671 | 各人 672 | 各位 673 | 各地 674 | 各式 675 | 各种 676 | 各级 677 | 各自 678 | 合理 679 | 同 680 | 同一 681 | 同时 682 | 同样 683 | 后 684 | 后来 685 | 后者 686 | 后面 687 | 向 688 | 向使 689 | 向着 690 | 吓 691 | 吗 692 | 否则 693 | 吧 694 | 吧哒 695 | 吱 696 | 呀 697 | 呃 698 | 呆呆地 699 | 呐 700 | 呕 701 | 呗 702 | 呜 703 | 呜呼 704 | 呢 705 | 周围 706 | 呵 707 | 呵呵 708 | 呸 709 | 呼哧 710 | 呼啦 711 | 咋 712 | 和 713 | 咚 714 | 咦 715 | 咧 716 | 咱 717 | 咱们 718 | 咳 719 | 哇 720 | 哈 721 | 哈哈 722 | 哉 723 | 哎 724 | 哎呀 725 | 哎哟 726 | 哗 727 | 哗啦 728 | 哟 729 | 哦 730 | 哩 731 | 哪 732 | 哪个 733 | 哪些 734 | 哪儿 735 | 哪天 736 | 哪年 737 | 哪怕 738 | 哪样 739 | 哪边 740 | 哪里 741 | 哼 742 | 哼唷 743 | 唉 744 | 唯有 745 | 啊 746 | 啊呀 747 | 啊哈 748 | 啊哟 749 | 啐 750 | 啥 751 | 啦 752 | 啪达 753 | 啷当 754 | 喀 755 | 喂 756 | 喏 757 | 喔唷 758 | 喽 759 | 嗡 760 | 嗡嗡 761 | 嗬 762 | 嗯 763 | 嗳 764 | 嘎 765 | 嘎嘎 766 | 嘎登 767 | 嘘 768 | 嘛 769 | 嘻 770 | 嘿 771 | 嘿嘿 772 | 四 773 | 因 774 | 因为 775 | 因了 776 | 因此 777 | 因着 778 | 因而 779 | 固 780 | 固然 781 | 在 782 | 在下 783 | 在于 784 | 地 785 | 均 786 | 坚决 787 | 坚持 788 | 基于 789 | 基本 790 | 基本上 791 | 处在 792 | 处处 793 | 处理 794 | 复杂 795 | 多 796 | 多么 797 | 多亏 798 | 多多 799 | 多多少少 800 | 多多益善 801 | 多少 802 | 多年前 803 | 多年来 804 | 多数 805 | 多次 806 | 够瞧的 807 | 大 808 | 大不了 809 | 大举 810 | 大事 811 | 大体 812 | 大体上 813 | 大凡 814 | 大力 815 | 大多 816 | 大多数 817 | 大大 818 | 大家 819 | 大张旗鼓 820 | 大批 821 | 大抵 822 | 大概 823 | 大略 824 | 大约 825 | 大致 826 | 大都 827 | 大量 828 | 大面儿上 829 | 失去 830 | 奇 831 | 奈 832 | 奋勇 833 | 她 834 | 她们 835 | 她是 836 | 她的 837 | 好 838 | 好在 839 | 好的 840 | 好象 841 | 如 842 | 如上 843 | 如上所述 844 | 如下 845 | 如今 846 | 如何 847 | 如其 848 | 如前所述 849 | 如同 850 | 如常 851 | 如是 852 | 如期 853 | 如果 854 | 如次 855 | 如此 856 | 如此等等 857 | 如若 858 | 始而 859 | 姑且 860 | 存在 861 | 存心 862 | 孰料 863 | 孰知 864 | 宁 865 | 宁可 866 | 宁愿 867 | 宁肯 868 | 它 869 | 它们 870 | 它们的 871 | 它是 872 | 它的 873 | 安全 874 | 完全 875 | 完成 876 | 定 877 | 实现 878 | 实际 879 | 宣布 880 | 容易 881 | 密切 882 | 对 883 | 对于 884 | 对应 885 | 对待 886 | 对方 887 | 对比 888 | 将 889 | 将才 890 | 将要 891 | 将近 892 | 小 893 | 少数 894 | 尔 895 | 尔后 896 | 尔尔 897 | 尔等 898 | 尚且 899 | 尤其 900 | 就 901 | 就地 902 | 就是 903 | 就是了 904 | 就是说 905 | 就此 906 | 就算 907 | 就要 908 | 尽 909 | 尽可能 910 | 尽如人意 911 | 尽心尽力 912 | 尽心竭力 913 | 尽快 914 | 尽早 915 | 尽然 916 | 尽管 917 | 尽管如此 918 | 尽量 919 | 局外 920 | 居然 921 | 届时 922 | 属于 923 | 屡 924 | 屡屡 925 | 屡次 926 | 屡次三番 927 | 岂 928 | 岂但 929 | 岂止 930 | 岂非 931 | 川流不息 932 | 左右 933 | 巨大 934 | 巩固 935 | 差一点 936 | 差不多 937 | 己 938 | 已 939 | 已矣 940 | 已经 941 | 巴 942 | 巴巴 943 | 带 944 | 帮助 945 | 常 946 | 常常 947 | 常言说 948 | 常言说得好 949 | 常言道 950 | 平素 951 | 年复一年 952 | 并 953 | 并不 954 | 并不是 955 | 并且 956 | 并排 957 | 并无 958 | 并没 959 | 并没有 960 | 并肩 961 | 并非 962 | 广大 963 | 广泛 964 | 应当 965 | 应用 966 | 应该 967 | 庶乎 968 | 庶几 969 | 开外 970 | 开始 971 | 开展 972 | 引起 973 | 弗 974 | 弹指之间 975 | 强烈 976 | 强调 977 | 归 978 | 归根到底 979 | 归根结底 980 | 归齐 981 | 当 982 | 当下 983 | 当中 984 | 当儿 985 | 当前 986 | 当即 987 | 当口儿 988 | 当地 989 | 当场 990 | 当头 991 | 当庭 992 | 当时 993 | 当然 994 | 当真 995 | 当着 996 | 形成 997 | 彻夜 998 | 彻底 999 | 彼 1000 | 彼时 1001 | 彼此 1002 | 往 1003 | 往往 1004 | 待 1005 | 待到 1006 | 很 1007 | 很多 1008 | 很少 1009 | 後来 1010 | 後面 1011 | 得 1012 | 得了 1013 | 得出 1014 | 得到 1015 | 得天独厚 1016 | 得起 1017 | 心里 1018 | 必 1019 | 必定 1020 | 必将 1021 | 必然 1022 | 必要 1023 | 必须 1024 | 快 1025 | 快要 1026 | 忽地 1027 | 忽然 1028 | 怎 1029 | 怎么 1030 | 怎么办 1031 | 怎么样 1032 | 怎奈 1033 | 怎样 1034 | 怎麽 1035 | 怕 1036 | 急匆匆 1037 | 怪 1038 | 怪不得 1039 | 总之 1040 | 总是 1041 | 总的来看 1042 | 总的来说 1043 | 总的说来 1044 | 总结 1045 | 总而言之 1046 | 恍然 1047 | 恐怕 1048 | 恰似 1049 | 恰好 1050 | 恰如 1051 | 恰巧 1052 | 恰恰 1053 | 恰恰相反 1054 | 恰逢 1055 | 您 1056 | 您们 1057 | 您是 1058 | 惟其 1059 | 惯常 1060 | 意思 1061 | 愤然 1062 | 愿意 1063 | 慢说 1064 | 成为 1065 | 成年 1066 | 成年累月 1067 | 成心 1068 | 我 1069 | 我们 1070 | 我是 1071 | 我的 1072 | 或 1073 | 或则 1074 | 或多或少 1075 | 或是 1076 | 或曰 1077 | 或者 1078 | 或许 1079 | 战斗 1080 | 截然 1081 | 截至 1082 | 所 1083 | 所以 1084 | 所在 1085 | 所幸 1086 | 所有 1087 | 所谓 1088 | 才 1089 | 才能 1090 | 扑通 1091 | 打 1092 | 打从 1093 | 打开天窗说亮话 1094 | 扩大 1095 | 把 1096 | 抑或 1097 | 抽冷子 1098 | 拦腰 1099 | 拿 1100 | 按 1101 | 按时 1102 | 按期 1103 | 按照 1104 | 按理 1105 | 按说 1106 | 挨个 1107 | 挨家挨户 1108 | 挨次 1109 | 挨着 1110 | 挨门挨户 1111 | 挨门逐户 1112 | 换句话说 1113 | 换言之 1114 | 据 1115 | 据实 1116 | 据悉 1117 | 据我所知 1118 | 据此 1119 | 据称 1120 | 据说 1121 | 掌握 1122 | 接下来 1123 | 接着 1124 | 接著 1125 | 接连不断 1126 | 放量 1127 | 故 1128 | 故意 1129 | 故此 1130 | 故而 1131 | 敞开儿 1132 | 敢 1133 | 敢于 1134 | 敢情 1135 | 数/ 1136 | 整个 1137 | 断然 1138 | 方 1139 | 方便 1140 | 方才 1141 | 方能 1142 | 方面 1143 | 旁人 1144 | 无 1145 | 无宁 1146 | 无法 1147 | 无论 1148 | 既 1149 | 既...又 1150 | 既往 1151 | 既是 1152 | 既然 1153 | 日复一日 1154 | 日渐 1155 | 日益 1156 | 日臻 1157 | 日见 1158 | 时候 1159 | 昂然 1160 | 明显 1161 | 明确 1162 | 是 1163 | 是不是 1164 | 是以 1165 | 是否 1166 | 是的 1167 | 显然 1168 | 显著 1169 | 普通 1170 | 普遍 1171 | 暗中 1172 | 暗地里 1173 | 暗自 1174 | 更 1175 | 更为 1176 | 更加 1177 | 更进一步 1178 | 曾 1179 | 曾经 1180 | 替 1181 | 替代 1182 | 最 1183 | 最后 1184 | 最大 1185 | 最好 1186 | 最後 1187 | 最近 1188 | 最高 1189 | 有 1190 | 有些 1191 | 有关 1192 | 有利 1193 | 有力 1194 | 有及 1195 | 有所 1196 | 有效 1197 | 有时 1198 | 有点 1199 | 有的 1200 | 有的是 1201 | 有着 1202 | 有著 1203 | 望 1204 | 朝 1205 | 朝着 1206 | 末##末 1207 | 本 1208 | 本人 1209 | 本地 1210 | 本着 1211 | 本身 1212 | 权时 1213 | 来 1214 | 来不及 1215 | 来得及 1216 | 来看 1217 | 来着 1218 | 来自 1219 | 来讲 1220 | 来说 1221 | 极 1222 | 极为 1223 | 极了 1224 | 极其 1225 | 极力 1226 | 极大 1227 | 极度 1228 | 极端 1229 | 构成 1230 | 果然 1231 | 果真 1232 | 某 1233 | 某个 1234 | 某些 1235 | 某某 1236 | 根据 1237 | 根本 1238 | 格外 1239 | 梆 1240 | 概 1241 | 次第 1242 | 欢迎 1243 | 欤 1244 | 正值 1245 | 正在 1246 | 正如 1247 | 正巧 1248 | 正常 1249 | 正是 1250 | 此 1251 | 此中 1252 | 此后 1253 | 此地 1254 | 此处 1255 | 此外 1256 | 此时 1257 | 此次 1258 | 此间 1259 | 殆 1260 | 毋宁 1261 | 每 1262 | 每个 1263 | 每天 1264 | 每年 1265 | 每当 1266 | 每时每刻 1267 | 每每 1268 | 每逢 1269 | 比 1270 | 比及 1271 | 比如 1272 | 比如说 1273 | 比方 1274 | 比照 1275 | 比起 1276 | 比较 1277 | 毕竟 1278 | 毫不 1279 | 毫无 1280 | 毫无例外 1281 | 毫无保留地 1282 | 汝 1283 | 沙沙 1284 | 没 1285 | 没奈何 1286 | 没有 1287 | 沿 1288 | 沿着 1289 | 注意 1290 | 活 1291 | 深入 1292 | 清楚 1293 | 满 1294 | 满足 1295 | 漫说 1296 | 焉 1297 | 然 1298 | 然则 1299 | 然后 1300 | 然後 1301 | 然而 1302 | 照 1303 | 照着 1304 | 牢牢 1305 | 特别是 1306 | 特殊 1307 | 特点 1308 | 犹且 1309 | 犹自 1310 | 独 1311 | 独自 1312 | 猛然 1313 | 猛然间 1314 | 率尔 1315 | 率然 1316 | 现代 1317 | 现在 1318 | 理应 1319 | 理当 1320 | 理该 1321 | 瑟瑟 1322 | 甚且 1323 | 甚么 1324 | 甚或 1325 | 甚而 1326 | 甚至 1327 | 甚至于 1328 | 用 1329 | 用来 1330 | 甫 1331 | 甭 1332 | 由 1333 | 由于 1334 | 由是 1335 | 由此 1336 | 由此可见 1337 | 略 1338 | 略为 1339 | 略加 1340 | 略微 1341 | 白 1342 | 白白 1343 | 的 1344 | 的确 1345 | 的话 1346 | 皆可 1347 | 目前 1348 | 直到 1349 | 直接 1350 | 相似 1351 | 相信 1352 | 相反 1353 | 相同 1354 | 相对 1355 | 相对而言 1356 | 相应 1357 | 相当 1358 | 相等 1359 | 省得 1360 | 看 1361 | 看上去 1362 | 看出 1363 | 看到 1364 | 看来 1365 | 看样子 1366 | 看看 1367 | 看见 1368 | 看起来 1369 | 真是 1370 | 真正 1371 | 眨眼 1372 | 着 1373 | 着呢 1374 | 矣 1375 | 矣乎 1376 | 矣哉 1377 | 知道 1378 | 砰 1379 | 确定 1380 | 碰巧 1381 | 社会主义 1382 | 离 1383 | 种 1384 | 积极 1385 | 移动 1386 | 究竟 1387 | 穷年累月 1388 | 突出 1389 | 突然 1390 | 窃 1391 | 立 1392 | 立刻 1393 | 立即 1394 | 立地 1395 | 立时 1396 | 立马 1397 | 竟 1398 | 竟然 1399 | 竟而 1400 | 第 1401 | 第二 1402 | 等 1403 | 等到 1404 | 等等 1405 | 策略地 1406 | 简直 1407 | 简而言之 1408 | 简言之 1409 | 管 1410 | 类如 1411 | 粗 1412 | 精光 1413 | 紧接着 1414 | 累年 1415 | 累次 1416 | 纯 1417 | 纯粹 1418 | 纵 1419 | 纵令 1420 | 纵使 1421 | 纵然 1422 | 练习 1423 | 组成 1424 | 经 1425 | 经常 1426 | 经过 1427 | 结合 1428 | 结果 1429 | 给 1430 | 绝 1431 | 绝不 1432 | 绝对 1433 | 绝非 1434 | 绝顶 1435 | 继之 1436 | 继后 1437 | 继续 1438 | 继而 1439 | 维持 1440 | 综上所述 1441 | 缕缕 1442 | 罢了 1443 | 老 1444 | 老大 1445 | 老是 1446 | 老老实实 1447 | 考虑 1448 | 者 1449 | 而 1450 | 而且 1451 | 而况 1452 | 而又 1453 | 而后 1454 | 而外 1455 | 而已 1456 | 而是 1457 | 而言 1458 | 而论 1459 | 联系 1460 | 联袂 1461 | 背地里 1462 | 背靠背 1463 | 能 1464 | 能否 1465 | 能够 1466 | 腾 1467 | 自 1468 | 自个儿 1469 | 自从 1470 | 自各儿 1471 | 自后 1472 | 自家 1473 | 自己 1474 | 自打 1475 | 自身 1476 | 臭 1477 | 至 1478 | 至于 1479 | 至今 1480 | 至若 1481 | 致 1482 | 般的 1483 | 良好 1484 | 若 1485 | 若夫 1486 | 若是 1487 | 若果 1488 | 若非 1489 | 范围 1490 | 莫 1491 | 莫不 1492 | 莫不然 1493 | 莫如 1494 | 莫若 1495 | 莫非 1496 | 获得 1497 | 藉以 1498 | 虽 1499 | 虽则 1500 | 虽然 1501 | 虽说 1502 | 蛮 1503 | 行为 1504 | 行动 1505 | 表明 1506 | 表示 1507 | 被 1508 | 要 1509 | 要不 1510 | 要不是 1511 | 要不然 1512 | 要么 1513 | 要是 1514 | 要求 1515 | 见 1516 | 规定 1517 | 觉得 1518 | 譬喻 1519 | 譬如 1520 | 认为 1521 | 认真 1522 | 认识 1523 | 让 1524 | 许多 1525 | 论 1526 | 论说 1527 | 设使 1528 | 设或 1529 | 设若 1530 | 诚如 1531 | 诚然 1532 | 话说 1533 | 该 1534 | 该当 1535 | 说明 1536 | 说来 1537 | 说说 1538 | 请勿 1539 | 诸 1540 | 诸位 1541 | 诸如 1542 | 谁 1543 | 谁人 1544 | 谁料 1545 | 谁知 1546 | 谨 1547 | 豁然 1548 | 贼死 1549 | 赖以 1550 | 赶 1551 | 赶快 1552 | 赶早不赶晚 1553 | 起 1554 | 起先 1555 | 起初 1556 | 起头 1557 | 起来 1558 | 起见 1559 | 起首 1560 | 趁 1561 | 趁便 1562 | 趁势 1563 | 趁早 1564 | 趁机 1565 | 趁热 1566 | 趁着 1567 | 越是 1568 | 距 1569 | 跟 1570 | 路经 1571 | 转动 1572 | 转变 1573 | 转贴 1574 | 轰然 1575 | 较 1576 | 较为 1577 | 较之 1578 | 较比 1579 | 边 1580 | 达到 1581 | 达旦 1582 | 迄 1583 | 迅速 1584 | 过 1585 | 过于 1586 | 过去 1587 | 过来 1588 | 运用 1589 | 近 1590 | 近几年来 1591 | 近年来 1592 | 近来 1593 | 还 1594 | 还是 1595 | 还有 1596 | 还要 1597 | 这 1598 | 这一来 1599 | 这个 1600 | 这么 1601 | 这么些 1602 | 这么样 1603 | 这么点儿 1604 | 这些 1605 | 这会儿 1606 | 这儿 1607 | 这就是说 1608 | 这时 1609 | 这样 1610 | 这次 1611 | 这点 1612 | 这种 1613 | 这般 1614 | 这边 1615 | 这里 1616 | 这麽 1617 | 进入 1618 | 进去 1619 | 进来 1620 | 进步 1621 | 进而 1622 | 进行 1623 | 连 1624 | 连同 1625 | 连声 1626 | 连日 1627 | 连日来 1628 | 连袂 1629 | 连连 1630 | 迟早 1631 | 迫于 1632 | 适应 1633 | 适当 1634 | 适用 1635 | 逐步 1636 | 逐渐 1637 | 通常 1638 | 通过 1639 | 造成 1640 | 逢 1641 | 遇到 1642 | 遭到 1643 | 遵循 1644 | 遵照 1645 | 避免 1646 | 那 1647 | 那个 1648 | 那么 1649 | 那么些 1650 | 那么样 1651 | 那些 1652 | 那会儿 1653 | 那儿 1654 | 那时 1655 | 那末 1656 | 那样 1657 | 那般 1658 | 那边 1659 | 那里 1660 | 那麽 1661 | 部分 1662 | 都 1663 | 鄙人 1664 | 采取 1665 | 里面 1666 | 重大 1667 | 重新 1668 | 重要 1669 | 鉴于 1670 | 针对 1671 | 长期以来 1672 | 长此下去 1673 | 长线 1674 | 长话短说 1675 | 问题 1676 | 间或 1677 | 防止 1678 | 阿 1679 | 附近 1680 | 陈年 1681 | 限制 1682 | 陡然 1683 | 除 1684 | 除了 1685 | 除却 1686 | 除去 1687 | 除外 1688 | 除开 1689 | 除此 1690 | 除此之外 1691 | 除此以外 1692 | 除此而外 1693 | 除非 1694 | 随 1695 | 随后 1696 | 随时 1697 | 随着 1698 | 随著 1699 | 隔夜 1700 | 隔日 1701 | 难得 1702 | 难怪 1703 | 难说 1704 | 难道 1705 | 难道说 1706 | 集中 1707 | 零 1708 | 需要 1709 | 非但 1710 | 非常 1711 | 非徒 1712 | 非得 1713 | 非特 1714 | 非独 1715 | 靠 1716 | 顶多 1717 | 顷 1718 | 顷刻 1719 | 顷刻之间 1720 | 顷刻间 1721 | 顺 1722 | 顺着 1723 | 顿时 1724 | 颇 1725 | 风雨无阻 1726 | 饱 1727 | 首先 1728 | 马上 1729 | 高低 1730 | 高兴 1731 | 默然 1732 | 默默地 1733 | 齐 1734 | ︿ 1735 | ! 1736 | # 1737 | $ 1738 | % 1739 | & 1740 | ' 1741 | ( 1742 | ) 1743 | )÷(1- 1744 | )、 1745 | * 1746 | + 1747 | +ξ 1748 | ++ 1749 | , 1750 | ,也 1751 | - 1752 | -β 1753 | -- 1754 | -[*]- 1755 | . 1756 | / 1757 | 0 1758 | 0:2 1759 | 1 1760 | 1. 1761 | 12% 1762 | 2 1763 | 2.3% 1764 | 3 1765 | 4 1766 | 5 1767 | 5:0 1768 | 6 1769 | 7 1770 | 8 1771 | 9 1772 | : 1773 | ; 1774 | < 1775 | <± 1776 | <Δ 1777 | <λ 1778 | <φ 1779 | << 1780 | = 1781 | =″ 1782 | =☆ 1783 | =( 1784 | =- 1785 | =[ 1786 | ={ 1787 | > 1788 | >λ 1789 | ? 1790 | @ 1791 | A 1792 | LI 1793 | R.L. 1794 | ZXFITL 1795 | [ 1796 | [①①] 1797 | [①②] 1798 | [①③] 1799 | [①④] 1800 | [①⑤] 1801 | [①⑥] 1802 | [①⑦] 1803 | [①⑧] 1804 | [①⑨] 1805 | [①A] 1806 | [①B] 1807 | [①C] 1808 | [①D] 1809 | [①E] 1810 | [①] 1811 | [①a] 1812 | [①c] 1813 | [①d] 1814 | [①e] 1815 | [①f] 1816 | [①g] 1817 | [①h] 1818 | [①i] 1819 | [①o] 1820 | [② 1821 | [②①] 1822 | [②②] 1823 | [②③] 1824 | [②④ 1825 | [②⑤] 1826 | [②⑥] 1827 | [②⑦] 1828 | [②⑧] 1829 | [②⑩] 1830 | [②B] 1831 | [②G] 1832 | [②] 1833 | [②a] 1834 | [②b] 1835 | [②c] 1836 | [②d] 1837 | [②e] 1838 | [②f] 1839 | [②g] 1840 | [②h] 1841 | [②i] 1842 | [②j] 1843 | [③①] 1844 | [③⑩] 1845 | [③F] 1846 | [③] 1847 | [③a] 1848 | [③b] 1849 | [③c] 1850 | [③d] 1851 | [③e] 1852 | [③g] 1853 | [③h] 1854 | [④] 1855 | [④a] 1856 | [④b] 1857 | [④c] 1858 | [④d] 1859 | [④e] 1860 | [⑤] 1861 | [⑤]] 1862 | [⑤a] 1863 | [⑤b] 1864 | [⑤d] 1865 | [⑤e] 1866 | [⑤f] 1867 | [⑥] 1868 | [⑦] 1869 | [⑧] 1870 | [⑨] 1871 | [⑩] 1872 | [*] 1873 | [- 1874 | [] 1875 | ] 1876 | ]∧′=[ 1877 | ][ 1878 | _ 1879 | a] 1880 | b] 1881 | c] 1882 | e] 1883 | f] 1884 | ng昉 1885 | { 1886 | {- 1887 | | 1888 | } 1889 | }> 1890 | ~ 1891 | ~± 1892 | ~+ 1893 | ¥ 1894 | --------------------------------------------------------------------------------