├── images ├── method.jpg └── method.png ├── 中文金融情感词典_姜富伟等(2020).xlsx └── README.md /images/method.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/MengLingchao/Chinese_financial_sentiment_dictionary/HEAD/images/method.jpg -------------------------------------------------------------------------------- /images/method.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/MengLingchao/Chinese_financial_sentiment_dictionary/HEAD/images/method.png -------------------------------------------------------------------------------- /中文金融情感词典_姜富伟等(2020).xlsx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/MengLingchao/Chinese_financial_sentiment_dictionary/HEAD/中文金融情感词典_姜富伟等(2020).xlsx -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # 中文金融情感词典 2 | 3 | 本 GitHub 仓库上传了一款`中文金融情感词典`,该词典来自`姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页`。在尊重知识产权的前提下,读者可以免费使用该词典,请引用下列文献: 4 | - Fuwei Jiang, Joshua Lee, Xiumin Martin, and Guofu Zhou.“[Manager Sentiment and Stock Returns](https://www.sciencedirect.com/science/article/abs/pii/S0304405X18302770)” Journal of Financial Economics 132(1), 2019,126-149 5 | - 姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。 6 | 7 | ## 词典构建方法 8 | 9 | 构建中文金融情感词典的两大素材是英文金融词典(LM词典)以及现有的中文通用情感词典,我们将把英文LM金融词典转化为对应的中文版本(`洋为中用`),并从中文通用情感词典中筛选出在金融语境下仍然适用的情感词汇(`古为今用`),这两部分词语是中文金融情感词典的重要组成部分。为了避免金融情感词语的遗漏,我们利用`word2vec算法`(一种深度学习算法)从语料中找到与前两部分词语高度相关并且具有合适情感倾向的词语,从而实现扩充词典的目的。最后,将上述三种方法得到的词语合并去除,得到最终的中文金融情感词典。在古为今用部分,为了避免不同通用情感词典之间特征差异的影响,同时也为了保证词语的完备性,我们将三个应用程度较为广泛的词典(知网HowNet情感词典、清华大军李军词典以及台湾大学NTUSD词典) 合并去重,以此作为所使用的通用情感词典。 10 | 11 | ![中文金融情感词典构建方法](images/method.jpg) 12 | 13 | 14 | 15 | ## 词典信息 16 | 17 | 完整词典共9228个词语,其中消极词语共5890词,积极词语共3338词。 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 |
消极词语部分 (5890)
来源词语数量
LM词典中文翻译1562
通用词典筛选Tsinghua词典1945
知网词典534
NTUSD词典1243
Word2vec词典扩充606
积极词语部分 (3338)
来源词语数量
LM词典中文翻译458
通用词典筛选Tsinghua词典1928
知网词典304
NTUSD词典255
Word2vec词典扩充393
84 | 85 | 86 | 87 | ## 词语示例 88 | 89 | 下表中展示了中文金融情感词典三个来源中的代表性词语。LM词典中文翻译中的词语多为金融领域的专有词汇,与金融相关极为密切,这部分词语在通用情感词典中是极为少见的。通用情感词典筛选得到的词语则多为日常语境中常见的情感词汇,这些词汇在金融语境下仍然出现概率较大,而且情感意义保持一致,因此也被纳入到金融情感词典中。word2vec词典扩充得到的词语则为前两部分词语的有力补充。与LM词典中文翻译词语相比,这一部分词语与金融语境也有很强的相关性,但是词语的口语化与习语化特征更为明显,而LM词典的翻译词语则相对更加正式。通过表中词语特征,我们可以看出,LM词典中文翻译、通用情感词典筛选与word2vec词典扩充三部分词语特征差别较大,它们互为补充,共同构成了一个完善的中文金融情感词典。 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 | 158 | 159 | 160 | 161 | 162 | 163 | 164 | 165 | 166 | 167 | 168 | 169 |
词语倾向来源词语词语倾向来源词语
负向词语LM词典中文翻译正向词语LM词典中文翻译
被降级的晋升
管理不善先发优势
旷工独家经营
漏税超额完成
通用情感词典筛选诽谤通用情感词典筛选一帆风顺
担心井然有序
艰苦可靠的
薄弱合法的
惩罚完美
Word2vec词典扩充败下阵来Word2vec词典扩充爱岗敬业
变相涨价大好时机
操作失误高回报
炒鱿鱼绝对优势
大跌眼镜可喜成绩
170 | 171 | - - - 172 | 更多细节请参见论文:`姜富伟、孟令超、唐国豪,“媒体文本情绪与股票回报预测”,《经济学(季刊)》,2021年第4期,第1323-1344页。`. 173 | --------------------------------------------------------------------------------