├── README-image ├── TensorBoard模型结构.png ├── image-20221221105305280.png ├── image-20221221120034751.png ├── image-20221221120327989.png ├── image-20221221154708292.png ├── image-20221221193916976.png ├── image-20221221201443669.png ├── image-20221221201647481.png ├── image-20221221202231406.png ├── image-20221221232108413.png ├── image-20221221232728887.png ├── image-20221222103639371.png ├── image-20221222155058742.png ├── image-20221222160928336.png ├── image-20221222190109549.png ├── image-20221222190543853.png ├── image-20221222192146000.png ├── image-20221222192511533.png ├── image-20221222192830751.png ├── image-20221222192849349.png ├── image-20221222193631521.png ├── image-20221222193750323.png ├── image-20221222194347192.png ├── image-20221222214439733.png ├── image-20221223104907559.png ├── image-20221223104915746.png ├── image-20221223120215460.png ├── image-20221223120440331.png ├── image-20221223120549749.png └── image-20221223121130542.png ├── README.md ├── data ├── X_test.npy ├── X_train.npy ├── get_data.ipynb ├── get_data.py ├── y_test.npy └── y_train.npy └── model ├── alphanet_v1_pool.ipynb ├── alphanet_v1_pool.pth ├── alphanet_v3_gru.ipynb ├── alphanet_v3_gru.pdf ├── alphanet_v3_gru.pth ├── alphanet_v3_gru_classification.ipynb ├── alphanet_v3_gru_classification.pth ├── alphanet_v3_gru_classification_excess_return.ipynb ├── alphanet_v3_gru_classification_excess_return.pth └── baseline_random_forest.ipynb /README-image/TensorBoard模型结构.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/TensorBoard模型结构.png -------------------------------------------------------------------------------- /README-image/image-20221221105305280.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221105305280.png -------------------------------------------------------------------------------- /README-image/image-20221221120034751.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221120034751.png -------------------------------------------------------------------------------- /README-image/image-20221221120327989.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221120327989.png -------------------------------------------------------------------------------- /README-image/image-20221221154708292.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221154708292.png -------------------------------------------------------------------------------- /README-image/image-20221221193916976.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221193916976.png -------------------------------------------------------------------------------- /README-image/image-20221221201443669.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221201443669.png -------------------------------------------------------------------------------- /README-image/image-20221221201647481.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221201647481.png -------------------------------------------------------------------------------- /README-image/image-20221221202231406.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221202231406.png -------------------------------------------------------------------------------- /README-image/image-20221221232108413.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221232108413.png -------------------------------------------------------------------------------- /README-image/image-20221221232728887.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221221232728887.png -------------------------------------------------------------------------------- /README-image/image-20221222103639371.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222103639371.png -------------------------------------------------------------------------------- /README-image/image-20221222155058742.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222155058742.png -------------------------------------------------------------------------------- /README-image/image-20221222160928336.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222160928336.png -------------------------------------------------------------------------------- /README-image/image-20221222190109549.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222190109549.png -------------------------------------------------------------------------------- /README-image/image-20221222190543853.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222190543853.png -------------------------------------------------------------------------------- /README-image/image-20221222192146000.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222192146000.png -------------------------------------------------------------------------------- /README-image/image-20221222192511533.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222192511533.png -------------------------------------------------------------------------------- /README-image/image-20221222192830751.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222192830751.png -------------------------------------------------------------------------------- /README-image/image-20221222192849349.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222192849349.png -------------------------------------------------------------------------------- /README-image/image-20221222193631521.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222193631521.png -------------------------------------------------------------------------------- /README-image/image-20221222193750323.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222193750323.png -------------------------------------------------------------------------------- /README-image/image-20221222194347192.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222194347192.png -------------------------------------------------------------------------------- /README-image/image-20221222214439733.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221222214439733.png -------------------------------------------------------------------------------- /README-image/image-20221223104907559.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223104907559.png -------------------------------------------------------------------------------- /README-image/image-20221223104915746.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223104915746.png -------------------------------------------------------------------------------- /README-image/image-20221223120215460.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223120215460.png -------------------------------------------------------------------------------- /README-image/image-20221223120440331.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223120440331.png -------------------------------------------------------------------------------- /README-image/image-20221223120549749.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223120549749.png -------------------------------------------------------------------------------- /README-image/image-20221223121130542.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/README-image/image-20221223121130542.png -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | ## 思路框架 2 | 3 | ### 问题背景 4 | 5 | 传统的因子挖掘过程通常是由人工构造因子表达式,对多个单因子进行加权合成。面对大量的原始数据,人工基于投资经验,手动构造因子表达式生成单因子的过程是极其繁琐的。在因子合成阶段,通常是用ICIR加权平均等手段进行合成,这种简单的线性加权方式也限制了因子合成的多种可能性。 6 | 7 | ### 将卷积思想应用于因子挖掘 8 | 9 | 在卷积神经网络中,最关键的特征提取组件是卷积核。在图像识别领域,卷积核通过一个带有可优化的权重和偏置项的矩阵,对原始数据进行互相关操作。 10 | 11 | ![image-20221222103639371](README-image/image-20221222103639371.png) 12 | 13 | 14 | 15 | 我们可以将原始量价数据整理成一个二维矩阵,尝试使用卷积核对数据进行特征提取。 16 | 17 | 但是,如果完全采用传统的卷积操作,提取的特征就是:一定感受野范围内的特征的加权组合。这样的操作会有两个问题: 18 | 19 | 1. 提取的特征只是某些特征数据的固定的加权组合,这极大地限制了因子表达式的可能性。 20 | 2. 传统的卷积核只能感受局部范围内的数据,因此,我们输入的特征变量的上下顺序会影响提取出的特征。因此输入变量的顺序还需要人工干预。 21 | 22 | 由此看来,简单地套用卷积操作并不合适,但我们可以借鉴卷积核的“遍历操作”的思想,自定义运算符函数,实现类似“卷积层”的特征提取层。 23 | 24 | ![image-20221222214439733](README-image/image-20221222214439733.png) 25 | 26 | 具体的特征提取层将在后文介绍。经过特征提取后,可再添加批标准化层、池化层、全连接层,将原始数据转换为收益率的预测。 27 | 28 | ### 优化模型 29 | 30 | 对于上述将卷积思想应用于因子挖掘的方法,可以尝试对两个方向进行优化。 31 | 32 | 1. 调整网络结构。添加更丰富的特征提取层,将池化层转换为可以记忆时序信息的循环神经网络。 33 | 2. 调整标签值。将收益率值得预测转换为涨跌方向的预测和超额收益率方向的预测。 34 | 35 | ## 准备数据集 36 | 37 | 我们需要的特征均为量价数据,即open, high, low, close, vwap, volume, return1, turn, free_turn这9个量价指标在$t-29$到$t$时间段的$9\times 30$个特征。 38 | 39 | ![image-20221221105305280](README-image/image-20221221105305280.png) 40 | 41 | Tushare提供了免费的量价数据接口,在程序中导入token,即可使用`pro.daily()`下载数据。 42 | 43 | 下面具体介绍获取数据的细节。 44 | 45 | ### 训练集和测试集包含的时间段 46 | 47 | 由于通过Tushare的免费接口获取数据的速度较慢(逐股票、逐日获取后再合并,而不是批量一次性获取,因此耗时较久),本文只截取了`20220101`至`20220630`这半年的数据作为训练集,`20220930`至`20221231`这一季度的数据作为测试集。没有用`20220630`至`20221231`的数据作为测试集,是因为希望训练集和验证集之间能够暂停一段时间,否则训练集的标签可能会包含未来信息,进而夸大测试集上的预测效果。 48 | 49 | > 本项目下载数据的时间为2022年12月初,因此实际所用的验证集并不是完整的一季度。 50 | 51 | ### 采样的日期 52 | 53 | 如果对训练集和验证集包含的时间段中的**每一个交易日**均进行采样,会造成两个问题: 54 | 55 | 1. 采样过于频繁,导致相邻日期的数据基本相近。 56 | 2. 采样天数过多,下载数据的时间会非常久。 57 | 58 | 因此,本文使用间隔采样的方法,**每间隔10个交易日进行一次采样**。具体判断哪一天为采样日的函数为: 59 | 60 | ```python 61 | # 给定日期区间的端点,输出期间的定长采样交易日列表 62 | def get_datelist(start: str, end: str, interval: int): 63 | 64 | df = pro.index_daily(ts_code='399300.SZ', start_date=start, end_date=end) 65 | date_list = list(df.iloc[::-1]['trade_date']) 66 | sample_list = [] 67 | for i in range(len(date_list)): 68 | if i % interval == 0: 69 | sample_list.append(date_list[i]) 70 | 71 | return sample_list 72 | ``` 73 | 74 | 其原理是基于沪深300指数(399300.SZ)的交易数据进行间隔采样。沪深300指数有数据的日期一定是交易日。 75 | 76 | ### 采样的股票 77 | 78 | A股市场的股票数量近5000只,若对每一只股票均进行采样也将耗费大量时间。本文对每个采样日,**获取前1000只股票的数据**。具体判断对哪些股票进行采样的函数为: 79 | 80 | ```python 81 | # 给定一个交易日,返回该日满足条件的A股股票列表 82 | def get_stocklist(date: str, num: int): 83 | 84 | start = str(pd.to_datetime(date)-timedelta(30)) 85 | start = start[0:4]+start[5:7]+start[8:10] 86 | df1 = pro.index_weight(index_code='000002.SH', 87 | start_date=start, end_date=date) # 交易日当天的股票列表 88 | codes = list(df1['con_code']) 89 | codes = codes[0:1000] # 在每个截面期只选取1000只股票 90 | 91 | return codes 92 | ``` 93 | 94 | 其原理是基于A股指数(000002.SH)的前1000只成分股进行采样。 95 | 96 | ### 获取单个股票在单个交易日的数据 97 | 98 | `get_x_y()`函数返回两个值,一个是前30个交易日的9个指标面板(9*30),一个是未来10天的收益率。 99 | 100 | ```python 101 | def get_x_y(code: str, date: str, pass_day: int, future_day: int, len1: int, len2: int): 102 | 103 | start = str(pd.to_datetime(date)-timedelta(pass_day*2)) 104 | start = start[0:4]+start[5:7]+start[8:10] 105 | end = str(pd.to_datetime(date)+timedelta(future_day*2)) 106 | end = end[0:4]+end[5:7]+end[8:10] 107 | df_price = pro.daily(ts_code=code, # OHLC,pct_change,volume 108 | start_date=start, end_date=date) 109 | df_basic = pro.daily_basic(ts_code=code, 110 | start_date=start, end_date=date) 111 | df_return = pro.daily(ts_code=code, 112 | start_date=date, end_date=end).iloc[::-1]['close'] 113 | if (df_price.shape[0] == df_basic.shape[0]) & (df_price.shape[0] == len1) & (df_return.shape[0] == len2): # 判断数据的完整性 114 | df_price = df_price.iloc[0:pass_day, [2, 3, 4, 5, 8, 9]].fillna(0.1) 115 | df_basic = df_basic.iloc[0:pass_day, [3, 4, 5]].fillna(0.1) 116 | data = np.array(pd.merge(df_price, df_basic, 117 | left_index=True, right_index=True).iloc[::-1].T) 118 | # print(data.shape) 119 | # 未来十个交易日的收益率 120 | dfr = df_return.iloc[0:future_day] 121 | ret = dfr.iloc[-1]/dfr.iloc[0]-1 # 后十个交易日的收益率 122 | return data, ret 123 | else: 124 | return None, None # 数据缺失的预处理 125 | ``` 126 | 127 | ### 舍弃缺失值 128 | 129 | 在获取单个股票在单个交易日的数据时,若某只股票的数据有缺失,则需舍弃它,否则在输入到神经网络时会带有缺失值。 130 | 131 | 基于沪深300指数,判断某日应有的数据长度的函数: 132 | 133 | ```python 134 | def get_length(date: str, pass_day: int, future_day: int): 135 | start = str(pd.to_datetime(date)-timedelta(pass_day*2)) 136 | start = start[0:4]+start[5:7]+start[8:10] 137 | end = str(pd.to_datetime(date)+timedelta(future_day*2)) 138 | end = end[0:4]+end[5:7]+end[8:10] 139 | len_1 = pro.index_daily(ts_code='399300.SZ', 140 | start_date=start, end_date=date).shape[0] 141 | len_2 = pro.index_daily(ts_code='399300.SZ', 142 | start_date=date, end_date=end).shape[0] 143 | return len_1, len_2 144 | ``` 145 | 146 | 在`get_x_y()`函数中,基于`len_1`和`len_2`判断了数据的完整性。若有缺失值则返回空值,不会计入数据集中。 147 | 148 | ### 获取数据集 149 | 150 | 筛选出哪一天、哪一只股票需要进行采样后,我们就可以获取数据了。 151 | 152 | 对每一个采样日、每一只股票进行循环。配合`rich.progress`可以展示下载数据的进度条。 153 | 154 | > `rich.progress`的使用示例可以参考[这里](https://fengchao.pro/pin/frequently-used-python-data-processing-code/#richprogress%E5%B1%95%E7%A4%BA%E8%BF%9B%E5%BA%A6%E6%9D%A1)。 155 | 156 | ```python 157 | def get_dataset(num: int, start: str, end: str, interval: int, pass_day: int, future_day: int): 158 | X_train = [] 159 | y_train = [] 160 | trade_date_list = get_datelist(start, end, interval) 161 | # 添加进度条 162 | with Progress() as progress: 163 | task_date = progress.add_task( 164 | "[red]Date...", total=len(trade_date_list)) 165 | for date in trade_date_list: 166 | # 更新进度条 167 | progress.update(task_date, advance=1) 168 | stock_list = get_stocklist(date, num) 169 | len1, len2 = get_length(date, pass_day, future_day) 170 | task_stock = progress.add_task( 171 | "[green]Stock...", total=len(range(len(stock_list)))) 172 | for i in range(len(stock_list)): 173 | # 更新进度条 174 | progress.update(task_stock, advance=1) 175 | code = stock_list[i] 176 | x, y = get_x_y(code, date, pass_day, future_day, len1, len2) 177 | try: 178 | if (x.shape[0] == 9) & (x.shape[1] == pass_day): 179 | X_train.append(x) 180 | y_train.append(y) 181 | except Exception: 182 | continue 183 | return X_train, y_train 184 | ``` 185 | 186 | 数据示例: 187 | 188 | ![image-20221223104907559](README-image/image-20221223104907559.png) 189 | 190 | ![image-20221223104915746](README-image/image-20221223104915746.png) 191 | 192 | ### 保存`.npy`数据到本地 193 | 194 | 为了方便训练模型,可以将数据以`.npy`格式存储到本地。在训练模型时可以直接使用`np.load('../data/X_train.npy')`载入数据。 195 | 196 | ```python 197 | # 参数设定:使用过去30天的数据预测未来10天的收益率,回归问题 198 | X_train, y_train = get_dataset( 199 | num=1000, start='20220101', end='20220630', interval=10, pass_day=30, future_day=10) 200 | X_test, y_test = get_dataset(num=1000, start='20220931', 201 | end='20221231', interval=10, pass_day=30, future_day=10) 202 | print("there are in total", len(X_train), "training samples") 203 | print("there are in total", len(X_test), "testing samples") 204 | # 将数据保存到本地供离线训练 205 | Xa = np.array(X_train) 206 | ya = np.array(y_train) 207 | Xe = np.array(X_test) 208 | ye = np.array(y_test) 209 | np.save('./X_train.npy', Xa) 210 | np.save('./y_train.npy', ya) 211 | np.save('./X_test.npy', Xe) 212 | np.save('./y_test.npy', ye) 213 | ``` 214 | 215 | 整个获取数据的时间约为3个小时,共获取到11825条训练数据和4943条测试数据(数据量不为1000的整数倍,是因为舍弃了部分缺失值)。 216 | 217 | - 特征数据为$9\times 30$的个股量价数据构成的矩阵。9行代表9个量价特征,30代表$t-29$至$t$这30天的数据。 218 | 219 | - 标签数据为个股在某个交易日往后10个交易日的收益率。 220 | 221 | ![image-20221221120034751](README-image/image-20221221120034751.png) 222 | 223 | ![image-20221221120327989](README-image/image-20221221120327989.png) 224 | 225 | ## 搭建AlphaNet-V1 226 | 227 | ### AlphaNet-V1的整体网络结构 228 | 229 | 下图展示了AlphaNet-V1的整体网络结构。它由7个平行的特征提取层、3个平行的池化层和1个全连接层组成。其中,特征提取层和池化层后都有一个批标准化层(Batch Normalization)。 230 | 231 | 输入数据是一个$9\times30$的个股量价“数据图片”,预测目标为个股从当日到10个交易日后的收益率数值。 232 | 233 | ![image-20221221154708292](README-image/image-20221221154708292.png) 234 | 235 | ### 特征提取层(类似卷积层) 236 | 237 | AlphaNet的输入数据是一个$9\times30$的个股量价“数据图片”。如果简单地套用卷积神经网络处理图片像素数据的操作,则**卷积操作只能在感受野内将若干日期的若干量价数据进行加权平均**,经过卷积层得到的特征将变得很难解释,也不符合传统构造量价因子的方式。 238 | 239 | 因此,借鉴卷积神经网络CNN的思想,我们可以将**多种运算符函数作为自定义网络层**进行特征提取。本文实现了7种运算符,分别是`ts_corr`, `ts_cov`, `ts_stddev`, `ts_zscore`, `ts_return`, `ts_decaylinear`, `ts_mean`,它们的含义如下: 240 | 241 | | 名称 | 定义 | 242 | | ---------------- | ------------------------------------------------------------ | 243 | | `ts_corr` | 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的相关系数。 | 244 | | `ts_cov` | 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的协方差。 | 245 | | `ts_stddev` | 过去 d 天 X 值构成的时序数列的标准差。 | 246 | | `ts_zscore` | 过去 d 天 X 值构成的时序数列的平均值除以标准差。 | 247 | | `ts_return` | (X - delay(X, d))/delay(X, d)-1, delay(X, d)为 X 在 d 天前的取值。 | 248 | | `ts_decaylinear` | 过去 d 天 X 值构成的时序数列的加权平均值,权数为 d, d – 1, …, 1(权数之和应为 1,需进行归一化处理),其中离现在越近的日子权数越大。 | 249 | | `ts_mean` | 过去 d 天 X 值构成的时序数列的平均值。 | 250 | 251 | 这7个运算符函数中,`ts_corr`和`ts_cov`需要从9行数据中提取2行数据,并计算相关系数和协方差。其他5个运算符函数仅需针对某一行数据计算标准差、变化率等。下面针对这两种情况分别举例说明。 252 | 253 | #### 基于双变量的特征提取层——以`ts_corr`为例 254 | 255 | 我们的输入数据是$9\times30$的矩阵,每一行是某个量价指标在最近30个交易日的值。基于双变量进行特征提取的步骤为: 256 | 257 | 1. 取出两行数据。 258 | 2. 对于取出的两行数据,给定步长`stride`,在时间维度上对两行数据进行遍历,计算两行数据的相关系数。例如,当$stride=3$时,下一次计算将在时间维度上往右步进3步,我们将进行$\frac{30}{3}=10$次运算。 259 | 3. 将运算结果整理到新的矩阵,得到新的“特征图片”,作为后续池化层的输入。 260 | 261 | ![image-20221221193916976](README-image/image-20221221193916976.png) 262 | 263 | > 从9行数据中任取2行,有$\tbinom{9}{2}=36$种取法。假设我们设定步长为10,则得到的新的“特征图片”的维数是$36\times3$。 264 | 265 | #### 基于双变量的特征提取层——代码实现 266 | 267 | 需要给定原始矩阵`Matrix`、两两组合的列表`combination`、反转的两两组合的列表`combination_rev`以及每次遍历运算的起始索引列表`index_list`。 268 | 269 | - 生成`combination`和`combination_rev`的代码为: 270 | 271 | ```python 272 | # 生成卷积操作时需要的两列数据的组合的列表 273 | def generate_combination(N): 274 | """ 275 | args: 276 | N: int, the number of rows of the matrix 277 | 278 | return: 279 | combination: list, the combination of two columns of the matrix 280 | combination_rev: list, the combination of two rows of the matrix, which is the reverse of combination 281 | """ 282 | col = [] 283 | col_rev = [] 284 | for i in range(1,N): 285 | for j in range(0,i): 286 | col.append([i,j]) 287 | col_rev.append([j,i]) 288 | return col, col_rev 289 | # 生成卷积操作时需要的两列数据的组合的列表 290 | combination, combination_rev = generate_combination(9) 291 | ``` 292 | 293 | ![image-20221221201443669](README-image/image-20221221201443669.png) 294 | 295 | - 生成`index_list`的代码为: 296 | 297 | ```python 298 | # 根据输入的矩阵和卷积操作的步长, 计算卷积操作的索引 299 | def get_index_list(matrix, stride): 300 | """ 301 | args: 302 | matrix: torch.tensor, the input matrix 303 | stride: int, the stride of the convolution operation 304 | 305 | return: 306 | index_list: list, the index of the convolution operation 307 | 308 | """ 309 | W = matrix.shape[3] 310 | if W % stride == 0: 311 | index_list = list(np.arange(0, W+stride, stride)) 312 | else: 313 | mod = W % stride 314 | index_list = list(np.arange(0, W+stride-mod, stride)) + [W] 315 | return index_list 316 | # 根据输入的矩阵和卷积操作的步长, 计算卷积操作的索引 317 | # Inception模块使用的卷积操作的步长为10 318 | index_list = get_index_list(np.zeros((1,1,9,30)), 10) 319 | ``` 320 | 321 | ![image-20221221201647481](README-image/image-20221221201647481.png) 322 | 323 | - 基于双变量的特征提取代码为: 324 | 325 | ```python 326 | # 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的相关系数 327 | def ts_corr4d(self, Matrix, combination, combination_rev): 328 | new_H = len(combination) 329 | index_list = self.index_list 330 | list = [] # 存放长度为len(index_list)-1的相关系数 331 | for i in range(len(index_list)-1): 332 | start_index = index_list[i] 333 | end_index = index_list[i+1] 334 | data = Matrix[:, :, combination, start_index:end_index] # N*1*new_H*2*d 335 | data2 = Matrix[:, :, combination_rev, 336 | start_index:end_index] # N*1*new_H*2*d 337 | std1 = data.std(axis=4, keepdims=True) # N*1*new_H*2*1, 在时序上求标准差 338 | std2 = data2.std(axis=4, keepdims=True) # N*1*new_H*2*1, 在时序上求标准差 339 | std = (std1*std2).mean(axis=3, keepdims=True) # N*1*new_H*1*1 340 | list.append(std) 341 | std = np.squeeze(np.array(list)).transpose(1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1)+0.01 # N*1*new_H*len(index_list)-1 # 加上0.01, 防止除0 342 | # N*1*new_H*len(index_list)-1 343 | cov = self.ts_cov4d(Matrix, combination, combination_rev) 344 | corr = cov/std # N*1*new_H*len(index_list)-1 345 | return corr 346 | ``` 347 | 348 | ```python 349 | # 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的协方差 350 | def ts_cov4d(self, Matrix, combination, combination_rev): 351 | new_H = len(combination) 352 | index_list = self.index_list 353 | list = [] # 存放长度为len(index_list)-1的协方差 354 | for i in range(len(index_list)-1): 355 | start_index = index_list[i] 356 | end_index = index_list[i+1] 357 | data = Matrix[:, :, combination, start_index:end_index] # N*1*new_H*2*d 358 | data2 = Matrix[:, :, combination_rev, 359 | start_index:end_index] # N*1*new_H*2*d 360 | mean1 = data.mean(axis=4, keepdims=True) # N*1*new_H*2*1, 在时序上求均值 361 | mean2 = data2.mean(axis=4, keepdims=True) # N*1*new_H*2*1, 在时序上求均值 362 | spread1 = data - mean1 # N*1*new_H*2*d, 在时序上求偏差 363 | spread2 = data2 - mean2 # N*1*new_H*2*d, 在时序上求偏差 364 | cov = ((spread1 * spread2).sum(axis=4, keepdims=True) / 365 | (data.shape[4]-1)).mean(axis=3, keepdims=True) # N*1*new_H*1*1 366 | list.append(cov) 367 | cov = np.squeeze(np.array(list)).transpose( 368 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 369 | return torch.from_numpy(cov) 370 | ``` 371 | 372 | 经过上述特征提取后,得到的新的“特征图片”的维数是$36\times3$。我们后续会将其进行池化和展平。注意到,这36行数据的上下位置不影响池化和展平操作得到的结果(展平后每个量的地位都一样),因此原始输入数据的$9\times30$的矩阵内部的上下**可以任意排列**。这也避免了卷积神经网络处理图片像素数据时**只能感知局部数据**的问题。 373 | 374 | #### 基于单变量的特征提取层——以`ts_stddev`为例 375 | 376 | 基于单变量进行特征提取的步骤为: 377 | 378 | 1. 取出一行数据。 379 | 2. 对于取出的一行数据,给定步长`stride`,在时间维度上对这一行数据进行遍历,计算这一行数据的标准差。例如,当$stride=3$时,下一次计算将在时间维度上往右步进3步,我们将进行$\frac{30}{3}=10$次运算。 380 | 3. 将运算结果整理到新的矩阵,得到新的“特征图片”,作为后续池化层的输入。 381 | 382 | ![image-20221221202231406](README-image/image-20221221202231406.png) 383 | 384 | > 从9行数据中任取1行,有$\tbinom{9}{1}=9$种取法。假设我们设定步长为10,则得到的新的“特征图片”的维数是9*3。 385 | 386 | #### 基于单变量的特征提取层——代码实现 387 | 388 | 单变量的特征提取只需给定原始数据`Matrix`和每次遍历运算的起始索引列表`index_list`。 389 | 390 | ```python 391 | # 过去 d 天 X 值构成的时序数列的标准差 392 | def ts_stddev4d(self, Matrix): 393 | # 只需要对单变量做卷积操作, 不需要将变量两两组合。因此输出的 H 可以保持和输入的 H 一致 394 | new_H = Matrix.shape[2] 395 | index_list = self.index_list 396 | list = [] # 存放长度为len(index_list)-1的标准差 397 | for i in range(len(index_list)-1): 398 | start_index = index_list[i] 399 | end_index = index_list[i+1] 400 | data = Matrix[:, :, :, start_index:end_index] # N*1*H*d 401 | std = data.std(axis=3, keepdims=True) # N*1*H*1 402 | list.append(std) 403 | std4d = np.squeeze(np.array(list)).transpose( 404 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 405 | return torch.from_numpy(std4d) 406 | 407 | # 过去 d 天 X 值构成的时序数列的平均值除以标准差 408 | def ts_zcore4d(self, Matrix): 409 | # 只需要对单变量做卷积操作, 不需要将变量两两组合。因此输出的 H 可以保持和输入的 H 一致 410 | new_H = Matrix.shape[2] 411 | index_list = self.index_list 412 | list = [] # 存放长度为len(index_list)-1的zcore 413 | for i in range(len(index_list)-1): 414 | start_index = index_list[i] 415 | end_index = index_list[i+1] 416 | data = Matrix[:, :, :, start_index:end_index] # N*1*H*d 417 | mean = data.mean(axis=3, keepdims=True) # N*1*H*1 418 | std = data.std(axis=3, keepdims=True) + \ 419 | 0.01 # N*1*H*1, 加上0.01, 防止除以0 420 | list.append(mean/std) 421 | zscore = np.squeeze(np.array(list)).transpose( 422 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 423 | return torch.from_numpy(zscore) 424 | 425 | # (X - delay(X, d))/delay(X, d)-1, 其中 delay(X, d)为 X 在 d 天前的取值 426 | def ts_return4d(self, Matrix): 427 | # 只需要对单变量做卷积操作, 不需要将变量两两组合。因此输出的 H 可以保持和输入的 H 一致 428 | new_H = Matrix.shape[2] 429 | index_list = self.index_list 430 | list = [] # 存放长度为len(index_list)-1的return 431 | for i in range(len(index_list)-1): 432 | start_index = index_list[i] 433 | end_index = index_list[i+1] 434 | data = Matrix[:, :, :, start_index:end_index] # N*1*H*d 435 | # N*1*H*1, 在分母加上0.01, 防止除以0 436 | return_ = data[:, :, :, -1]/(data[:, :, :, 0]+0.01)-1 437 | list.append(return_) 438 | ts_return = np.squeeze(np.array(list)).transpose( 439 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 440 | return torch.from_numpy(ts_return) 441 | 442 | # 过去 d 天 X 值构成的时序数列的加权平均值, 权数为 d, d – 1, …, 1(权数之和应为 1, 需进行归一化处理), 其中离现在越近的日子权数越大 443 | def ts_decaylinear4d(self, Matrix): 444 | new_H = Matrix.shape[2] 445 | index_list = self.index_list 446 | list = [] # 存放长度为len(index_list)-1的加权平均值 447 | for i in range(len(index_list)-1): 448 | start_index = index_list[i] 449 | end_index = index_list[i+1] 450 | range_ = end_index-start_index 451 | weight = np.arange(1, range_+1) 452 | weight = weight/weight.sum() # 权重向量 453 | data = Matrix[:, :, :, start_index:end_index] # N*1*H*d 454 | wd = (data*weight).sum(axis=3, keepdims=True) # N*1*H*1 455 | list.append(wd) 456 | ts_decaylinear = np.squeeze(np.array(list)).transpose( 457 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 458 | return torch.from_numpy(ts_decaylinear) 459 | 460 | # 过去 d 天 X 值构成的时序数列的平均值 461 | def ts_mean4d(self, Matrix): 462 | new_H = Matrix.shape[2] 463 | index_list = self.index_list 464 | list = [] # 存放长度为len(index_list)-1的平均值 465 | for i in range(len(index_list)-1): 466 | start_index = index_list[i] 467 | end_index = index_list[i+1] 468 | data = Matrix[:, :, :, start_index:end_index] # N*1*H*d 469 | mean_ = data.mean(axis=3, keepdims=True) # N*1*H*1 470 | list.append(mean_) 471 | ts_mean = np.squeeze(np.array(list)).transpose( 472 | 1, 2, 0).reshape(-1, 1, new_H, len(index_list)-1) # N*1*new_H*len(index_list)-1 473 | return torch.from_numpy(ts_mean) 474 | ``` 475 | 476 | 上述7个函数就相当于定义好了卷积操作的“卷积核”,并且这些操作中**没有需要优化的参数**,只需要按照给定的运算符进行前向传播。 477 | 478 | 图像识别领域中的卷积操作是需要优化卷积核的,这也是和图像识别领域中的卷积操作有区别的地方。 479 | 480 | ### 批标准化层(Batch Normalization) 481 | 482 | Batch Normalization通过将每一层的原始输出进行标准化(减去均值,除以标准差),还可以乘以$\gamma$(Scale),再加上$\beta$(Offset)。$\gamma$和$\beta$都是超参数,可以用神经网络训练它们。 483 | 484 | 具体的数学公式如下。 485 | 486 | 求第$l$层的批均值: 487 | $$ 488 | \mu=\frac{1}{m} \sum_{i=1}^m Z^{l(i)} 489 | $$ 490 | 求第$l$层的批方差: 491 | $$ 492 | \sigma^2=\frac{1}{m} \sum_{i=1}^m\left(Z^{l(i)}-\mu\right)^2 493 | $$ 494 | 批标准化的结果: 495 | $$ 496 | \hat{Z}^l=\gamma * \frac{Z^l-\mu}{\sqrt{\sigma^2+\varepsilon}}+\beta 497 | $$ 498 | 经过上述操作,即可将$Z^l$转换为$\hat{Z}^l$。 499 | 500 | 在批标准化中,可优化的参数是$\gamma$和$\beta$。如果没有$\gamma$和$\beta$,则批标准化的运算就为常规的 z-score 标准化。 501 | 502 | > 关于Batch Normalization的笔记可以参考[https://fengchao.pro/post/batch-normalization/](https://fengchao.pro/post/batch-normalization/) 503 | 504 | ### 池化层 505 | 506 | 在AlphaNet-V1中,池化层与传统的图像识别中的池化层一致,都是对某个区域的数据提取最大值、平均值和最小值。 507 | 508 | 由于PyTorch中没有内置最小池化层,我们可以将数据取相反数后,进行最大池化,再将最大池化的结果取相反数,就可以实现最小池化。 509 | 510 | ```python 511 | # 池化层, 尺度为1*d 512 | self.max_pool = nn.MaxPool2d(kernel_size=(1, self.d)) 513 | self.avg_pool = nn.AvgPool2d(kernel_size=(1, self.d)) 514 | # 最小池化等价于相反数的最大池化, 后续会对结果取反 515 | self.min_pool = nn.MaxPool2d(kernel_size=(1, self.d)) 516 | ``` 517 | 518 | ### 特征提取层和池化层的特征维数变化分析 519 | 520 | 在经过特征提取层、池化层后(批标准化层不改变特征维数,因此不考虑),将特征提取层和池化层的输出均展平后再拼接,得到$702\times1$的特征。 521 | 522 | 下面解释维数为$702\times 1$是如何得到的。 523 | 524 | 1. 特征提取层展平后得到$351\times1$的特征。 525 | 526 | - 有2个特征提取层是基于双变量的,它们的输出维数是$36\times3$。其他5个特征提取层都是基于单变量的,它们的输出维数是$9\times3$。 527 | 528 | - 因此,特征提取层展平后得到$(2\times36+5\times9)\times3=117\times3=351$维特征。 529 | 530 | 2. 池化层展平后也会得到$351\times1$的特征。 531 | 532 | - 池化层的输入就是特征提取层的输出,因此池化层的输入是$117\times3$。 533 | - 池化操作的步长`stride`是`len(index_list)-1`$=3$,即最大池化、平均池化和最小池化都将$117\times3$转换为$117\times1$的矩阵。 534 | - 将3个$117\times1$的矩阵展平后,得到$3*117=351$维特征。 535 | 536 | 3. 将特征提取层和池化层的输出均展平后再拼接,得到$351+351=702$维特征。 537 | 538 | ### 全连接层 539 | 540 | 全连接层包含30个神经元,接受输入为$702\times 1$的矩阵,经过一个隐藏层转换为$30\times1$的矩阵,经过RELU激活函数、Dropout Rate为0.5,再输出到$1*1$的神经元作为预测结果。 541 | 542 | ```python 543 | data = self.fc1(data) # N*30 544 | data = self.relu(data) 545 | data = self.dropout(data) 546 | data = self.fc2(data) # N*1 547 | # 线性激活函数, 无需再进行激活 548 | data = data.to(torch.float) 549 | ``` 550 | 551 | ### 继承`nn.module`类,改写前向传播`forward`函数 552 | 553 | 为了让我们自定义的函数在神经网络中能够运行,我们需要继承`nn.module`类并改写前向传播`forward`函数。 554 | 555 | #### 自定义特征提取层、池化层的代码实现 556 | 557 | 自定义的`Inception`类实现了特征提取层(以及随后的批标准化)、池化层(以及随后的批标准化),并将输出结果展平成$702\times 1$的矩阵。 558 | 559 | 具体的运算符函数在前面已经定义过了,这里不再详细展开。 560 | 561 | ```python 562 | class Inception(nn.Module): 563 | """ 564 | Inception, 用于提取时间序列的特征, 具体操作包括: 565 | 566 | 1. kernel_size和stride均为d=10的特征提取层, 类似于卷积层,用于提取时间序列的特征. 具体包括: 567 | 568 | 1. ts_corr4d: 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的相关系数 569 | 2. ts_cov4d: 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的协方差 570 | 3. ts_stddev4d: 过去 d 天 X 值构成的时序数列的标准差 571 | 4. ts_zscore4d: 过去 d 天 X 值构成的时序数列的平均值除以标准差 572 | 5. ts_return4d: (X - delay(X, d))/delay(X, d)-1, 其中delay(X, d)为 X 在 d 天前的取值 573 | 6. ts_decaylinear4d: 过去 d 天 X 值构成的时序数列的加权平均值,权数为 d, d – 1, …, 1(权数之和应为 1,需进行归一化处理),其中离现在越近的日子权数越大 574 | 7. ts_mean4d: 过去 d 天 X 值构成的时序数列的平均值 575 | 576 | 各操作得到的张量维数: 577 | 1. 由于涉及两个变量的协方差, 因此ts_corr4d和ts_cov4d的输出为 N*1*36*3 578 | 2. 其余操作均只涉及单变量的时序计算, 因此输出为 N*1*9*3 579 | 580 | 2. 对第1步的输出进行Batch Normalization操作, 输出维数仍为 N*1*36*3 或 N*1*9*3 581 | 582 | 3. 对于第2步得到的张量, kernel_size为3的池化层. 具体包括: 583 | 1. max_pool: 过去 d 天 X 值构成的时序数列的最大值 584 | 2. avg_pool: 过去 d 天 X 值构成的时序数列的平均值 585 | 3. min_pool: 过去 d 天 X 值构成的时序数列的最小值 586 | 587 | 以上三个操作的输出均为 N*1*117*1 588 | 589 | 4. 对第3步的输出进行Batch Normalization操作, 输出维数仍为 N*1*117*1 590 | 591 | 5. 将第2步和第4步的输出展平后进行拼接, 得到的张量维数为 N*(2*36*3+5*9*3+3*117) = N*702 592 | 593 | """ 594 | 595 | def __init__(self, combination, combination_rev, index_list): 596 | """ 597 | combination: 卷积操作时需要的两列数据的组合 598 | combination_rev: 卷积操作时需要的两列数据的组合, 与combination相反 599 | index_list: 卷积操作时需要的时间索引 600 | 601 | """ 602 | 603 | super(Inception, self).__init__() 604 | # 卷积操作时需要的两列数据的组合 605 | self.combination = combination 606 | self.combination_rev = combination_rev 607 | 608 | # 卷积操作时需要的时间索引 609 | self.index_list = index_list 610 | self.d = len(index_list)-1 611 | 612 | # 卷积操作后的Batch Normalization层 613 | self.bc1 = nn.BatchNorm2d(1) 614 | self.bc2 = nn.BatchNorm2d(1) 615 | self.bc3 = nn.BatchNorm2d(1) 616 | self.bc4 = nn.BatchNorm2d(1) 617 | self.bc5 = nn.BatchNorm2d(1) 618 | self.bc6 = nn.BatchNorm2d(1) 619 | self.bc7 = nn.BatchNorm2d(1) 620 | 621 | # 池化层, 尺度为1*d 622 | self.max_pool = nn.MaxPool2d(kernel_size=(1, self.d)) 623 | self.avg_pool = nn.AvgPool2d(kernel_size=(1, self.d)) 624 | # 最小池化等价于相反数的最大池化, 后续会对结果取反 625 | self.min_pool = nn.MaxPool2d(kernel_size=(1, self.d)) 626 | 627 | # 池化操作后的Batch Normalization层 628 | self.bc_pool1 = nn.BatchNorm2d(1) 629 | self.bc_pool2 = nn.BatchNorm2d(1) 630 | self.bc_pool3 = nn.BatchNorm2d(1) 631 | 632 | def forward(self, data): 633 | """ 634 | data: 输入的数据, 维度为batch_size*1*9*30 635 | 636 | """ 637 | # 本层的输入为batch_size*1*9*30, 在训练时不需要反向传播, 因此可以使用detach()函数 638 | data = data.detach().cpu().numpy() 639 | combination = self.combination 640 | combination_rev = self.combination_rev 641 | 642 | # 卷积操作 643 | conv1 = self.ts_corr4d(data, combination, combination_rev).to(torch.float) 644 | conv2 = self.ts_cov4d(data, combination, combination_rev).to(torch.float) 645 | conv3 = self.ts_stddev4d(data).to(torch.float) 646 | conv4 = self.ts_zcore4d(data).to(torch.float) 647 | conv5 = self.ts_return4d(data).to(torch.float) 648 | conv6 = self.ts_decaylinear4d(data).to(torch.float) 649 | conv7 = self.ts_mean4d(data).to(torch.float) 650 | 651 | # 卷积操作后的Batch Normalization 652 | batch1 = self.bc1(conv1) 653 | batch2 = self.bc2(conv2) 654 | batch3 = self.bc3(conv3) 655 | batch4 = self.bc4(conv4) 656 | batch5 = self.bc5(conv5) 657 | batch6 = self.bc6(conv6) 658 | batch7 = self.bc7(conv7) 659 | 660 | # 在 H 维度上进行特征拼接 661 | feature = torch.cat( 662 | [batch1, batch2, batch3, batch4, batch5, batch6, batch7], axis=2) # N*1*(2*36+5*9)*3 = N*1*117*3 663 | 664 | # 同时将特征展平, 准备输入到全连接层 665 | feature_flatten = feature.flatten(start_dim=1) # N*(117*3) = N*351 666 | 667 | # 对多通道特征进行池化操作, 每层池化后面都有Batch Normalization 668 | # 最大池化 669 | maxpool = self.max_pool(feature) # N*1*117*1 670 | maxpool = self.bc_pool1(maxpool) 671 | # 平均池化 672 | avgpool = self.avg_pool(feature) # N*1*117*1 673 | avgpool = self.bc_pool2(avgpool) 674 | # 最小池化 675 | # N*1*117*1, 最小池化等价于相反数的最大池化, 并对结果取反 676 | minpool = -self.min_pool(-1*feature) 677 | minpool = self.bc_pool3(minpool) 678 | # 特征拼接 679 | pool_cat = torch.cat([maxpool, avgpool, minpool], 680 | axis=2) # N*1*(3*117)*1 = N*1*351*1 681 | # 将池化层的特征展平 682 | pool_cat_flatten = pool_cat.flatten(start_dim=1) # N*351 683 | 684 | # 拼接展平后的特征 685 | feature_final = torch.cat( 686 | [feature_flatten, pool_cat_flatten], axis=1) # N*(351+351) = N*702 687 | return feature_final 688 | 689 | # 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的相关系数 690 | def ts_corr4d(self, Matrix, combination, combination_rev): 691 | ... 692 | 693 | # 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的协方差 694 | def ts_cov4d(self, Matrix, combination, combination_rev): 695 | ... 696 | 697 | # 过去 d 天 X 值构成的时序数列的标准差 698 | def ts_stddev4d(self, Matrix): 699 | ... 700 | 701 | # 过去 d 天 X 值构成的时序数列的平均值除以标准差 702 | def ts_zcore4d(self, Matrix): 703 | ... 704 | 705 | # (X - delay(X, d))/delay(X, d)-1, 其中 delay(X, d)为 X 在 d 天前的取值 706 | def ts_return4d(self, Matrix): 707 | ... 708 | 709 | # 过去 d 天 X 值构成的时序数列的加权平均值, 权数为 d, d – 1, …, 1(权数之和应为 1, 需进行归一化处理), 其中离现在越近的日子权数越大 710 | def ts_decaylinear4d(self, Matrix): 711 | ... 712 | 713 | # 过去 d 天 X 值构成的时序数列的平均值 714 | def ts_mean4d(self, Matrix): 715 | ... 716 | ``` 717 | 718 | #### 自定义AlphaNet的代码实现 719 | 720 | 整合前面的各层,封装到AlphaNet中。 721 | 722 | ```python 723 | class AlphaNet(nn.Module): 724 | 725 | def __init__(self, combination, combination_rev, index_list, fc1_num, fc2_num, dropout_rate): 726 | super(AlphaNet, self).__init__() 727 | self.combination = combination 728 | self.combination_rev = combination_rev 729 | self.fc1_num = fc1_num 730 | self.fc2_num = fc2_num 731 | # 自定义的Inception模块 732 | self.Inception = Inception(combination, combination_rev, index_list) 733 | # 两个全连接层 734 | self.fc1 = nn.Linear(fc1_num, fc2_num) # 702 -> 30 735 | self.fc2 = nn.Linear(fc2_num, 1) # 30 -> 1 736 | # 激活函数 737 | self.relu = nn.ReLU() 738 | # dropout 739 | self.dropout = nn.Dropout(dropout_rate) 740 | # 初始化权重 741 | self._init_weights() 742 | 743 | def _init_weights(self): 744 | # 使用xavier的均匀分布对weights进行初始化 745 | nn.init.xavier_uniform_(self.fc1.weight) 746 | nn.init.xavier_uniform_(self.fc2.weight) 747 | # 使用正态分布对bias进行初始化 748 | nn.init.normal_(self.fc1.bias, std=1e-6) 749 | nn.init.normal_(self.fc2.bias, std=1e-6) 750 | 751 | def forward(self, data): 752 | data = self.Inception(data) # N*702 753 | data = self.fc1(data) # N*30 754 | data = self.relu(data) 755 | data = self.dropout(data) 756 | data = self.fc2(data) # N*1 757 | # 线性激活函数, 无需再进行激活 758 | data = data.to(torch.float) 759 | 760 | return data 761 | ``` 762 | 763 | ### 使用`torchsummary`包查看网络结构 764 | 765 | ```python 766 | from torchsummary import summary 767 | 768 | test = AlphaNet(combination, combination_rev, index_list, fc1_num=702, fc2_num=30, dropout_rate=0.5) 769 | 770 | summary(test, input_size=(1, 9, 30)) 771 | ``` 772 | 773 | ``` 774 | ---------------------------------------------------------------- 775 | Layer (type) Output Shape Param # 776 | ================================================================ 777 | BatchNorm2d-1 [-1, 1, 36, 3] 2 778 | BatchNorm2d-2 [-1, 1, 36, 3] 2 779 | BatchNorm2d-3 [-1, 1, 9, 3] 2 780 | BatchNorm2d-4 [-1, 1, 9, 3] 2 781 | BatchNorm2d-5 [-1, 1, 9, 3] 2 782 | BatchNorm2d-6 [-1, 1, 9, 3] 2 783 | BatchNorm2d-7 [-1, 1, 9, 3] 2 784 | MaxPool2d-8 [-1, 1, 117, 1] 0 785 | BatchNorm2d-9 [-1, 1, 117, 1] 2 786 | AvgPool2d-10 [-1, 1, 117, 1] 0 787 | BatchNorm2d-11 [-1, 1, 117, 1] 2 788 | MaxPool2d-12 [-1, 1, 117, 1] 0 789 | BatchNorm2d-13 [-1, 1, 117, 1] 2 790 | Inception-14 [-1, 702] 0 791 | Linear-15 [-1, 30] 21,090 792 | ReLU-16 [-1, 30] 0 793 | Dropout-17 [-1, 30] 0 794 | Linear-18 [-1, 1] 31 795 | ================================================================ 796 | Total params: 21,141 797 | Trainable params: 21,141 798 | Non-trainable params: 0 799 | ---------------------------------------------------------------- 800 | Input size (MB): 0.00 801 | Forward/backward pass size (MB): 0.01 802 | Params size (MB): 0.08 803 | Estimated Total Size (MB): 0.10 804 | ---------------------------------------------------------------- 805 | ``` 806 | 807 | 自定义的特征提取层不需要训练参数,只需要按照规定的运算函数完成前向传播即可。同样地,池化层也不需要训练参数。 808 | 809 | 需要训练的参数来自:批标准化的$\gamma$和$\beta$,全连接层的weight和bias。 810 | 811 | ## 载入数据 812 | 813 | ### 继承`Dataset`类,改写`__getitem__` 814 | 815 | ```python 816 | class FactorData(Dataset): 817 | 818 | def __init__(self, train_x, train_y): 819 | self.len = len(train_x) 820 | self.x_data = train_x 821 | self.y_data = train_y 822 | 823 | def __getitem__(self, index): 824 | """ 825 | 指定读取数据的方式: 根据索引index返回dataset[index] 826 | 827 | """ 828 | return self.x_data[index], self.y_data[index] 829 | 830 | def __len__(self): 831 | return self.len 832 | 833 | ``` 834 | 835 | ### 设定Batch Size 836 | 837 | ```python 838 | batch_size = 1000 839 | ``` 840 | 841 | ### 将数据载入到DataLoader中 842 | 843 | ```python 844 | # 将数据载入到DataLoader中 845 | train_data = FactorData(trainx, trainy) 846 | train_loader = DataLoader(dataset=train_data, 847 | batch_size=batch_size, 848 | shuffle=False) # 不打乱数据集 849 | test_data = FactorData(testx, testy) 850 | test_loader = DataLoader(dataset=test_data, 851 | batch_size=batch_size, 852 | shuffle=False) # 不打乱数据集 853 | ``` 854 | 855 | ## 训练和测试模型 856 | 857 | ### 将AlphaNet实例化 858 | 859 | ```python 860 | # 构建模型 861 | alphanet = AlphaNet(combination=combination, combination_rev=combination_rev, 862 | index_list=index_list, fc1_num=702, fc2_num=30, dropout_rate=0.5) 863 | ``` 864 | 865 | ### 设定优化器 866 | 867 | ```python 868 | weight_list, bias_list = [], [] 869 | for name, p in alphanet.named_parameters(): 870 | # 将所有的bias参数放入bias_list中 871 | if 'bias' in name: 872 | bias_list += [p] 873 | # 将所有的weight参数放入weight_list中 874 | else: 875 | weight_list += [p] 876 | 877 | # weight decay: 对所有weight参数进行L2正则化 878 | optimizer = optim.RMSprop([{'params': weight_list, 'weight_decay': 1e-5}, 879 | {'params': bias_list, 'weight_decay': 0}], 880 | lr=1e-4, 881 | momentum=0.9) 882 | ``` 883 | 884 | ### 设定损失函数为均方误差MSE 885 | 886 | ```python 887 | # 损失函数为均方误差 MSE 888 | criterion = nn.MSELoss() 889 | ``` 890 | 891 | ### 训练和测试模型 892 | 893 | 由于AlphaNet-V1的网络结构较为简单,模型在5到10个Epoch的训练后即收敛,因此我们设定训练轮次`epoch_num`为5。 894 | 895 | 训练和测试模型的代码如下: 896 | 897 | ```python 898 | epoch_num = 5 899 | train_loss_list = [] 900 | test_loss_list = [] 901 | best_test_epoch, best_test_loss = 0, np.inf 902 | seed = 0 903 | for epoch in range(1, epoch_num+1): 904 | train_loss, test_loss = 0, 0 905 | # 在训练集中训练模型 906 | alphanet.train() # 关于.train()的作用,可以参考https://stackoverflow.com/questions/51433378/what-does-model-train-do-in-pytorch 907 | train_batch_num = 0 908 | for data, label in tqdm(train_loader, f'Epoch {epoch}-train', leave=False): 909 | train_batch_num += 1 910 | # 准备数据 911 | data, label = data.to(torch.float), label.to(torch.float) 912 | # 得到训练集的预测值 913 | out_put = alphanet(data) 914 | # 计算损失 915 | loss = criterion(out_put, label) 916 | # 将损失值加入到本轮训练的损失中 917 | train_loss += loss.item() 918 | # 梯度清零 919 | optimizer.zero_grad() # 关于.zero_grad()的作用,可以参考https://stackoverflow.com/questions/48001598/why-do-we-need-to-call-zero-grad-in-pytorch 920 | # 反向传播求解梯度 921 | loss.backward() 922 | # 更新权重参数 923 | optimizer.step() 924 | 925 | # 测试模式 926 | alphanet.eval() 927 | test_batch_num = 0 928 | with torch.no_grad(): 929 | for data, label in tqdm(test_loader, f'Epoch {epoch}-test ', leave=False): 930 | test_batch_num += 1 931 | data, label = data.to(torch.float), label.to(torch.float) 932 | # 得到测试集的预测值 933 | y_pred = alphanet(data) 934 | # 计算损失 935 | loss = criterion(y_pred, label) 936 | # 将损失值加入到本轮测试的损失中 937 | test_loss += loss.item() 938 | 939 | train_loss_list.append(train_loss/train_batch_num) 940 | test_loss_list.append(test_loss/test_batch_num) 941 | ``` 942 | 943 | ### 绘制训练集和测试集上损失的变化 944 | 945 | ```python 946 | # 画出损失函数的变化 947 | fig = plt.figure(figsize=(9, 6)) 948 | # 字号 949 | plt.rcParams['font.size'] = 16 950 | ax = fig.add_subplot(111) 951 | ax.plot(range(1, epoch_num+1), train_loss_list, 'r', label='train loss') 952 | ax.plot(range(1, epoch_num+1), test_loss_list, 'b', label='test loss') 953 | # 设置x轴刻度为整数 954 | ax.xaxis.set_major_locator(ticker.MultipleLocator(1)) 955 | # 设置y轴范围 956 | ax.set_ylim(bottom=0, top=0.1) 957 | ax.legend() 958 | ax.set_xlabel('Epoch') 959 | ax.set_ylabel('MSE Loss') 960 | plt.show() 961 | ``` 962 | 963 | ![image-20221221232108413](README-image/image-20221221232108413.png) 964 | 965 | 经过测试发现,训练集和验证集在训练5轮左右就已经收敛,损失已不再下降。为了探究模型给出了什么样的预测值,我们接下来比较部分样本标签的预测值和真实值。 966 | 967 | ### 预测值和真实值的比较 968 | 969 | 为方便查看,我们截取最后一批训练样本的前200个样本,对比模型的预测标签值和真实标签值。 970 | 971 | ```python 972 | # 绘制部分预测值和真实值 973 | y_pred = y_pred.detach().numpy() 974 | label = label.detach().numpy() 975 | 976 | # 截取部分数据 977 | part = range(0, 200) 978 | plt.plot(y_pred[part], label='pred') 979 | plt.plot(label[part], label='true') 980 | plt.legend() 981 | plt.show() 982 | ``` 983 | 984 | ![image-20221221232728887](README-image/image-20221221232728887.png) 985 | 986 | AlphaNet-V1给出的标签预测值几乎都为常数,只在少部分样本点有突出值,这并不是一个理想的收益率预测值。对于标签预测值几乎都为常数的情况,我推测原因可能是: 987 | 988 | 1. AlphaNet-V1的网络结构较简单,只使用了7个平行的特征提取层、3个平行的池化层和一个全连接层。简单的网络结构限制了参数的选择范围,为了减少损失,模型可能会倾向于选择常数作为标签预测值。 989 | 2. AlphaNet-V1用的池化层通过取最大、平均和最小的操作,将3个在时序值转换为1个值。而这三个时序值仍然具有时序信息,但简单的池化层会丧失这一时序信息。 990 | 991 | ### 保存模型 992 | 993 | 将模型的结构和参数均保存到本地,方便后续使用。 994 | 995 | ```python 996 | # 保存模型 997 | torch.save(alphanet, 'alphanet_v1_pool.pth') 998 | ``` 999 | 1000 | ## 改进方向 1001 | 1002 | 在实证检验后,我们发现AlphaNet-V1给出的标签预测值几乎都为常数,只在少部分样本点有突出值,这并不是一个理想的收益率预测值。因此,本文尝试对AlphaNet-V1进行两方面的改进: 1003 | 1004 | 1. 调整网络结构。AlphaNet-V1的网络结构较简单,我们将在AlphaNet-V3版本中加入不同步长`stride`的特征提取层,并将现有的池化层转换为可以记忆时序信息的门控循环单元(GRU)。 1005 | 2. 调整标签值。AlphaNet-V1预测的标签值是个股在未来10个交易日的收益率。我们将在AlphaNet-V3版本中将预测标签转换为涨跌方向(1代表上涨,即收益率大于0;0代表不变或下跌,即收益率小于或等于0)和超额收益方向(1代表收益率大于当批的平均收益率,0代表收益率小于或等于当批的平均收益率)。 1006 | 1007 | ## 搭建AlphaNet-V3 1008 | 1009 | ### 加入多步长的特征提取层 1010 | 1011 | AlphaNet-V1的特征提取层中,固定步长`stride=10`,我们可以设定其他的步长,拓宽因子挖掘的可能性。 1012 | 1013 | 下面我们加入步长`stride=3`的特征提取层,仍使用AlphaNet-V1中的7个运算符函数。 1014 | 1015 | 由于步长发生变化,因此卷积操作的索引列表也发生了变化。我们需要生成两个不同的`index_list`,供两个步长不同的特征提取层使用。 1016 | 1017 | ```python 1018 | # 根据输入的矩阵和卷积操作的步长, 计算卷积操作的索引 1019 | def get_index_list(matrix, stride): 1020 | """ 1021 | args: 1022 | matrix: torch.tensor, the input matrix 1023 | stride: int, the stride of the convolution operation 1024 | 1025 | return: 1026 | index_list: list, the index of the convolution operation 1027 | 1028 | """ 1029 | W = matrix.shape[3] 1030 | if W % stride == 0: 1031 | index_list = list(np.arange(0, W+stride, stride)) 1032 | else: 1033 | mod = W % stride 1034 | index_list = list(np.arange(0, W+stride-mod, stride)) + [W] 1035 | return index_list 1036 | # 根据输入的矩阵和卷积操作的步长, 计算卷积操作的索引 1037 | # inception1模块使用的卷积操作的步长为10 1038 | index_list_1 = get_index_list(np.zeros((1,1,9,30)), 10) 1039 | # inception2模块使用的卷积操作的步长为3 1040 | index_list_2 = get_index_list(np.zeros((1,1,9,30)), 3) 1041 | ``` 1042 | 1043 | ![image-20221222155058742](README-image/image-20221222155058742.png) 1044 | 1045 | 在AlphaNet-V1中,我们已经编写了`Inception`类,它可以接收不同的`index_list`作为参数,因此我们只需要传入`index_list_2`即可实现步长为`stride=3`的特征提取层。 1046 | 1047 | ```python 1048 | class AlphaNet(nn.Module): 1049 | 1050 | def __init__(self, combination, combination_rev, index_list_1, index_list_2, fc_num): 1051 | super(AlphaNet, self).__init__() 1052 | self.combination = combination 1053 | self.combination_rev = combination_rev 1054 | # 自定义的Inception1模块 1055 | self.Inception_1 = Inception(combination, combination_rev, index_list_1) 1056 | # 自定义的Inception2模块 1057 | self.Inception_2 = Inception(combination, combination_rev, index_list_2) 1058 | # 输出层 1059 | self.fc = nn.Linear(fc_num, 1) # 30 -> 1 1060 | # 初始化权重 1061 | self._init_weights() 1062 | ``` 1063 | 1064 | 上面的代码完成了两个平行的特征提取层。 1065 | 1066 | ### 将池化层替换为门控循环单元(GRU) 1067 | 1068 | AlphaNet-V1中的池化层仅是将特征提取层的输出在时序上取最大、平均和最小池化。若特征提取层中的步长`stride=10`,则池化的作用是将时序上的3个值取最大、平均和最小值,转换为1个值。这样的操作丧失了特征提取层得到的3个值本身的时序信息。 1069 | 1070 | ![image-20221222160928336](README-image/image-20221222160928336.png) 1071 | 1072 | 为了保留特征提取层得到的输出本身的时序信息,我们将池化层转换为门控循环单元,它是循环神经网络的一种,可以接受时序输入,并输出带有时序记忆的隐藏状态。 1073 | 1074 | 我们自定义的GRU层的代码如下。由于特征提取层将得到维数为$117\times3$或$117\times10$的矩阵,因此我们设定`input_size=117`。`num_layers`设为2。我们需要的输出是带有时序记忆的隐藏状态。最终将得到维数为$30$的矩阵。 1075 | 1076 | ```python 1077 | class GRU(nn.Module): 1078 | def __init__(self): 1079 | super(GRU, self).__init__() 1080 | self.gru = nn.GRU(input_size=117, hidden_size=30, 1081 | num_layers=2, batch_first=True, bidirectional=False) 1082 | 1083 | def forward(self, data): 1084 | # N*time_step*117 -> output: torch.Size([1000, time_step, 30]), hn: torch.Size([2, 1000, 30]), 对于Inception1, time_step=3, 对于Inception2, time_step=10 1085 | output, hn = self.gru(data) 1086 | h = hn[-1:] # 使用最后一层hidden state的输出, h: torch.Size([1, 1000, 30]) 1087 | data = h.squeeze(0) # torch.Size([1000, 30]) 1088 | return data # torch.Size([1000, 30]) 1089 | 1090 | ``` 1091 | 1092 | 将GRU层嵌入到自定义的`Inception`类中: 1093 | 1094 | ```python 1095 | class Inception(nn.Module): 1096 | """ 1097 | Inception, 用于提取时间序列的特征, 具体操作包括: 1098 | 1099 | 1. kernel_size和stride为d=10或3的特征提取层, 类似于卷积层,用于提取时间序列的特征. 具体包括:(下面以d=10为例) 1100 | 1101 | 1. ts_corr4d: 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的相关系数 1102 | 2. ts_cov4d: 过去 d 天 X 值构成的时序数列和 Y 值构成的时序数列的协方差 1103 | 3. ts_stddev4d: 过去 d 天 X 值构成的时序数列的标准差 1104 | 4. ts_zscore4d: 过去 d 天 X 值构成的时序数列的平均值除以标准差 1105 | 5. ts_return4d: (X - delay(X, d))/delay(X, d)-1, 其中delay(X, d)为 X 在 d 天前的取值 1106 | 6. ts_decaylinear4d: 过去 d 天 X 值构成的时序数列的加权平均值,权数为 d, d – 1, …, 1(权数之和应为 1,需进行归一化处理),其中离现在越近的日子权数越大 1107 | 7. ts_mean4d: 过去 d 天 X 值构成的时序数列的平均值 1108 | 1109 | 各操作得到的张量维数: 1110 | 1. 由于涉及两个变量的协方差, 因此ts_corr4d和ts_cov4d的输出为 N*1*36*3 1111 | 2. 其余操作均只涉及单变量的时序计算, 因此输出为 N*1*9*3 1112 | 1113 | 2. 对第1步的输出进行Batch Normalization操作, 输出维数仍为 N*1*36*3 或 N*1*9*3 1114 | 1115 | 3. 对第2步的输出, 在 H 维度上拼接, 输出维数为 N*1*(2*36+5*9)*3 = N*1*117*3 1116 | 1117 | 4. 对第3步的输出, 使用GRU进行特征提取, 输出维数为 N*30 1118 | 1119 | """ 1120 | 1121 | def __init__(self, combination, combination_rev, index_list): 1122 | """ 1123 | combination: 卷积操作时需要的两列数据的组合 1124 | combination_rev: 卷积操作时需要的两列数据的组合, 与combination相反 1125 | index_list: 卷积操作时需要的时间索引 1126 | 1127 | """ 1128 | 1129 | super(Inception, self).__init__() 1130 | # 卷积操作时需要的两列数据的组合 1131 | self.combination = combination 1132 | self.combination_rev = combination_rev 1133 | 1134 | # 卷积操作时需要的时间索引 1135 | self.index_list = index_list 1136 | 1137 | # 卷积操作后的Batch Normalization层 1138 | self.bc1 = nn.BatchNorm2d(1) 1139 | self.bc2 = nn.BatchNorm2d(1) 1140 | self.bc3 = nn.BatchNorm2d(1) 1141 | self.bc4 = nn.BatchNorm2d(1) 1142 | self.bc5 = nn.BatchNorm2d(1) 1143 | self.bc6 = nn.BatchNorm2d(1) 1144 | self.bc7 = nn.BatchNorm2d(1) 1145 | 1146 | # GRU层 1147 | self.GRU = GRU() 1148 | 1149 | def forward(self, data): 1150 | """ 1151 | data: 输入的数据, 维度为batch_size*1*9*30 1152 | 1153 | """ 1154 | # 本层的输入为batch_size*1*9*30, 在训练时不需要反向传播, 因此可以使用detach()函数 1155 | data = data.detach().cpu().numpy() 1156 | combination = self.combination 1157 | combination_rev = self.combination_rev 1158 | 1159 | # 卷积操作 1160 | conv1 = self.ts_corr4d(data, combination, combination_rev).to(torch.float) 1161 | conv2 = self.ts_cov4d(data, combination, combination_rev).to(torch.float) 1162 | conv3 = self.ts_stddev4d(data).to(torch.float) 1163 | conv4 = self.ts_zcore4d(data).to(torch.float) 1164 | conv5 = self.ts_return4d(data).to(torch.float) 1165 | conv6 = self.ts_decaylinear4d(data).to(torch.float) 1166 | conv7 = self.ts_mean4d(data).to(torch.float) 1167 | 1168 | # 卷积操作后的Batch Normalization 1169 | batch1 = self.bc1(conv1) 1170 | batch2 = self.bc2(conv2) 1171 | batch3 = self.bc3(conv3) 1172 | batch4 = self.bc4(conv4) 1173 | batch5 = self.bc5(conv5) 1174 | batch6 = self.bc6(conv6) 1175 | batch7 = self.bc7(conv7) 1176 | 1177 | # 在 H 维度上进行特征拼接 1178 | feature = torch.cat( 1179 | [batch1, batch2, batch3, batch4, batch5, batch6, batch7], axis=2) # N*1*(2*36+5*9)*3 = N*1*117*3 1180 | 1181 | # GRU层 1182 | feature = feature.squeeze(1) # N*1*117*3 -> N*117*3 1183 | feature = feature.permute(0, 2, 1) # N*117*3 -> N*3*117 1184 | feature = self.GRU(feature) # N*3*117 -> N*30 1185 | 1186 | return feature 1187 | 1188 | ``` 1189 | 1190 | ### 使用`torchsummary`包查看网络结构 1191 | 1192 | ```python 1193 | test = AlphaNet(combination, combination_rev, index_list_1, index_list_2, fc_num=60) 1194 | 1195 | summary(test, input_size=(1, 9, 30)) 1196 | ``` 1197 | 1198 | ``` 1199 | ---------------------------------------------------------------- 1200 | Layer (type) Output Shape Param # 1201 | ================================================================ 1202 | BatchNorm2d-1 [-1, 1, 36, 3] 2 1203 | BatchNorm2d-2 [-1, 1, 36, 3] 2 1204 | BatchNorm2d-3 [-1, 1, 9, 3] 2 1205 | BatchNorm2d-4 [-1, 1, 9, 3] 2 1206 | BatchNorm2d-5 [-1, 1, 9, 3] 2 1207 | BatchNorm2d-6 [-1, 1, 9, 3] 2 1208 | BatchNorm2d-7 [-1, 1, 9, 3] 2 1209 | GRU-8 [[-1, 3, 30], [-1, 2, 30]] 0 1210 | GRU-9 [-1, 30] 0 1211 | Inception-10 [-1, 30] 0 1212 | BatchNorm2d-11 [-1, 1, 36, 10] 2 1213 | BatchNorm2d-12 [-1, 1, 36, 10] 2 1214 | BatchNorm2d-13 [-1, 1, 9, 10] 2 1215 | BatchNorm2d-14 [-1, 1, 9, 10] 2 1216 | BatchNorm2d-15 [-1, 1, 9, 10] 2 1217 | BatchNorm2d-16 [-1, 1, 9, 10] 2 1218 | BatchNorm2d-17 [-1, 1, 9, 10] 2 1219 | GRU-18 [[-1, 10, 30], [-1, 2, 30]] 0 1220 | GRU-19 [-1, 30] 0 1221 | Inception-20 [-1, 30] 0 1222 | Linear-21 [-1, 1] 61 1223 | ================================================================ 1224 | Total params: 89 1225 | Trainable params: 89 1226 | Non-trainable params: 0 1227 | ---------------------------------------------------------------- 1228 | Input size (MB): 0.00 1229 | Forward/backward pass size (MB): 0.17 1230 | Params size (MB): 0.00 1231 | Estimated Total Size (MB): 0.17 1232 | ---------------------------------------------------------------- 1233 | 1234 | ``` 1235 | 1236 | > 不知道为什么,这里的GRU层并没有显示待估计的参数,实际上GRU层也是需要估计非常多的参数的。 1237 | 1238 | 在2个特征提取层及GRU层后,将输出展平后拼接,得到$60\times1$的矩阵,直接连接到预测目标即可输出预测值,这样就构建了AlphaNet-V3。 1239 | 1240 | ### 使用`TensorBoard`查看网络结构 1241 | 1242 | 我们可以使用`TensorBoard`对模型进行可视化,主要代码如下。 1243 | 1244 | ```python 1245 | from tensorboardX import SummaryWriter # 用于进行可视化 1246 | 1247 | from torchviz import make_dot 1248 | 1249 | sample_data = torch.rand(1000, 1, 9, 30) 1250 | # 1. 来用tensorflow进行可视化 1251 | with SummaryWriter("./log", comment="sample_model_visualization") as sw: 1252 | sw.add_graph(alphanet, sample_data) 1253 | 1254 | # 2. 保存成pt文件后进行可视化 1255 | torch.save(alphanet, "./log/alphanet_v3_gru.pt") 1256 | 1257 | # 3. 使用graphviz进行可视化 1258 | out = alphanet(sample_data) 1259 | g = make_dot(out) 1260 | g.render('alphanet_v3_gru', view=False) # 这种方式会生成一个pdf文件 1261 | ``` 1262 | 1263 | 在`TensorBoard`中,查看网络结构如下。由于特征提取层的运算符函数太多,且有两个步长不同的的平行的特征提取层,若全部展开则宽度太大,因此这里只展开其中一个。 1264 | 1265 | ![TensorBoard模型结构](README-image/TensorBoard模型结构.png) 1266 | 1267 | ## 训练和测试模型 1268 | 1269 | 相比AlphaNet-V1,AlphaNet-V3加入了步长`stride=3`的特征提取层、将池化层转换为保留时序信息的GRU层,模型变得更复杂。在训练模型时,训练20轮以上才显现出收敛的趋势。因此我们将`epoch_num`设为30。 1270 | 1271 | ```python 1272 | epoch_num = 30 1273 | train_loss_list = [] 1274 | test_loss_list = [] 1275 | best_test_epoch, best_test_loss = 0, np.inf 1276 | for epoch in range(1, epoch_num+1): 1277 | train_loss, test_loss = 0, 0 1278 | # 在训练集中训练模型 1279 | alphanet.train() # 关于.train()的作用,可以参考https://stackoverflow.com/questions/51433378/what-does-model-train-do-in-pytorch 1280 | train_batch_num = 0 1281 | for data, label in tqdm(train_loader, f'Epoch {epoch}-train', leave=False): 1282 | train_batch_num += 1 1283 | # 准备数据 1284 | data, label = data.to(torch.float), label.to(torch.float) 1285 | # 得到训练集的预测值 1286 | out_put = alphanet(data) 1287 | # 计算损失 1288 | loss = criterion(out_put, label) 1289 | # 将损失值加入到本轮训练的损失中 1290 | train_loss += loss.item() 1291 | # 梯度清零 1292 | optimizer.zero_grad() # 关于.zero_grad()的作用,可以参考https://stackoverflow.com/questions/48001598/why-do-we-need-to-call-zero-grad-in-pytorch 1293 | # 反向传播求解梯度 1294 | loss.backward() 1295 | # 更新权重参数 1296 | optimizer.step() 1297 | 1298 | # 测试模式 1299 | alphanet.eval() 1300 | test_batch_num = 0 1301 | with torch.no_grad(): 1302 | for data, label in tqdm(test_loader, f'Epoch {epoch}-test ', leave=False): 1303 | test_batch_num += 1 1304 | data, label = data.to(torch.float), label.to(torch.float) 1305 | # 得到测试集的预测值 1306 | y_pred = alphanet(data) 1307 | # 计算损失 1308 | loss = criterion(y_pred, label) 1309 | # 将损失值加入到本轮测试的损失中 1310 | test_loss += loss.item() 1311 | 1312 | train_loss_list.append(train_loss/train_batch_num) 1313 | test_loss_list.append(test_loss/test_batch_num) 1314 | ``` 1315 | 1316 | ### 绘制训练集和测试集上损失的变化 1317 | 1318 | ```python 1319 | # 画出损失函数的变化 1320 | fig = plt.figure(figsize=(9, 6)) 1321 | # 字号 1322 | plt.rcParams['font.size'] = 16 1323 | ax = fig.add_subplot(111) 1324 | ax.plot(train_loss_list, 'r', label='train loss') 1325 | ax.plot(test_loss_list, 'b', label='test loss') 1326 | # 设置y轴范围 1327 | ax.set_ylim(bottom=0, top=0.1) 1328 | ax.legend() 1329 | ax.set(xlabel='Epoch') 1330 | ax.set(ylabel='MSE Loss') 1331 | plt.show() 1332 | ``` 1333 | 1334 | ![image-20221222190109549](README-image/image-20221222190109549.png) 1335 | 1336 | 经过测试发现,训练集和验证集在训练20轮左右就已经收敛,损失已不再下降。为了探究模型给出了什么样的预测值,我们接下来比较部分样本标签的预测值和真实值。 1337 | 1338 | ### 预测值和真实值的比较 1339 | 1340 | 为方便查看,我们截取最后一批训练样本的前200个样本,对比模型的预测标签值和真实标签值。 1341 | 1342 | ```python 1343 | # 绘制部分预测值和真实值 1344 | y_pred = y_pred.detach().numpy() 1345 | label = label.detach().numpy() 1346 | # 截取部分数据 1347 | part = range(0, 200) 1348 | plt.plot(y_pred[part], label='pred') 1349 | plt.plot(label[part], label='true') 1350 | plt.legend() 1351 | plt.show() 1352 | ``` 1353 | 1354 | ![image-20221222190543853](README-image/image-20221222190543853.png) 1355 | 1356 | AlphaNet-V3的模型结构更复杂,输出的预测值并不全是常数,可以作为对收益率的预测值。 1357 | 1358 | 但我们也可以注意到AlphaNet-V3给出的收益率预测值的波动明显比真实值的波动更大,从这一点上看,预测效果并不是很理想。这可能是因为预测收益率的具体数值的难度较大,我们后续考虑将预测目标转换为收益率的方向(即个股在未来10个交易日的价格涨跌),以及超额收益的方向(即个股在未来10个交易日的收益率相对截面平均收益率的大小)。 1359 | 1360 | ## 调整预测目标:收益率的方向 1361 | 1362 | 为了调整预测目标,将回归问题转换为二分类问题,我们需要在代码中作如下的调整。 1363 | 1364 | ### 将预测标签转换为0和1 1365 | 1366 | ```python 1367 | # 由于是分类问题, 因此将y大于0的标签设置为1,小于0的标签设置为0 1368 | trainy[trainy > 0] = 1 1369 | trainy[trainy < 0] = 0 1370 | testy[testy > 0] = 1 1371 | testy[testy < 0] = 0 1372 | ``` 1373 | 1374 | ### 全连接层最后的激活函数设为`sigmoid`,使得最终输出在0到1之间 1375 | 1376 | ```python 1377 | def forward(self, data): 1378 | data_1 = self.Inception_1(data) # N*30 1379 | data_2 = self.Inception_2(data) # N*30 1380 | pool_cat = torch.cat([data_1, data_2], axis=1) # N*60 1381 | # 输出层 1382 | data = self.fc(pool_cat) 1383 | # 激活函数, 使输出值在0到1之间 1384 | data = torch.sigmoid(data) 1385 | data = data.to(torch.float) 1386 | 1387 | return data 1388 | ``` 1389 | 1390 | ### 损失函数设为`Binary Cross Entropy` 1391 | 1392 | 在回归问题中,我们使用的损失函数为均方误差MSE。在二分类问题中,适合使用`BCELoss()`,即Binary Cross Entropy Loss二元交叉熵。 1393 | 1394 | ```python 1395 | # 由于是分类问题, 因此使用Binary Cross Entropy损失函数 1396 | criterion = nn.BCELoss() 1397 | ``` 1398 | 1399 | ### 绘制训练集和测试集上损失的变化 1400 | 1401 | ![image-20221222192146000](README-image/image-20221222192146000.png) 1402 | 1403 | 训练集和测试集的损失值较为接近,均在0.69左右。训练轮次在5轮左右时效果较好。 1404 | 1405 | ### 预测值和真实值的比较 1406 | 1407 | #### ROC曲线 1408 | 1409 | 对于二分类问题,我们可以绘制ROC曲线来评价预测效果。 1410 | 1411 | ```python 1412 | # 绘制ROC曲线 1413 | fpr, tpr, thresholds = metrics.roc_curve(label, y_pred) 1414 | plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve') 1415 | plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') 1416 | plt.xlabel('False Positive Rate') 1417 | plt.ylabel('True Positive Rate') 1418 | plt.title('ROC Curve') 1419 | plt.legend(loc="lower right") 1420 | plt.show() 1421 | ``` 1422 | 1423 | ![image-20221222192511533](README-image/image-20221222192511533.png) 1424 | 1425 | 可以看到,ROC曲线仅略高于次对角线,说明预测效果仅略高于基于样本正负比率的随机猜测。 1426 | 1427 | #### 混淆矩阵 1428 | 1429 | 我们可以绘制混淆矩阵,查看正负例样本的预测情况。 1430 | 1431 | ```python 1432 | # 绘制混淆矩阵 1433 | y_pred = np.where(y_pred > 0.5, 1, 0) 1434 | cm = metrics.confusion_matrix(label, y_pred) 1435 | ``` 1436 | 1437 | ![image-20221222192830751](README-image/image-20221222192830751.png) 1438 | 1439 | ```python 1440 | import seaborn as sn 1441 | plt.figure(figsize = (10,8)) 1442 | sn.heatmap(cm, annot=True, cmap='Blues', fmt='d') 1443 | plt.xlabel('y_pred') 1444 | plt.ylabel('y_true') 1445 | ``` 1446 | 1447 | ![image-20221222192849349](README-image/image-20221222192849349.png) 1448 | 1449 | 从混淆矩阵中可以看出,预测结果确实和真实数据中的正负比例很接近,说明我们的预测结果确实近似于基于样本数据的“随机猜测”。 1450 | 1451 | 这在信噪比极低的金融领域是可以理解的,我们的模型只用到了简单的量价数据,在生成涨跌信号的准确度上并不应奢求能获得非常好的预测效果。 1452 | 1453 | ## 调整预测目标:超额收益率的方向 1454 | 1455 | 由于市场存在不可分散的系统性风险,个股的收益率数值通常受市场环境的影响很大。在积极组合管理领域,投资者更希望找到能够打败市场、具有超额收益的个股。因此我们再次调整预测目标为个股在10个交易日后的超额收益的正负值。 1456 | 1457 | ### 将预测标签转换为超额收益率的正负 1458 | 1459 | 需要先计算截面的收益率均值,再根据个股收益率相对于截面收益率的大小,确定超额收益率的正负,并以此作为预测目标。 1460 | 1461 | 由于我们的样本并没有包含全市场的所有个股,因此这样的计算会有偏差。 1462 | 1463 | ```python 1464 | # 由于是超额收益的分类问题, 因此将y大于trainy.mean()的标签设置为1,小于trainy.mean()的标签设置为0 1465 | train_mean_y = trainy.mean().item() 1466 | trainy[trainy > train_mean_y] = 1 1467 | trainy[trainy < train_mean_y] = 0 1468 | test_mean_y = testy.mean().item() 1469 | testy[testy > test_mean_y] = 1 1470 | testy[testy < test_mean_y] = 0 1471 | ``` 1472 | 1473 | 其他代码基本与“预测收益率的方向”一致,在此不再赘述。 1474 | 1475 | ### 绘制训练集和测试集上损失的变化 1476 | 1477 | ![image-20221222193631521](README-image/image-20221222193631521.png) 1478 | 1479 | 损失值得结果与“预测收益率的方向”相比略有下降,或许说明模型在预测超额收益率的方向上表现更好。 1480 | 1481 | ### 预测值和真实值的比较 1482 | 1483 | #### ROC曲线 1484 | 1485 | ![image-20221222193750323](README-image/image-20221222193750323.png) 1486 | 1487 | #### 混淆矩阵 1488 | 1489 | ![image-20221222194347192](README-image/image-20221222194347192.png) 1490 | 1491 | 尽管我们做了多种尝试,但发现ROC曲线和混淆矩阵的表现依旧一般,模型在分类准确率上效果并不理想。 1492 | 1493 | ## 将随机森林模型作为baseline进行比较 1494 | 1495 | 我们的特征均为量价数据,个股在每一天有$9\times30=270$个特征。随机森林模型在训练时并不会用到全部特征,而是会随机抽取样本和特征。作为基准模型,我们不进行额外的特征工程,也不刻意调整模型参数,仅将基准结果与前面构造的AlphaNet-V3进行比较。 1496 | 1497 | 我们以“超额收益率的方向”作为预测目标,前文已经介绍过了AlphaNet-V3的预测效果,这里我们介绍随机森林模型进行分类预测的过程。 1498 | 1499 | 在前面的神经网络中,我们的输入数据是$9\times30$的矩阵,在随机森林模型中,我们需要将二维矩阵展平,再输入到模型中。 1500 | 1501 | ```python 1502 | # 读取数据 1503 | X_train = np.load('../data/X_train.npy') 1504 | # # 将数据转换为二维 1505 | X_train = X_train.reshape(X_train.shape[0], -1) 1506 | y_train = np.load('../data/y_train.npy') 1507 | X_test = np.load('../data/X_test.npy') 1508 | # 将数据转换为二维 1509 | X_test = X_test.reshape(X_test.shape[0], -1) 1510 | y_test = np.load('../data/y_test.npy') 1511 | # 查看数据的大小 1512 | print("训练集特征维数: ", X_train.shape) 1513 | print("训练集标签维数: ", y_train.shape) 1514 | print("测试集特征维数: ", X_test.shape) 1515 | print("测试集标签维数: ", y_test.shape) 1516 | 1517 | # 由于是超额收益的分类问题, 因此将y大于y_train.mean()的标签设置为1,小于y_train.mean()的标签设置为0 1518 | train_mean_y = y_train.mean() 1519 | y_train[y_train > train_mean_y] = 1 1520 | y_train[y_train < train_mean_y] = 0 1521 | test_mean_y = y_test.mean() 1522 | y_test[y_test > test_mean_y] = 1 1523 | y_test[y_test < test_mean_y] = 0 1524 | ``` 1525 | 1526 | ### 训练和测试模型 1527 | 1528 | ```python 1529 | # 构建随机森林模型 1530 | clf = RandomForestClassifier(random_state=0, n_jobs=-1) 1531 | clf.fit(X_train, y_train) 1532 | # 在测试集上预测 1533 | y_pred = clf.predict(X_test) 1534 | y_pred_proba = clf.predict_proba(X_test)[:,1] 1535 | ``` 1536 | 1537 | #### 输出模型评价指标的函数 1538 | 1539 | ```python 1540 | # 在测试集上给出模型分类的效果 1541 | def evaluate(true, pred): 1542 | print('accuracy:{:.2%}'.format(metrics.accuracy_score(true, pred))) 1543 | print('precision:{:.2%}'.format(metrics.precision_score(true, pred))) 1544 | print('recall:{:.2%}'.format(metrics.recall_score(true, pred))) 1545 | print('f1-score:{:.2%}'.format(metrics.f1_score(true, pred))) 1546 | ``` 1547 | 1548 | ```python 1549 | evaluate(y_test, y_pred) 1550 | ``` 1551 | 1552 | ![image-20221223120215460](README-image/image-20221223120215460.png) 1553 | 1554 | 精确率、召回率均较低,基准模型的表现也不好。 1555 | 1556 | #### 特征重要性排序 1557 | 1558 | 随机森林模型可以基于信息增益对特征重要性进行排序。 1559 | 1560 | 在代码中,需要为展平后的270个特征设定名称。 1561 | 1562 | ```python 1563 | # 为270个特征设定名字 1564 | feature_names = ['open', 'high', 'low', 'close', 'vwap', 'volume', 'return1', 'turn', 'free_turn'] 1565 | time = range(29, -1, -1) 1566 | all_feature_names = [] 1567 | for i in feature_names: 1568 | for j in time: 1569 | all_feature_names.append(i + '_' + str(j)) 1570 | feat_importances = pd.Series(clf.feature_importances_, index=all_feature_names) 1571 | ``` 1572 | 1573 | ```python 1574 | # 将特征重要性排序后绘图 1575 | ax = feat_importances.sort_values()[250:].plot(kind='barh', figsize=(12, 6)) 1576 | # 设置横坐标格式 1577 | ax.xaxis.set_major_formatter(plt.FuncFormatter(lambda x, pos: "{:.2%}".format(x))) 1578 | # 设置标题 1579 | ax.set_title('Importance of Features') 1580 | # 如果不需要显示特征重要性的大小数值,可以使用下面2行代码 1581 | # for container in ax.containers: 1582 | # ax.bar_label(container) 1583 | # 如果需要显示特征重要性的大小数值,可以使用下面的代码 1584 | x_offset = 0 1585 | y_offset = 0 1586 | for p in ax.patches: 1587 | b = p.get_bbox() 1588 | val = "{:.2%}".format(b.x1) 1589 | ax.annotate(val, (b.x1 + 0.0002, b.y1 - 0.4)) 1590 | ``` 1591 | 1592 | ![image-20221223120440331](README-image/image-20221223120440331.png) 1593 | 1594 | 最重要的特征几乎都为`vwap`,说明基于成交量的加权价格可能是预测超额收益的重要因素。 1595 | 1596 | #### ROC曲线 1597 | 1598 | ```python 1599 | # 绘制ROC曲线 1600 | fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred_proba) 1601 | plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve') 1602 | plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') 1603 | plt.xlabel('False Positive Rate') 1604 | plt.ylabel('True Positive Rate') 1605 | plt.title('ROC Curve') 1606 | plt.legend(loc="lower right") 1607 | plt.show() 1608 | ``` 1609 | 1610 | ![image-20221223120549749](README-image/image-20221223120549749.png) 1611 | 1612 | #### 混淆矩阵 1613 | 1614 | ![image-20221223121130542](README-image/image-20221223121130542.png) 1615 | 1616 | ROC曲线几乎和次对角线重合,混淆矩阵的分类准确率、召回率都不高,说明在随机森林模型上的预测效果同样不佳。 1617 | 1618 | ## 总结和结论 1619 | 1620 | 本文主要实现了: 1621 | 1622 | 1. 基于个股在过去30个交易日的9个量价数据,构造“图片”矩阵,作为AlphaNet的输入数据。 1623 | 2. 构造自定义的特征提取层,实现2种基于双变量的特征提取层和5种基于单变量的特征提取层。 1624 | 3. 以10为步长,将自定义的特征提取层与批标准化层、最大(平均、最小)池化层、全连接层结合,以均方误差MSE为损失函数,输出收益率值的预测目标。 1625 | 4. 在训练集和验证集上做检验,发现可能是由于模型过于简单,损失值很快收敛,且预测值几乎都为常数。为此做了一些改进。 1626 | 5. 改进1:将池化层替换为门控循环单元(GRU)。改进后的预测结果能给出不同的收益率值,但波动率明显比真实值更大。 1627 | 6. 改进2:调整预测目标为收益率和方向和超额收益的方向。将全连接层的激活函数设为`sigmoid`,损失函数设为`Binary Cross Entropy`,对测试集上的预测效果进行评估,发现ROC曲线和混淆矩阵都接近随机猜测。 1628 | 7. 与基Baseline随机森林模型进行比较。我们将随机森林模型应用于对个股在未来10个交易日的超额收益的预测,发现`vwap`是最重要的特征。但模型评价指标也告诉我们很难准确地预测超额收益率的方向。 1629 | 1630 | ## 未来研究方向 1631 | 1632 | 虽然本文测试的几个模型均算不上理想,但这或许就是金融市场的特点:低信噪比、难以预测。在开始进行这个项目前,我也并不期待能搭建出预测准确率高得惊人的模型。在回顾模型是如何构建的同时,我也想到了未来可以继续拓展的方向: 1633 | 1634 | 1. 扩充特征数据。本文只用到了9个量价数据,且都是日频的数据。在高频领域可以构造出更多的分钟频甚至更高频的特征数据。对于数据结构与本文相似的特征,AlphaNet都可以接受作为输入。更多的特征数据也意味着更多解释收益率的可能性,也许能提高模型的预测效果。 1635 | 2. 进一步调整模型结构和参数。由于前期搭建的模型表现并不理想,且研究时间有限,我并没有花费大量时间进行参数调优,只是参考了原始研究报告中的参数。模型中的步长、GRU层数、全连接层的设计、Dropout rate等,都可以进行参数寻优,或许能取得更好的效果。 1636 | 3. 使用更大量的数据进行训练。由于数据的可得性,本文下载15000余个样本数据耗时3个多小时。在有充足的数据来源的情况下,可以考虑对更大量的样本进行训练和测试。 1637 | 1638 | ## 参考资料 1639 | 1640 | 1. 本文的研究思路来自华泰证券研究所金融工程组的两篇研究报告:[《华泰人工智能系列之三十二-AlphaNet:因子挖掘神经网络》](https://crm.htsc.com.cn/doc/2020/10750101/74856806-a2e3-41cb-be4c-695dc6cc1341.pdf)和[《华泰人工智能系列之三十四-再探AlphaNet:结构和特征优化》](https://crm.htsc.com.cn/doc/2020/10750101/74619658-f648-4001-a255-5b78174b073a.pdf)。这两篇报告介绍了如何借鉴卷积神经网络CNN和门控循环单元GRU的思想,搭建基于量价数据进行因子挖掘的神经网络。我使用的模型参数也是基于研究报告中给出的。 1641 | 1642 | 2. 本文获取数据和构造运算符函数的方法参考了知乎的回答:[如何实现用遗传算法或神经网络进行因子挖掘?](https://www.zhihu.com/question/336207872/answer/2592739064) -------------------------------------------------------------------------------- /data/X_test.npy: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/data/X_test.npy -------------------------------------------------------------------------------- /data/X_train.npy: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/data/X_train.npy -------------------------------------------------------------------------------- /data/get_data.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": null, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "from rich.progress import Progress\n", 10 | "from datetime import timedelta \n", 11 | "import pandas as pd\n", 12 | "import numpy as np\n", 13 | "import tushare as ts\n", 14 | "pro = ts.pro_api()" 15 | ] 16 | }, 17 | { 18 | "cell_type": "code", 19 | "execution_count": null, 20 | "metadata": {}, 21 | "outputs": [], 22 | "source": [ 23 | "# 给定一个交易日,返回该日满足条件的A股股票列表\n", 24 | "def get_stocklist(date: str, num: int):\n", 25 | "\n", 26 | " start = str(pd.to_datetime(date)-timedelta(30))\n", 27 | " start = start[0:4]+start[5:7]+start[8:10]\n", 28 | " df1 = pro.index_weight(index_code='000002.SH',\n", 29 | " start_date=start, end_date=date) # 交易日当天的股票列表\n", 30 | " codes = list(df1['con_code'])\n", 31 | " codes = codes[0:1000] # 在每个截面期只选取1000只股票\n", 32 | "\n", 33 | " return codes\n", 34 | "\n", 35 | "# 给定日期区间的端点,输出期间的定长采样交易日列表\n", 36 | "\n", 37 | "\n", 38 | "def get_datelist(start: str, end: str, interval: int):\n", 39 | "\n", 40 | " df = pro.index_daily(ts_code='399300.SZ', start_date=start, end_date=end)\n", 41 | " date_list = list(df.iloc[::-1]['trade_date'])\n", 42 | " sample_list = []\n", 43 | " for i in range(len(date_list)):\n", 44 | " if i % interval == 0:\n", 45 | " sample_list.append(date_list[i])\n", 46 | "\n", 47 | " return sample_list\n", 48 | "\n", 49 | "# 返回两个,一个是前30个交易日的9个指标面板(9*30),一个是未来10天的收益率\n", 50 | "\n", 51 | "\n", 52 | "def get_x_y(code: str, date: str, pass_day: int, future_day: int, len1: int, len2: int):\n", 53 | "\n", 54 | " start = str(pd.to_datetime(date)-timedelta(pass_day*2))\n", 55 | " start = start[0:4]+start[5:7]+start[8:10]\n", 56 | " end = str(pd.to_datetime(date)+timedelta(future_day*2))\n", 57 | " end = end[0:4]+end[5:7]+end[8:10]\n", 58 | " df_price = pro.daily(ts_code=code, # OHLC,pct_change,volume\n", 59 | " start_date=start, end_date=date)\n", 60 | " df_basic = pro.daily_basic(ts_code=code,\n", 61 | " start_date=start, end_date=date)\n", 62 | " df_return = pro.daily(ts_code=code,\n", 63 | " start_date=date, end_date=end).iloc[::-1]['close']\n", 64 | " if (df_price.shape[0] == df_basic.shape[0]) & (df_price.shape[0] == len1) & (df_return.shape[0] == len2): # 判断数据的完整性\n", 65 | " df_price = df_price.iloc[0:pass_day, [2, 3, 4, 5, 8, 9]].fillna(0.1)\n", 66 | " df_basic = df_basic.iloc[0:pass_day, [3, 4, 5]].fillna(0.1)\n", 67 | " data = np.array(pd.merge(df_price, df_basic,\n", 68 | " left_index=True, right_index=True).iloc[::-1].T)\n", 69 | " # print(data.shape)\n", 70 | " # 未来十个交易日的收益率\n", 71 | " dfr = df_return.iloc[0:future_day]\n", 72 | " ret = dfr.iloc[-1]/dfr.iloc[0]-1 # 后十个交易日的收益率\n", 73 | " return data, ret\n", 74 | " else:\n", 75 | " return None, None # 数据缺失的预处理\n", 76 | "\n", 77 | "\n", 78 | "def get_length(date: str, pass_day: int, future_day: int):\n", 79 | " start = str(pd.to_datetime(date)-timedelta(pass_day*2))\n", 80 | " start = start[0:4]+start[5:7]+start[8:10]\n", 81 | " end = str(pd.to_datetime(date)+timedelta(future_day*2))\n", 82 | " end = end[0:4]+end[5:7]+end[8:10]\n", 83 | " len_1 = pro.index_daily(ts_code='399300.SZ',\n", 84 | " start_date=start, end_date=date).shape[0]\n", 85 | " len_2 = pro.index_daily(ts_code='399300.SZ',\n", 86 | " start_date=date, end_date=end).shape[0]\n", 87 | " return len_1, len_2\n", 88 | "\n", 89 | "# 构造数据集的函数:输入一个时间区间的端点,得到该区间内采样交易日期的所有数据\n", 90 | "\n", 91 | "\n", 92 | "def get_dataset(num: int, start: str, end: str, interval: int, pass_day: int, future_day: int):\n", 93 | " X_train = []\n", 94 | " y_train = []\n", 95 | " trade_date_list = get_datelist(start, end, interval)\n", 96 | " # 添加进度条\n", 97 | " with Progress() as progress:\n", 98 | " task_date = progress.add_task(\n", 99 | " \"[red]Date...\", total=len(trade_date_list))\n", 100 | " for date in trade_date_list:\n", 101 | " # 更新进度条\n", 102 | " progress.update(task_date, advance=1)\n", 103 | " stock_list = get_stocklist(date, num)\n", 104 | " len1, len2 = get_length(date, pass_day, future_day)\n", 105 | " task_stock = progress.add_task(\n", 106 | " \"[green]Stock...\", total=len(range(len(stock_list))))\n", 107 | " for i in range(len(stock_list)):\n", 108 | " # 更新进度条\n", 109 | " progress.update(task_stock, advance=1)\n", 110 | " code = stock_list[i]\n", 111 | " x, y = get_x_y(code, date, pass_day, future_day, len1, len2)\n", 112 | " try:\n", 113 | " if (x.shape[0] == 9) & (x.shape[1] == pass_day):\n", 114 | " X_train.append(x)\n", 115 | " y_train.append(y)\n", 116 | " except Exception:\n", 117 | " continue\n", 118 | " return X_train, y_train" 119 | ] 120 | }, 121 | { 122 | "cell_type": "code", 123 | "execution_count": null, 124 | "metadata": {}, 125 | "outputs": [], 126 | "source": [ 127 | "# 参数设定:使用过去30天的数据预测未来10天的收益率,回归问题\n", 128 | "X_train, y_train = get_dataset(\n", 129 | " num=1000, start='20220101', end='20220630', interval=10, pass_day=30, future_day=10)\n", 130 | "X_test, y_test = get_dataset(num=1000, start='20220931',\n", 131 | " end='20221231', interval=10, pass_day=30, future_day=10)\n", 132 | "print(\"there are in total\", len(X_train), \"training samples\")\n", 133 | "print(\"there are in total\", len(X_test), \"testing samples\")\n", 134 | "# 将数据保存到本地供离线训练\n", 135 | "Xa = np.array(X_train)\n", 136 | "ya = np.array(y_train)\n", 137 | "Xe = np.array(X_test)\n", 138 | "ye = np.array(y_test)\n", 139 | "np.save('./X_train.npy', Xa)\n", 140 | "np.save('./y_train.npy', ya)\n", 141 | "np.save('./X_test.npy', Xe)\n", 142 | "np.save('./y_test.npy', ye)\n" 143 | ] 144 | } 145 | ], 146 | "metadata": { 147 | "kernelspec": { 148 | "display_name": "Python 3.8.0 64-bit", 149 | "language": "python", 150 | "name": "python3" 151 | }, 152 | "language_info": { 153 | "codemirror_mode": { 154 | "name": "ipython", 155 | "version": 3 156 | }, 157 | "file_extension": ".py", 158 | "mimetype": "text/x-python", 159 | "name": "python", 160 | "nbconvert_exporter": "python", 161 | "pygments_lexer": "ipython3", 162 | "version": "3.8.0" 163 | }, 164 | "orig_nbformat": 4, 165 | "vscode": { 166 | "interpreter": { 167 | "hash": "767d51c1340bd893661ea55ea3124f6de3c7a262a8b4abca0554b478b1e2ff90" 168 | } 169 | } 170 | }, 171 | "nbformat": 4, 172 | "nbformat_minor": 2 173 | } 174 | -------------------------------------------------------------------------------- /data/get_data.py: -------------------------------------------------------------------------------- 1 | from rich.progress import Progress 2 | from datetime import timedelta 3 | import pandas as pd 4 | import numpy as np 5 | import tushare as ts 6 | pro = ts.pro_api() 7 | 8 | 9 | # 给定一个交易日,返回该日满足条件的A股股票列表 10 | def get_stocklist(date: str, num: int): 11 | 12 | start = str(pd.to_datetime(date)-timedelta(30)) 13 | start = start[0:4]+start[5:7]+start[8:10] 14 | df1 = pro.index_weight(index_code='000002.SH', 15 | start_date=start, end_date=date) # 交易日当天的股票列表 16 | codes = list(df1['con_code']) 17 | codes = codes[0:1000] # 在每个截面期只选取1000只股票 18 | 19 | return codes 20 | 21 | # 给定日期区间的端点,输出期间的定长采样交易日列表 22 | 23 | 24 | def get_datelist(start: str, end: str, interval: int): 25 | 26 | df = pro.index_daily(ts_code='399300.SZ', start_date=start, end_date=end) 27 | date_list = list(df.iloc[::-1]['trade_date']) 28 | sample_list = [] 29 | for i in range(len(date_list)): 30 | if i % interval == 0: 31 | sample_list.append(date_list[i]) 32 | 33 | return sample_list 34 | 35 | # 返回两个,一个是前30个交易日的9个指标面板(9*30),一个是未来10天的收益率 36 | 37 | 38 | def get_x_y(code: str, date: str, pass_day: int, future_day: int, len1: int, len2: int): 39 | 40 | start = str(pd.to_datetime(date)-timedelta(pass_day*2)) 41 | start = start[0:4]+start[5:7]+start[8:10] 42 | end = str(pd.to_datetime(date)+timedelta(future_day*2)) 43 | end = end[0:4]+end[5:7]+end[8:10] 44 | df_price = pro.daily(ts_code=code, # OHLC,pct_change,volume 45 | start_date=start, end_date=date) 46 | df_basic = pro.daily_basic(ts_code=code, 47 | start_date=start, end_date=date) 48 | df_return = pro.daily(ts_code=code, 49 | start_date=date, end_date=end).iloc[::-1]['close'] 50 | if (df_price.shape[0] == df_basic.shape[0]) & (df_price.shape[0] == len1) & (df_return.shape[0] == len2): # 判断数据的完整性 51 | df_price = df_price.iloc[0:pass_day, [2, 3, 4, 5, 8, 9]].fillna(0.1) 52 | df_basic = df_basic.iloc[0:pass_day, [3, 4, 5]].fillna(0.1) 53 | data = np.array(pd.merge(df_price, df_basic, 54 | left_index=True, right_index=True).iloc[::-1].T) 55 | # print(data.shape) 56 | # 未来十个交易日的收益率 57 | dfr = df_return.iloc[0:future_day] 58 | ret = dfr.iloc[-1]/dfr.iloc[0]-1 # 后十个交易日的收益率 59 | return data, ret 60 | else: 61 | return None, None # 数据缺失的预处理 62 | 63 | 64 | def get_length(date: str, pass_day: int, future_day: int): 65 | start = str(pd.to_datetime(date)-timedelta(pass_day*2)) 66 | start = start[0:4]+start[5:7]+start[8:10] 67 | end = str(pd.to_datetime(date)+timedelta(future_day*2)) 68 | end = end[0:4]+end[5:7]+end[8:10] 69 | len_1 = pro.index_daily(ts_code='399300.SZ', 70 | start_date=start, end_date=date).shape[0] 71 | len_2 = pro.index_daily(ts_code='399300.SZ', 72 | start_date=date, end_date=end).shape[0] 73 | return len_1, len_2 74 | 75 | # 构造数据集的函数:输入一个时间区间的端点,得到该区间内采样交易日期的所有数据 76 | 77 | 78 | def get_dataset(num: int, start: str, end: str, interval: int, pass_day: int, future_day: int): 79 | X_train = [] 80 | y_train = [] 81 | trade_date_list = get_datelist(start, end, interval) 82 | # 添加进度条 83 | with Progress() as progress: 84 | task_date = progress.add_task( 85 | "[red]Date...", total=len(trade_date_list)) 86 | for date in trade_date_list: 87 | # 更新进度条 88 | progress.update(task_date, advance=1) 89 | stock_list = get_stocklist(date, num) 90 | len1, len2 = get_length(date, pass_day, future_day) 91 | task_stock = progress.add_task( 92 | "[green]Stock...", total=len(range(len(stock_list)))) 93 | for i in range(len(stock_list)): 94 | # 更新进度条 95 | progress.update(task_stock, advance=1) 96 | code = stock_list[i] 97 | x, y = get_x_y(code, date, pass_day, future_day, len1, len2) 98 | try: 99 | if (x.shape[0] == 9) & (x.shape[1] == pass_day): 100 | X_train.append(x) 101 | y_train.append(y) 102 | except Exception: 103 | continue 104 | return X_train, y_train 105 | 106 | 107 | # 参数设定:使用过去30天的数据预测未来10天的收益率,回归问题 108 | X_train, y_train = get_dataset( 109 | num=1000, start='20220101', end='20220630', interval=10, pass_day=30, future_day=10) 110 | X_test, y_test = get_dataset(num=1000, start='20220931', 111 | end='20221231', interval=10, pass_day=30, future_day=10) 112 | print("there are in total", len(X_train), "training samples") 113 | print("there are in total", len(X_test), "testing samples") 114 | # 将数据保存到本地供离线训练 115 | Xa = np.array(X_train) 116 | ya = np.array(y_train) 117 | Xe = np.array(X_test) 118 | ye = np.array(y_test) 119 | np.save('./X_train.npy', Xa) 120 | np.save('./y_train.npy', ya) 121 | np.save('./X_test.npy', Xe) 122 | np.save('./y_test.npy', ye) 123 | -------------------------------------------------------------------------------- /data/y_test.npy: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/data/y_test.npy -------------------------------------------------------------------------------- /data/y_train.npy: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/data/y_train.npy -------------------------------------------------------------------------------- /model/alphanet_v1_pool.pth: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/model/alphanet_v1_pool.pth -------------------------------------------------------------------------------- /model/alphanet_v3_gru.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/model/alphanet_v3_gru.pdf -------------------------------------------------------------------------------- /model/alphanet_v3_gru.pth: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/model/alphanet_v3_gru.pth -------------------------------------------------------------------------------- /model/alphanet_v3_gru_classification.pth: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/model/alphanet_v3_gru_classification.pth -------------------------------------------------------------------------------- /model/alphanet_v3_gru_classification_excess_return.pth: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/jeremy-feng/AlphaNet/40df993a1e57a7b65336b23bc0a15602d38131f6/model/alphanet_v3_gru_classification_excess_return.pth -------------------------------------------------------------------------------- /model/baseline_random_forest.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "code", 5 | "execution_count": 56, 6 | "metadata": {}, 7 | "outputs": [], 8 | "source": [ 9 | "import warnings\n", 10 | "warnings.filterwarnings('ignore')\n", 11 | "import numpy as np\n", 12 | "from matplotlib import pyplot as plt\n", 13 | "# 导入数据处理和绘图的包\n", 14 | "import pandas as pd\n", 15 | "import matplotlib.pyplot as plt\n", 16 | "# 随机森林相关的包\n", 17 | "from sklearn import preprocessing\n", 18 | "from sklearn.ensemble import RandomForestClassifier\n", 19 | "from sklearn import metrics\n", 20 | "from tqdm import tqdm\n", 21 | "import itertools" 22 | ] 23 | }, 24 | { 25 | "cell_type": "code", 26 | "execution_count": 46, 27 | "metadata": {}, 28 | "outputs": [ 29 | { 30 | "name": "stdout", 31 | "output_type": "stream", 32 | "text": [ 33 | "训练集特征维数: (11825, 270)\n", 34 | "训练集标签维数: (11825,)\n", 35 | "测试集特征维数: (4943, 270)\n", 36 | "测试集标签维数: (4943,)\n" 37 | ] 38 | } 39 | ], 40 | "source": [ 41 | "# 读取数据\n", 42 | "X_train = np.load('../data/X_train.npy')\n", 43 | "# # 将数据转换为二维\n", 44 | "X_train = X_train.reshape(X_train.shape[0], -1)\n", 45 | "y_train = np.load('../data/y_train.npy')\n", 46 | "X_test = np.load('../data/X_test.npy')\n", 47 | "# 将数据转换为二维\n", 48 | "X_test = X_test.reshape(X_test.shape[0], -1)\n", 49 | "y_test = np.load('../data/y_test.npy')\n", 50 | "# 查看数据的大小\n", 51 | "print(\"训练集特征维数: \", X_train.shape)\n", 52 | "print(\"训练集标签维数: \", y_train.shape)\n", 53 | "print(\"测试集特征维数: \", X_test.shape)\n", 54 | "print(\"测试集标签维数: \", y_test.shape)\n", 55 | "\n", 56 | "# 由于是超额收益的分类问题, 因此将y大于y_train.mean()的标签设置为1,小于y_train.mean()的标签设置为0\n", 57 | "train_mean_y = y_train.mean()\n", 58 | "y_train[y_train > train_mean_y] = 1\n", 59 | "y_train[y_train < train_mean_y] = 0\n", 60 | "test_mean_y = y_test.mean()\n", 61 | "y_test[y_test > test_mean_y] = 1\n", 62 | "y_test[y_test < test_mean_y] = 0" 63 | ] 64 | }, 65 | { 66 | "cell_type": "code", 67 | "execution_count": 47, 68 | "metadata": {}, 69 | "outputs": [], 70 | "source": [ 71 | "# 构建随机森林模型\n", 72 | "clf = RandomForestClassifier(random_state=0, n_jobs=-1)\n", 73 | "clf.fit(X_train, y_train)\n", 74 | "# 在测试集上预测\n", 75 | "y_pred = clf.predict(X_test)\n", 76 | "y_pred_proba = clf.predict_proba(X_test)[:,1]" 77 | ] 78 | }, 79 | { 80 | "cell_type": "code", 81 | "execution_count": 48, 82 | "metadata": {}, 83 | "outputs": [], 84 | "source": [ 85 | "# 在测试集上给出模型分类的效果\n", 86 | "def evaluate(true, pred):\n", 87 | " print('accuracy:{:.2%}'.format(metrics.accuracy_score(true, pred)))\n", 88 | " print('precision:{:.2%}'.format(metrics.precision_score(true, pred)))\n", 89 | " print('recall:{:.2%}'.format(metrics.recall_score(true, pred)))\n", 90 | " print('f1-score:{:.2%}'.format(metrics.f1_score(true, pred)))" 91 | ] 92 | }, 93 | { 94 | "cell_type": "code", 95 | "execution_count": 49, 96 | "metadata": {}, 97 | "outputs": [ 98 | { 99 | "name": "stdout", 100 | "output_type": "stream", 101 | "text": [ 102 | "accuracy:53.17%\n", 103 | "precision:41.54%\n", 104 | "recall:24.88%\n", 105 | "f1-score:31.12%\n" 106 | ] 107 | } 108 | ], 109 | "source": [ 110 | "evaluate(y_test, y_pred)" 111 | ] 112 | }, 113 | { 114 | "cell_type": "markdown", 115 | "metadata": {}, 116 | "source": [ 117 | "为270个特征设定名字" 118 | ] 119 | }, 120 | { 121 | "cell_type": "code", 122 | "execution_count": 50, 123 | "metadata": {}, 124 | "outputs": [], 125 | "source": [ 126 | "# 为270个特征设定名字\n", 127 | "feature_names = ['open', 'high', 'low', 'close', 'vwap', 'volume', 'return1', 'turn', 'free_turn']\n", 128 | "time = range(29, -1, -1)\n", 129 | "all_feature_names = []\n", 130 | "for i in feature_names:\n", 131 | " for j in time:\n", 132 | " all_feature_names.append(i + '_' + str(j))" 133 | ] 134 | }, 135 | { 136 | "cell_type": "code", 137 | "execution_count": 51, 138 | "metadata": {}, 139 | "outputs": [], 140 | "source": [ 141 | "feat_importances = pd.Series(clf.feature_importances_, index=all_feature_names)" 142 | ] 143 | }, 144 | { 145 | "cell_type": "code", 146 | "execution_count": 52, 147 | "metadata": {}, 148 | "outputs": [ 149 | { 150 | "data": { 151 | "image/png": "", 152 | "text/plain": [ 153 | "
" 154 | ] 155 | }, 156 | "metadata": { 157 | "needs_background": "light" 158 | }, 159 | "output_type": "display_data" 160 | } 161 | ], 162 | "source": [ 163 | "# 将特征重要性排序后绘图\n", 164 | "ax = feat_importances.sort_values()[250:].plot(kind='barh', figsize=(12, 6))\n", 165 | "# 设置横坐标格式\n", 166 | "ax.xaxis.set_major_formatter(plt.FuncFormatter(lambda x, pos: \"{:.2%}\".format(x)))\n", 167 | "# 设置标题\n", 168 | "ax.set_title('Importance of Features')\n", 169 | "# 如果不需要显示特征重要性的大小数值,可以使用下面2行代码\n", 170 | "# for container in ax.containers:\n", 171 | "# ax.bar_label(container)\n", 172 | "# 如果需要显示特征重要性的大小数值,可以使用下面的代码\n", 173 | "x_offset = 0\n", 174 | "y_offset = 0\n", 175 | "for p in ax.patches:\n", 176 | " b = p.get_bbox()\n", 177 | " val = \"{:.2%}\".format(b.x1)\n", 178 | " ax.annotate(val, (b.x1 + 0.0002, b.y1 - 0.4))" 179 | ] 180 | }, 181 | { 182 | "cell_type": "code", 183 | "execution_count": 53, 184 | "metadata": {}, 185 | "outputs": [ 186 | { 187 | "data": { 188 | "image/png": "", 189 | "text/plain": [ 190 | "
" 191 | ] 192 | }, 193 | "metadata": { 194 | "needs_background": "light" 195 | }, 196 | "output_type": "display_data" 197 | } 198 | ], 199 | "source": [ 200 | "# 绘制ROC曲线\n", 201 | "fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pred_proba)\n", 202 | "plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve')\n", 203 | "plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')\n", 204 | "plt.xlabel('False Positive Rate')\n", 205 | "plt.ylabel('True Positive Rate')\n", 206 | "plt.title('ROC Curve')\n", 207 | "plt.legend(loc=\"lower right\")\n", 208 | "plt.show()" 209 | ] 210 | }, 211 | { 212 | "cell_type": "code", 213 | "execution_count": 63, 214 | "metadata": {}, 215 | "outputs": [], 216 | "source": [ 217 | "# 绘制混淆矩阵\n", 218 | "y_pred = np.where(y_pred > 0.5, 1, 0)\n", 219 | "# 只截取最后943个样本的预测结果\n", 220 | "y_pred = y_pred[-943:]\n", 221 | "y_test = y_test[-943:]\n", 222 | "cm = metrics.confusion_matrix(y_test, y_pred)" 223 | ] 224 | }, 225 | { 226 | "cell_type": "code", 227 | "execution_count": 64, 228 | "metadata": {}, 229 | "outputs": [ 230 | { 231 | "data": { 232 | "text/plain": [ 233 | "array([[655, 181],\n", 234 | " [ 89, 18]])" 235 | ] 236 | }, 237 | "execution_count": 64, 238 | "metadata": {}, 239 | "output_type": "execute_result" 240 | } 241 | ], 242 | "source": [ 243 | "cm" 244 | ] 245 | }, 246 | { 247 | "cell_type": "code", 248 | "execution_count": 65, 249 | "metadata": {}, 250 | "outputs": [ 251 | { 252 | "data": { 253 | "image/png": "", 254 | "text/plain": [ 255 | "
" 256 | ] 257 | }, 258 | "metadata": { 259 | "needs_background": "light" 260 | }, 261 | "output_type": "display_data" 262 | } 263 | ], 264 | "source": [ 265 | "import seaborn as sn\n", 266 | "plt.figure(figsize = (10,8))\n", 267 | "sn.heatmap(cm, annot=True, cmap='Blues', fmt='d')\n", 268 | "plt.xlabel('y_pred')\n", 269 | "plt.ylabel('y_true')\n", 270 | "plt.show()" 271 | ] 272 | } 273 | ], 274 | "metadata": { 275 | "kernelspec": { 276 | "display_name": "Python 3.8.0 64-bit", 277 | "language": "python", 278 | "name": "python3" 279 | }, 280 | "language_info": { 281 | "codemirror_mode": { 282 | "name": "ipython", 283 | "version": 3 284 | }, 285 | "file_extension": ".py", 286 | "mimetype": "text/x-python", 287 | "name": "python", 288 | "nbconvert_exporter": "python", 289 | "pygments_lexer": "ipython3", 290 | "version": "3.8.0" 291 | }, 292 | "orig_nbformat": 4, 293 | "vscode": { 294 | "interpreter": { 295 | "hash": "767d51c1340bd893661ea55ea3124f6de3c7a262a8b4abca0554b478b1e2ff90" 296 | } 297 | } 298 | }, 299 | "nbformat": 4, 300 | "nbformat_minor": 2 301 | } 302 | --------------------------------------------------------------------------------