├── README.md ├── char_rnn_model.py ├── config_poem.py ├── data └── poem │ ├── poem_ids.txt │ ├── poems_edge_split.txt │ ├── rhyme_words.txt │ └── vectors_poem.bin ├── data_loader.py ├── doc ├── client.png └── train.png ├── poem_server.py ├── rhyme_helper.py ├── train.py ├── word2vec_helper.py └── write_poem.py /README.md: -------------------------------------------------------------------------------- 1 | # poet 2 | 我是“小诗姬”，全唐诗作为训练数据。可以写押韵自由诗、藏头诗、给定若干字作为主题的诗。 3 |

4 | 环境要求： 5 | --- 6 | python:3.x
7 | tensorflow 1.x 8 | 9 |

10 | 运行
11 | --- 12 | 运行训练：python train.py
13 | --- 14 | ![image](https://github.com/norybaby/poet/blob/master/doc/train.png) 15 | 16 |

17 | 18 | 19 | 运行写诗服务: python poem_server
20 | --- 21 | 此步需要先运行训练产生好模型后。 22 | 23 | 客户端用浏览器访问，效果参照：
24 | --- 25 | ![image](https://github.com/norybaby/poet/blob/master/doc/client.png) 26 | 27 |

28 | 29 | 30 | 如有问题欢迎讨论 xiuyunchen@126.com 31 | 32 | -------------------------------------------------------------------------------- /char_rnn_model.py: -------------------------------------------------------------------------------- 1 | import logging 2 | import time 3 | from enum import Enum 4 | import heapq 5 | import numpy as np 6 | import tensorflow as tf 7 | from rhyme_helper import RhymeWords 8 | 9 | logging.getLogger('tensorflow').setLevel(logging.WARNING) 10 | SampleType = Enum('SampleType',('max_prob', 'weighted_sample', 'rhyme','select_given')) 11 | 12 | class CharRNNLM(object): 13 | def __init__(self, is_training, batch_size, num_unrollings, vocab_size,w2v_model, 14 | hidden_size, max_grad_norm, embedding_size, num_layers, 15 | learning_rate, cell_type, dropout=0.0, input_dropout=0.0, infer=False): 16 | self.batch_size = batch_size 17 | self.num_unrollings = num_unrollings 18 | if infer: 19 | self.batch_size = 1 20 | self.num_unrollings = 1 21 | self.hidden_size = hidden_size 22 | self.vocab_size = vocab_size 23 | self.max_grad_norm = max_grad_norm 24 | self.num_layers = num_layers 25 | self.embedding_size = embedding_size 26 | self.cell_type = cell_type 27 | self.dropout = dropout 28 | self.input_dropout = input_dropout 29 | self.w2v_model = w2v_model 30 | 31 | if embedding_size <= 0: 32 | self.input_size = vocab_size 33 | self.input_dropout = 0.0 34 | else: 35 | self.input_size = embedding_size 36 | 37 | self.input_data = tf.placeholder(tf.int64, [self.batch_size, self.num_unrollings], name='inputs') 38 | self.targets = tf.placeholder(tf.int64, [self.batch_size, self.num_unrollings], name='targets') 39 | 40 | if self.cell_type == 'rnn': 41 | cell_fn = tf.nn.rnn_cell.BasicRNNCell 42 | elif self.cell_type == 'lstm': 43 | cell_fn = tf.nn.rnn_cell.BasicLSTMCell 44 | elif self.cell_type == 'gru': 45 | cell_fn = tf.nn.rnn_cell.GRUCell 46 | 47 | params = dict() 48 | #params = {'input_size': self.input_size} 49 | if self.cell_type == 'lstm': 50 | params['forget_bias'] = 1.0 # 1.0 is default value 51 | cell = cell_fn(self.hidden_size, **params) 52 | 53 | cells = [cell] 54 | #params['input_size'] = self.hidden_size 55 | for i in range(self.num_layers-1): 56 | higher_layer_cell = cell_fn(self.hidden_size, **params) 57 | cells.append(higher_layer_cell) 58 | 59 | if is_training and self.dropout > 0: 60 | cells = [tf.nn.rnn_cell.DropoutWrapper(cell, output_keep_prob=1.0-self.dropout) for cell in cells] 61 | 62 | multi_cell = tf.nn.rnn_cell.MultiRNNCell(cells) 63 | 64 | with tf.name_scope('initial_state'): 65 | self.zero_state = multi_cell.zero_state(self.batch_size, tf.float32) 66 | if self.cell_type == 'rnn' or self.cell_type == 'gru': 67 | self.initial_state = tuple( 68 | [tf.placeholder(tf.float32, 69 | [self.batch_size, multi_cell.state_size[idx]], 70 | 'initial_state_'+str(idx+1)) for idx in range(self.num_layers)]) 71 | elif self.cell_type == 'lstm': 72 | self.initial_state = tuple( 73 | [tf.nn.rnn_cell.LSTMStateTuple( 74 | tf.placeholder(tf.float32, [self.batch_size, multi_cell.state_size[idx][0]], 75 | 'initial_lstm_state_'+str(idx+1)), 76 | tf.placeholder(tf.float32, [self.batch_size, multi_cell.state_size[idx][1]], 77 | 'initial_lstm_state_'+str(idx+1))) 78 | for idx in range(self.num_layers)]) 79 | 80 | with tf.name_scope('embedding_layer'): 81 | if embedding_size > 0: 82 | # self.embedding = tf.get_variable('embedding', [self.vocab_size, self.embedding_size]) 83 | self.embedding = tf.get_variable("word_embeddings", 84 | initializer=self.w2v_model.vectors.astype(np.float32)) 85 | 86 | else: 87 | self.embedding = tf.constant(np.eye(self.vocab_size), dtype=tf.float32) 88 | 89 | inputs = tf.nn.embedding_lookup(self.embedding, self.input_data) 90 | if is_training and self.input_dropout > 0: 91 | inputs = tf.nn.dropout(inputs, 1-self.input_dropout) 92 | 93 | with tf.name_scope('slice_inputs'): 94 | # num_unrollings * (batch_size, embedding_size), the format of rnn inputs. 95 | sliced_inputs = [tf.squeeze(input_, [1]) for input_ in tf.split( 96 | axis = 1, num_or_size_splits = self.num_unrollings, value = inputs)] 97 | 98 | # sliced_inputs: list of shape xx 99 | # inputs: A length T list of inputs, each a Tensor of shape [batch_size, input_size] 100 | # initial_state: An initial state for the RNN. 101 | # If cell.state_size is an integer, this must be a Tensor of appropriate 102 | # type and shape [batch_size, cell.state_size] 103 | # outputs: a length T list of outputs (one for each input), or a nested tuple of such elements. 104 | # state: the final state 105 | outputs, final_state = tf.nn.static_rnn( 106 | cell = multi_cell, 107 | inputs = sliced_inputs, 108 | initial_state=self.initial_state) 109 | self.final_state = final_state 110 | 111 | with tf.name_scope('flatten_outputs'): 112 | flat_outputs = tf.reshape(tf.concat(axis = 1, values = outputs), [-1, hidden_size]) 113 | 114 | with tf.name_scope('flatten_targets'): 115 | flat_targets = tf.reshape(tf.concat(axis = 1, values = self.targets), [-1]) 116 | 117 | with tf.variable_scope('softmax') as sm_vs: 118 | softmax_w = tf.get_variable('softmax_w', [hidden_size, vocab_size]) 119 | softmax_b = tf.get_variable('softmax_b', [vocab_size]) 120 | self.logits = tf.matmul(flat_outputs, softmax_w) + softmax_b 121 | self.probs = tf.nn.softmax(self.logits) 122 | 123 | with tf.name_scope('loss'): 124 | loss = tf.nn.sparse_softmax_cross_entropy_with_logits( 125 | logits = self.logits, labels = flat_targets) 126 | self.mean_loss = tf.reduce_mean(loss) 127 | 128 | with tf.name_scope('loss_montor'): 129 | count = tf.Variable(1.0, name='count') 130 | sum_mean_loss = tf.Variable(1.0, name='sum_mean_loss') 131 | 132 | self.reset_loss_monitor = tf.group(sum_mean_loss.assign(0.0), 133 | count.assign(0.0), name='reset_loss_monitor') 134 | self.update_loss_monitor = tf.group(sum_mean_loss.assign(sum_mean_loss+self.mean_loss), 135 | count.assign(count+1), name='update_loss_monitor') 136 | 137 | with tf.control_dependencies([self.update_loss_monitor]): 138 | self.average_loss = sum_mean_loss / count 139 | self.ppl = tf.exp(self.average_loss) 140 | 141 | average_loss_summary = tf.summary.scalar( 142 | name = 'average loss', tensor = self.average_loss) 143 | ppl_summary = tf.summary.scalar( 144 | name = 'perplexity', tensor = self.ppl) 145 | 146 | self.summaries = tf.summary.merge( 147 | inputs = [average_loss_summary, ppl_summary], name='loss_monitor') 148 | 149 | self.global_step = tf.get_variable('global_step', [], initializer=tf.constant_initializer(0.0)) 150 | 151 | # self.learning_rate = tf.constant(learning_rate) 152 | self.learning_rate = tf.placeholder(tf.float32, [], name='learning_rate') 153 | 154 | if is_training: 155 | tvars = tf.trainable_variables() 156 | grads, _ = tf.clip_by_global_norm(tf.gradients(self.mean_loss, tvars), self.max_grad_norm) 157 | optimizer = tf.train.AdamOptimizer(self.learning_rate) 158 | self.train_op = optimizer.apply_gradients(zip(grads, tvars), global_step=self.global_step) 159 | 160 | 161 | def run_epoch(self, session, batch_generator, is_training, learning_rate, verbose=0, freq=10): 162 | epoch_size = batch_generator.num_batches 163 | 164 | if verbose > 0: 165 | logging.info('epoch_size: %d', epoch_size) 166 | logging.info('data_size: %d', batch_generator.seq_length) 167 | logging.info('num_unrollings: %d', self.num_unrollings) 168 | logging.info('batch_size: %d', self.batch_size) 169 | 170 | if is_training: 171 | extra_op = self.train_op 172 | else: 173 | extra_op = tf.no_op() 174 | 175 | 176 | if self.cell_type in ['rnn', 'gru']: 177 | state = self.zero_state.eval() 178 | else: 179 | state = tuple([(np.zeros((self.batch_size, self.hidden_size)), 180 | np.zeros((self.batch_size, self.hidden_size))) 181 | for _ in range(self.num_layers)]) 182 | 183 | self.reset_loss_monitor.run() 184 | batch_generator.reset_batch_pointer() 185 | start_time = time.time() 186 | ppl_cumsum = 0 187 | for step in range(epoch_size): 188 | x, y = batch_generator.next_batch() 189 | 190 | ops = [self.average_loss, self.ppl, self.final_state, extra_op, 191 | self.summaries, self.global_step] 192 | 193 | feed_dict = {self.input_data: x, self.targets: y, self.initial_state: state, 194 | self.learning_rate: learning_rate} 195 | 196 | results = session.run(ops, feed_dict) 197 | average_loss, ppl, final_state, _, summary_str, global_step = results 198 | ppl_cumsum += ppl 199 | 200 | # if (verbose > 0) and ((step+1) % freq == 0): 201 | if ((step+1) % freq == 0): 202 | logging.info('%.1f%%, step:%d, perplexity: %.3f, speed: %.0f words', 203 | (step + 1) * 1.0 / epoch_size * 100, step, ppl_cumsum/(step+1), 204 | (step + 1) * self.batch_size * self.num_unrollings / (time.time() - start_time)) 205 | logging.info("Perplexity: %.3f, speed: %.0f words per sec", 206 | ppl, (step + 1) * self.batch_size * self.num_unrollings / (time.time() - start_time)) 207 | 208 | return ppl, summary_str, global_step 209 | 210 | def sample_seq(self, session, length, start_text, sample_type= SampleType.max_prob,given='',rhyme_ref='',rhyme_idx = 0): 211 | #state = self.zero_state.eval() 212 | if self.cell_type in ['rnn', 'gru']: 213 | state = self.zero_state.eval() 214 | else: 215 | state = tuple([(np.zeros((self.batch_size, self.hidden_size)), 216 | np.zeros((self.batch_size, self.hidden_size))) 217 | for _ in range(self.num_layers)]) 218 | 219 | # use start_text to warm up the RNN. 220 | start_text = self.check_start(start_text) 221 | if start_text is not None and len(start_text) > 0: 222 | seq = list(start_text) 223 | for char in start_text[:-1]: 224 | x = np.array([[self.w2v_model.vocab_hash[char]]]) 225 | state = session.run(self.final_state, {self.input_data: x, self.initial_state: state}) 226 | x = np.array([[self.w2v_model.vocab_hash[start_text[-1]]]]) 227 | else: 228 | x = np.array([[np.random.randint(0, self.vocab_size)]]) 229 | seq = [] 230 | 231 | for i in range(length): 232 | state, logits = session.run([self.final_state, self.logits], 233 | {self.input_data: x, self.initial_state: state}) 234 | unnormalized_probs = np.exp(logits[0] - np.max(logits[0])) 235 | probs = unnormalized_probs / np.sum(unnormalized_probs) 236 | 237 | if rhyme_ref and i == rhyme_idx : 238 | sample = self.select_rhyme(rhyme_ref,probs) 239 | elif sample_type == SampleType.max_prob: 240 | sample = np.argmax(probs) 241 | elif sample_type == SampleType.select_given: 242 | sample,given = self.select_by_given(given,probs) 243 | else: #SampleType.weighted_sample 244 | sample = np.random.choice(self.vocab_size, 1, p=probs)[0] 245 | 246 | seq.append(self.w2v_model.vocab[sample]) 247 | x = np.array([[sample]]) 248 | 249 | return ''.join(seq) 250 | 251 | def select_by_given(self,given,probs,max_prob = False): 252 | if given: 253 | seq_probs = zip(probs,range(0,self.vocab_size)) 254 | topn = heapq.nlargest(100,seq_probs,key=lambda sp :sp[0]) 255 | 256 | for _,seq in topn: 257 | if self.w2v_model.vocab[seq] in given: 258 | given = given.replace(self.w2v_model.vocab[seq],'') 259 | return seq,given 260 | if max_prob: 261 | return np.argmax(probs),given 262 | 263 | return np.random.choice(self.vocab_size, 1, p=probs)[0],given 264 | 265 | 266 | def select_rhyme(self,rhyme_ref,probs): 267 | if rhyme_ref: 268 | rhyme_set = RhymeWords.get_rhyme_words(rhyme_ref) 269 | if rhyme_set: 270 | seq_probs = zip(probs,range(0,self.vocab_size)) 271 | topn = heapq.nlargest(50,seq_probs,key=lambda sp :sp[0]) 272 | 273 | for _,seq in topn: 274 | if self.w2v_model.vocab[seq] in rhyme_set: 275 | return seq 276 | 277 | return np.argmax(probs) 278 | 279 | def check_start(self,text): 280 | idx = text.find('<') 281 | if idx > -1: 282 | text = text[:idx] 283 | 284 | valid_text = [] 285 | for w in text: 286 | if w in self.w2v_model.vocab: 287 | valid_text.append(w) 288 | return ''.join(valid_text) 289 | -------------------------------------------------------------------------------- /config_poem.py: -------------------------------------------------------------------------------- 1 | import argparse 2 | import numpy as np 3 | 4 | def config_poem_train(args=''): 5 | parser = argparse.ArgumentParser() 6 | 7 | # Data and vocabulary file 8 | # parser.add_argument('--data_file', type=str, 9 | # default='../data/poem/poems_space.txt', 10 | # help='data file') 11 | 12 | parser.add_argument('--data_path', type=str, 13 | default='./data/poem/', 14 | help='data path') 15 | 16 | 17 | parser.add_argument('--encoding', type=str, 18 | default='utf-8', 19 | help='the encoding of the data file.') 20 | 21 | # Parameters for saving models. 22 | parser.add_argument('--output_dir', type=str, default='output_model', 23 | help=('directory to store final and' 24 | ' intermediate results and models.')) 25 | # Parameters for using saved best models. 26 | parser.add_argument('--init_dir', type=str, default='', 27 | help='continue from the outputs in the given directory') 28 | 29 | # Parameters to configure the neural network. 30 | parser.add_argument('--hidden_size', type=int, default=128,#128, 31 | help='size of RNN hidden state vector') 32 | parser.add_argument('--embedding_size', type=int, default=128,#0, 33 | help='size of character embeddings, 0 for one-hot') 34 | parser.add_argument('--num_layers', type=int, default=2, 35 | help='number of layers in the RNN') 36 | parser.add_argument('--num_unrollings', type=int, default=64,#10, 37 | help='number of unrolling steps.') 38 | parser.add_argument('--cell_type', type=str, default='lstm', 39 | help='which model to use (rnn, lstm or gru).') 40 | 41 | # Parameters to control the training. 42 | parser.add_argument('--num_epochs', type=int, default=5, 43 | help='number of epochs') 44 | parser.add_argument('--batch_size', type=int, default=16, 45 | help='minibatch size') 46 | parser.add_argument('--train_frac', type=float, default=0.9, 47 | help='fraction of data used for training.') 48 | parser.add_argument('--valid_frac', type=float, default=0.05, 49 | help='fraction of data used for validation.') 50 | # test_frac is computed as (1 - train_frac - valid_frac). 51 | parser.add_argument('--dropout', type=float, default=0.0, 52 | help='dropout rate, default to 0 (no dropout).') 53 | 54 | parser.add_argument('--input_dropout', type=float, default=0.0, 55 | help=('dropout rate on input layer, default to 0 (no dropout),' 56 | 'and no dropout if using one-hot representation.')) 57 | 58 | # Parameters for gradient descent. 59 | parser.add_argument('--max_grad_norm', type=float, default=5., 60 | help='clip global grad norm') 61 | parser.add_argument('--learning_rate', type=float, default=5e-3, 62 | help='initial learning rate') 63 | 64 | # Parameters for logging. 65 | parser.add_argument('--progress_freq', type=int, default=100, 66 | help=('frequency for progress report in training and evalution.')) 67 | parser.add_argument('--verbose', type=int, default=0, 68 | help=('whether to show progress report in training and evalution.')) 69 | 70 | # Parameters to feed in the initial model and current best model. 71 | parser.add_argument('--init_model', type=str, 72 | default='', help=('initial model')) 73 | parser.add_argument('--best_model', type=str, 74 | default='', help=('current best model')) 75 | parser.add_argument('--best_valid_ppl', type=float, 76 | default=np.Inf, help=('current valid perplexity')) 77 | 78 | # # Parameters for using saved best models. 79 | # parser.add_argument('--model_dir', type=str, default='', 80 | # help='continue from the outputs in the given directory') 81 | 82 | # Parameters for debugging. 83 | parser.add_argument('--debug', dest='debug', action='store_true', 84 | help='show debug information') 85 | parser.set_defaults(debug=False) 86 | 87 | # Parameters for unittesting the implementation. 88 | parser.add_argument('--test', dest='test', action='store_true', 89 | help=('use the first 1000 character to as data to test the implementation')) 90 | parser.set_defaults(test=False) 91 | 92 | # input_args = '--data_path ./data/poem --output_dir output_poem --hidden_size 256 --embedding_size 128 --num_unrollings 128 --debug --encoding utf-8' 93 | args = parser.parse_args(args.split()) 94 | 95 | return args 96 | 97 | 98 | 99 | def config_sample(args=''): 100 | parser = argparse.ArgumentParser() 101 | 102 | # hyper-parameters for using saved best models. 103 | # 学习日志和结果相关的超参数 104 | logging_args = parser.add_argument_group('Logging_Options') 105 | logging_args.add_argument('--model_dir', type=str, 106 | default='demo_model/', 107 | help='continue from the outputs in the given directory') 108 | 109 | logging_args.add_argument('--data_dir', type=str, 110 | default='./data/poem', 111 | help='data file path') 112 | 113 | logging_args.add_argument('--best_model', type=str, 114 | default='', help=('current best model')) 115 | 116 | # hyper-parameters for sampling. 117 | # 设置sampling相关的超参数 118 | testing_args = parser.add_argument_group('Sampling Options') 119 | testing_args.add_argument('--max_prob', dest='max_prob', action='store_true', 120 | help='always pick the most probable next character in sampling') 121 | testing_args.set_defaults(max_prob=False) 122 | 123 | testing_args.add_argument('--start_text', type=str, 124 | default='The meaning of life is ', 125 | help='the text to start with') 126 | 127 | testing_args.add_argument('--length', type=int, 128 | default=100, 129 | help='length of sampled sequence') 130 | 131 | testing_args.add_argument('--seed', type=int, 132 | default=-1, 133 | help=('seed for sampling to replicate results, ' 134 | 'an integer between 0 and 4294967295.')) 135 | 136 | args = parser.parse_args(args.split()) 137 | 138 | return args -------------------------------------------------------------------------------- /data/poem/poem_ids.txt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/norybaby/poet/b0f7b5dd7a31109995b921ad5269323e0fe794f8/data/poem/poem_ids.txt -------------------------------------------------------------------------------- /data/poem/rhyme_words.txt: -------------------------------------------------------------------------------- 1 | 爸把八罢坝拔霸扒靶叭吧擦差茶插查叉察刹咤衩大达发法伐罚尬挂瓜刮寡呱哈花华化话画滑划猾家加价甲佳假夹颊驾嫁卡跨垮夸啦拉蜡辣妈吗嘛马砝码麻骂那霎那拿怕爬恰撒洒沙纱啥傻厦她踏塌塔榻哇娃下夏霞暇压雅哑崖涯杂砸眨炸吒爪抓佳玛瑕蚂咖垃 2 | 3 | 4 | 爱哀皑埃摆白百拜败才彩财采踩猜睬柴踹揣待带代袋呆该改怪乖海害孩怀坏徘徊开慨快块来赖赖莱买卖脉迈麦埋耐奶奈派牌排湃赛腮塞晒帅衰甩摔台太态泰外歪在载再灾栽仔债摘窄拽暧儿二耳饵而尔 5 | 6 | 安暗岸边变辨滨伴烂餐惨残惭璀璨缠颤馋掺忏潺传川穿船串喘单淡担胆诞耽蛋短段断端缎帆凡反饭翻返犯繁烦干感甘敢赶肝关管冠灌罐惯官观含汉寒喊汗函瀚旱憨酣欢唤还换幻患缓焕看坎侃砍堪槛款宽蓝栏懒澜揽泛滥兰婪橄榄乱峦卵满慢漫瞒男南难暖盼判盘攀畔叛然渲染燃软伞三散酸算山善闪扇删蹒跚衫拴滩叹谈坛坦探贪碳毯瘫团万玩完晚碗湾弯婉腕挽战占站展站盏湛绽转专煎点电殿垫甸巅间肩见件剑建健减尖坚箭渐剪舰贱捡煎俭艰拣茧连怜脸联链练恋炼莲廉帘面眠免绵棉勉年念粘篇片骗偏翩牵前钱千浅迁签欠倩谦潜遣歉虔纤阡天田甜填添舔先现仙线限鲜弦贤闲险献陷娴掀倦卷娟绢捐卷涓圈搀涟珊全权泉犬圈拳劝选轩玄喧宣旋炫悬眩绚漩言眼烟燕严盐严演艳炎宴雁验焰掩嫣厌衍淹原园圆源员远院愿缘苑怨渊冤援尴忐蝙颠乾店 7 | 8 | 昂帮绑藏沧苍茫唱长唱场畅怅创伤窗闯党荡挡方放芳港岗光广逛行航彷徨黄荒晃皇慌谎凰江降浆疆匠将康扛抗狂旷郎浪狼朗琅谅量梁亮良凉忙茫氓囊娘旁胖强墙枪抢腔让嚷壤伤上尚赏双爽霜糖棠唐汤塘趟烫躺淌网望往汪忘旺妄想向乡香翔巷祥响详样阳样扬养氧仰汪洋痒鸳鸯荡漾脏葬章掌涨账仗杖障胀装状壮妆桩恍滂 9 | 10 | 熬骄傲奥凹报宝包保堡爆抱暴薄饱豹曝标表草操槽超炒巢潮抄吵钞朝到道道岛刀盗倒稻捣蹈唠叨悼高搞告稿糕好号浩豪耗嚎毫叫教交脚靠烤拷老劳牢捞烙酪涝了聊料疗毛猫茂帽冒貌卯矛髦锚苗秒妙庙描瞄淼缈脑闹挠恼瑙孬鸟尿袅跑泡抛炮袍刨飘漂票嫖巧桥敲瞧侨翘俏窍撬悄峭跷锹绕饶扰饶扫嫂骚少烧稍绍勺梢哨捎艄套涛桃讨逃淘掏滔嚎啕跳条调挑眺迢窕小笑晓肖萧校效消孝销咆哮霄削宵要腰耀妖遥窑谣摇咬药肴耀吆幺早造遭枣灶燥皂糟藻凿噪澡跳蚤找照招着兆朝罩憔狡陶 11 | 12 | 层曾村寸存忖臣晨尘称辰沉趁秤成城称呈乘诚承橙澄撑骋惩春纯唇醇淳蠢等灯登蹬瞪凳吨顿盾炖敦墩蹲钝盹恩本奔笨嗯摁苯嫩恁恁能 13 | 14 | 林令灵另零临邻岭凌领龄铃陵淋拎琳顶定丁鼎订钉盯锭叮腚均军君俊菌峻金经近进仅今精景静尽京净井紧锦敬镜巾劲境晶津斤惊禁警径筋浸睛憬兢荆缤冰病滨鬓宾兵并饼柄丙濒玲伶淋 15 | 16 | 17 | 文问温闻纹稳吻蚊瘟紊门闷焖们汶冷肯垦恳啃坑吭坤困捆冷愣棱论轮昆仑抡分份粉纷奋粪焚愤氛跟根艮更耿耕庚羹埂滚棍很恨痕狠恒横哼衡混魂婚昏馄浑荤人仁任认忍韧刃饪润森僧孙损损孙神身深伸渗参生升声胜圣盛绳剩吞臀豚腾藤疼怎增赠憎尊遵镇真振针珍震阵帧贞枕诊疹斟正证政整争症征蒸挣铮怔筝睁诤准芬 18 | 19 | 名明民命敏鸣铭抿您宁凝拧咛喷盆品平评凭瓶萍屏拼坪聘贫频群请清青情轻庆琴亲晴勤卿倾禽侵寝擒引擎顷听厅亭停挺庭廷艇蜻蜓心新型性行信星兴形欣姓刑馨幸醒薪腥惺寻讯训迅勋巡循询熏旬汛驯音应因英银印影营引阴硬饮隐迎鹰赢淫殷颖盈映吟荫茵婴瘾莺缨蝇萦姻韵云运晕芸允匀孕蕴熨耘酝 20 | 21 | 22 | 23 | 蹦绷甭嘣从聪丛匆重冲虫充崇宠忡东动洞冬栋懂冻咚风峰封凤锋奉逢缝疯蜂讽工公共供宫功攻弓贡恭拱躬红洪宏鸿弘哄轰虹泓烘讧炯窘空孔控恐龙隆笼聋拢珑梦蒙猛盟萌朦农弄浓侬脓鹏碰捧棚朋蓬砰膨怦穷琼穹荣容融溶绒熔送松颂诵耸讼通痛同统童桶筒桐捅翁嗡熊雄兄胸凶汹用永勇拥涌咏庸泳蛹总宗纵综踪中钟重种众忠终肿踵盅憧澎烹碰 24 | 25 | 不步部布补捕簿怖醋促粗出除楚初处储触厨橱雏础矗搐躇度都读独毒渡赌堵肚镀督嘟督妒睹渎副福富夫复服附付负府赴伏父扶符傅浮腹辅覆赋抚妇肤腐拂斧咐腑蝠孵俘袱匍匐扶故股古谷顾骨固鼓孤姑菇估雇咕胡户湖虎乎护呼互壶忽狐糊弧唬惚瑚苦库哭酷裤枯窟录路鲁陆炉鹿禄鹭虏颅噜赂木亩目母姆墓牧幕慕沐睦怒奴努弩驽呶谱铺普朴扑瀑仆铺如入汝乳儒辱褥苏素速宿诉塑俗酥溯数书属树术舒输熟叔鼠蜀束述淑竖梳殊恕暑孰墅漱赎图土涂兔吐突徒途屠凸秃荼涂无五吴物武舞屋吾务乌勿雾伍悟误午巫污唔呜恶捂忤侮圬组租足族祖阻卒主注著注朱住猪诸竹驻祝柱助煮逐筑铸烛嘱拄蛛敷 26 | 27 | 28 | 29 | 次此词刺赐慈辞瓷雌疵吃持池赤尺迟驰齿痴翅耻弛地低底帝滴敌蒂抵逐弟堤递笛谛及即级机集基记吉计极几继鸡急剂季纪积极技忌击姬寄籍济肌疾挤祭际迹己激辑寂绩脊妓饥叽棘讥圾嫉笈据局具居距聚句举咀巨俱菊剧拒锯惧桔鞠矩拘炬驹理里李力利立离丽例礼莉黎历厉梨栗沥励隶厘犁俐漓狸率绿铝律驴旅履虑滤缕侣米迷密秘蜜弥谜觅咪靡眯泌你昵拟泥逆腻溺女皮批匹脾劈屁披坯辟疲啤癖僻其起期七气器齐奇企旗启漆骑妻弃棋汽欺泣乞戚契歧杞去区取曲趣娶屈驱渠躯蛆趋蹊 30 | 31 | 日四斯思死司寺丝似私撕肆嘶是时市使式室石事十师实诗世史氏食视士施试饰始失识湿势示释适仕狮尸拾侍逝誓蚀驶虱拭自子字紫资仔姿滋咨渍制值只至止之指志直知智治支纸质致置枝职址执汁植芝脂织滞旨掷肢趾峙稚秩秩挚帜蜘 32 | 33 | 体题提替踢梯蹄啼锑剃涕剔惕屉嚏西系喜希细溪洗戏吸息兮席熙习悉稀惜夕袭析隙嘻析昔嬉熄晰需须许虚需续旭序恤叙绪蓄胥絮嘘墟栩煦酗一以已亿易亦意依义宜伊乙仪衣益矣艺异已译医逸翼怡移毅议疑忆倚椅遗溢奕役抑谊姨疫蚁裔弈漪奕与于玉鱼余於雨欲语宇羽遇域预愈育予御豫郁浴喻愚誉娱狱屿淤愉吁谀彼比碧壁闭蔽驿逼笔币必毕避鼻弊毙哔鄙 34 | 35 | 36 | 波博薄播勃搏剥泊脖渤胳膊跛萝卜恶饿测册侧策车撤扯彻澈戳龌龊多朵夺躲堕剁舵惰得德碟蝶笛叠爹谍跌佛国过果郭锅裹蝈帼个各格歌哥阁戈隔革割鸽嗝或获火活货霍祸惑伙豁攉和合何河喝盒贺核荷鹤赫禾褐呵吓接街节杰解界结借姐洁戒捷介劫阶揭截竭诫觉绝决抉诀爵掘嚼倔撅崛可克科客课克科颗壳刻咳棵渴磕苛刻扩阔括廓罗落洛络螺裸锣骡菠萝了乐勒列烈裂劣猎咧冽洌略掠莫魔末膜墨模摩磨默摸么抹沫漠陌馍灭诺挪懦捏孽破坡颇婆迫泼魄珀陂泊撇且切妾窃怯却缺确阙雀鹊阕瘸若弱热惹缩锁所索梭琐娑啰哆嗦婆娑色塞瑟涩啬说硕烁设社摄舍蛇射折舌涉赦奢慑赊涉托脱拖拓陀妥骆驼驮沱唾特忑蝌做作座左坐佐昨则泽责择仄啧卓桌着捉啄浊拙灼酌这者着折哲遮辄蔗辙 37 | 38 | 贴铁我窝沃卧握涡些血写谢鞋协邪斜携蟹歇泄泻卸屑械挟谐蝎偕懈胁学雪血穴靴削也业页叶夜液野耶爷冶椰噎月约曰乐越粤岳跃悦阅亵别憋鳖瘪邂 39 | 40 | 41 | 凑愁抽丑臭仇筹酬稠绸瞅踌畴都斗豆抖逗兜陡痘蚪丢狗购沟够钩勾构垢后侯厚候猴吼喉逅就旧九酒久救纠揪鸠舅疚口扣寇抠叩蔻楼露漏喽搂篓陋六流留柳瘤溜榴遛某谋眸牛扭纽钮妞拗忸剖球求秋邱丘裘囚鳅肉柔揉搜艘馊擞手受收首守售寿兽授瘦熟头投透偷修秀休绣袖羞嗅朽有游由又友油右优尤邮幽佑幼忧悠诱走奏揍周州洲轴舟粥咒皱肘骤昼柚宙帚惆犹 42 | 43 | 北备倍杯背贝碑悲辈卑惫狈翠催脆萃摧粹悴对队堆飞非费菲肥废肺妃匪霏啡给归贵鬼桂规柜龟轨跪诡玫瑰黑嘿会灰回慧惠辉汇绘徽毁晖挥悔卉讳亏魁窥葵溃馈盔愧睽类雷泪累蕾磊类垒擂梅每没美枚煤妹眉酶媚媒霉昧内配培陪佩赔沛呸瑞锐岁随虽遂碎穗隋髓退推腿褪为位未卫维伟威微味魏尾喂谓围胃伪危纬畏违贼最嘴罪醉追坠锥缀委贿 44 | 45 | 46 | 47 | -------------------------------------------------------------------------------- /data/poem/vectors_poem.bin: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/norybaby/poet/b0f7b5dd7a31109995b921ad5269323e0fe794f8/data/poem/vectors_poem.bin -------------------------------------------------------------------------------- /data_loader.py: -------------------------------------------------------------------------------- 1 | import os 2 | #import collections 3 | from six.moves import cPickle 4 | import numpy as np 5 | from word2vec_helper import Word2Vec 6 | import math 7 | 8 | 9 | 10 | class DataLoader(): 11 | def __init__(self, data_dir, batch_size,seq_max_length,w2v,data_type): 12 | self.data_dir = data_dir 13 | self.batch_size = batch_size 14 | self.seq_max_length = seq_max_length 15 | self.w2v = w2v 16 | self.trainingSamples = [] 17 | self.validationSamples = [] 18 | self.testingSamples = [] 19 | self.train_frac = 0.85 20 | self.valid_frac = 0.05 21 | 22 | self.load_corpus(self.data_dir) 23 | 24 | if data_type == 'train': 25 | self.create_batches(self.trainingSamples) 26 | elif data_type == 'test': 27 | self.create_batches(self.testingSamples) 28 | elif data_type == 'valid': 29 | self.create_batches(self.validationSamples) 30 | 31 | self.reset_batch_pointer() 32 | 33 | def _print_stats(self): 34 | print('Loaded {}: training samples:{} ,validationSamples:{},testingSamples:{}'.format( 35 | self.data_dir, len(self.trainingSamples),len(self.validationSamples),len(self.testingSamples))) 36 | 37 | def load_corpus(self,base_path): 38 | """读/创建对话数据： 39 | 在训练文件创建的过程中，由两个文件 40 | 1. self.fullSamplePath 41 | 2. self.filteredSamplesPath 42 | """ 43 | tensor_file = os.path.join(base_path,'poem_ids.txt') 44 | print('tensor_file:%s' % tensor_file) 45 | 46 | datasetExist = os.path.isfile(tensor_file) 47 | # 如果处理过的对话数据文件不存在，创建数据文件 48 | if not datasetExist: 49 | print('训练样本不存在。从原始样本数据集创建训练样本...') 50 | 51 | fullSamplesPath = os.path.join(self.data_dir,'poems_edge_split.txt') 52 | # 创建/读取原始对话样本数据集： self.trainingSamples 53 | print('fullSamplesPath:%s' % fullSamplesPath) 54 | self.load_from_text_file(fullSamplesPath) 55 | 56 | else: 57 | self.load_dataset(tensor_file) 58 | 59 | self.padToken = self.w2v.ix('') 60 | self.goToken = self.w2v.ix('[') 61 | self.eosToken = self.w2v.ix(']') 62 | self.unknownToken = self.w2v.ix('') 63 | 64 | self._print_stats() 65 | # assert self.padToken == 0 66 | 67 | def load_from_text_file(self,in_file): 68 | # base_path = 'F:\BaiduYunDownload\chatbot_lecture\lecture2\data\ice_and_fire_zh' 69 | # in_file = os.path.join(base_path,'poems_edge.txt') 70 | fr = open(in_file, "r",encoding='utf-8') 71 | poems = fr.readlines() 72 | fr.close() 73 | 74 | print("唐诗总数： %d"%len(poems)) 75 | # self.seq_max_length = max([len(poem) for poem in poems]) 76 | # print("seq_max_length： %d"% (self.seq_max_length)) 77 | 78 | poem_ids = DataLoader.get_text_idx(poems,self.w2v.vocab_hash,self.seq_max_length) 79 | 80 | # # 后续处理 81 | # # 1. 单词过滤，去掉不常见(<=filterVocab)的单词，保留最常见的vocabSize个单词 82 | # print('Filtering words (vocabSize = {} and wordCount > {})...'.format( 83 | # self.args.vocabularySize, 84 | # self.args.filterVocab 85 | # )) 86 | # self.filterFromFull() 87 | 88 | # 2. 分割数据 89 | print('分割数据为 train, valid, test 数据集...') 90 | n_samples = len(poem_ids) 91 | train_size = int(self.train_frac * n_samples) 92 | valid_size = int(self.valid_frac * n_samples) 93 | test_size = n_samples - train_size - valid_size 94 | 95 | print('n_samples=%d, train-size=%d, valid_size=%d, test_size=%d' % ( 96 | n_samples, train_size, valid_size, test_size)) 97 | self.testingSamples = poem_ids[-test_size:] 98 | self.validationSamples = poem_ids[-valid_size-test_size : -test_size] 99 | self.trainingSamples = poem_ids[:train_size] 100 | 101 | # 保存处理过的训练数据集 102 | print('Saving dataset...') 103 | poem_ids_file = os.path.join(self.data_dir,'poem_ids.txt') 104 | self.save_dataset(poem_ids_file) 105 | 106 | # 2. utility 函数，使用pickle写文件 107 | def save_dataset(self, filename): 108 | """使用pickle保存数据文件。 109 | 110 | 数据文件包含词典和对话样本。 111 | 112 | Args: 113 | filename (str): pickle 文件名 114 | """ 115 | with open(filename, 'wb') as handle: 116 | data = { 117 | 'trainingSamples': self.trainingSamples 118 | } 119 | 120 | if len(self.validationSamples)>0: 121 | data['validationSamples'] = self.validationSamples 122 | data['testingSamples'] = self.testingSamples 123 | data['maxSeqLen'] = self.seq_max_length 124 | 125 | cPickle.dump(data, handle, -1) # Using the highest protocol available 126 | 127 | # 3. utility 函数，使用pickle读文件 128 | def load_dataset(self, filename): 129 | """使用pickle读入数据文件 130 | Args: 131 | filename (str): pickle filename 132 | """ 133 | 134 | print('Loading dataset from {}'.format(filename)) 135 | with open(filename, 'rb') as handle: 136 | data = cPickle.load(handle) 137 | self.trainingSamples = data['trainingSamples'] 138 | 139 | if 'validationSamples' in data: 140 | self.validationSamples = data['validationSamples'] 141 | self.testingSamples = data['testingSamples'] 142 | 143 | print('file maxSeqLen = {}'.format( data['maxSeqLen'])) 144 | 145 | 146 | @classmethod 147 | def get_text_idx(text,vocab,max_document_length): 148 | text_array = [] 149 | for i,x in enumerate(text): 150 | line = [] 151 | for j, w in enumerate(x): 152 | if (w not in vocab): 153 | w = '' 154 | line.append(vocab[w]) 155 | text_array.append(line) 156 | # else : 157 | # print w,'not exist' 158 | 159 | return text_array 160 | 161 | def create_batches(self,samples): 162 | 163 | sample_size = len(samples) 164 | self.num_batches = math.ceil(sample_size /self.batch_size) 165 | new_sample_size = self.num_batches * self.batch_size 166 | 167 | # Create the batch tensor 168 | # x_lengths = [len(sample) for sample in samples] 169 | 170 | x_lengths = [] 171 | x_seqs = np.ndarray((new_sample_size,self.seq_max_length),dtype=np.int32) 172 | y_seqs = np.ndarray((new_sample_size,self.seq_max_length),dtype=np.int32) 173 | self.x_lengths = [] 174 | for i,sample in enumerate(samples): 175 | # fill with padding to align batchSize samples into one 2D list 176 | x_lengths.append(len(sample)) 177 | x_seqs[i] = sample + [self.padToken] * (self.seq_max_length - len(sample)) 178 | 179 | for i in range(sample_size,new_sample_size): 180 | copyi = i - sample_size 181 | x_seqs[i] = x_seqs[copyi] 182 | x_lengths.append(x_lengths[copyi]) 183 | 184 | y_seqs[:,:-1] = x_seqs[:,1:] 185 | y_seqs[:,-1] = x_seqs[:,0] 186 | x_len_array = np.array(x_lengths) 187 | 188 | 189 | 190 | self.x_batches = np.split(x_seqs.reshape(self.batch_size, -1), self.num_batches, 1) 191 | self.x_len_batches = np.split(x_len_array.reshape(self.batch_size, -1), self.num_batches, 1) 192 | self.y_batches = np.split(y_seqs.reshape(self.batch_size, -1), self.num_batches, 1) 193 | 194 | def next_batch_dynamic(self): 195 | x,x_len, y = self.x_batches[self.pointer], self.x_len_batches[self.pointer],self.y_batches[self.pointer] 196 | self.pointer += 1 197 | return x,x_len, y 198 | 199 | def next_batch(self): 200 | x, y = self.x_batches[self.pointer], self.y_batches[self.pointer] 201 | self.pointer += 1 202 | return x,y 203 | 204 | def reset_batch_pointer(self): 205 | self.pointer = 0 206 | 207 | @staticmethod 208 | def get_text_idx(text,vocab,max_document_length): 209 | max_document_length_without_end = max_document_length - 1 210 | text_array = [] 211 | for i,x in enumerate(text): 212 | line = [] 213 | if len(x) > max_document_length: 214 | x_parts = x[:max_document_length_without_end] 215 | idx = x_parts.rfind('。') 216 | if idx > -1 : 217 | x_parts = x_parts[0:idx + 1] + ']' 218 | x = x_parts 219 | 220 | for j, w in enumerate(x): 221 | # if j >= max_document_length: 222 | # break 223 | 224 | if (w not in vocab): 225 | w = '' 226 | line.append(vocab[w]) 227 | text_array.append(line) 228 | # else : 229 | # print w,'not exist' 230 | 231 | return text_array 232 | 233 | if __name__ == '__main__': 234 | base_path = './data/poem' 235 | # poem = '风急云轻鹤背寒，洞天谁道却归难。千山万水瀛洲路，何处烟飞是醮坛。是的' 236 | # idx = poem.rfind('。') 237 | # poem_part = poem[:idx + 1] 238 | w2v_file = os.path.join(base_path, "vectors_poem.bin") 239 | w2v = Word2Vec(w2v_file) 240 | 241 | # vect = w2v_model['['][:10] 242 | # print(vect) 243 | # 244 | # vect = w2v_model['春'][:10] 245 | # print(vect) 246 | 247 | in_file = os.path.join(base_path,'poems_edge.txt') 248 | # fr = open(in_file, "r",encoding='utf-8') 249 | # poems = fr.readlines() 250 | # fr.close() 251 | # 252 | # 253 | # 254 | # print("唐诗总数： %d"%len(poems)) 255 | # 256 | # poem_ids = get_text_idx(poems,w2v.model.vocab_hash,100) 257 | # poem_ids_file = os.path.join(base_path,'poem_ids.txt') 258 | # with open(poem_ids_file, 'wb') as f: 259 | # cPickle.dump(poem_ids, f) 260 | 261 | dataloader = DataLoader(base_path,20,w2v.model,'train') 262 | 263 | -------------------------------------------------------------------------------- /doc/client.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/norybaby/poet/b0f7b5dd7a31109995b921ad5269323e0fe794f8/doc/client.png -------------------------------------------------------------------------------- /doc/train.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/norybaby/poet/b0f7b5dd7a31109995b921ad5269323e0fe794f8/doc/train.png -------------------------------------------------------------------------------- /poem_server.py: -------------------------------------------------------------------------------- 1 | #coding=utf8 2 | import os 3 | from flask import Flask,request 4 | from write_poem import WritePoem,start_model 5 | 6 | app = Flask(__name__) 7 | application = app 8 | 9 | path = os.getcwd() #获取当前工作目录 10 | print(path) 11 | 12 | writer = start_model() 13 | 14 | # @app.route('/') 15 | # def test(title): 16 | # return 'test ok' 17 | 18 | sytle_help = '
para style : 1:自由诗
2:带押韵的自由诗
3:藏头诗
4:给定若干字，以最大概率生成诗' 19 | @app.route('/poem') 20 | def write_poem(): 21 | params = request.args 22 | start_with= '' 23 | poem_style = 0 24 | 25 | # print(params) 26 | if 'start' in params : 27 | start_with = params['start'] 28 | if 'style' in params: 29 | poem_style = int(params['style']) 30 | 31 | # return 'hello' 32 | if start_with: 33 | if poem_style == 3: 34 | return writer.cangtou(start_with) 35 | elif poem_style == 4: 36 | return writer.hide_words(start_with) 37 | 38 | if poem_style == 1: 39 | return writer.free_verse() 40 | elif poem_style == 2: 41 | return writer.rhyme_verse() 42 | 43 | return 'hello,what do you want? {}'.format(sytle_help) 44 | 45 | 46 | if __name__ == "__main__": 47 | app.run() -------------------------------------------------------------------------------- /rhyme_helper.py: -------------------------------------------------------------------------------- 1 | 2 | class RhymeWords(): 3 | rhyme_list = [] 4 | 5 | @staticmethod 6 | def read_rhyme_words(infile): 7 | with open(infile,'r',encoding='utf-8',errors='ignore') as fr: 8 | for line in fr: 9 | words = set(line.split()) 10 | RhymeWords.rhyme_list.append(words) 11 | 12 | @staticmethod 13 | def get_rhyme_words(w): 14 | for words in RhymeWords.rhyme_list: 15 | if w in words: 16 | return words 17 | return None 18 | 19 | @staticmethod 20 | def print_stats(): 21 | count = 0 22 | for words in RhymeWords.rhyme_list: 23 | count += len(words) 24 | print(words) 25 | 26 | for w in words: 27 | if len(w) > 1: 28 | print(w) 29 | 30 | print('count = ',count) 31 | 32 | if __name__ == '__main__': 33 | infile = './data/poem/rhyme_words.txt' 34 | RhymeWords.read_rhyme_words(infile) 35 | RhymeWords.print_stats() -------------------------------------------------------------------------------- /train.py: -------------------------------------------------------------------------------- 1 | import codecs 2 | import json 3 | import logging 4 | import os 5 | import shutil 6 | import sys 7 | import time 8 | import numpy as np 9 | import tensorflow as tf 10 | from char_rnn_model import CharRNNLM 11 | from config_poem import config_poem_train 12 | from data_loader import DataLoader 13 | from word2vec_helper import Word2Vec 14 | TF_VERSION = int(tf.__version__.split('.')[1]) 15 | 16 | 17 | def main(args=''): 18 | args = config_poem_train(args) 19 | # Specifying location to store model, best model and tensorboard log. 20 | args.save_model = os.path.join(args.output_dir, 'save_model/model') 21 | args.save_best_model = os.path.join(args.output_dir, 'best_model/model') 22 | # args.tb_log_dir = os.path.join(args.output_dir, 'tensorboard_log/') 23 | timestamp = str(int(time.time())) 24 | args.tb_log_dir = os.path.abspath(os.path.join(args.output_dir, "tensorboard_log", timestamp)) 25 | print("Writing to {}\n".format(args.tb_log_dir)) 26 | 27 | # Create necessary directories. 28 | if len(args.init_dir) != 0: 29 | args.output_dir = args.init_dir 30 | else: 31 | if os.path.exists(args.output_dir): 32 | shutil.rmtree(args.output_dir) 33 | for paths in [args.save_model, args.save_best_model, args.tb_log_dir]: 34 | os.makedirs(os.path.dirname(paths)) 35 | 36 | logging.basicConfig(stream=sys.stdout, 37 | format='%(asctime)s %(levelname)s:%(message)s', 38 | level=logging.INFO, datefmt='%I:%M:%S') 39 | 40 | print('=' * 60) 41 | print('All final and intermediate outputs will be stored in %s/' % args.output_dir) 42 | print('=' * 60 + '\n') 43 | 44 | logging.info('args are:\n%s', args) 45 | 46 | if len(args.init_dir) != 0: 47 | with open(os.path.join(args.init_dir, 'result.json'), 'r') as f: 48 | result = json.load(f) 49 | params = result['params'] 50 | args.init_model = result['latest_model'] 51 | best_model = result['best_model'] 52 | best_valid_ppl = result['best_valid_ppl'] 53 | if 'encoding' in result: 54 | args.encoding = result['encoding'] 55 | else: 56 | args.encoding = 'utf-8' 57 | 58 | else: 59 | params = {'batch_size': args.batch_size, 60 | 'num_unrollings': args.num_unrollings, 61 | 'hidden_size': args.hidden_size, 62 | 'max_grad_norm': args.max_grad_norm, 63 | 'embedding_size': args.embedding_size, 64 | 'num_layers': args.num_layers, 65 | 'learning_rate': args.learning_rate, 66 | 'cell_type': args.cell_type, 67 | 'dropout': args.dropout, 68 | 'input_dropout': args.input_dropout} 69 | best_model = '' 70 | logging.info('Parameters are:\n%s\n', json.dumps(params, sort_keys=True, indent=4)) 71 | 72 | # Create batch generators. 73 | batch_size = params['batch_size'] 74 | num_unrollings = params['num_unrollings'] 75 | 76 | base_path = args.data_path 77 | w2v_file = os.path.join(base_path, "vectors_poem.bin") 78 | w2v = Word2Vec(w2v_file) 79 | 80 | train_data_loader = DataLoader(base_path,batch_size,num_unrollings,w2v.model,'train') 81 | test1_data_loader = DataLoader(base_path,batch_size,num_unrollings,w2v.model,'test') 82 | valid_data_loader = DataLoader(base_path,batch_size,num_unrollings,w2v.model,'valid') 83 | 84 | # Create graphs 85 | logging.info('Creating graph') 86 | graph = tf.Graph() 87 | with graph.as_default(): 88 | w2v_vocab_size = len(w2v.model.vocab) 89 | with tf.name_scope('training'): 90 | train_model = CharRNNLM(is_training=True,w2v_model = w2v.model,vocab_size=w2v_vocab_size, infer=False, **params) 91 | tf.get_variable_scope().reuse_variables() 92 | 93 | with tf.name_scope('validation'): 94 | valid_model = CharRNNLM(is_training=False,w2v_model = w2v.model, vocab_size=w2v_vocab_size, infer=False, **params) 95 | 96 | with tf.name_scope('evaluation'): 97 | test_model = CharRNNLM(is_training=False,w2v_model = w2v.model,vocab_size=w2v_vocab_size, infer=False, **params) 98 | saver = tf.train.Saver(name='model_saver') 99 | best_model_saver = tf.train.Saver(name='best_model_saver') 100 | 101 | logging.info('Start training\n') 102 | 103 | result = {} 104 | result['params'] = params 105 | 106 | 107 | try: 108 | with tf.Session(graph=graph) as session: 109 | # Version 8 changed the api of summary writer to use 110 | # graph instead of graph_def. 111 | if TF_VERSION >= 8: 112 | graph_info = session.graph 113 | else: 114 | graph_info = session.graph_def 115 | 116 | train_summary_dir = os.path.join(args.tb_log_dir, "summaries", "train") 117 | train_writer = tf.summary.FileWriter(train_summary_dir, graph_info) 118 | valid_summary_dir = os.path.join(args.tb_log_dir, "summaries", "valid") 119 | valid_writer = tf.summary.FileWriter(valid_summary_dir, graph_info) 120 | 121 | # load a saved model or start from random initialization. 122 | if len(args.init_model) != 0: 123 | saver.restore(session, args.init_model) 124 | else: 125 | tf.global_variables_initializer().run() 126 | 127 | learning_rate = args.learning_rate 128 | for epoch in range(args.num_epochs): 129 | logging.info('=' * 19 + ' Epoch %d ' + '=' * 19 + '\n', epoch) 130 | logging.info('Training on training set') 131 | # training step 132 | ppl, train_summary_str, global_step = train_model.run_epoch(session, train_data_loader, is_training=True, 133 | learning_rate=learning_rate, verbose=args.verbose, freq=args.progress_freq) 134 | # record the summary 135 | train_writer.add_summary(train_summary_str, global_step) 136 | train_writer.flush() 137 | # save model 138 | saved_path = saver.save(session, args.save_model, 139 | global_step=train_model.global_step) 140 | 141 | logging.info('Latest model saved in %s\n', saved_path) 142 | logging.info('Evaluate on validation set') 143 | 144 | valid_ppl, valid_summary_str, _ = valid_model.run_epoch(session, valid_data_loader, is_training=False, 145 | learning_rate=learning_rate, verbose=args.verbose, freq=args.progress_freq) 146 | 147 | # save and update best model 148 | if (len(best_model) == 0) or (valid_ppl < best_valid_ppl): 149 | best_model = best_model_saver.save(session, args.save_best_model, 150 | global_step=train_model.global_step) 151 | best_valid_ppl = valid_ppl 152 | else: 153 | learning_rate /= 2.0 154 | logging.info('Decay the learning rate: ' + str(learning_rate)) 155 | 156 | valid_writer.add_summary(valid_summary_str, global_step) 157 | valid_writer.flush() 158 | 159 | logging.info('Best model is saved in %s', best_model) 160 | logging.info('Best validation ppl is %f\n', best_valid_ppl) 161 | 162 | result['latest_model'] = saved_path 163 | result['best_model'] = best_model 164 | # Convert to float because numpy.float is not json serializable. 165 | result['best_valid_ppl'] = float(best_valid_ppl) 166 | 167 | result_path = os.path.join(args.output_dir, 'result.json') 168 | if os.path.exists(result_path): 169 | os.remove(result_path) 170 | with open(result_path, 'w') as f: 171 | json.dump(result, f, indent=2, sort_keys=True) 172 | 173 | logging.info('Latest model is saved in %s', saved_path) 174 | logging.info('Best model is saved in %s', best_model) 175 | logging.info('Best validation ppl is %f\n', best_valid_ppl) 176 | 177 | logging.info('Evaluate the best model on test set') 178 | saver.restore(session, best_model) 179 | test_ppl, _, _ = test_model.run_epoch(session, test1_data_loader, is_training=False, 180 | learning_rate=learning_rate, verbose=args.verbose, freq=args.progress_freq) 181 | result['test_ppl'] = float(test_ppl) 182 | except Exception as e: 183 | print('err :{}'.format(e)) 184 | finally: 185 | result_path = os.path.join(args.output_dir, 'result.json') 186 | if os.path.exists(result_path): 187 | os.remove(result_path) 188 | with open(result_path, 'w',encoding='utf-8',errors='ignore') as f: 189 | json.dump(result, f, indent=2, sort_keys=True) 190 | 191 | 192 | if __name__ == '__main__': 193 | args = '--output_dir output_poem --data_path ./data/poem/ --hidden_size 128 --embedding_size 128 --cell_type lstm' 194 | main(args) 195 | -------------------------------------------------------------------------------- /word2vec_helper.py: -------------------------------------------------------------------------------- 1 | import numpy as np 2 | import word2vec 3 | 4 | class Word2Vec(): 5 | def __init__(self,file_path): 6 | # w2v_file = os.path.join(base_path, "vectors_poem.bin") 7 | self.model = word2vec.load(file_path) 8 | self.add_word('') 9 | self.add_word('') 10 | # self.vocab_size = len(self.model.vocab) 11 | 12 | def add_word(self,word): 13 | if word not in self.model.vocab_hash: 14 | w_vec = np.random.uniform(-0.1,0.1,size=128) 15 | self.model.vocab_hash[word] = len(self.model.vocab) 16 | self.model.vectors = np.row_stack((self.model.vectors,w_vec)) 17 | self.model.vocab = np.concatenate((self.model.vocab,np.array([word]))) 18 | 19 | # vocab = np.empty(1, dtype='= 0: 39 | np.random.seed(args.seed) 40 | 41 | logging.info('best_model: %s\n', best_model) 42 | 43 | self.sess = tf.Session() 44 | w2v_vocab_size = len(self.w2v.model.vocab) 45 | with tf.name_scope('evaluation'): 46 | self.model = CharRNNLM(is_training=False,w2v_model = self.w2v.model,vocab_size=w2v_vocab_size, infer=True, **params) 47 | saver = tf.train.Saver(name='model_saver') 48 | saver.restore(self.sess, best_model) 49 | 50 | def free_verse(self): 51 | ''' 52 | 自由诗 53 | Returns: 54 | 55 | ''' 56 | sample = self.model.sample_seq(self.sess, 40, '[',sample_type= SampleType.weighted_sample) 57 | if not sample: 58 | return 'err occar!' 59 | 60 | print('free_verse:',sample) 61 | 62 | idx_end = sample.find(']') 63 | parts = sample.split('。') 64 | if len(parts) > 1: 65 | two_sentence_len = len(parts[0]) + len(parts[1]) 66 | if idx_end < 0 or two_sentence_len < idx_end: 67 | return sample[1:two_sentence_len + 2] 68 | 69 | return sample[1:idx_end] 70 | 71 | @staticmethod 72 | def assemble(sample): 73 | if sample: 74 | parts = sample.split('。') 75 | if len(parts) > 1: 76 | return '{}。{}。'.format(parts[0][1:],parts[1][:len(parts[0])]) 77 | 78 | return '' 79 | 80 | 81 | def rhyme_verse(self): 82 | ''' 83 | 押韵诗 84 | Returns: 85 | 86 | ''' 87 | gen_len = 20 88 | sample = self.model.sample_seq(self.sess, gen_len, start_text='[',sample_type= SampleType.weighted_sample) 89 | if not sample: 90 | return 'err occar!' 91 | 92 | print('rhyme_verse:',sample) 93 | 94 | parts = sample.split('。') 95 | if len(parts) > 0: 96 | start = parts[0] + '。' 97 | rhyme_ref_word = start[-2] 98 | rhyme_seq = len(start) - 3 99 | 100 | sample = self.model.sample_seq(self.sess, gen_len , start, 101 | sample_type= SampleType.weighted_sample,rhyme_ref =rhyme_ref_word,rhyme_idx = rhyme_seq ) 102 | print(sample) 103 | return WritePoem.assemble(sample) 104 | 105 | return sample[1:] 106 | 107 | def hide_words(self,given_text): 108 | ''' 109 | 藏字诗 110 | Args: 111 | given_text: 112 | 113 | Returns: 114 | 115 | ''' 116 | if(not given_text): 117 | return self.rhyme_verse() 118 | 119 | givens = ['',''] 120 | split_len = math.ceil(len(given_text)/2) 121 | givens[0] = given_text[:split_len] 122 | givens[1] = given_text[split_len:] 123 | 124 | gen_len = 20 125 | sample = self.model.sample_seq(self.sess, gen_len, start_text='[',sample_type= SampleType.select_given,given=givens[0]) 126 | if not sample: 127 | return 'err occar!' 128 | 129 | print('rhyme_verse:',sample) 130 | 131 | parts = sample.split('。') 132 | if len(parts) > 0: 133 | start = parts[0] + '。' 134 | rhyme_ref_word = start[-2] 135 | rhyme_seq = len(start) - 3 136 | # gen_len = len(start) - 1 137 | 138 | sample = self.model.sample_seq(self.sess, gen_len , start, 139 | sample_type= SampleType.select_given,given=givens[1],rhyme_ref =rhyme_ref_word,rhyme_idx = rhyme_seq ) 140 | print(sample) 141 | return WritePoem.assemble(sample) 142 | 143 | return sample[1:] 144 | 145 | def cangtou(self,given_text): 146 | ''' 147 | 藏头诗 148 | Returns: 149 | 150 | ''' 151 | if(not given_text): 152 | return self.rhyme_verse() 153 | 154 | start = '' 155 | rhyme_ref_word = '' 156 | rhyme_seq = 0 157 | 158 | # for i,word in enumerate(given_text): 159 | for i in range(4): 160 | word = '' 161 | if i < len(given_text): 162 | word = given_text[i] 163 | 164 | if i == 0: 165 | start = '[' + word 166 | else: 167 | start += word 168 | 169 | before_idx = len(start) 170 | if(i != 3): 171 | sample = self.model.sample_seq(self.sess, self.args.length, start, 172 | sample_type= SampleType.weighted_sample ) 173 | 174 | else: 175 | if not word: 176 | rhyme_seq += 1 177 | 178 | sample = self.model.sample_seq(self.sess, self.args.length, start, 179 | sample_type= SampleType.max_prob,rhyme_ref =rhyme_ref_word,rhyme_idx = rhyme_seq ) 180 | 181 | print('Sampled text is:\n\n%s' % sample) 182 | 183 | sample = sample[before_idx:] 184 | idx1 = sample.find('，') 185 | idx2 = sample.find('。') 186 | min_idx = min(idx1,idx2) 187 | 188 | if min_idx == -1: 189 | if idx1 > -1 : 190 | min_idx = idx1 191 | else: min_idx =idx2 192 | if min_idx > 0: 193 | # last_sample.append(sample[:min_idx + 1]) 194 | start ='{}{}'.format(start, sample[:min_idx + 1]) 195 | 196 | if i == 1: 197 | rhyme_seq = min_idx - 1 198 | rhyme_ref_word = sample[rhyme_seq] 199 | 200 | print('last_sample text is:\n\n%s' % start) 201 | 202 | return WritePoem.assemble(start) 203 | 204 | def start_model(): 205 | now = int(time.time()) 206 | args = config_sample('--model_dir output_poem --length 16 --seed {}'.format(now)) 207 | writer = WritePoem(args) 208 | return writer 209 | 210 | if __name__ == '__main__': 211 | writer = start_model() 212 | --------------------------------------------------------------------------------