├── README.md
├── code
    ├── README.MD
    ├── data_preprocess.py
    ├── glove.sh
    ├── mydemo.sh
    ├── runme.sh
    └── tradition_feat.py
├── data
    ├── README.MD
    └── checkpoint
    │   └── README.MD
├── model
    ├── Fast_attention.py
    ├── Fast_attention_withsta.py
    ├── Fast_attention_withsta2.py
    ├── RCNN.py
    ├── README.MD
    ├── RNN_attention.py
    ├── RNN_attention2.py
    ├── RNN_attention_withsta.py
    ├── RNN_attention_withsta2.py
    ├── TextCNN.py
    └── rnnpool.py
├── stacking
    ├── README.MD
    ├── generate_presudo_labels.py
    └── stack.py
└── 达观杯-8-redhand.pptx


/README.md:
--------------------------------------------------------------------------------
1 | # Text-classifier
2 | 2018达观杯文本智能处理比赛，文本分类主题，最终排名 8/3462，F1score为0.79895
3 | 
4 | [链接](http://www.pkbigdata.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html)
5 | 


--------------------------------------------------------------------------------
/code/README.MD:
--------------------------------------------------------------------------------
1 | run code
2 | 


--------------------------------------------------------------------------------
/code/data_preprocess.py:
--------------------------------------------------------------------------------
  1 | import pandas as pd, numpy as np
  2 | from tqdm import tqdm
  3 | 
  4 | column='word_seg'
  5 | labels=pd.read_csv('../data/train_set.csv',usecols=['class']).values
  6 | labels=labels.reshape(-1)
  7 | np.save('../data/labels.npy',labels)
  8 | train = pd.read_csv('../data/train_set.csv',usecols=[column])
  9 | test=pd.read_csv('../data/test_set.csv',usecols=[column])
 10 | alldoc=np.concatenate((train[column].values,test[column].values),axis=0)
 11 | 
 12 | import collections
 13 | def build_vocab(data):
 14 |     ls=collections.Counter()
 15 |     for row in tqdm(range(data.shape[0])):
 16 |         ls.update(collections.Counter(data[row].split()))
 17 |     return ls
 18 | import operator
 19 | word=build_vocab(alldoc)
 20 | temp = sorted(word.items(),key=operator.itemgetter(1),reverse=True)
 21 | 
 22 | word=dict(filter(lambda x: (x[1]>1)&(x[1]<4000000),temp))
 23 | word2idx={}
 24 | for i,k in enumerate(word):
 25 |     word2idx[k]=i
 26 | idx2word=list(word)
 27 | print (len(idx2word))
 28 | 
 29 | def build_word(data,word2idx,maxlen):
 30 |     ls=data[column].values
 31 |     embed=np.ones((ls.shape[0],maxlen),dtype=np.int32)*679249
 32 |     for row in tqdm(range(ls.shape[0])):
 33 |         s=ls[row].split()
 34 |         cnt=0
 35 |         for w in s:
 36 |             if w in word2idx:
 37 |                 embed[row,cnt]=word2idx[w]
 38 |                 cnt+=1
 39 |             if cnt>=maxlen:
 40 |                 break
 41 |     return embed
 42 | 
 43 | train_embed=build_word(train,word2idx,maxlen=1000)
 44 | test_embed=build_word(test,word2idx,maxlen=1000)
 45 | import gc
 46 | gc.collect()
 47 | np.save('../data/train_embed.npy',train_embed)
 48 | np.save('../data/test_embed.npy',test_embed)
 49 | 
 50 | print ('using glove to train')
 51 | alldoc=pd.concat([train,test])
 52 | alldoc.to_csv('alldoc.txt',header=None,index=None)
 53 | import subprocess
 54 | subprocess.call('./glove.sh',shell=True)
 55 | 
 56 | with open('glove/vectors.txt', 'r+') as f:
 57 |     content = f.read()        
 58 |     f.seek(0, 0)
 59 |     f.write('679242 100\n'+content)
 60 |     
 61 | from gensim.models import Word2Vec
 62 | import gensim
 63 | model = gensim.models.KeyedVectors.load_word2vec_format('glove/vectors.txt', binary=False)
 64 | 
 65 | 
 66 | word_vec=np.zeros([679250,100],dtype=np.float32)
 67 | cnt=0
 68 | for i in range(679242):
 69 |     try:
 70 |         word_vec[i]=model.wv.word_vec(idx2word[i])
 71 |     except:
 72 |         print (idx2word[i],word[idx2word[i]])
 73 |         word_vec[i]=np.random.rand()
 74 | print (cnt)
 75 | np.save('../data/glove.npy',word_vec)
 76 | 
 77 | 
 78 | alldoc=np.concatenate((train[column].values,test[column].values),axis=0)
 79 | print ('now train word2vec')
 80 | import gensim
 81 | TaggededDocument = gensim.models.doc2vec.TaggedDocument
 82 | class sentences_generator():
 83 |     def __init__(self, doc):
 84 |         self.doc = doc
 85 |     def __iter__(self):
 86 |         for line in self.doc:
 87 |             sentence = line.split()
 88 |             yield sentence
 89 | 
 90 | from gensim.models import word2vec
 91 | sents=sentences_generator(alldoc)
 92 | print ('start training,need 2hours or more')
 93 | model = word2vec.Word2Vec(sents, sg=1, size=100, window=5, min_count=2, hs=1, workers=8,iter=20)
 94 | word_vec=np.zeros([679250,100],dtype=np.float32)
 95 | for i in range(679242):
 96 |     word_vec[i]=model.wv.word_vec(idx2word[i])
 97 | np.save('../data/word_vec.npy',word_vec)
 98 | 
 99 | 
100 | 
101 | 
102 | 
103 | 
104 | 


--------------------------------------------------------------------------------
/code/glove.sh:
--------------------------------------------------------------------------------
 1 | git clone http://github.com/stanfordnlp/glove
 2 | cd glove && make
 3 | cd ..
 4 | cp mydemo.sh glove
 5 | cp alldoc.txt glove
 6 | cd glove
 7 | ./mydemo.sh
 8 | 
 9 | 
10 | 
11 | 


--------------------------------------------------------------------------------
/code/mydemo.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | set -e
 3 | make
 4 | 
 5 | CORPUS=alldoc.txt
 6 | VOCAB_FILE=vocab.txt
 7 | COOCCURRENCE_FILE=cooccurrence.bin
 8 | COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
 9 | BUILDDIR=build
10 | SAVE_FILE=vectors
11 | VERBOSE=2
12 | MEMORY=4.0
13 | VOCAB_MIN_COUNT=2
14 | VECTOR_SIZE=100
15 | MAX_ITER=50
16 | WINDOW_SIZE=15
17 | BINARY=2
18 | NUM_THREADS=8
19 | X_MAX=10
20 | 
21 | echo
22 | echo "$ $BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE"
23 | $BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE
24 | echo "$ $BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE"
25 | $BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE
26 | echo "$ $BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE"
27 | $BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE
28 | echo "$ $BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE"
29 | $BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE
30 | 


--------------------------------------------------------------------------------
/code/runme.sh:
--------------------------------------------------------------------------------
  1 | echo "copy data"
  2 | cp ../data/train_set.csv ../team/data/member1_data
  3 | cp ../data/test_set.csv ../team/data/member1_data
  4 | 
  5 | echo "run team first"
  6 | cd ../team/code
  7 | ./train.sh
  8 | 
  9 | 
 10 | echo "run team2"
 11 | cd ../../code
 12 | 
 13 | echo "data_preprocess"
 14 | python data_preprocess.py
 15 | echo "tradition feature for word"
 16 | python tradition_feat.py "word_seg"
 17 | echo "tradition feature for char"
 18 | python tradition_feat.py "article"
 19 | 
 20 | echo "merge team_data"
 21 | cp  ../team/data/member1_data/team_data/train_x.npy  ../stacking/team
 22 | cp  ../team/data/member1_data/team_data/test_x.npy  ../stacking/team
 23 | cp ../team/data/member1_data/article_train_tfidf_svd.npy  ../data
 24 | cp ../team/data/member1_data/article_test_tfidf_svd.npy ../data
 25 | 
 26 | echo "generate presudo labels"
 27 | cd ..
 28 | cd stacking
 29 | python generate_presudo_labels.py
 30 | 
 31 | echo "deep model"
 32 | cd ..
 33 | cd model
 34 | 
 35 | echo "Fast_attention"
 36 | python Fast_attention.py 1
 37 | python Fast_attention.py 2
 38 | python Fast_attention.py 3
 39 | python Fast_attention.py 4
 40 | python Fast_attention.py 5
 41 | echo "Fast_attention_withsta"
 42 | python Fast_attention_withsta.py 1
 43 | python Fast_attention_withsta.py 2
 44 | python Fast_attention_withsta.py 3
 45 | python Fast_attention_withsta.py 4
 46 | python Fast_attention_withsta.py 5
 47 | 
 48 | echo "Fast_attention_withsta2"
 49 | python Fast_attention_withsta2.py 1
 50 | python Fast_attention_withsta2.py 2
 51 | python Fast_attention_withsta2.py 3
 52 | python Fast_attention_withsta2.py 4
 53 | python Fast_attention_withsta2.py 5
 54 | 
 55 | echo "TextCNN"
 56 | python TextCNN.py 1
 57 | python TextCNN.py 2
 58 | python TextCNN.py 3
 59 | python TextCNN.py 4
 60 | python TextCNN.py 5
 61 | 
 62 | echo "RCNN"
 63 | python RCNN.py 1
 64 | python RCNN.py 2
 65 | python RCNN.py 3
 66 | python RCNN.py 4
 67 | python RCNN.py 5
 68 | 
 69 | echo "rnnpool"
 70 | python rnnpool.py 1
 71 | python rnnpool.py 2
 72 | python rnnpool.py 3
 73 | python rnnpool.py 4
 74 | python rnnpool.py 5
 75 | 
 76 | echo "RNN_attention"
 77 | python RNN_attention.py 1
 78 | python RNN_attention.py 2
 79 | python RNN_attention.py 3
 80 | python RNN_attention.py 4
 81 | python RNN_attention.py 5
 82 | 
 83 | 
 84 | echo "RNN_attention2"
 85 | python RNN_attention2.py 1
 86 | python RNN_attention2.py 2
 87 | python RNN_attention2.py 3
 88 | python RNN_attention2.py 4
 89 | python RNN_attention2.py 5
 90 | 
 91 | echo "RNN_attention_withsta"
 92 | python RNN_attention_withsta.py 1
 93 | python RNN_attention_withsta.py 2
 94 | python RNN_attention_withsta.py 3
 95 | python RNN_attention_withsta.py 4
 96 | python RNN_attention_withsta.py 5
 97 | 
 98 | echo "RNN_attention_withsta2"
 99 | python RNN_attention_withsta2.py 1
100 | python RNN_attention_withsta2.py 2
101 | python RNN_attention_withsta2.py 3
102 | python RNN_attention_withsta2.py 4
103 | python RNN_attention_withsta2.py 5
104 | 
105 | 
106 | echo "stacking"
107 | cd ..
108 | cd stacking
109 | python stack.py
110 | 


--------------------------------------------------------------------------------
/code/tradition_feat.py:
--------------------------------------------------------------------------------
 1 | import sys
 2 | column=sys.argv[1]
 3 | print (column)
 4 | import pandas as pd, numpy as np
 5 | from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
 6 | import gc
 7 | 
 8 | train = pd.read_csv('../data/train_set.csv',usecols=[column])
 9 | test=pd.read_csv('../data/test_set.csv',usecols=[column])
10 | 
11 | vec = TfidfVectorizer(ngram_range=(1,2),min_df=10, max_df=0.8,use_idf=0,smooth_idf=1,stop_words=['816903','520477'],
12 |                       sublinear_tf=1)
13 | 
14 | train_term_doc = vec.fit_transform(train[column])
15 | test_term_doc=vec.transform(test[column])
16 | labels=np.load('../data/labels.npy')
17 | 
18 | from sklearn.linear_model import  SGDClassifier
19 | clf = SGDClassifier(loss='log',n_jobs=-1,max_iter=15,random_state=2018)
20 | 
21 | gc.collect()
22 | np.random.seed(2018)
23 | r1=(np.random.uniform(0,1,train_term_doc.shape[0])*5).astype(np.int32)
24 | 
25 | val_tf=np.zeros((102277,19))
26 | test_tf=np.zeros((102277,19))
27 | 
28 | for cv_fold in range(5):
29 |     
30 |     filter_t=(r1!=cv_fold)
31 |     filter_v=(r1==cv_fold)
32 |     x_train,y_train=train_term_doc[filter_t].copy(),labels[filter_t]
33 |     x_val,y_val=train_term_doc[~filter_t].copy(),labels[~filter_t]
34 | 
35 |     '''信息增益'''
36 |     smooth=0.00000001
37 |     KL=np.zeros([1,x_train.shape[1]])
38 |     for c in range(1,20):
39 |         filter_c=(y_train==c)
40 |         '''类内散度：该特征出现时该类为C的次数/该特征出现的次数，这个比值越大越好，但是需要做点平滑，因为词语频率很低的词语该项也很小'''
41 |         CD=np.array((np.sum(x_train[filter_c],axis=0)+smooth)/(np.sum(x_train,axis=0)+19*smooth))
42 |         '''计算熵，熵越小越好'''
43 |         KL-=(CD*np.log(CD))
44 |     print (KL.min(),KL.mean(),KL.max())
45 |     KL=KL.max()-KL+0.5
46 |     print (KL.min(),KL.mean(),KL.max())
47 | 
48 |     gc.collect()
49 |     x_train=x_train.multiply(KL)
50 |     x_val=x_val.multiply(KL)
51 |     x_test=test_term_doc.copy()
52 |     x_test=x_test.multiply(KL)
53 | 
54 |     clf.fit(x_train,y_train)
55 |     val_tf[filter_v,:] = clf.predict_proba(x_val)
56 |     print (np.mean(np.argmax(val_tf[filter_v,:],1)+1==val_pred))
57 |     
58 |     test_tf+= clf.predict_proba(x_test)
59 | test_tf/=5
60 | 
61 | np.save('../stacking/tfidf/val_tfidf_%s'%column,val_tf)
62 | np.save('../stacking/tfidf/test_tfidf_%s'%column,test_tf)
63 | 
64 | 
65 | 
66 | 
67 | 
68 | 
69 |     
70 |     
71 | 


--------------------------------------------------------------------------------
/data/README.MD:
--------------------------------------------------------------------------------
1 | 用于保存初始文件和中间临时文件，以及checkpoint
2 | 


--------------------------------------------------------------------------------
/data/checkpoint/README.MD:
--------------------------------------------------------------------------------
1 | 
2 | 


--------------------------------------------------------------------------------
/model/Fast_attention.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | word_embed_vector=vector1
  8 | print (word_embed_vector.shape)
  9 | 
 10 | class param(object):
 11 |     num_classes=19
 12 |     sequence_length=1000
 13 |     embed_size=100
 14 |     vocab_size=679250
 15 |     batch_size=128
 16 |     lr=5e-3
 17 |     
 18 | class fast_param(param):
 19 |     drop_keep_prob=0.5
 20 |     l2_lambda=1e-4
 21 |     hiddim=80
 22 |     vector_num=10
 23 |     atten_size=100
 24 | 
 25 | arg=fast_param()
 26 | 
 27 | class Basic_model:
 28 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 29 |         self.num_classes = num_classes
 30 |         self.sequence_length = sequence_length
 31 |         self.vocab_size = vocab_size
 32 |         self.embed_size = embed_size
 33 |         self.global_steps=tf.Variable(0, trainable=False)
 34 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 35 |         
 36 |         #placeholder
 37 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 38 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 39 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 40 |         self.dropembed=tf.placeholder(tf.float32,name="embed_keep_prob")
 41 |         self.training=tf.placeholder(tf.bool,name="training")
 42 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 43 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 44 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 45 |         self.topk=tf.placeholder(tf.int32, name="topk")
 46 |         
 47 |     def weight_init(self,shape,name):
 48 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 49 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 50 |         return  weight
 51 |     
 52 |     def bias_init(self,shape,name):
 53 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 54 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 55 |         return  bias
 56 |     
 57 |     
 58 |     
 59 | class FastText(Basic_model):
 60 |     def __init__(self,arg):
 61 |         super(FastText, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 62 |         self.hiddim=arg.hiddim
 63 |         self.atten_size=arg.atten_size
 64 |         self.vector_num=arg.vector_num
 65 |         
 66 |         self.W_atten=self.weight_init([self.embed_size,self.atten_size],name='atten')
 67 |         self.b_atten=self.bias_init([self.atten_size],name='atten')
 68 |         self.W_atten2=self.weight_init([self.atten_size,self.atten_size],name='atten2')
 69 |         self.b_atten2=self.bias_init([self.atten_size],name='atten2')
 70 |         
 71 |         self.UW=self.weight_init([self.atten_size,self.vector_num],name='UW')
 72 |         self.class_vec=self.weight_init([self.vector_num,self.embed_size,self.hiddim],name='class_vec')
 73 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 74 |         
 75 |         self.logit=self.forward()
 76 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 77 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 78 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 79 |         self.loss_add_reg=self.losses+self.l2_losses
 80 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 81 |         
 82 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 83 | 
 84 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 85 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 86 |         print ('pretrained,fine-tuning',var1[0])
 87 |         
 88 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 89 |         with tf.control_dependencies(update_ops):
 90 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 91 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 92 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 93 |             
 94 |     def forward(self):
 95 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 96 |         print ('s',s.shape)
 97 |         
 98 |         o1=tf.nn.tanh(tf.matmul(tf.reshape(s,[-1,self.embed_size]),self.W_atten)+self.b_atten)
 99 |         o1a=tf.nn.dropout(o1,self.keep_prob)
100 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten2)+self.b_atten2)
101 |         print ('o1',o1.shape)
102 |         
103 |         o2=tf.reshape(tf.matmul(o1,self.UW),[-1,self.sequence_length,self.vector_num])
104 |         '''这里可以做点文章！对于一些权重很低的词语，我不想让他们加入！'''
105 |         o3=tf.nn.softmax(o2,axis=1)
106 |         print ('o3',o3.shape)
107 |         
108 |         context_vec=tf.reduce_sum(tf.expand_dims(s,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
109 |         print (context_vec.shape)
110 |         
111 |         newc=tf.transpose(context_vec,[2,0,1])
112 |         print ('newc',newc.shape)
113 | 
114 |         print ('newc',newc.shape)
115 |         print ('classvec',self.class_vec.shape)
116 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
117 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
118 |         print (o4.shape)
119 |         print (o5.shape)
120 |         
121 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
122 |         o5all=o5bn
123 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
124 |         
125 |         print('o5all',o5all.shape)
126 |         
127 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
128 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
129 |                            ,kernel_regularizer=None)
130 |         print ('score',score.shape)
131 |         
132 |         return score   
133 |     
134 | tf.reset_default_graph()
135 | ss=FastText(arg)
136 | 
137 | import sys
138 | use_test=[]
139 | cv_fold=int(sys.argv[1])
140 | print (cv_fold)
141 | if cv_fold==1:
142 |     use_test=list(range(50001))
143 | if cv_fold==2:
144 |     use_test=list(range(50000,102277))
145 | if cv_fold==3:
146 |     use_test=list(range(30000,80001))
147 | if cv_fold==4:
148 |     use_test=list(range(30001))+list(range(80000,102277))
149 | if cv_fold==5:
150 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
151 | print (len(use_test),use_test[0],use_test[-1])
152 | 
153 | train_embed=np.load('../data/train_embed.npy')
154 | test_embed=np.load('../data/test_embed.npy')[use_test]
155 | labels=np.load('../data/labels.npy')
156 | labels-=1
157 | slabel=np.zeros((labels.shape[0],19))
158 | slabel[np.arange(labels.shape[0]),labels]=1.0
159 | np.random.seed(2018)
160 | 
161 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
162 | filter_t=(r1!=(cv_fold-1))
163 | filter_v=~filter_t
164 | x_train , y_train= train_embed[filter_t],slabel[filter_t]
165 | x_val  ,  y_val= train_embed[filter_v],slabel[filter_v]
166 | 
167 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
168 | x_train=np.concatenate((x_train,test_embed),axis=0)
169 | y_train=np.concatenate((y_train,test_pred_labels))
170 | print (x_train.shape,y_train.shape)
171 | 
172 | import random
173 | import gc
174 | r2=list(range(x_train.shape[0]))
175 | 
176 | 
177 | saver = tf.train.Saver()
178 | lastacc=0
179 | lastloss=99999
180 | learning_rate=1e-3
181 | embed_rate=2e-4
182 | finetune=False
183 | with tf.Session(config=config) as sess:
184 |     sess.run(tf.global_variables_initializer())
185 |     for ep in range(50):
186 |         ite=0
187 |         random.shuffle(r2) 
188 |         while(ite<x_train.shape[0]):
189 |             gc.collect()
190 |             global_step=sess.run(ss.global_steps)
191 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
192 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
193 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
194 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
195 |             ite+=arg.batch_size
196 |             if finetune:
197 |                 sess.run([ss.train_op],feed_dict=feed)
198 |             else:
199 |                 sess.run([ss.train_step2],feed_dict=feed)
200 |             if (ite//arg.batch_size)%50==0:
201 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
202 | 
203 |         ite=0
204 |         mypred=[]
205 |         myloss=0
206 |         while(ite<x_val.shape[0]):
207 |             gc.collect()
208 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
209 |                   ss.y:y_val[ite:ite+arg.batch_size],
210 |                     ss.training:False,
211 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
212 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
213 |             mypred.extend(list(np.argmax(pred,1)+1))
214 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
215 |             ite+=arg.batch_size
216 |         myloss/=x_val.shape[0]
217 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
218 |         print (acc,myloss)
219 |         if myloss<lastloss:
220 |             saver.save(sess,"../data/checkpoint/fast%d.ckpt"%cv_fold)
221 |             if myloss<lastloss:
222 |                 lastloss=myloss
223 |         else:
224 |             if finetune:
225 |                 learning_rate/=1.25
226 |                 embed_rate/=1.25
227 |             else:
228 |                 learning_rate/=2
229 |                 embed_rate/=2
230 |             if learning_rate<2e-4:
231 |                 finetune=True 
232 |             if learning_rate<6e-5:
233 |                 break
234 | 
235 | saver = tf.train.Saver()
236 | import gc
237 | with tf.Session() as sess:
238 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
239 |     ite=0
240 |     mypred=[]
241 |     myloss=0
242 |     x_val_proba=np.zeros((x_val.shape[0],19))
243 |     while(ite<x_val.shape[0]):
244 |         gc.collect()
245 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
246 |               ss.y:y_val[ite:ite+arg.batch_size],
247 |                 ss.training:False,ss.dropembed:0.0,
248 |                 ss.keep_prob:1.0}
249 |         
250 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
251 |         mypred.extend(list(np.argmax(pred,1)+1))
252 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
253 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
254 |         ite+=arg.batch_size        
255 |     myloss/=x_val.shape[0]
256 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
257 |     print (cv_fold,acc,myloss)
258 |     np.save('../stacking/fast/val_fast1_%d.npy'%cv_fold,x_val_proba)
259 |     
260 | test_embed=np.load('../data/test_embed.npy')
261 | import gc
262 | gc.collect()
263 | print ("test")
264 | saver = tf.train.Saver()
265 | mypred=[]
266 | with tf.Session() as sess:
267 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
268 |     ite=0
269 |     x_test_proba=np.zeros((test_embed.shape[0],19))
270 |     while(ite<test_embed.shape[0]):
271 |         gc.collect()
272 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
273 |                 ss.training:False,ss.dropembed:0.0,
274 |                 ss.keep_prob:1.0}
275 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
276 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
277 |         mypred.extend(list(np.argmax(logit,1)+1))
278 |         ite+=arg.batch_size
279 |     np.save('../stacking/fast/test_fast1_%d.npy'%cv_fold,x_test_proba)                
280 | 


--------------------------------------------------------------------------------
/model/Fast_attention_withsta.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | word_embed_vector=vector1
  8 | print (word_embed_vector.shape)
  9 | 
 10 | class param(object):
 11 |     num_classes=19
 12 |     sequence_length=1000
 13 |     embed_size=100
 14 |     vocab_size=679250
 15 |     batch_size=128
 16 |     lr=5e-3
 17 |     
 18 | class fast_param(param):
 19 |     drop_keep_prob=0.5
 20 |     l2_lambda=1e-4
 21 |     hiddim=80
 22 |     vector_num=10
 23 |     atten_size=100
 24 | 
 25 | arg=fast_param()
 26 | 
 27 | class Basic_model:
 28 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 29 |         self.num_classes = num_classes
 30 |         self.sequence_length = sequence_length
 31 |         self.vocab_size = vocab_size
 32 |         self.embed_size = embed_size
 33 |         self.global_steps=tf.Variable(0, trainable=False)
 34 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 35 |         
 36 |         #placeholder
 37 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 38 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 39 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 40 |         self.dropembed=tf.placeholder(tf.float32,name="embed_keep_prob")
 41 |         self.training=tf.placeholder(tf.bool,name="training")
 42 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 43 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 44 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 45 |         self.topk=tf.placeholder(tf.int32, name="topk")
 46 |         
 47 |     def weight_init(self,shape,name):
 48 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 49 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 50 |         return  weight
 51 |     
 52 |     def bias_init(self,shape,name):
 53 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 54 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 55 |         return  bias
 56 |     
 57 |     
 58 |     
 59 | class FastText(Basic_model):
 60 |     def __init__(self,arg):
 61 |         super(FastText, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 62 |         self.hiddim=arg.hiddim
 63 |         self.atten_size=arg.atten_size
 64 |         self.vector_num=arg.vector_num
 65 |         
 66 |         self.W_atten=self.weight_init([self.embed_size,self.atten_size],name='atten')
 67 |         self.b_atten=self.bias_init([self.atten_size],name='atten')
 68 |         self.W_atten2=self.weight_init([self.atten_size,self.atten_size],name='atten2')
 69 |         self.b_atten2=self.bias_init([self.atten_size],name='atten2')
 70 |         
 71 |         self.UW=self.weight_init([self.atten_size,self.vector_num],name='UW')
 72 |         self.class_vec=self.weight_init([self.vector_num,self.embed_size,self.hiddim],name='class_vec')
 73 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 74 |         
 75 |         self.logit=self.forward()
 76 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 77 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 78 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 79 |         self.loss_add_reg=self.losses+self.l2_losses
 80 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 81 |         
 82 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 83 | 
 84 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 85 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 86 |         print ('pretrained,fine-tuning',var1[0])
 87 |         
 88 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 89 |         with tf.control_dependencies(update_ops):
 90 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 91 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 92 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 93 |             
 94 |     def forward(self):
 95 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 96 |         print ('s',s.shape)
 97 |         
 98 |         o1=tf.nn.tanh(tf.matmul(tf.reshape(s,[-1,self.embed_size]),self.W_atten)+self.b_atten)
 99 |         o1a=tf.nn.dropout(o1,self.keep_prob)
100 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten2)+self.b_atten2)
101 |         print ('o1',o1.shape)
102 |         
103 |         o2=tf.reshape(tf.matmul(o1,self.UW),[-1,self.sequence_length,self.vector_num])
104 |         '''这里可以做点文章！对于一些权重很低的词语，我不想让他们加入！'''
105 |         o3=tf.nn.softmax(o2,axis=1)
106 |         print ('o3',o3.shape)
107 |         
108 |         context_vec=tf.reduce_sum(tf.expand_dims(s,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
109 |         print (context_vec.shape)
110 |         
111 |         newc=tf.transpose(context_vec,[2,0,1])
112 |         print ('newc',newc.shape)
113 | 
114 |         print ('newc',newc.shape)
115 |         print ('classvec',self.class_vec.shape)
116 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
117 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
118 |         print (o4.shape)
119 |         print (o5.shape)
120 |         
121 |         
122 |         svd_hid=tf.layers.dense(self.char_svd,self.hiddim*3,activation=None,use_bias=True,
123 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
124 |                            ,kernel_regularizer=None)
125 |         
126 |         svd_hid2=tf.nn.relu(tf.layers.batch_normalization(svd_hid,training=self.training))
127 |         
128 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
129 |         
130 |         o5all=tf.concat([o5bn,svd_hid2],1)
131 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
132 |         
133 |         print('o5all',o5all.shape)
134 |         
135 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
136 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
137 |                            ,kernel_regularizer=None)
138 |         print ('score',score.shape)
139 |         
140 |         return score   
141 |     
142 | tf.reset_default_graph()
143 | ss=FastText(arg)
144 | 
145 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
146 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
147 | 
148 | import sys
149 | use_test=[]
150 | cv_fold=int(sys.argv[1])
151 | print (cv_fold)
152 | if cv_fold==1:
153 |     use_test=list(range(50001))
154 | if cv_fold==2:
155 |     use_test=list(range(50000,102277))
156 | if cv_fold==3:
157 |     use_test=list(range(30000,80001))
158 | if cv_fold==4:
159 |     use_test=list(range(30001))+list(range(80000,102277))
160 | if cv_fold==5:
161 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
162 | print (len(use_test),use_test[0],use_test[-1])
163 | 
164 | print ('loading')
165 | train_embed=np.load('../data/train_embed.npy')
166 | print ('train')
167 | test_embed=np.load('../data/test_embed.npy')[use_test]
168 | print ('test')
169 | labels=np.load('../data/labels.npy')
170 | labels-=1
171 | print ('labels')
172 | slabel=np.zeros((labels.shape[0],19))
173 | slabel[np.arange(labels.shape[0]),labels]=1.0
174 | np.random.seed(2018)
175 | print ('split')
176 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
177 | filter_t=(r1!=(cv_fold-1))
178 | filter_v=~filter_t
179 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
180 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
181 | print ('testpred')
182 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
183 | svd_test=char_svd_test
184 | presudo_svd=char_svd_test[use_test]
185 | 
186 | 
187 | x_train=np.concatenate((x_train,test_embed),axis=0)
188 | y_train=np.concatenate((y_train,test_pred_labels))
189 | svd_train=np.concatenate((svd_train,presudo_svd))
190 | print (x_train.shape,y_train.shape,svd_train.shape)
191 | 
192 | import random
193 | import gc
194 | r2=list(range(x_train.shape[0]))
195 | 
196 | 
197 | saver = tf.train.Saver()
198 | lastacc=0
199 | lastloss=99999
200 | learning_rate=1e-3
201 | embed_rate=2e-4
202 | finetune=False
203 | config = tf.ConfigProto() 
204 | config.gpu_options.per_process_gpu_memory_fraction = 0.9 
205 | with tf.Session(config=config) as sess:
206 |     sess.run(tf.global_variables_initializer())
207 |     for ep in range(50):
208 |         ite=0
209 |         random.shuffle(r2) 
210 |         while(ite<x_train.shape[0]):
211 |             gc.collect()
212 |             global_step=sess.run(ss.global_steps)
213 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
214 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
215 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
216 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
217 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
218 |             ite+=arg.batch_size
219 |             if finetune:
220 |                 sess.run([ss.train_op],feed_dict=feed)
221 |             else:
222 |                 sess.run([ss.train_step2],feed_dict=feed)
223 |             if (ite//arg.batch_size)%50==0:
224 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
225 | 
226 |         ite=0
227 |         mypred=[]
228 |         myloss=0
229 |         while(ite<x_val.shape[0]):
230 |             gc.collect()
231 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
232 |                   ss.y:y_val[ite:ite+arg.batch_size],
233 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
234 |                     ss.training:False,
235 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
236 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
237 |             mypred.extend(list(np.argmax(pred,1)+1))
238 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
239 |             ite+=arg.batch_size
240 |         myloss/=x_val.shape[0]
241 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
242 |         print (acc,myloss)
243 |         if myloss<lastloss:
244 |             saver.save(sess,"../data/checkpoint/fast%d.ckpt"%cv_fold)
245 |             if myloss<lastloss:
246 |                 lastloss=myloss
247 |         else:
248 |             if finetune:
249 |                 learning_rate/=1.25
250 |                 embed_rate/=1.25
251 |             else:
252 |                 learning_rate/=2
253 |                 embed_rate/=2
254 |             if learning_rate<2e-4:
255 |                 finetune=True 
256 |             if learning_rate<6e-5:
257 |                 break
258 | 
259 | saver = tf.train.Saver()
260 | import gc
261 | with tf.Session() as sess:
262 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
263 |     ite=0
264 |     mypred=[]
265 |     myloss=0
266 |     x_val_proba=np.zeros((x_val.shape[0],19))
267 |     while(ite<x_val.shape[0]):
268 |         gc.collect()
269 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
270 |               ss.y:y_val[ite:ite+arg.batch_size],
271 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
272 |                 ss.training:False,ss.dropembed:0.0,
273 |                 ss.keep_prob:1.0}
274 |         
275 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
276 |         mypred.extend(list(np.argmax(pred,1)+1))
277 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
278 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
279 |         ite+=arg.batch_size        
280 |     myloss/=x_val.shape[0]
281 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
282 |     print (cv_fold,acc,myloss)
283 |     np.save('../stacking/fast/val_fast2_%d.npy'%cv_fold,x_val_proba)
284 |     
285 | test_embed=np.load('../data/test_embed.npy')
286 | import gc
287 | gc.collect()
288 | print ("test")
289 | saver = tf.train.Saver()
290 | mypred=[]
291 | with tf.Session() as sess:
292 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
293 |     ite=0
294 |     x_test_proba=np.zeros((test_embed.shape[0],19))
295 |     while(ite<test_embed.shape[0]):
296 |         gc.collect()
297 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
298 |                 ss.training:False,ss.dropembed:0.0,
299 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
300 |                 ss.keep_prob:1.0}
301 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
302 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
303 |         mypred.extend(list(np.argmax(logit,1)+1))
304 |         ite+=arg.batch_size
305 |     np.save('../stacking/fast/test_fast2_%d.npy'%cv_fold,x_test_proba)                
306 | 


--------------------------------------------------------------------------------
/model/Fast_attention_withsta2.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | vector2=np.load('../data/glove.npy')
  8 | word_embed_vector=np.concatenate((vector1,vector2),axis=1)
  9 | print (word_embed_vector.shape)
 10 | 
 11 | class param(object):
 12 |     num_classes=19
 13 |     sequence_length=1000
 14 |     embed_size=200
 15 |     vocab_size=679250
 16 |     batch_size=128
 17 |     lr=5e-3
 18 |     
 19 | class fast_param(param):
 20 |     drop_keep_prob=0.5
 21 |     l2_lambda=1e-4
 22 |     hiddim=80
 23 |     vector_num=10
 24 |     atten_size=100
 25 | 
 26 | arg=fast_param()
 27 | 
 28 | class Basic_model:
 29 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 30 |         self.num_classes = num_classes
 31 |         self.sequence_length = sequence_length
 32 |         self.vocab_size = vocab_size
 33 |         self.embed_size = embed_size
 34 |         self.global_steps=tf.Variable(0, trainable=False)
 35 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 36 |         
 37 |         #placeholder
 38 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 39 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 40 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 41 |         self.dropembed=tf.placeholder(tf.float32,name="embed_keep_prob")
 42 |         self.training=tf.placeholder(tf.bool,name="training")
 43 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 44 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 45 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 46 |         self.topk=tf.placeholder(tf.int32, name="topk")
 47 |         
 48 |     def weight_init(self,shape,name):
 49 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 50 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 51 |         return  weight
 52 |     
 53 |     def bias_init(self,shape,name):
 54 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 55 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 56 |         return  bias
 57 |     
 58 |     
 59 |     
 60 | class FastText(Basic_model):
 61 |     def __init__(self,arg):
 62 |         super(FastText, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 63 |         self.hiddim=arg.hiddim
 64 |         self.atten_size=arg.atten_size
 65 |         self.vector_num=arg.vector_num
 66 |         
 67 |         self.W_atten=self.weight_init([self.embed_size,self.atten_size],name='atten')
 68 |         self.b_atten=self.bias_init([self.atten_size],name='atten')
 69 |         self.W_atten2=self.weight_init([self.atten_size,self.atten_size],name='atten2')
 70 |         self.b_atten2=self.bias_init([self.atten_size],name='atten2')
 71 |         
 72 |         self.UW=self.weight_init([self.atten_size,self.vector_num],name='UW')
 73 |         self.class_vec=self.weight_init([self.vector_num,self.embed_size,self.hiddim],name='class_vec')
 74 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 75 |         
 76 |         self.logit=self.forward()
 77 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 78 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 79 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 80 |         self.loss_add_reg=self.losses+self.l2_losses
 81 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 82 |         
 83 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 84 | 
 85 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 86 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 87 |         print ('pretrained,fine-tuning',var1[0])
 88 |         
 89 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 90 |         with tf.control_dependencies(update_ops):
 91 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 92 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 93 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 94 |             
 95 |     def forward(self):
 96 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 97 |         print ('s',s.shape)
 98 |         
 99 |         o1=tf.nn.tanh(tf.matmul(tf.reshape(s,[-1,self.embed_size]),self.W_atten)+self.b_atten)
100 |         o1a=tf.nn.dropout(o1,self.keep_prob)
101 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten2)+self.b_atten2)
102 |         print ('o1',o1.shape)
103 |         
104 |         o2=tf.reshape(tf.matmul(o1,self.UW),[-1,self.sequence_length,self.vector_num])
105 |         '''这里可以做点文章！对于一些权重很低的词语，我不想让他们加入！'''
106 |         o3=tf.nn.softmax(o2,axis=1)
107 |         print ('o3',o3.shape)
108 |         
109 |         context_vec=tf.reduce_sum(tf.expand_dims(s,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
110 |         print (context_vec.shape)
111 |         
112 |         newc=tf.transpose(context_vec,[2,0,1])
113 |         print ('newc',newc.shape)
114 | 
115 |         print ('newc',newc.shape)
116 |         print ('classvec',self.class_vec.shape)
117 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
118 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
119 |         print (o4.shape)
120 |         print (o5.shape)
121 |         
122 |         
123 |         svd_hid=tf.layers.dense(self.char_svd,self.hiddim*3,activation=None,use_bias=True,
124 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
125 |                            ,kernel_regularizer=None)
126 |         
127 |         svd_hid2=tf.nn.relu(tf.layers.batch_normalization(svd_hid,training=self.training))
128 |         
129 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
130 |         
131 |         o5all=tf.concat([o5bn,svd_hid2],1)
132 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
133 |         
134 |         print('o5all',o5all.shape)
135 |         
136 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
137 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
138 |                            ,kernel_regularizer=None)
139 |         print ('score',score.shape)
140 |         
141 |         return score   
142 |     
143 | tf.reset_default_graph()
144 | ss=FastText(arg)
145 | 
146 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
147 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
148 | 
149 | import sys
150 | use_test=[]
151 | cv_fold=int(sys.argv[1])
152 | print (cv_fold)
153 | if cv_fold==1:
154 |     use_test=list(range(50001))
155 | if cv_fold==2:
156 |     use_test=list(range(50000,102277))
157 | if cv_fold==3:
158 |     use_test=list(range(30000,80001))
159 | if cv_fold==4:
160 |     use_test=list(range(30001))+list(range(80000,102277))
161 | if cv_fold==5:
162 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
163 | print (len(use_test),use_test[0],use_test[-1])
164 | 
165 | 
166 | train_embed=np.load('../data/train_embed.npy')
167 | test_embed=np.load('../data/test_embed.npy')[use_test]
168 | labels=np.load('../data/labels.npy')
169 | labels-=1
170 | slabel=np.zeros((labels.shape[0],19))
171 | slabel[np.arange(labels.shape[0]),labels]=1.0
172 | np.random.seed(2018)
173 | 
174 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
175 | filter_t=(r1!=(cv_fold-1))
176 | filter_v=~filter_t
177 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
178 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
179 | 
180 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
181 | svd_test=char_svd_test
182 | presudo_svd=char_svd_test[use_test]
183 | 
184 | 
185 | x_train=np.concatenate((x_train,test_embed),axis=0)
186 | y_train=np.concatenate((y_train,test_pred_labels))
187 | svd_train=np.concatenate((svd_train,presudo_svd))
188 | print (x_train.shape,y_train.shape,svd_train.shape)
189 | 
190 | import random
191 | import gc
192 | r2=list(range(x_train.shape[0]))
193 | 
194 | 
195 | saver = tf.train.Saver()
196 | lastacc=0
197 | lastloss=99999
198 | learning_rate=1e-3
199 | embed_rate=2e-4
200 | finetune=False
201 | config = tf.ConfigProto() 
202 | config.gpu_options.per_process_gpu_memory_fraction = 0.9 
203 | with tf.Session(config=config) as sess:
204 |     sess.run(tf.global_variables_initializer())
205 |     for ep in range(50):
206 |         ite=0
207 |         random.shuffle(r2) 
208 |         while(ite<x_train.shape[0]):
209 |             gc.collect()
210 |             global_step=sess.run(ss.global_steps)
211 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
212 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
213 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
214 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
215 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
216 |             ite+=arg.batch_size
217 |             if finetune:
218 |                 sess.run([ss.train_op],feed_dict=feed)
219 |             else:
220 |                 sess.run([ss.train_step2],feed_dict=feed)
221 |             if (ite//arg.batch_size)%50==0:
222 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
223 | 
224 |         ite=0
225 |         mypred=[]
226 |         myloss=0
227 |         while(ite<x_val.shape[0]):
228 |             gc.collect()
229 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
230 |                   ss.y:y_val[ite:ite+arg.batch_size],
231 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
232 |                     ss.training:False,
233 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
234 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
235 |             mypred.extend(list(np.argmax(pred,1)+1))
236 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
237 |             ite+=arg.batch_size
238 |         myloss/=x_val.shape[0]
239 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
240 |         print (acc,myloss)
241 |         if myloss<lastloss:
242 |             saver.save(sess,"../data/checkpoint/fast%d.ckpt"%cv_fold)
243 |             if myloss<lastloss:
244 |                 lastloss=myloss
245 |         else:
246 |             if finetune:
247 |                 learning_rate/=1.25
248 |                 embed_rate/=1.25
249 |             else:
250 |                 learning_rate/=2
251 |                 embed_rate/=2
252 |             if learning_rate<2e-4:
253 |                 finetune=True 
254 |             if learning_rate<6e-5:
255 |                 break
256 | 
257 | saver = tf.train.Saver()
258 | import gc
259 | with tf.Session() as sess:
260 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
261 |     ite=0
262 |     mypred=[]
263 |     myloss=0
264 |     x_val_proba=np.zeros((x_val.shape[0],19))
265 |     while(ite<x_val.shape[0]):
266 |         gc.collect()
267 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
268 |               ss.y:y_val[ite:ite+arg.batch_size],
269 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
270 |                 ss.training:False,ss.dropembed:0.0,
271 |                 ss.keep_prob:1.0}
272 |         
273 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
274 |         mypred.extend(list(np.argmax(pred,1)+1))
275 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
276 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
277 |         ite+=arg.batch_size        
278 |     myloss/=x_val.shape[0]
279 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
280 |     print (cv_fold,acc,myloss)
281 |     np.save('../stacking/fast/val_fast3_%d.npy'%cv_fold,x_val_proba)
282 |     
283 | test_embed=np.load('../data/test_embed.npy')
284 | import gc
285 | gc.collect()
286 | print ("test")
287 | saver = tf.train.Saver()
288 | mypred=[]
289 | with tf.Session() as sess:
290 |     saver.restore(sess, "../data/checkpoint/fast%d.ckpt"%cv_fold)
291 |     ite=0
292 |     x_test_proba=np.zeros((test_embed.shape[0],19))
293 |     while(ite<test_embed.shape[0]):
294 |         gc.collect()
295 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
296 |                 ss.training:False,ss.dropembed:0.0,
297 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
298 |                 ss.keep_prob:1.0}
299 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
300 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
301 |         mypred.extend(list(np.argmax(logit,1)+1))
302 |         ite+=arg.batch_size
303 |     np.save('../stacking/fast/test_fast3_%d.npy'%cv_fold,x_test_proba)                
304 | 


--------------------------------------------------------------------------------
/model/RCNN.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | word_embed_vector=np.load('../data/word_vec.npy')
  5 | 
  6 | class param(object):
  7 |     num_classes=19
  8 |     sequence_length=1000
  9 |     embed_size=100
 10 |     vocab_size=679250
 11 |     batch_size=128
 12 |     lr=5e-3
 13 |     epoch=10
 14 |     
 15 | class rnn_att_param(param):
 16 |     drop_keep_prob=0.5
 17 |     l2_lambda=1e-4
 18 |     hiddim=120
 19 |     hidden_size=128
 20 |     
 21 | arg=rnn_att_param()
 22 | 
 23 | 
 24 | class Basic_model:
 25 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 26 |         self.num_classes = num_classes
 27 |         self.sequence_length = sequence_length
 28 |         self.vocab_size = vocab_size
 29 |         self.embed_size = embed_size
 30 |         self.global_steps=tf.Variable(0, trainable=False)
 31 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 32 |         
 33 |         #placeholder
 34 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 35 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 36 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 37 |         self.keep_prob_embed=tf.placeholder(tf.float32,name="keep_prob_embed")
 38 |         self.training=tf.placeholder(tf.bool,name="training")
 39 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 40 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 41 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 42 |         
 43 |         
 44 |     def weight_init(self,shape,name):
 45 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 46 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 47 |         return  weight
 48 |     
 49 |     def bias_init(self,shape,name):
 50 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 51 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 52 |         return  bias
 53 |     
 54 |     
 55 | #from tensorflow.contrib.cudnn_rnn.python.layers import cudnn_rnn
 56 | class RNN_att(Basic_model):
 57 |     def __init__(self,arg):
 58 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 59 |         self.hiddim=arg.hiddim
 60 |         self.hidden_size=arg.hidden_size
 61 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 62 |         self.filter1=self.weight_init([1,self.hidden_size,1,256],name='filter1')
 63 |         self.bias1=self.bias_init([256],name='filter1')
 64 |         
 65 |         self.filter2=self.weight_init([2,self.hidden_size,1,256],name='filter2')
 66 |         self.bias2=self.bias_init([256],name='filter2')
 67 |         
 68 |         self.filter3=self.weight_init([3,self.hidden_size,1,256],name='filter3')
 69 |         self.bias3=self.bias_init([256],name='filter3')
 70 | 
 71 |         self.logit=self.forward()
 72 |         self.proba=tf.nn.softmax(self.logit,axis=1)  
 73 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 74 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 75 |         self.loss_add_reg=self.losses+self.l2_losses
 76 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 77 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 78 | 
 79 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 80 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 81 |         print ('pretrained,fine-tuning',var1[0])
 82 |         
 83 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 84 |         with tf.control_dependencies(update_ops):
 85 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 86 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 87 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 88 |       
 89 |     def conv(self,x,W,b):
 90 |         return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='VALID')+b
 91 |     
 92 |     def forward(self):
 93 |         
 94 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 95 |         print ('s',s.shape)
 96 |         
 97 |         s2=tf.transpose(s,[1,0,2])
 98 |         print (s2.shape)
 99 |         
100 |         rnn = tf.contrib.cudnn_rnn.CudnnLSTM(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
101 |         rnn_out,_=rnn(s2)
102 |         o1 = tf.transpose(rnn_out,[1,0,2])
103 |         print ('o1.shape',o1.shape)
104 | 
105 |         o1b=tf.expand_dims(o1,-1)
106 |         print ('o1b.shape',o1b.shape)
107 |         
108 |         
109 |         o2a=tf.squeeze(tf.nn.relu((self.conv(o1b,self.filter1,self.bias1))),[2])
110 |         o2b=tf.squeeze(tf.nn.relu((self.conv(o1b,self.filter2,self.bias2))),[2])
111 |         o2c=tf.squeeze(tf.nn.relu((self.conv(o1b,self.filter3,self.bias3))),[2])
112 |         
113 |         print (o2a.shape,o2b.shape,o2c.shape)
114 |                    
115 |         o3a=tf.keras.layers.GlobalAveragePooling1D()(o2a)
116 |         o3b=tf.keras.layers.GlobalAveragePooling1D()(o2b)
117 |         o3c=tf.keras.layers.GlobalAveragePooling1D()(o2c)
118 |         print (o3a.shape,o3b.shape,o3c.shape)
119 |         
120 |         #concat
121 |         con=tf.concat([o3a,o3b,o3c,self.char_svd],axis=-1)
122 |         condrop=tf.nn.dropout(con,self.keep_prob)
123 |         print ('condrop',condrop.shape)
124 |         
125 |         hid=tf.layers.dense(condrop,self.hiddim,activation=None,use_bias=True,
126 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
127 |                            ,kernel_regularizer=None)
128 |         hid2=tf.nn.dropout(tf.nn.relu(tf.layers.batch_normalization(hid,training=self.training)),self.keep_prob)
129 |         print('hid2',hid2.shape)
130 |         score=tf.layers.dense(hid2,self.num_classes,activation=None,use_bias=True,
131 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
132 |                            ,kernel_regularizer=None)
133 |         
134 |         print ('score',score.shape)
135 |         return score   
136 |     
137 |     
138 | tf.reset_default_graph()
139 | ss=RNN_att(arg)
140 | 
141 | 
142 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
143 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
144 | 
145 | import sys
146 | use_test=[]
147 | cv_fold=int(sys.argv[1])
148 | print (cv_fold)
149 | if cv_fold==1:
150 |     use_test=list(range(50001))
151 | if cv_fold==2:
152 |     use_test=list(range(50000,102277))
153 | if cv_fold==3:
154 |     use_test=list(range(30000,80001))
155 | if cv_fold==4:
156 |     use_test=list(range(30001))+list(range(80000,102277))
157 | if cv_fold==5:
158 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
159 | print (len(use_test),use_test[0],use_test[-1])
160 | 
161 | 
162 | train_embed=np.load('../data/train_embed.npy')
163 | test_embed=np.load('../data/test_embed.npy')[use_test]
164 | labels=np.load('../data/labels.npy')
165 | labels-=1
166 | slabel=np.zeros((labels.shape[0],19))
167 | slabel[np.arange(labels.shape[0]),labels]=1.0
168 | np.random.seed(2018)
169 | 
170 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
171 | filter_t=(r1!=(cv_fold-1))
172 | filter_v=~filter_t
173 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
174 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
175 | 
176 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
177 | svd_test=char_svd_test
178 | presudo_svd=char_svd_test[use_test]
179 | 
180 | 
181 | x_train=np.concatenate((x_train,test_embed),axis=0)
182 | y_train=np.concatenate((y_train,test_pred_labels))
183 | svd_train=np.concatenate((svd_train,presudo_svd))
184 | print (x_train.shape,y_train.shape,svd_train.shape)
185 | 
186 | import random
187 | import gc
188 | r2=list(range(x_train.shape[0]))
189 | 
190 | 
191 | 
192 | saver = tf.train.Saver()
193 | lastacc=0
194 | lastloss=99999
195 | learning_rate=1e-3
196 | embed_rate=2e-4
197 | finetune=False
198 | with tf.Session() as sess:
199 |     sess.run(tf.global_variables_initializer())
200 |     for ep in range(50):
201 |         ite=0
202 |         random.shuffle(r2) 
203 |         while(ite<x_train.shape[0]):
204 |             gc.collect()
205 |             global_step=sess.run(ss.global_steps)
206 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
207 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
208 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
209 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
210 |                   ss.keep_prob:arg.drop_keep_prob}
211 |             ite+=arg.batch_size
212 |             if finetune:
213 |                 sess.run([ss.train_op],feed_dict=feed)
214 |             else:
215 |                 sess.run([ss.train_step2],feed_dict=feed)
216 |             if (ite//arg.batch_size)%50==0:
217 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
218 | 
219 |         ite=0
220 |         mypred=[]
221 |         myloss=0
222 |         while(ite<x_val.shape[0]):
223 |             gc.collect()
224 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
225 |                   ss.y:y_val[ite:ite+arg.batch_size],
226 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
227 |                     ss.training:False,
228 |                     ss.keep_prob:1.0}
229 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
230 |             mypred.extend(list(np.argmax(pred,1)+1))
231 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
232 |             ite+=arg.batch_size
233 |         myloss/=x_val.shape[0]
234 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
235 |         print (acc,myloss)
236 |         if myloss<lastloss:
237 |             saver.save(sess,"../data/checkpoint/rcnn%d.ckpt"%cv_fold)
238 |             if myloss<lastloss:
239 |                 lastloss=myloss
240 |         else:
241 |             if finetune:
242 |                 learning_rate/=1.25
243 |                 embed_rate/=1.25
244 |             else:
245 |                 learning_rate/=2
246 |                 embed_rate/=2
247 |             if learning_rate<2e-4:
248 |                 finetune=True 
249 |             if learning_rate<6e-5:
250 |                 break
251 | 
252 |                 
253 | saver = tf.train.Saver()
254 | import gc
255 | with tf.Session() as sess:
256 |     saver.restore(sess, "../data/checkpoint/rcnn%d.ckpt"%cv_fold)
257 |     ite=0
258 |     mypred=[]
259 |     myloss=0
260 |     x_val_proba=np.zeros((x_val.shape[0],19))
261 |     while(ite<x_val.shape[0]):
262 |         gc.collect()
263 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
264 |               ss.y:y_val[ite:ite+arg.batch_size],
265 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
266 |                 ss.training:False,
267 |                 ss.keep_prob:1.0}
268 |         
269 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
270 |         mypred.extend(list(np.argmax(pred,1)+1))
271 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
272 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
273 |         ite+=arg.batch_size        
274 |     myloss/=x_val.shape[0]
275 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
276 |     print (cv_fold,acc,myloss)
277 |     np.save('../stacking/rcnn/val_rcnn_%d.npy'%cv_fold,x_val_proba)
278 |     
279 | test_embed=np.load('../data/test_embed.npy')
280 | import gc
281 | gc.collect()
282 | print ("test")
283 | saver = tf.train.Saver()
284 | mypred=[]
285 | with tf.Session() as sess:
286 |     saver.restore(sess, "../data/checkpoint/rcnn%d.ckpt"%cv_fold)
287 |     ite=0
288 |     x_test_proba=np.zeros((test_embed.shape[0],19))
289 |     while(ite<test_embed.shape[0]):
290 |         gc.collect()
291 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
292 |                 ss.training:False,
293 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
294 |                 ss.keep_prob:1.0}
295 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
296 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
297 |         mypred.extend(list(np.argmax(logit,1)+1))
298 |         ite+=arg.batch_size
299 |     np.save('../stacking/rcnn/test_rcnn_%d.npy'%cv_fold,x_test_proba)                
300 | 


--------------------------------------------------------------------------------
/model/README.MD:
--------------------------------------------------------------------------------
1 | ALL the deep models are here
2 | 
3 | RNN-attention-withsta is the best model with traditional feature. CV result is 0.7853</br>
4 | RNN-attention is the pure deep model which gets the highest score on LB A 0.7852, while the cv score is just 0.7803
5 | 


--------------------------------------------------------------------------------
/model/RNN_attention.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | #vector2=np.load('../data/glove.npy')
  8 | word_embed_vector=vector1
  9 | #word_embed_vector=np.concatenate((vector1,vector2),axis=1)
 10 | print (word_embed_vector.shape)
 11 | 
 12 | class param(object):
 13 |     num_classes=19
 14 |     sequence_length=1000
 15 |     embed_size=100
 16 |     vocab_size=679250
 17 |     batch_size=128
 18 |     lr=5e-3
 19 |     epoch=10
 20 |     
 21 | class rnn_att_param(param):
 22 |     drop_keep_prob=0.5
 23 |     l2_lambda=1e-4
 24 |     hiddim=80
 25 |     hidden_size=128
 26 |     vector_num=10
 27 |     
 28 | arg=rnn_att_param()
 29 | 
 30 | 
 31 | class Basic_model:
 32 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 33 |         self.num_classes = num_classes
 34 |         self.sequence_length = sequence_length
 35 |         self.vocab_size = vocab_size
 36 |         self.embed_size = embed_size
 37 |         self.global_steps=tf.Variable(0, trainable=False)
 38 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 39 |         
 40 |         #placeholder
 41 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 42 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 43 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 44 |         self.dropembed=tf.placeholder(tf.float32,name="dropembed")
 45 |         self.training=tf.placeholder(tf.bool,name="training")
 46 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 47 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 48 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 49 |         
 50 |         
 51 |     def weight_init(self,shape,name):
 52 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 53 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 54 |         return  weight
 55 |     
 56 |     def bias_init(self,shape,name):
 57 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 58 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 59 |         return  bias
 60 |     
 61 | class RNN_att(Basic_model):
 62 |     def __init__(self,arg):
 63 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 64 |         self.hiddim=arg.hiddim
 65 |         self.hidden_size=arg.hidden_size
 66 |         self.vector_num=arg.vector_num
 67 |         self.UW=self.weight_init([self.hidden_size,self.vector_num],name='UW')
 68 |         self.class_vec=self.weight_init([self.vector_num,self.hidden_size,self.hiddim],name='class_vec')
 69 |         self.W_atten=self.weight_init([self.hidden_size,self.hidden_size],name='atten')
 70 |         self.b_atten=self.bias_init([self.hidden_size],name='atten')
 71 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 72 |         
 73 |         self.logit=self.forward()
 74 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 75 |           
 76 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 77 |         
 78 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 79 |         
 80 |         self.loss_add_reg=self.losses+self.l2_losses
 81 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 82 |         
 83 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 84 | 
 85 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 86 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 87 |         print ('pretrained,fine-tuning',var1[0])
 88 |         
 89 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 90 |         with tf.control_dependencies(update_ops):
 91 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 92 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 93 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 94 |             
 95 |     def forward(self):
 96 |         
 97 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 98 |         print ('s',s.shape)
 99 |         
100 |         s2=tf.transpose(s,[1,0,2])
101 |         print (s2.shape)
102 |         
103 |         rnn = tf.contrib.cudnn_rnn.CudnnGRU(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
104 |         rnn_embed = tf.transpose(rnn(s2)[0],[1,0,2])
105 |         
106 |         print (rnn_embed.shape)
107 |         o1=tf.reshape(rnn_embed,[-1,rnn_embed.shape[2]])
108 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten)+self.b_atten)
109 |         print ('o1.shape',o1b.shape)   
110 |         
111 |         o2=tf.reshape(tf.matmul(o1b,self.UW),[-1,self.sequence_length,self.vector_num])
112 |         o3=tf.nn.softmax(o2,axis=1)
113 |         print ('o3',o3.shape)
114 |         
115 |         context_vec=tf.reduce_sum(tf.expand_dims(rnn_embed,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
116 |         print (context_vec.shape)
117 |         context_vecb=tf.transpose(context_vec,[2,0,1])
118 |         print ('c',context_vecb.shape)
119 |  
120 |         newc=context_vecb
121 |         print ('newc',newc.shape)
122 |         print ('classvec',self.class_vec.shape)
123 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
124 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
125 |         print (o4.shape)
126 |         print (o5.shape)
127 |         
128 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
129 |         o5all=o5bn
130 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
131 |         print('o5all',o5all.shape)
132 |         
133 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
134 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
135 |                            ,kernel_regularizer=None)
136 |         
137 |         return score   
138 |     
139 |     
140 | tf.reset_default_graph()
141 | ss=RNN_att(arg)
142 | 
143 | import sys
144 | use_test=[]
145 | cv_fold=int(sys.argv[1])
146 | print (cv_fold)
147 | if cv_fold==1:
148 |     use_test=list(range(50001))
149 | if cv_fold==2:
150 |     use_test=list(range(50000,102277))
151 | if cv_fold==3:
152 |     use_test=list(range(30000,80001))
153 | if cv_fold==4:
154 |     use_test=list(range(30001))+list(range(80000,102277))
155 | if cv_fold==5:
156 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
157 | print (len(use_test),use_test[0],use_test[-1])
158 | 
159 | 
160 | train_embed=np.load('../data/train_embed.npy')
161 | test_embed=np.load('../data/test_embed.npy')[use_test]
162 | labels=np.load('../data/labels.npy')
163 | labels-=1
164 | slabel=np.zeros((labels.shape[0],19))
165 | slabel[np.arange(labels.shape[0]),labels]=1.0
166 | 
167 | np.random.seed(2018)
168 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
169 | filter_t=(r1!=(cv_fold-1))
170 | filter_v=~filter_t
171 | x_train , y_train = train_embed[filter_t],slabel[filter_t]
172 | x_val  ,  y_val = train_embed[filter_v],slabel[filter_v]
173 | 
174 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
175 | 
176 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
177 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
178 | 在CNN和RNN中可能更加有效果。'''
179 | x_train=np.concatenate((x_train,test_embed),axis=0)
180 | y_train=np.concatenate((y_train,test_pred_labels))
181 | print (x_train.shape,y_train.shape)
182 | 
183 | import random
184 | import gc
185 | r2=list(range(x_train.shape[0]))
186 | 
187 | 
188 | 
189 | saver = tf.train.Saver()
190 | lastacc=0
191 | lastloss=99999
192 | learning_rate=1e-3
193 | embed_rate=1e-4
194 | finetune=False
195 | with tf.Session() as sess:
196 |     sess.run(tf.global_variables_initializer())
197 |     for ep in range(50):
198 |         ite=0
199 |         random.shuffle(r2) 
200 |         while(ite<x_train.shape[0]):
201 |             gc.collect()
202 |             global_step=sess.run(ss.global_steps)
203 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
204 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
205 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
206 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
207 |             ite+=arg.batch_size
208 |             if finetune:
209 |                 sess.run([ss.train_op],feed_dict=feed)
210 |             else:
211 |                 sess.run([ss.train_step2],feed_dict=feed)
212 |             if (ite//arg.batch_size)%50==0:
213 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
214 | 
215 |         ite=0
216 |         mypred=[]
217 |         myloss=0
218 |         while(ite<x_val.shape[0]):
219 |             gc.collect()
220 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
221 |                   ss.y:y_val[ite:ite+arg.batch_size],
222 |                     ss.training:False,
223 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
224 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
225 |             mypred.extend(list(np.argmax(pred,1)+1))
226 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
227 |             ite+=arg.batch_size
228 |         myloss/=x_val.shape[0]
229 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
230 |         print (acc,myloss)
231 |         if myloss<lastloss:
232 |             saver.save(sess,"../data/checkpoint/rnn%d.ckpt"%cv_fold)
233 |             if myloss<lastloss:
234 |                 lastloss=myloss
235 |         else:
236 |             if finetune:
237 |                 learning_rate/=1.25
238 |                 embed_rate/=1.25
239 |             else:
240 |                 learning_rate/=2
241 |                 embed_rate/=2
242 |             if learning_rate<2e-4:
243 |                 finetune=True 
244 |             if learning_rate<6e-5:
245 |                 break
246 | 
247 | saver = tf.train.Saver()
248 | import gc
249 | with tf.Session() as sess:
250 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
251 |     ite=0
252 |     mypred=[]
253 |     myloss=0
254 |     x_val_proba=np.zeros((x_val.shape[0],19))
255 |     while(ite<x_val.shape[0]):
256 |         gc.collect()
257 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
258 |               ss.y:y_val[ite:ite+arg.batch_size],
259 |                 ss.training:False,ss.dropembed:0.0,
260 |                 ss.keep_prob:1.0}
261 |         
262 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
263 |         mypred.extend(list(np.argmax(pred,1)+1))
264 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
265 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
266 |         ite+=arg.batch_size        
267 |     myloss/=x_val.shape[0]
268 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
269 |     print (cv_fold,acc,myloss)
270 |     np.save('../stacking/rnn/val_rnn1_%d.npy'%cv_fold,x_val_proba)
271 |     
272 | test_embed=np.load('../data/test_embed.npy')
273 | import gc
274 | gc.collect()
275 | print ("test")
276 | saver = tf.train.Saver()
277 | mypred=[]
278 | with tf.Session() as sess:
279 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
280 |     ite=0
281 |     x_test_proba=np.zeros((test_embed.shape[0],19))
282 |     while(ite<test_embed.shape[0]):
283 |         gc.collect()
284 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
285 |                 ss.training:False,ss.dropembed:0.0,
286 |                 ss.keep_prob:1.0}
287 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
288 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
289 |         mypred.extend(list(np.argmax(logit,1)+1))
290 |         ite+=arg.batch_size
291 |     np.save('../stacking/rnn/test_rnn1_%d.npy'%cv_fold,x_test_proba) 
292 | 


--------------------------------------------------------------------------------
/model/RNN_attention2.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | vector2=np.load('../data/glove.npy')
  8 | word_embed_vector=np.concatenate((vector1,vector2),axis=1)
  9 | print (word_embed_vector.shape)
 10 | 
 11 | class param(object):
 12 |     num_classes=19
 13 |     sequence_length=1000
 14 |     embed_size=200
 15 |     vocab_size=679250
 16 |     batch_size=128
 17 |     lr=5e-3
 18 |     epoch=10
 19 |     
 20 | class rnn_att_param(param):
 21 |     drop_keep_prob=0.5
 22 |     l2_lambda=1e-4
 23 |     hiddim=80
 24 |     hidden_size=128
 25 |     vector_num=10
 26 |     
 27 | arg=rnn_att_param()
 28 | 
 29 | 
 30 | class Basic_model:
 31 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 32 |         self.num_classes = num_classes
 33 |         self.sequence_length = sequence_length
 34 |         self.vocab_size = vocab_size
 35 |         self.embed_size = embed_size
 36 |         self.global_steps=tf.Variable(0, trainable=False)
 37 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 38 |         
 39 |         #placeholder
 40 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 41 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 42 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 43 |         self.dropembed=tf.placeholder(tf.float32,name="dropembed")
 44 |         self.training=tf.placeholder(tf.bool,name="training")
 45 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 46 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 47 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 48 |         
 49 |         
 50 |     def weight_init(self,shape,name):
 51 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 52 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 53 |         return  weight
 54 |     
 55 |     def bias_init(self,shape,name):
 56 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 57 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 58 |         return  bias
 59 |     
 60 | class RNN_att(Basic_model):
 61 |     def __init__(self,arg):
 62 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 63 |         self.hiddim=arg.hiddim
 64 |         self.hidden_size=arg.hidden_size
 65 |         self.vector_num=arg.vector_num
 66 |         self.UW=self.weight_init([self.hidden_size,self.vector_num],name='UW')
 67 |         self.class_vec=self.weight_init([self.vector_num,self.hidden_size,self.hiddim],name='class_vec')
 68 |         self.W_atten=self.weight_init([self.hidden_size,self.hidden_size],name='atten')
 69 |         self.b_atten=self.bias_init([self.hidden_size],name='atten')
 70 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 71 |         
 72 |         self.logit=self.forward()
 73 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 74 |           
 75 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 76 |         
 77 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 78 |         
 79 |         self.loss_add_reg=self.losses+self.l2_losses
 80 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 81 |         
 82 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 83 | 
 84 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 85 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 86 |         print ('pretrained,fine-tuning',var1[0])
 87 |         
 88 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 89 |         with tf.control_dependencies(update_ops):
 90 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 91 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 92 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 93 |             
 94 |     def forward(self):
 95 |         
 96 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 97 |         print ('s',s.shape)
 98 |         
 99 |         s2=tf.transpose(s,[1,0,2])
100 |         print (s2.shape)
101 |         
102 |         rnn = tf.contrib.cudnn_rnn.CudnnGRU(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
103 |         rnn_embed = tf.transpose(rnn(s2)[0],[1,0,2])
104 |         
105 |         print (rnn_embed.shape)
106 |         o1=tf.reshape(rnn_embed,[-1,rnn_embed.shape[2]])
107 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten)+self.b_atten)
108 |         print ('o1.shape',o1b.shape)   
109 |         
110 |         o2=tf.reshape(tf.matmul(o1b,self.UW),[-1,self.sequence_length,self.vector_num])
111 |         o3=tf.nn.softmax(o2,axis=1)
112 |         print ('o3',o3.shape)
113 |         
114 |         context_vec=tf.reduce_sum(tf.expand_dims(rnn_embed,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
115 |         print (context_vec.shape)
116 |         context_vecb=tf.transpose(context_vec,[2,0,1])
117 |         print ('c',context_vecb.shape)
118 |  
119 |         newc=context_vecb
120 |         print ('newc',newc.shape)
121 |         print ('classvec',self.class_vec.shape)
122 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
123 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
124 |         print (o4.shape)
125 |         print (o5.shape)
126 |         
127 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
128 |         o5all=o5bn
129 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
130 |         print('o5all',o5all.shape)
131 |         
132 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
133 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
134 |                            ,kernel_regularizer=None)
135 |         
136 |         return score   
137 |     
138 |     
139 | tf.reset_default_graph()
140 | ss=RNN_att(arg)
141 | 
142 | import sys
143 | use_test=[]
144 | cv_fold=int(sys.argv[1])
145 | print (cv_fold)
146 | if cv_fold==1:
147 |     use_test=list(range(50001))
148 | if cv_fold==2:
149 |     use_test=list(range(50000,102277))
150 | if cv_fold==3:
151 |     use_test=list(range(30000,80001))
152 | if cv_fold==4:
153 |     use_test=list(range(30001))+list(range(80000,102277))
154 | if cv_fold==5:
155 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
156 | print (len(use_test),use_test[0],use_test[-1])
157 | 
158 | 
159 | train_embed=np.load('../data/train_embed.npy')
160 | test_embed=np.load('../data/test_embed.npy')[use_test]
161 | labels=np.load('../data/labels.npy')
162 | labels-=1
163 | slabel=np.zeros((labels.shape[0],19))
164 | slabel[np.arange(labels.shape[0]),labels]=1.0
165 | 
166 | np.random.seed(2018)
167 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
168 | filter_t=(r1!=(cv_fold-1))
169 | filter_v=~filter_t
170 | x_train , y_train = train_embed[filter_t],slabel[filter_t]
171 | x_val  ,  y_val = train_embed[filter_v],slabel[filter_v]
172 | 
173 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
174 | 
175 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
176 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
177 | 在CNN和RNN中可能更加有效果。'''
178 | x_train=np.concatenate((x_train,test_embed),axis=0)
179 | y_train=np.concatenate((y_train,test_pred_labels))
180 | print (x_train.shape,y_train.shape)
181 | 
182 | import random
183 | import gc
184 | r2=list(range(x_train.shape[0]))
185 | 
186 | 
187 | 
188 | saver = tf.train.Saver()
189 | lastacc=0
190 | lastloss=99999
191 | learning_rate=1e-3
192 | embed_rate=1e-4
193 | finetune=False
194 | with tf.Session() as sess:
195 |     sess.run(tf.global_variables_initializer())
196 |     for ep in range(50):
197 |         ite=0
198 |         random.shuffle(r2) 
199 |         while(ite<x_train.shape[0]):
200 |             gc.collect()
201 |             global_step=sess.run(ss.global_steps)
202 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
203 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
204 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
205 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
206 |             ite+=arg.batch_size
207 |             if finetune:
208 |                 sess.run([ss.train_op],feed_dict=feed)
209 |             else:
210 |                 sess.run([ss.train_step2],feed_dict=feed)
211 |             if (ite//arg.batch_size)%50==0:
212 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
213 | 
214 |         ite=0
215 |         mypred=[]
216 |         myloss=0
217 |         while(ite<x_val.shape[0]):
218 |             gc.collect()
219 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
220 |                   ss.y:y_val[ite:ite+arg.batch_size],
221 |                     ss.training:False,
222 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
223 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
224 |             mypred.extend(list(np.argmax(pred,1)+1))
225 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
226 |             ite+=arg.batch_size
227 |         myloss/=x_val.shape[0]
228 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
229 |         print (acc,myloss)
230 |         if myloss<lastloss:
231 |             saver.save(sess,"../data/checkpoint/rnn%d.ckpt"%cv_fold)
232 |             if myloss<lastloss:
233 |                 lastloss=myloss
234 |         else:
235 |             if finetune:
236 |                 learning_rate/=1.25
237 |                 embed_rate/=1.25
238 |             else:
239 |                 learning_rate/=2
240 |                 embed_rate/=2
241 |             if learning_rate<2e-4:
242 |                 finetune=True 
243 |             if learning_rate<6e-5:
244 |                 break
245 | 
246 | saver = tf.train.Saver()
247 | import gc
248 | with tf.Session() as sess:
249 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
250 |     ite=0
251 |     mypred=[]
252 |     myloss=0
253 |     x_val_proba=np.zeros((x_val.shape[0],19))
254 |     while(ite<x_val.shape[0]):
255 |         gc.collect()
256 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
257 |               ss.y:y_val[ite:ite+arg.batch_size],
258 |                 ss.training:False,ss.dropembed:0.0,
259 |                 ss.keep_prob:1.0}
260 |         
261 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
262 |         mypred.extend(list(np.argmax(pred,1)+1))
263 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
264 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
265 |         ite+=arg.batch_size        
266 |     myloss/=x_val.shape[0]
267 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
268 |     print (cv_fold,acc,myloss)
269 |     np.save('../stacking/rnn/val_rnn2_%d.npy'%cv_fold,x_val_proba)
270 |     
271 | test_embed=np.load('../data/test_embed.npy')
272 | import gc
273 | gc.collect()
274 | print ("test")
275 | saver = tf.train.Saver()
276 | mypred=[]
277 | with tf.Session() as sess:
278 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
279 |     ite=0
280 |     x_test_proba=np.zeros((test_embed.shape[0],19))
281 |     while(ite<test_embed.shape[0]):
282 |         gc.collect()
283 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
284 |                 ss.training:False,ss.dropembed:0.0,
285 |                 ss.keep_prob:1.0}
286 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
287 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
288 |         mypred.extend(list(np.argmax(logit,1)+1))
289 |         ite+=arg.batch_size
290 |     np.save('../stacking/rnn/test_rnn2_%d.npy'%cv_fold,x_test_proba) 
291 | 


--------------------------------------------------------------------------------
/model/RNN_attention_withsta.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | word_embed_vector=vector1
  8 | print (word_embed_vector.shape)
  9 | 
 10 | class param(object):
 11 |     num_classes=19
 12 |     sequence_length=1000
 13 |     embed_size=100
 14 |     vocab_size=679250
 15 |     batch_size=128
 16 |     lr=5e-3
 17 |     epoch=10
 18 |     
 19 | class rnn_att_param(param):
 20 |     drop_keep_prob=0.5
 21 |     l2_lambda=1e-4
 22 |     hiddim=80
 23 |     hidden_size=128
 24 |     vector_num=10
 25 |     
 26 | arg=rnn_att_param()
 27 | 
 28 | 
 29 | class Basic_model:
 30 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 31 |         self.num_classes = num_classes
 32 |         self.sequence_length = sequence_length
 33 |         self.vocab_size = vocab_size
 34 |         self.embed_size = embed_size
 35 |         self.global_steps=tf.Variable(0, trainable=False)
 36 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 37 |         
 38 |         #placeholder
 39 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 40 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 41 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 42 |         self.dropembed=tf.placeholder(tf.float32,name="dropembed")
 43 |         self.training=tf.placeholder(tf.bool,name="training")
 44 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 45 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 46 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 47 |         
 48 |         
 49 |     def weight_init(self,shape,name):
 50 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 51 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 52 |         return  weight
 53 |     
 54 |     def bias_init(self,shape,name):
 55 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 56 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 57 |         return  bias
 58 |     
 59 | class RNN_att(Basic_model):
 60 |     def __init__(self,arg):
 61 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 62 |         self.hiddim=arg.hiddim
 63 |         self.hidden_size=arg.hidden_size
 64 |         self.vector_num=arg.vector_num
 65 |         self.UW=self.weight_init([self.hidden_size,self.vector_num],name='UW')
 66 |         self.class_vec=self.weight_init([self.vector_num,self.hidden_size,self.hiddim],name='class_vec')
 67 |         self.W_atten=self.weight_init([self.hidden_size,self.hidden_size],name='atten')
 68 |         self.b_atten=self.bias_init([self.hidden_size],name='atten')
 69 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 70 |         
 71 |         self.logit=self.forward()
 72 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 73 |           
 74 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 75 |         
 76 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 77 |         
 78 |         self.loss_add_reg=self.losses+self.l2_losses
 79 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 80 |         
 81 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 82 | 
 83 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 84 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 85 |         print ('pretrained,fine-tuning',var1[0])
 86 |         
 87 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 88 |         with tf.control_dependencies(update_ops):
 89 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 90 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 91 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 92 |             
 93 |     def forward(self):
 94 |         
 95 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 96 |         print ('s',s.shape)
 97 |         
 98 |         s2=tf.transpose(s,[1,0,2])
 99 |         print (s2.shape)
100 |         
101 |         rnn = tf.contrib.cudnn_rnn.CudnnGRU(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
102 |         rnn_embed = tf.transpose(rnn(s2)[0],[1,0,2])
103 |         
104 |         print (rnn_embed.shape)
105 |         o1=tf.reshape(rnn_embed,[-1,rnn_embed.shape[2]])
106 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten)+self.b_atten)
107 |         print ('o1.shape',o1b.shape)   
108 |         
109 |         o2=tf.reshape(tf.matmul(o1b,self.UW),[-1,self.sequence_length,self.vector_num])
110 |         o3=tf.nn.softmax(o2,axis=1)
111 |         print ('o3',o3.shape)
112 |         
113 |         context_vec=tf.reduce_sum(tf.expand_dims(rnn_embed,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
114 |         print (context_vec.shape)
115 |         context_vecb=tf.transpose(context_vec,[2,0,1])
116 |         print ('c',context_vecb.shape)
117 |  
118 |         newc=context_vecb
119 |         print ('newc',newc.shape)
120 |         print ('classvec',self.class_vec.shape)
121 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
122 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
123 |         print (o4.shape)
124 |         print (o5.shape)
125 |         
126 |         svd_hid=tf.layers.dense(self.char_svd,self.hiddim*3,activation=None,use_bias=True,
127 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
128 |                            ,kernel_regularizer=None)
129 |         
130 |         svd_hid2=tf.nn.relu(tf.layers.batch_normalization(svd_hid,training=self.training))
131 |         
132 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
133 |         o5all=tf.concat([o5bn,svd_hid2],1)
134 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
135 |         print('o5all',o5all.shape)
136 |         
137 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
138 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
139 |                            ,kernel_regularizer=None)
140 |         
141 |         return score   
142 |     
143 |     
144 | tf.reset_default_graph()
145 | ss=RNN_att(arg)
146 | 
147 | import sys
148 | use_test=[]
149 | cv_fold=int(sys.argv[1])
150 | print (cv_fold)
151 | if cv_fold==1:
152 |     use_test=list(range(50001))
153 | if cv_fold==2:
154 |     use_test=list(range(50000,102277))
155 | if cv_fold==3:
156 |     use_test=list(range(30000,80001))
157 | if cv_fold==4:
158 |     use_test=list(range(30001))+list(range(80000,102277))
159 | if cv_fold==5:
160 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
161 | print (len(use_test),use_test[0],use_test[-1])
162 | 
163 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
164 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
165 | train_embed=np.load('../data/train_embed.npy')
166 | test_embed=np.load('../data/test_embed.npy')[use_test]
167 | labels=np.load('../data/labels.npy')
168 | labels-=1
169 | slabel=np.zeros((labels.shape[0],19))
170 | slabel[np.arange(labels.shape[0]),labels]=1.0
171 | 
172 | np.random.seed(2018)
173 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
174 | filter_t=(r1!=(cv_fold-1))
175 | filter_v=~filter_t
176 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
177 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
178 | 
179 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
180 | svd_test=char_svd_test
181 | presudo_svd=char_svd_test[use_test]
182 | 
183 | 
184 | 
185 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
186 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
187 | 在CNN和RNN中可能更加有效果。'''
188 | x_train=np.concatenate((x_train,test_embed),axis=0)
189 | y_train=np.concatenate((y_train,test_pred_labels))
190 | svd_train=np.concatenate((svd_train,presudo_svd))
191 | print (x_train.shape,y_train.shape,svd_train.shape)
192 | 
193 | import random
194 | import gc
195 | r2=list(range(x_train.shape[0]))
196 | 
197 | 
198 | 
199 | saver = tf.train.Saver()
200 | lastacc=0
201 | lastloss=99999
202 | learning_rate=1e-3
203 | embed_rate=1e-4
204 | finetune=False
205 | with tf.Session() as sess:
206 |     #saver.restore(sess, "../data/checkpoint/fastwordglove.ckpt-2")
207 |     sess.run(tf.global_variables_initializer())
208 |     for ep in range(50):
209 |         ite=0
210 |         random.shuffle(r2) 
211 |         while(ite<x_train.shape[0]):
212 |             gc.collect()
213 |             global_step=sess.run(ss.global_steps)
214 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
215 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
216 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
217 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
218 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
219 |             ite+=arg.batch_size
220 |             if finetune:
221 |                 sess.run([ss.train_op],feed_dict=feed)
222 |             else:
223 |                 sess.run([ss.train_step2],feed_dict=feed)
224 |             if (ite//arg.batch_size)%50==0:
225 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
226 | 
227 |         ite=0
228 |         mypred=[]
229 |         myloss=0
230 |         while(ite<x_val.shape[0]):
231 |             gc.collect()
232 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
233 |                   ss.y:y_val[ite:ite+arg.batch_size],
234 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
235 |                     ss.training:False,
236 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
237 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
238 |             mypred.extend(list(np.argmax(pred,1)+1))
239 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
240 |             ite+=arg.batch_size
241 |         myloss/=x_val.shape[0]
242 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
243 |         print (acc,myloss)
244 |         if myloss<lastloss:
245 |             saver.save(sess,"../data/checkpoint/rnn%d.ckpt"%cv_fold)
246 |             if myloss<lastloss:
247 |                 lastloss=myloss
248 |         else:
249 |             if finetune:
250 |                 learning_rate/=1.25
251 |                 embed_rate/=1.25
252 |             else:
253 |                 learning_rate/=2
254 |                 embed_rate/=2
255 |             if learning_rate<2e-4:
256 |                 finetune=True 
257 |             if learning_rate<6e-5:
258 |                 break
259 | 
260 | saver = tf.train.Saver()
261 | import gc
262 | with tf.Session() as sess:
263 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
264 |     ite=0
265 |     mypred=[]
266 |     myloss=0
267 |     x_val_proba=np.zeros((x_val.shape[0],19))
268 |     while(ite<x_val.shape[0]):
269 |         gc.collect()
270 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
271 |               ss.y:y_val[ite:ite+arg.batch_size],
272 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
273 |                 ss.training:False,ss.dropembed:0.0,
274 |                 ss.keep_prob:1.0}
275 |         
276 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
277 |         mypred.extend(list(np.argmax(pred,1)+1))
278 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
279 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
280 |         ite+=arg.batch_size        
281 |     myloss/=x_val.shape[0]
282 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
283 |     print (cv_fold,acc,myloss)
284 |     np.save('../stacking/rnn/val_rnn3_%d.npy'%cv_fold,x_val_proba)
285 |     
286 | test_embed=np.load('../data/test_embed.npy')
287 | import gc
288 | gc.collect()
289 | print ("test")
290 | saver = tf.train.Saver()
291 | mypred=[]
292 | with tf.Session() as sess:
293 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
294 |     ite=0
295 |     x_test_proba=np.zeros((test_embed.shape[0],19))
296 |     while(ite<test_embed.shape[0]):
297 |         gc.collect()
298 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
299 |                 ss.training:False,ss.dropembed:0.0,
300 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
301 |                 ss.keep_prob:1.0}
302 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
303 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
304 |         mypred.extend(list(np.argmax(logit,1)+1))
305 |         ite+=arg.batch_size
306 |     np.save('../stacking/rnn/test_rnn3_%d.npy'%cv_fold,x_test_proba) 
307 | 


--------------------------------------------------------------------------------
/model/RNN_attention_withsta2.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | import sys
  5 | 
  6 | vector1=np.load('../data/word_vec.npy')
  7 | vector2=np.load('../data/glove.npy')
  8 | word_embed_vector=np.concatenate((vector1,vector2),axis=1)
  9 | print (word_embed_vector.shape)
 10 | 
 11 | class param(object):
 12 |     num_classes=19
 13 |     sequence_length=1000
 14 |     embed_size=100
 15 |     vocab_size=679250
 16 |     batch_size=128
 17 |     lr=5e-3
 18 |     epoch=10
 19 |     
 20 | class rnn_att_param(param):
 21 |     drop_keep_prob=0.5
 22 |     l2_lambda=1e-4
 23 |     hiddim=80
 24 |     hidden_size=128
 25 |     vector_num=10
 26 |     
 27 | arg=rnn_att_param()
 28 | 
 29 | 
 30 | class Basic_model:
 31 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 32 |         self.num_classes = num_classes
 33 |         self.sequence_length = sequence_length
 34 |         self.vocab_size = vocab_size
 35 |         self.embed_size = embed_size
 36 |         self.global_steps=tf.Variable(0, trainable=False)
 37 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 38 |         
 39 |         #placeholder
 40 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 41 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 42 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 43 |         self.dropembed=tf.placeholder(tf.float32,name="dropembed")
 44 |         self.training=tf.placeholder(tf.bool,name="training")
 45 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 46 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 47 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 48 |         
 49 |         
 50 |     def weight_init(self,shape,name):
 51 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 52 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 53 |         return  weight
 54 |     
 55 |     def bias_init(self,shape,name):
 56 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 57 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 58 |         return  bias
 59 |     
 60 | class RNN_att(Basic_model):
 61 |     def __init__(self,arg):
 62 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 63 |         self.hiddim=arg.hiddim
 64 |         self.hidden_size=arg.hidden_size
 65 |         self.vector_num=arg.vector_num
 66 |         self.UW=self.weight_init([self.hidden_size,self.vector_num],name='UW')
 67 |         self.class_vec=self.weight_init([self.vector_num,self.hidden_size,self.hiddim],name='class_vec')
 68 |         self.W_atten=self.weight_init([self.hidden_size,self.hidden_size],name='atten')
 69 |         self.b_atten=self.bias_init([self.hidden_size],name='atten')
 70 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 71 |         
 72 |         self.logit=self.forward()
 73 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 74 |           
 75 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 76 |         
 77 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 78 |         
 79 |         self.loss_add_reg=self.losses+self.l2_losses
 80 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 81 |         
 82 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 83 | 
 84 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 85 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 86 |         print ('pretrained,fine-tuning',var1[0])
 87 |         
 88 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 89 |         with tf.control_dependencies(update_ops):
 90 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 91 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 92 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 93 |             
 94 |     def forward(self):
 95 |         
 96 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 97 |         print ('s',s.shape)
 98 |         
 99 |         s2=tf.transpose(s,[1,0,2])
100 |         print (s2.shape)
101 |         
102 |         rnn = tf.contrib.cudnn_rnn.CudnnGRU(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
103 |         rnn_embed = tf.transpose(rnn(s2)[0],[1,0,2])
104 |         
105 |         print (rnn_embed.shape)
106 |         o1=tf.reshape(rnn_embed,[-1,rnn_embed.shape[2]])
107 |         o1b=tf.nn.tanh(tf.matmul(o1,self.W_atten)+self.b_atten)
108 |         print ('o1.shape',o1b.shape)   
109 |         
110 |         o2=tf.reshape(tf.matmul(o1b,self.UW),[-1,self.sequence_length,self.vector_num])
111 |         o3=tf.nn.softmax(o2,axis=1)
112 |         print ('o3',o3.shape)
113 |         
114 |         context_vec=tf.reduce_sum(tf.expand_dims(rnn_embed,axis=-1)*tf.expand_dims(o3,axis=2),axis=1)
115 |         print (context_vec.shape)
116 |         context_vecb=tf.transpose(context_vec,[2,0,1])
117 |         print ('c',context_vecb.shape)
118 |  
119 |         newc=context_vecb
120 |         print ('newc',newc.shape)
121 |         print ('classvec',self.class_vec.shape)
122 |         o4=tf.transpose(tf.matmul(newc,self.class_vec),[1,0,2])
123 |         o5=tf.reshape(o4,[-1,o4.shape[1]*o4.shape[2]])
124 |         print (o4.shape)
125 |         print (o5.shape)
126 |         
127 |         svd_hid=tf.layers.dense(self.char_svd,self.hiddim*3,activation=None,use_bias=True,
128 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
129 |                            ,kernel_regularizer=None)
130 |         
131 |         svd_hid2=tf.nn.relu(tf.layers.batch_normalization(svd_hid,training=self.training))
132 |         
133 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
134 |         o5all=tf.concat([o5bn,svd_hid2],1)
135 |         o5drop=tf.nn.dropout(o5all,self.keep_prob)
136 |         print('o5all',o5all.shape)
137 |         
138 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
139 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
140 |                            ,kernel_regularizer=None)
141 |         
142 |         return score   
143 |     
144 |     
145 | tf.reset_default_graph()
146 | ss=RNN_att(arg)
147 | 
148 | import sys
149 | use_test=[]
150 | cv_fold=int(sys.argv[1])
151 | print (cv_fold)
152 | if cv_fold==1:
153 |     use_test=list(range(50001))
154 | if cv_fold==2:
155 |     use_test=list(range(50000,102277))
156 | if cv_fold==3:
157 |     use_test=list(range(30000,80001))
158 | if cv_fold==4:
159 |     use_test=list(range(30001))+list(range(80000,102277))
160 | if cv_fold==5:
161 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
162 | print (len(use_test),use_test[0],use_test[-1])
163 | 
164 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
165 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
166 | train_embed=np.load('../data/train_embed.npy')
167 | test_embed=np.load('../data/test_embed.npy')[use_test]
168 | labels=np.load('../data/labels.npy')
169 | labels-=1
170 | slabel=np.zeros((labels.shape[0],19))
171 | slabel[np.arange(labels.shape[0]),labels]=1.0
172 | 
173 | np.random.seed(2018)
174 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
175 | filter_t=(r1!=(cv_fold-1))
176 | filter_v=~filter_t
177 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
178 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
179 | 
180 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
181 | svd_test=char_svd_test
182 | presudo_svd=char_svd_test[use_test]
183 | 
184 | 
185 | 
186 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
187 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
188 | 在CNN和RNN中可能更加有效果。'''
189 | x_train=np.concatenate((x_train,test_embed),axis=0)
190 | y_train=np.concatenate((y_train,test_pred_labels))
191 | svd_train=np.concatenate((svd_train,presudo_svd))
192 | print (x_train.shape,y_train.shape,svd_train.shape)
193 | 
194 | import random
195 | import gc
196 | r2=list(range(x_train.shape[0]))
197 | 
198 | 
199 | 
200 | saver = tf.train.Saver()
201 | lastacc=0
202 | lastloss=99999
203 | learning_rate=1e-3
204 | embed_rate=1e-4
205 | finetune=False
206 | with tf.Session() as sess:
207 |     #saver.restore(sess, "../data/checkpoint/fastwordglove.ckpt-2")
208 |     sess.run(tf.global_variables_initializer())
209 |     for ep in range(50):
210 |         ite=0
211 |         random.shuffle(r2) 
212 |         while(ite<x_train.shape[0]):
213 |             gc.collect()
214 |             global_step=sess.run(ss.global_steps)
215 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
216 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
217 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
218 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
219 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
220 |             ite+=arg.batch_size
221 |             if finetune:
222 |                 sess.run([ss.train_op],feed_dict=feed)
223 |             else:
224 |                 sess.run([ss.train_step2],feed_dict=feed)
225 |             if (ite//arg.batch_size)%50==0:
226 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
227 | 
228 |         ite=0
229 |         mypred=[]
230 |         myloss=0
231 |         while(ite<x_val.shape[0]):
232 |             gc.collect()
233 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
234 |                   ss.y:y_val[ite:ite+arg.batch_size],
235 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
236 |                     ss.training:False,
237 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
238 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
239 |             mypred.extend(list(np.argmax(pred,1)+1))
240 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
241 |             ite+=arg.batch_size
242 |         myloss/=x_val.shape[0]
243 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
244 |         print (acc,myloss)
245 |         if myloss<lastloss:
246 |             saver.save(sess,"../data/checkpoint/rnn%d.ckpt"%cv_fold)
247 |             if myloss<lastloss:
248 |                 lastloss=myloss
249 |         else:
250 |             if finetune:
251 |                 learning_rate/=1.25
252 |                 embed_rate/=1.25
253 |             else:
254 |                 learning_rate/=2
255 |                 embed_rate/=2
256 |             if learning_rate<2e-4:
257 |                 finetune=True 
258 |             if learning_rate<6e-5:
259 |                 break
260 | 
261 | saver = tf.train.Saver()
262 | import gc
263 | with tf.Session() as sess:
264 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
265 |     ite=0
266 |     mypred=[]
267 |     myloss=0
268 |     x_val_proba=np.zeros((x_val.shape[0],19))
269 |     while(ite<x_val.shape[0]):
270 |         gc.collect()
271 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
272 |               ss.y:y_val[ite:ite+arg.batch_size],
273 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
274 |                 ss.training:False,ss.dropembed:0.0,
275 |                 ss.keep_prob:1.0}
276 |         
277 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
278 |         mypred.extend(list(np.argmax(pred,1)+1))
279 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
280 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
281 |         ite+=arg.batch_size        
282 |     myloss/=x_val.shape[0]
283 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
284 |     print (cv_fold,acc,myloss)
285 |     np.save('../stacking/rnn/val_rnn4_%d.npy'%cv_fold,x_val_proba)
286 |     
287 | test_embed=np.load('../data/test_embed.npy')
288 | import gc
289 | gc.collect()
290 | print ("test")
291 | saver = tf.train.Saver()
292 | mypred=[]
293 | with tf.Session() as sess:
294 |     saver.restore(sess, "../data/checkpoint/rnn%d.ckpt"%cv_fold)
295 |     ite=0
296 |     x_test_proba=np.zeros((test_embed.shape[0],19))
297 |     while(ite<test_embed.shape[0]):
298 |         gc.collect()
299 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
300 |                 ss.training:False,ss.dropembed:0.0,
301 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
302 |                 ss.keep_prob:1.0}
303 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
304 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
305 |         mypred.extend(list(np.argmax(logit,1)+1))
306 |         ite+=arg.batch_size
307 |     np.save('../stacking/rnn/test_rnn4_%d.npy'%cv_fold,x_test_proba) 
308 | 


--------------------------------------------------------------------------------
/model/TextCNN.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | vector1=np.load('../data/word_vec.npy')
  5 | word_embed_vector=vector1
  6 | print (word_embed_vector.shape)
  7 | 
  8 | class param(object):
  9 |     num_classes=19
 10 |     sequence_length=1000
 11 |     embed_size=100
 12 |     vocab_size=679250
 13 |     batch_size=128
 14 |     epoch=1
 15 |     
 16 | class cnn_param(param):
 17 |     filter_sizes=[1,2,3,4]
 18 |     filter_num=[256,256,256,256]
 19 |     drop_keep_prob=0.5
 20 |     l2_lambda=1e-3
 21 |     hiddim=100
 22 | 
 23 | arg=cnn_param()
 24 | 
 25 | 
 26 | class Basic_model:
 27 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 28 |         self.num_classes = num_classes
 29 |         self.sequence_length = sequence_length
 30 |         self.vocab_size = vocab_size
 31 |         self.embed_size = embed_size
 32 |         self.global_steps=tf.Variable(0, trainable=False)
 33 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 34 |         
 35 |         #placeholder
 36 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 37 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 38 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 39 |         self.training=tf.placeholder(tf.bool,name="training")
 40 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 41 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 42 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 43 |         
 44 |     def weight_init(self,shape,name):
 45 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 46 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 47 |         return  weight
 48 |     
 49 |     def bias_init(self,shape,name):
 50 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 51 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 52 |         return  bias
 53 |     
 54 | class TextCNN(Basic_model):
 55 |     def __init__(self,arg):
 56 |         super(TextCNN, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 57 |         
 58 |         self.filter_sizes=arg.filter_sizes  # list,eg[1,2,3,4,5]
 59 |         self.filter_num=arg.filter_num #list,eg[32,32,64]
 60 |         self.hiddim=arg.hiddim
 61 |         
 62 |         #conv filter paramaeter
 63 |         self.filters=[self.weight_init([self.filter_sizes[i],self.embed_size,1,self.filter_num[i]],name='filter%d'%i)
 64 |                        for i in range(len(self.filter_sizes))]
 65 |         self.bias=[self.bias_init([self.filter_num[i]],name='filter%d'%i) for i in range(len(self.filter_sizes))]
 66 |         
 67 |         self.logit=self.forward()
 68 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 69 |           
 70 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 71 |         self.spareloss=tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(labels=tf.argmax(self.y,1), logits=self.logit))
 72 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name and 'dense'in v.name]) * self.lamda
 73 |         self.loss_add_reg=self.losses+self.l2_losses
 74 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name and 'dense'in v.name]
 75 |         
 76 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 77 |         
 78 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 79 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 80 |         print ('pretrained,fine-tuning',var1)
 81 | 
 82 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 83 |         with tf.control_dependencies(update_ops):
 84 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 85 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 86 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 87 |         
 88 |     def conv(self,x,W,b):
 89 |         return tf.nn.conv2d(x,W,strides=[1,1,1,1],padding='VALID')+b
 90 |     
 91 |     def forward(self):
 92 |         
 93 |         s = tf.expand_dims(tf.nn.embedding_lookup(self.embed,self.x),-1)#[None,sentence_length,embed_size,1]
 94 |         print ('s',s.shape)
 95 |         
 96 |         o1=[tf.nn.relu((self.conv(s,self.filters[i],self.bias[i]))) for i in range(len(self.filters))]
 97 |         [print ('o1',o1[i].shape) for i in range(len(self.filters))]
 98 |     
 99 |     
100 |         o2=tf.concat([tf.nn.top_k(tf.transpose(o1[i],[0,2,3,1]),k=3,sorted=False)[0] for i in range(len(self.filters))],-2)
101 |         print ('o2',o2.shape)
102 |         o4=tf.reshape(o2,[-1,o2.shape[2]*o2.shape[3]])
103 | 
104 |         print (o4.shape)
105 |         
106 |         o4drop=tf.nn.dropout(o4,self.keep_prob)
107 |         print('o4drop',o4drop.shape)
108 |         
109 |         o5=tf.layers.dense(o4drop,self.hiddim,activation=None,use_bias=True,
110 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
111 |                            ,kernel_regularizer=None)
112 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
113 |         o5drop=tf.nn.dropout(o5bn,self.keep_prob)
114 |         print('o5drop',o5drop.shape)
115 |         
116 |         o6=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
117 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
118 |                            ,kernel_regularizer=None)
119 |         print ('o6',o6.shape)
120 |         return o6   
121 | 
122 | tf.reset_default_graph()
123 | ss=TextCNN(arg)
124 | 
125 | import sys
126 | use_test=[]
127 | cv_fold=int(sys.argv[1])
128 | print (cv_fold)
129 | if cv_fold==1:
130 |     use_test=list(range(50001))
131 | if cv_fold==2:
132 |     use_test=list(range(50000,102277))
133 | if cv_fold==3:
134 |     use_test=list(range(30000,80001))
135 | if cv_fold==4:
136 |     use_test=list(range(30001))+list(range(80000,102277))
137 | if cv_fold==5:
138 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
139 | print (len(use_test),use_test[0],use_test[-1])
140 | 
141 | train_embed=np.load('../data/train_embed.npy')
142 | test_embed=np.load('../data/test_embed.npy')[use_test]
143 | labels=np.load('../data/labels.npy')
144 | labels-=1
145 | slabel=np.zeros((labels.shape[0],19))
146 | slabel[np.arange(labels.shape[0]),labels]=1.0
147 | np.random.seed(2018)
148 | 
149 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
150 | filter_t=(r1!=(cv_fold-1))
151 | filter_v=~filter_t
152 | x_train , y_train = train_embed[filter_t],slabel[filter_t]
153 | x_val  ,  y_val  = train_embed[filter_v],slabel[filter_v]
154 | 
155 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
156 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
157 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
158 | 在CNN和RNN中可能更加有效果。'''
159 | x_train=np.concatenate((x_train,test_embed),axis=0)
160 | y_train=np.concatenate((y_train,test_pred_labels))
161 | print (x_train.shape,y_train.shape)
162 | 
163 | 
164 | import random
165 | import gc
166 | r2=list(range(x_train.shape[0]))
167 | 
168 | saver = tf.train.Saver()
169 | lastacc=0
170 | lastloss=99999
171 | learning_rate=1e-3
172 | embed_rate=1e-4
173 | finetune=False
174 | with tf.Session() as sess:
175 |     sess.run(tf.global_variables_initializer())
176 |     for ep in range(50):
177 |         ite=0
178 |         random.shuffle(r2) 
179 |         while(ite<x_train.shape[0]):
180 |             gc.collect()
181 |             global_step=sess.run(ss.global_steps)
182 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], ss.y:y_train[r2[ite:ite+arg.batch_size]],
183 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
184 |                   ss.keep_prob:arg.drop_keep_prob}
185 |             ite+=arg.batch_size
186 |             if finetune:
187 |                 sess.run([ss.train_op],feed_dict=feed)
188 |             else:
189 |                 sess.run([ss.train_step2],feed_dict=feed)
190 |             if (ite//arg.batch_size)%50==0:
191 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
192 | 
193 |         ite=0
194 |         mypred=[]
195 |         myloss=0
196 |         while(ite<x_val.shape[0]):
197 |             gc.collect()
198 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],ss.y:y_val[ite:ite+arg.batch_size],
199 |                     ss.training:False,
200 |                     ss.keep_prob:1.0}
201 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
202 |             mypred.extend(list(np.argmax(pred,1)+1))
203 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
204 |             ite+=arg.batch_size
205 |         myloss/=x_val.shape[0]
206 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
207 |         print (acc,myloss)
208 |         if  myloss<lastloss:
209 |             saver.save(sess,"../data/checkpoint/cnn%d.ckpt"%cv_fold)
210 |             if myloss<lastloss:
211 |                 lastloss=myloss
212 |         else:
213 |             if finetune:
214 |                 learning_rate/=1.25
215 |                 embed_rate/=1.25
216 |             else:
217 |                 learning_rate/=2
218 |                 embed_rate/=2
219 |             if learning_rate<2e-4:
220 |                 finetune=True 
221 |             if learning_rate<6e-5:
222 |                 break
223 | 
224 | 
225 | 
226 | saver = tf.train.Saver()
227 | import gc
228 | with tf.Session() as sess:
229 |     saver.restore(sess, "../data/checkpoint/cnn%d.ckpt"%cv_fold)
230 |     ite=0
231 |     mypred=[]
232 |     myloss=0
233 |     x_val_proba=np.zeros((x_val.shape[0],19))
234 |     while(ite<x_val.shape[0]):
235 |         gc.collect()
236 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],ss.y:y_val[ite:ite+arg.batch_size],
237 |                 ss.training:False,
238 |                 ss.keep_prob:1.0}
239 |         
240 |         pred,loss,proba=sess.run([ss.logit,ss.spareloss,ss.proba],feed_dict=feed)
241 |         mypred.extend(list(np.argmax(pred,1)+1))
242 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
243 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
244 |         ite+=arg.batch_size        
245 |     myloss/=x_val.shape[0]
246 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
247 |     print (cv_fold,acc,myloss)
248 |     np.save('../stacking/cnn/val_cnn_%d.npy'%cv_fold,x_val_proba)
249 |     
250 | test_embed=np.load('../data/test_embed.npy')
251 | import gc
252 | gc.collect()
253 | print ("test")
254 | saver = tf.train.Saver()
255 | mypred=[]
256 | with tf.Session() as sess:
257 |     saver.restore(sess, "../data/checkpoint/cnn%d.ckpt"%cv_fold)
258 |     ite=0
259 |     x_test_proba=np.zeros((test_embed.shape[0],19))
260 |     while(ite<test_embed.shape[0]):
261 |         gc.collect()
262 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
263 |                 ss.training:False,
264 |                 ss.keep_prob:1.0}
265 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
266 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
267 |         mypred.extend(list(np.argmax(logit,1)+1))
268 |         ite+=arg.batch_size
269 |     np.save('../stacking/cnn/test_cnn_%d.npy'%cv_fold,x_test_proba)
270 | 
271 | 
272 | 
273 | 
274 |     
275 |     
276 |     
277 |     
278 |     
279 |     
280 |     
281 |     
282 |     
283 |     
284 | 


--------------------------------------------------------------------------------
/model/rnnpool.py:
--------------------------------------------------------------------------------
  1 | import tensorflow as tf
  2 | import numpy as np
  3 | import pandas as pd
  4 | vector1=np.load('../data/word_vec.npy')
  5 | vector2=np.load('../data/glove.npy')
  6 | word_embed_vector=np.concatenate((vector1,vector2),axis=1)
  7 | print (word_embed_vector.shape)
  8 | 
  9 | class param(object):
 10 |     num_classes=19
 11 |     sequence_length=1200
 12 |     embed_size=200
 13 |     vocab_size=679250
 14 |     batch_size=128
 15 |     lr=5e-3
 16 |     epoch=10
 17 |     
 18 | class rnn_att_param(param):
 19 |     drop_keep_prob=0.5
 20 |     l2_lambda=1e-4
 21 |     hiddim=90
 22 |     hidden_size=256
 23 |     vector_num=10
 24 |     
 25 | arg=rnn_att_param()
 26 | 
 27 | 
 28 | class Basic_model:
 29 |     def __init__(self,num_classes,sequence_length,vocab_size,embed_size):
 30 |         self.num_classes = num_classes
 31 |         self.sequence_length = sequence_length
 32 |         self.vocab_size = vocab_size
 33 |         self.embed_size = embed_size
 34 |         self.global_steps=tf.Variable(0, trainable=False)
 35 |         self.embed=tf.Variable(word_embed_vector,name='embeding_vector')
 36 |         
 37 |         #placeholder
 38 |         self.x = tf.placeholder(tf.int32, [None, self.sequence_length], name="input_x1")  # X
 39 |         self.y = tf.placeholder(tf.float32,[None,19], name="labels")
 40 |         self.keep_prob=tf.placeholder(tf.float32,name="dropout_keep_prob")
 41 |         self.dropembed=tf.placeholder(tf.float32,name="dropembed")
 42 |         self.training=tf.placeholder(tf.bool,name="training")
 43 |         self.lr = tf.placeholder(tf.float32, name="learning_rate")
 44 |         self.lr_embed = tf.placeholder(tf.float32, name="embed_learning_rate")
 45 |         self.lamda=tf.placeholder(tf.float32, name="l2_regular")
 46 |         
 47 |         
 48 |     def weight_init(self,shape,name):
 49 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 50 |             weight=tf.get_variable('kernel',shape,initializer=tf.contrib.layers.xavier_initializer())
 51 |         return  weight
 52 |     
 53 |     def bias_init(self,shape,name):
 54 |         with tf.variable_scope(name,reuse=tf.AUTO_REUSE):
 55 |             bias=tf.Variable(tf.zeros(shape)+0.1,tf.float32,name='bias')
 56 |         return  bias
 57 | class RNN_att(Basic_model):
 58 |     def __init__(self,arg):
 59 |         super(RNN_att, self).__init__(arg.num_classes,arg.sequence_length,arg.vocab_size,arg.embed_size)
 60 |         self.hiddim=arg.hiddim
 61 |         self.hidden_size=arg.hidden_size
 62 |         self.char_svd=tf.placeholder(tf.float32,[None,200], name="char_svd")
 63 |         self.logit=self.forward()
 64 |         self.proba=tf.nn.softmax(self.logit,axis=1)
 65 |     
 66 |         self.losses=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=self.y, logits=self.logit))
 67 |         self.l2_losses = tf.add_n([tf.nn.l2_loss(v) for v in tf.trainable_variables() if 'kernel' in v.name]) * self.lamda
 68 |         self.loss_add_reg=self.losses+self.l2_losses
 69 |         [print(v) for v in tf.trainable_variables() if 'kernel' in v.name]
 70 |         
 71 |         self.acc=tf.reduce_mean(tf.cast(tf.equal(tf.argmax(self.logit,1),tf.argmax(self.y,1)),tf.float32))
 72 | 
 73 |         var1 = [v for v in tf.trainable_variables() if 'embeding_vector' in v.name]
 74 |         var2 = [v for v in tf.trainable_variables() if 'embeding_vector' not in v.name]
 75 |         print ('pretrained,fine-tuning',var1[0])
 76 |         
 77 |         update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
 78 |         with tf.control_dependencies(update_ops):
 79 |             self.train_step1=tf.train.AdamOptimizer(self.lr_embed).minimize(self.loss_add_reg,var_list=var1)
 80 |             self.train_step2=tf.train.AdamOptimizer(self.lr).minimize(self.loss_add_reg,global_step=self.global_steps,var_list=var2)
 81 |             self.train_op = tf.group(self.train_step1, self.train_step2)
 82 |             
 83 |     def forward(self):
 84 |         
 85 |         s = tf.nn.embedding_lookup(self.embed,self.x)#[None,sentence_length,embed_size,1]
 86 |         print ('s',s.shape)
 87 |         
 88 |         s2=tf.transpose(s,[1,0,2])
 89 |         print (s2.shape)
 90 |         
 91 |         shead=tf.gather(s2,list(range(self.sequence_length//3)),axis=0)
 92 |         print ('shead',shead.shape)
 93 |         smid=tf.gather(s2,list(range(self.sequence_length//3,self.sequence_length//3*2)),axis=0)
 94 |         print ('smid',smid.shape)
 95 |         stail=tf.gather(s2,list(range(self.sequence_length//3*2,self.sequence_length)),axis=0)
 96 |         print ('stail',stail.shape)
 97 |         
 98 |         rnn=tf.contrib.cudnn_rnn.CudnnLSTM(num_layers=1, num_units=self.hidden_size//2, direction='bidirectional')
 99 |         
100 |         head_hid=tf.transpose(rnn(shead)[0],[1,0,2])
101 |         mid_hid=tf.transpose(rnn(smid)[0],[1,0,2])
102 |         tail_hid=tf.transpose(rnn(stail)[0],[1,0,2])
103 |         print (head_hid.shape,mid_hid.shape,tail_hid.shape)
104 |         
105 |         head_max=tf.keras.layers.GlobalMaxPooling1D()(head_hid)
106 |         mid_max=tf.keras.layers.GlobalMaxPooling1D()(mid_hid)
107 |         tail_max=tf.keras.layers.GlobalMaxPooling1D()(tail_hid)
108 |         
109 |         head_avg=tf.keras.layers.GlobalAveragePooling1D()(head_hid)
110 |         mid_avg=tf.keras.layers.GlobalAveragePooling1D()(mid_hid)
111 |         tail_avg=tf.keras.layers.GlobalAveragePooling1D()(tail_hid)
112 |         print (head_max.shape,mid_max.shape)
113 |         
114 |         o4=tf.concat([head_max,mid_max,tail_max,head_avg,mid_avg,tail_avg,self.char_svd],1)
115 |         o4drop=tf.nn.dropout(o4,self.keep_prob)
116 |         print ('o4drop',o4drop.shape)
117 |         o5=tf.layers.dense(o4drop,self.hiddim*2,activation=None,use_bias=True,
118 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
119 |                            ,kernel_regularizer=None)
120 |         o5bn=tf.nn.relu(tf.layers.batch_normalization(o5,training=self.training))
121 |         o5drop=tf.nn.dropout(o5bn,self.keep_prob)
122 |         print('o5drop',o5drop.shape)
123 |         
124 |         score=tf.layers.dense(o5drop,self.num_classes,activation=None,use_bias=True,
125 |                            kernel_initializer=tf.contrib.layers.xavier_initializer()
126 |                            ,kernel_regularizer=None)
127 |         
128 |         print ('score',score.shape)
129 |         
130 |         return score   
131 |     
132 | tf.reset_default_graph()
133 | ss=RNN_att(arg)
134 | 
135 | char_svd_train=np.load('../data/article_train_tfidf_svd.npy')
136 | char_svd_test=np.load('../data/article_test_tfidf_svd.npy')
137 | 
138 | import sys
139 | use_test=[]
140 | cv_fold=int(sys.argv[1])
141 | print (cv_fold)
142 | if cv_fold==1:
143 |     use_test=list(range(50001))
144 | if cv_fold==2:
145 |     use_test=list(range(50000,102277))
146 | if cv_fold==3:
147 |     use_test=list(range(30000,80001))
148 | if cv_fold==4:
149 |     use_test=list(range(30001))+list(range(80000,102277))
150 | if cv_fold==5:
151 |     use_test=list(range(12000))+list(range(24000,36000))+list(range(48000,60000))+list(range(72000,90000))
152 | print (len(use_test),use_test[0],use_test[-1])
153 | 
154 | 
155 | train_embed=np.load('../data/train_embed.npy')
156 | test_embed=np.load('../data/test_embed.npy')[use_test]
157 | labels=np.load('../data/labels.npy')
158 | labels-=1
159 | slabel=np.zeros((labels.shape[0],19))
160 | slabel[np.arange(labels.shape[0]),labels]=1.0
161 | np.random.seed(2018)
162 | 
163 | r1=(np.random.uniform(0,1,train_embed.shape[0])*5).astype(np.int32)
164 | filter_t=(r1!=(cv_fold-1))
165 | filter_v=~filter_t
166 | x_train , y_train,svd_train = train_embed[filter_t],slabel[filter_t],char_svd_train[filter_t]
167 | x_val  ,  y_val ,svd_val = train_embed[filter_v],slabel[filter_v],char_svd_train[filter_v]
168 | 
169 | test_pred_labels=np.load('../stacking/stacking.npy')[use_test]
170 | svd_test=char_svd_test
171 | presudo_svd=char_svd_test[use_test]
172 | 
173 | '''在数据中加入一半的测试集，这是使用了虚假标签的方法！由于正确率大概是80%左右，
174 | 可以想象，一共15000个训练样本，正确标记样本有14000,不到10%的噪声而已！这样做是为了增加样本的多样性，防止过拟合。可以见到更多的词语组合。
175 | 在CNN和RNN中可能更加有效果。'''
176 | x_train=np.concatenate((x_train,test_embed),axis=0)
177 | y_train=np.concatenate((y_train,test_pred_labels))
178 | svd_train=np.concatenate((svd_train,presudo_svd))
179 | print (x_train.shape,y_train.shape,svd_train.shape)
180 | 
181 | import random
182 | import gc
183 | r2=list(range(x_train.shape[0]))
184 | 
185 | 
186 | saver = tf.train.Saver()
187 | lastacc=0
188 | lastloss=99999
189 | learning_rate=1e-3
190 | embed_rate=1e-4
191 | finetune=False
192 | config = tf.ConfigProto() 
193 | config.gpu_options.per_process_gpu_memory_fraction = 0.9 # 占用GPU90%的显存 
194 | with tf.Session(config=config) as sess:
195 |     sess.run(tf.global_variables_initializer())
196 |     for ep in range(50):
197 |         ite=0
198 |         random.shuffle(r2) 
199 |         while(ite<x_train.shape[0]):
200 |             gc.collect()
201 |             global_step=sess.run(ss.global_steps)
202 |             feed={ss.x:x_train[r2[ite:ite+arg.batch_size],:], 
203 |                   ss.y:y_train[r2[ite:ite+arg.batch_size]],
204 |                   ss.char_svd:svd_train[r2[ite:ite+arg.batch_size]],
205 |                   ss.training:True,ss.lr:learning_rate,ss.lr_embed:embed_rate,ss.lamda:1e-4,
206 |                   ss.keep_prob:arg.drop_keep_prob,ss.dropembed:0.2}
207 |             ite+=arg.batch_size
208 |             if finetune:
209 |                 sess.run([ss.train_op],feed_dict=feed)
210 |             else:
211 |                 sess.run([ss.train_step2],feed_dict=feed)
212 |             if (ite//arg.batch_size)%50==0:
213 |                 print (sess.run([ss.acc,ss.losses,ss.loss_add_reg,ss.global_steps],feed_dict=feed),learning_rate,finetune)
214 | 
215 |         ite=0
216 |         mypred=[]
217 |         myloss=0
218 |         while(ite<x_val.shape[0]):
219 |             gc.collect()
220 |             feed={ss.x:x_val[ite:ite+arg.batch_size,:],
221 |                   ss.y:y_val[ite:ite+arg.batch_size],
222 |                   ss.char_svd:svd_val[ite:ite+arg.batch_size],
223 |                     ss.training:False,
224 |                     ss.keep_prob:1.0,ss.dropembed:0.0}
225 |             pred,loss=sess.run([ss.logit,ss.losses],feed_dict=feed)
226 |             mypred.extend(list(np.argmax(pred,1)+1))
227 |             myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
228 |             ite+=arg.batch_size
229 |         myloss/=x_val.shape[0]
230 |         acc=np.mean(np.array(mypred)==(np.argmax(y_val,1)+1))
231 |         print (acc,myloss)
232 |         if myloss<lastloss:
233 |             saver.save(sess,"../data/checkpoint/rnnpool%d.ckpt"%cv_fold)
234 |             if myloss<lastloss:
235 |                 lastloss=myloss
236 |         else:
237 |             if finetune:
238 |                 learning_rate/=1.25
239 |                 embed_rate/=1.25
240 |             else:
241 |                 learning_rate/=2
242 |                 embed_rate/=2
243 |             if learning_rate<2e-4:
244 |                 finetune=True 
245 |             if learning_rate<6e-5:
246 |                 break
247 | 
248 | saver = tf.train.Saver()
249 | import gc
250 | with tf.Session() as sess:
251 |     saver.restore(sess, "../data/checkpoint/rnnpool%d.ckpt"%cv_fold)
252 |     ite=0
253 |     mypred=[]
254 |     myloss=0
255 |     x_val_proba=np.zeros((x_val.shape[0],19))
256 |     while(ite<x_val.shape[0]):
257 |         gc.collect()
258 |         feed={ss.x:x_val[ite:ite+arg.batch_size,:],
259 |               ss.y:y_val[ite:ite+arg.batch_size],
260 |               ss.char_svd:svd_val[ite:ite+arg.batch_size],
261 |                 ss.training:False,ss.dropembed:0.0,
262 |                 ss.keep_prob:1.0}
263 |         
264 |         pred,loss,proba=sess.run([ss.logit,ss.losses,ss.proba],feed_dict=feed)
265 |         mypred.extend(list(np.argmax(pred,1)+1))
266 |         myloss+=loss*x_val[ite:ite+arg.batch_size,:].shape[0]
267 |         x_val_proba[ite:ite+arg.batch_size,:]=np.array(proba)
268 |         ite+=arg.batch_size        
269 |     myloss/=x_val.shape[0]
270 |     acc=np.mean(np.array(mypred)==np.argmax(y_val,1)+1)
271 |     print (cv_fold,acc,myloss)
272 |     np.save('../stacking/rnn/val_rnn5_%d.npy'%cv_fold,x_val_proba)
273 |     
274 | test_embed=np.load('../data/test_embed.npy')
275 | import gc
276 | gc.collect()
277 | print ("test")
278 | saver = tf.train.Saver()
279 | mypred=[]
280 | with tf.Session() as sess:
281 |     saver.restore(sess, "../data/checkpoint/rnnpool%d.ckpt"%cv_fold)
282 |     ite=0
283 |     x_test_proba=np.zeros((test_embed.shape[0],19))
284 |     while(ite<test_embed.shape[0]):
285 |         gc.collect()
286 |         feed={ss.x:test_embed[ite:ite+arg.batch_size,:],
287 |                 ss.training:False,ss.dropembed:0.0,
288 |                   ss.char_svd:svd_test[ite:ite+arg.batch_size],
289 |                 ss.keep_prob:1.0}
290 |         proba,logit=sess.run([ss.proba,ss.logit],feed_dict=feed)
291 |         x_test_proba[ite:ite+arg.batch_size,:]=np.array(proba)
292 |         mypred.extend(list(np.argmax(logit,1)+1))
293 |         ite+=arg.batch_size
294 |     np.save('../stacking/rnn/test_rnn5_%d.npy'%cv_fold,x_test_proba)                
295 | 


--------------------------------------------------------------------------------
/stacking/README.MD:
--------------------------------------------------------------------------------
1 | 保存着各个模型跑出来的结果，用于做stacking
2 | 


--------------------------------------------------------------------------------
/stacking/generate_presudo_labels.py:
--------------------------------------------------------------------------------
 1 | import numpy as np
 2 | import pandas as pd
 3 | import gc
 4 | from sklearn.metrics import f1_score
 5 | from sklearn.linear_model import  SGDClassifier
 6 | clf = SGDClassifier(loss='log',n_jobs=-1,max_iter=10,random_state=2018)
 7 | 
 8 | 
 9 | strain=np.load('team/train_x.npy')
10 | stest=np.load('team/test_x.npy')
11 | labels=np.load('../data/labels.npy')-1
12 | np.random.seed(1234)
13 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
14 | 
15 | sgd_test=np.zeros((102277,19))
16 | sgd_val=np.zeros((102277,19))
17 | for cv_fold in range(5):
18 |     filter_v=(r==cv_fold)
19 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
20 |     x_val,y_val=strain[filter_v],labels[filter_v]
21 |     gc.collect() 
22 |     
23 |     clf.fit(x_train,y_train)
24 |     sgd_val[filter_v,:]=clf.predict_proba(x_val)
25 |     sgd_test+=clf.predict_proba(stest)
26 | 
27 | sgd_test/=5
28 | print (np.sum(sgd_test,1))
29 | print (f1_score(labels, np.argmax(sgd_val,1), average='macro'))
30 | 
31 | np.save('stacking.npy',sgd_test)
32 | 


--------------------------------------------------------------------------------
/stacking/stack.py:
--------------------------------------------------------------------------------
  1 | import numpy as np
  2 | import pandas as pd
  3 | import gc
  4 | from sklearn.metrics import f1_score
  5 | 
  6 | team_train=np.load('team/train_x.npy')
  7 | team_test=np.load('team/test_x.npy')
  8 | labels=np.load('../data/labels.npy')-1
  9 | 
 10 | 
 11 | '''start merge data'''
 12 | np.random.seed(2018)
 13 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
 14 | rnn1_val=np.zeros((labels.shape[0],19))
 15 | rnn2_val=np.zeros((labels.shape[0],19))
 16 | rnn3_val=np.zeros((labels.shape[0],19))
 17 | rnn4_val=np.zeros((labels.shape[0],19))
 18 | rnn5_val=np.zeros((labels.shape[0],19))
 19 | 
 20 | cnn_val=np.zeros((labels.shape[0],19))
 21 | rcnn_val=np.zeros((labels.shape[0],19))
 22 | 
 23 | fast1_val=np.zeros((labels.shape[0],19))
 24 | fast2_val=np.zeros((labels.shape[0],19))
 25 | fast3_val=np.zeros((labels.shape[0],19))
 26 | 
 27 | tw_val=np.load('tfidf/val_tfidf_word_seg.npy')
 28 | tc_val=np.load('tfidf/val_tfidf_article.npy')
 29 | 
 30 | for cv in range(1,6):
 31 |     filter_v=(r==cv-1)
 32 |     rnn1_val[filter_v]=np.load('rnn/val_rnn1_%d.npy'%cv)
 33 |     rnn2_val[filter_v]=np.load('rnn/val_rnn2_%d.npy'%cv)
 34 |     rnn3_val[filter_v]=np.load('rnn/val_rnn3_%d.npy'%cv)
 35 |     rnn4_val[filter_v]=np.load('rnn/val_rnn4_%d.npy'%cv)
 36 |     rnn5_val[filter_v]=np.load('rnn/val_rnn5_%d.npy'%cv)
 37 | 
 38 |     fast1_val[filter_v]=np.load('fast/val_fast1_%d.npy'%cv)
 39 |     fast2_val[filter_v]=np.load('fast/val_fast2_%d.npy'%cv)
 40 |     fast3_val[filter_v]=np.load('fast/val_fast3_%d.npy'%cv)
 41 |     
 42 |     cnn_val[filter_v]=np.load('cnn/val_cnn_%d.npy'%cv)
 43 |     rcnn_val[filter_v]=np.load('rcnn/val_rcnn_%d.npy'%cv)
 44 | 
 45 |     
 46 | print ('rnn1_val',f1_score(labels, np.argmax(rnn1_val,1), average='macro'))
 47 | print ('rnn2_val',f1_score(labels, np.argmax(rnn2_val,1), average='macro'))
 48 | print ('rnn3_val',f1_score(labels, np.argmax(rnn3_val,1), average='macro'))
 49 | print ('rnn4_val',f1_score(labels, np.argmax(rnn4_val,1), average='macro'))
 50 | print ('rnn5_val',f1_score(labels, np.argmax(rnn5_val,1), average='macro'))
 51 | print ('fast1_val',f1_score(labels, np.argmax(fast1_val,1), average='macro'))
 52 | print ('fast2_val',f1_score(labels, np.argmax(fast2_val,1), average='macro'))
 53 | print ('fast3_val',f1_score(labels, np.argmax(fast3_val,1), average='macro'))
 54 | print ('cnn_val',f1_score(labels, np.argmax(cnn_val,1), average='macro'))
 55 | print ('rcnn_val',f1_score(labels, np.argmax(rcnn_val,1), average='macro'))
 56 | print ('tw_val',f1_score(labels, np.argmax(tw_val,1), average='macro'))
 57 | print ('tc_val',f1_score(labels, np.argmax(tc_val,1), average='macro'))
 58 | 
 59 | 
 60 | 
 61 | '''start merge data'''
 62 | np.random.seed(2018)
 63 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
 64 | rnn1_test=np.zeros((labels.shape[0],19))
 65 | rnn2_test=np.zeros((labels.shape[0],19))
 66 | rnn3_test=np.zeros((labels.shape[0],19))
 67 | rnn4_test=np.zeros((labels.shape[0],19))
 68 | rnn5_test=np.zeros((labels.shape[0],19))
 69 | 
 70 | cnn_test=np.zeros((labels.shape[0],19))
 71 | rcnn_test=np.zeros((labels.shape[0],19))
 72 | 
 73 | fast1_test=np.zeros((labels.shape[0],19))
 74 | fast2_test=np.zeros((labels.shape[0],19))
 75 | fast3_test=np.zeros((labels.shape[0],19))
 76 | 
 77 | tw_test=np.load('tfidf/test_tfidf_word_seg.npy')
 78 | tc_test=np.load('tfidf/test_tfidf_article.npy')
 79 | 
 80 | for cv in range(1,6):
 81 |     filter_v=(r==cv-1)
 82 |     rnn1_test+=(np.load('rnn/test_rnn1_%d.npy'%cv)/5)
 83 |     rnn2_test+=(np.load('rnn/test_rnn2_%d.npy'%cv)/5)
 84 |     rnn3_test+=(np.load('rnn/test_rnn3_%d.npy'%cv)/5)
 85 |     rnn4_test+=(np.load('rnn/test_rnn4_%d.npy'%cv)/5)
 86 |     rnn5_test+=(np.load('rnn/test_rnn5_%d.npy'%cv)/5)
 87 |     fast1_test+=(np.load('fast/test_fast1_%d.npy'%cv)/5)
 88 |     fast2_test+=(np.load('fast/test_fast2_%d.npy'%cv)/5)
 89 |     fast3_test+=(np.load('fast/test_fast3_%d.npy'%cv)/5)
 90 |     cnn_test+=(np.load('cnn/test_cnn_%d.npy'%cv)/5)
 91 |     rcnn_test+=(np.load('rcnn/test_rcnn_%d.npy'%cv)/5)
 92 |     
 93 | strain=np.concatenate([team_train,rnn1_val,rnn2_val,rnn3_val,rnn4_val,rnn5_val,cnn_val,rcnn_val,
 94 |                      fast1_val,fast2_val,fast3_val,tw_val,tc_val],1)
 95 | stest=np.concatenate([team_test,rnn1_test,rnn2_test,rnn3_test,rnn4_test,rnn5_test,cnn_test,rcnn_test,
 96 |                      fast1_test,fast2_test,fast3_test,tw_test,tc_test],1)
 97 | 
 98 | np.random.seed(1234)
 99 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
100 | 
101 | 
102 | from sklearn.linear_model import  SGDClassifier
103 | clf = SGDClassifier(loss='log',n_jobs=-1,max_iter=10,random_state=2018)
104 | 
105 | sgd_test=np.zeros((102277,19))
106 | sgd_val=np.zeros((102277,19))
107 | for cv_fold in range(5):
108 |     filter_v=(r==cv_fold)
109 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
110 |     x_val,y_val=strain[filter_v],labels[filter_v]
111 |     gc.collect() 
112 |     
113 |     clf.fit(x_train,y_train)
114 |     sgd_val[filter_v,:]=clf.predict_proba(x_val)
115 |     sgd_test+=clf.predict_proba(stest)
116 | 
117 | sgd_test/=5
118 | print (np.sum(sgd_test,1))
119 | print (f1_score(labels, np.argmax(sgd_val,1), average='macro') )
120 | 
121 | 
122 | import lightgbm as lgb
123 | clf = lgb.LGBMClassifier(objective='multiclass',
124 |                                 max_depth=5,
125 |                                 num_leaves=16,
126 |                                 learning_rate=0.06,
127 |                                 n_estimators=2000,
128 |                                 colsample_bytree=0.4,#0.3
129 |                                 subsample = 0.75,#0.75
130 |                                 n_jobs=-1,
131 |                                 lambda_l2=10,
132 |                                 seed=2018
133 |                                 )
134 | 
135 | lgb_test=np.zeros((102277,19))
136 | lgb_val=np.zeros((102277,19))
137 | for cv_fold in range(5):
138 |     filter_v=(r==cv_fold)
139 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
140 |     x_val,y_val=strain[filter_v],labels[filter_v]
141 |     gc.collect() 
142 |     
143 |     clf.fit(x_train,y_train,eval_set=[(x_val,y_val)],
144 |                     eval_metric=['multi_logloss'],
145 |                     early_stopping_rounds=40,verbose=40)
146 |     lgb_val[filter_v,:]=clf.predict_proba(x_val)
147 |     lgb_test+=clf.predict_proba(stest)
148 | 
149 | lgb_test/=5
150 | print (np.sum(lgb_test,1))
151 | print (f1_score(labels, np.argmax(lgb_val,1), average='macro') )
152 | 
153 | 
154 | from sklearn.linear_model import  SGDClassifier
155 | clf = SGDClassifier(loss='hinge',n_jobs=-1,max_iter=15,random_state=2018)
156 | 
157 | hinge_test=np.zeros((102277,19))
158 | hinge_val=np.zeros((102277,19))
159 | for cv_fold in range(5):
160 |     filter_v=(r==cv_fold)
161 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
162 |     x_val,y_val=strain[filter_v],labels[filter_v]
163 |     gc.collect() 
164 |     
165 |     clf.fit(x_train,y_train)
166 |     a=clf.decision_function(x_val)
167 |     b=a-np.max(a,1,keepdims=True)
168 |     c=np.exp(b)
169 |     d=c/np.sum(c,1,keepdims=True)
170 |     hinge_val[filter_v,:]=d
171 |     
172 |     a=clf.decision_function(stest)
173 |     b=a-np.max(a,1,keepdims=True)
174 |     c=np.exp(b)
175 |     d=c/np.sum(c,1,keepdims=True)
176 |     hinge_test+=d
177 | 
178 | hinge_test/=5
179 | print (np.sum(hinge_test,1))
180 | print (f1_score(labels, np.argmax(hinge_val,1), average='macro') )
181 | 
182 | 
183 | 
184 | from sklearn.svm import LinearSVC
185 | clf = LinearSVC(random_state=2018)
186 | 
187 | svc_test=np.zeros((102277,19))
188 | svc_val=np.zeros((102277,19))
189 | for cv_fold in range(5):
190 |     filter_v=(r==cv_fold)
191 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
192 |     x_val,y_val=strain[filter_v],labels[filter_v]
193 |     gc.collect() 
194 |     
195 |     clf.fit(x_train,y_train)
196 | 
197 |     a=clf.decision_function(x_val)
198 |     b=a-np.max(a,1,keepdims=True)
199 |     c=np.exp(b)
200 |     d=c/np.sum(c,1,keepdims=True)
201 |     svc_val[filter_v,:]=d
202 |     
203 |     a=clf.decision_function(stest)
204 |     b=a-np.max(a,1,keepdims=True)
205 |     c=np.exp(b)
206 |     d=c/np.sum(c,1,keepdims=True)
207 |     svc_test+=d
208 | 
209 | svc_test/=5
210 | print (np.sum(svc_test,1))
211 | print (f1_score(labels, np.argmax(svc_val,1), average='macro') )
212 | 
213 | 
214 | from sklearn.linear_model import LogisticRegression
215 | clf = LogisticRegression(C=4, dual=True,random_state=2018)
216 | 
217 | lr_test=np.zeros((102277,19))
218 | lr_val=np.zeros((102277,19))
219 | for cv_fold in range(5):
220 |     filter_v=(r==cv_fold)
221 |     x_train,y_train=strain[~filter_v],labels[~filter_v]
222 |     x_val,y_val=strain[filter_v],labels[filter_v]
223 |     gc.collect() 
224 |     
225 |     clf.fit(x_train,y_train)
226 |     lr_val[filter_v,:]=clf.predict_proba(x_val)
227 |     lr_test+=clf.predict_proba(stest)
228 | 
229 | lr_test/=5
230 | print (np.sum(lr_test,1))
231 | print (f1_score(labels, np.argmax(lr_val,1), average='macro') )
232 | 
233 | from sklearn.svm import LinearSVC
234 | clf = LinearSVC(random_state=2018)
235 | 
236 | np.random.seed(1000)
237 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
238 | stack_test=np.zeros((102277,19))
239 | stack_val=np.zeros((102277,19))
240 | for cv_fold in range(5):
241 |     filter_v=(r==cv_fold)
242 |     x_train,y_train=st_train[~filter_v],labels[~filter_v]
243 |     x_val,y_val=st_train[filter_v],labels[filter_v]
244 |     gc.collect() 
245 |     
246 |     clf.fit(x_train,y_train)
247 | 
248 |     a=clf.decision_function(x_val)
249 |     b=a-np.max(a,1,keepdims=True)
250 |     c=np.exp(b)
251 |     d=c/np.sum(c,1,keepdims=True)
252 |     stack_val[filter_v,:]=d
253 |     
254 |     a=clf.decision_function(st_test)
255 |     b=a-np.max(a,1,keepdims=True)
256 |     c=np.exp(b)
257 |     d=c/np.sum(c,1,keepdims=True)
258 |     stack_test+=d
259 | 
260 | stack_test/=5
261 | print (np.sum(stack_test,1))
262 | print (f1_score(labels, np.argmax(stack_val,1), average='macro') )
263 | 
264 | 
265 | '''stack_level2'''
266 | 
267 | st_train=np.concatenate((svc_val,lr_val,lgb_val,sgd_val,hinge_val),1)
268 | st_test=np.concatenate((svc_test,lr_test,lgb_test,sgd_test,hinge_test),1)
269 | print (st_train.shape,st_test.shape)
270 | 
271 | np.random.seed(1000)
272 | r=(np.random.uniform(0,1,labels.shape[0])*5).astype(np.int32)
273 | stack_test=np.zeros((102277,19))
274 | stack_val=np.zeros((102277,19))
275 | for cv_fold in range(5):
276 |     filter_v=(r==cv_fold)
277 |     x_train,y_train=st_train[~filter_v],labels[~filter_v]
278 |     x_val,y_val=st_train[filter_v],labels[filter_v]
279 |     gc.collect() 
280 |     
281 |     clf.fit(x_train,y_train)
282 | 
283 |     a=clf.decision_function(x_val)
284 |     b=a-np.max(a,1,keepdims=True)
285 |     c=np.exp(b)
286 |     d=c/np.sum(c,1,keepdims=True)
287 |     stack_val[filter_v,:]=d
288 |     
289 |     a=clf.decision_function(st_test)
290 |     b=a-np.max(a,1,keepdims=True)
291 |     c=np.exp(b)
292 |     d=c/np.sum(c,1,keepdims=True)
293 |     stack_test+=d
294 | 
295 | stack_test/=5
296 | print (np.sum(stack_test,1))
297 | print (f1_score(labels, np.argmax(stack_val,1), average='macro') )
298 | 
299 | 
300 | stack_result=np.argmax(stack_test,1)+1
301 | print (len(stack_result))
302 | submit=pd.DataFrame({'id':list(range(len(stack_result))),'class':stack_result})
303 | submit.to_csv('../submit/submit.csv',index=None,sep=',')
304 | 


--------------------------------------------------------------------------------
/达观杯-8-redhand.pptx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Rowchen/Text-classifier/1710b7d576cd6ef64d0b4cc288cac3f48c6f3457/达观杯-8-redhand.pptx


--------------------------------------------------------------------------------