├── README
├── add_dummy_label.py
├── bag
    ├── converter
    │   ├── 6.py
    │   ├── common.py
    │   └── group6.py
    ├── mark
    │   ├── Makefile
    │   ├── README
    │   └── src
    │   │   ├── common.cpp
    │   │   ├── common.h
    │   │   ├── timer.cpp
    │   │   ├── timer.h
    │   │   └── train.cpp
    ├── run.sh
    ├── run
    │   └── 6.py
    └── util
    │   ├── cat_id_click.py
    │   ├── cat_submit.py
    │   ├── common.py
    │   ├── count_feat.py
    │   ├── join_data.py
    │   ├── parallel_do.py
    │   └── parallelizer.py
├── base
    ├── converter
    │   ├── 2.py
    │   └── common.py
    ├── mark
    │   └── mark1
    │   │   ├── Makefile
    │   │   ├── README
    │   │   └── src
    │   │       ├── common.cpp
    │   │       ├── common.h
    │   │       ├── timer.cpp
    │   │       ├── timer.h
    │   │       └── train.cpp
    ├── run.py
    ├── run
    │   ├── app.py
    │   └── site.py
    └── util
    │   ├── common.py
    │   ├── gen_data.py
    │   ├── merge_prediction.py
    │   ├── parallelizer.py
    │   ├── pickle_prediction.py
    │   └── unpickle_prediction.py
├── ensemble
    ├── mark
    │   └── mark1
    │   │   ├── Makefile
    │   │   ├── README
    │   │   └── src
    │   │       ├── common.cpp
    │   │       ├── common.h
    │   │       ├── timer.cpp
    │   │       ├── timer.h
    │   │       └── train.cpp
    ├── model
    │   ├── app.id
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── app.ip
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── app
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── app_category-0f2161f8
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── app_id-92f5800b
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── banner_pos-1
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── device_conn_type-3
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site.cold_feature
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site.exd1d2
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site.id
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site.ip
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site_category-3e814130
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site_category-f028772b
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   ├── site_domain-7e091613
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    │   └── site_id-e151e245
    │   │   ├── cvt.py
    │   │   ├── data
    │   │   ├── mark
    │   │   ├── run.sh
    │   │   └── util
    ├── run.sh
    └── util
    │   ├── calc_loss.py
    │   ├── calc_loss2.py
    │   ├── common.py
    │   ├── ensemble.py
    │   ├── gendata.py
    │   ├── merge_prd.py
    │   ├── mkprd.py
    │   ├── parallelizer.py
    │   ├── run.template.py
    │   ├── runall.py
    │   └── subset.py
├── license.txt
├── run.sh
├── run_all.sh
├── tr.rx.csv
└── va.rx.csv


/README:
--------------------------------------------------------------------------------
  1 | 4 Idiots' Approach for Click-through Rate Prediction
  2 | ====================================================
  3 | 
  4 | Our team consists of:
  5 |     
  6 |     Name              Kaggle ID         Affiliation
  7 |     ====================================================================
  8 |     Yu-Chin Juan      guestwalk         National Taiwan University (NTU)
  9 |     Wei-Sheng Chin    mandora           National Taiwan University (NTU)
 10 |     Yong Zhuang       yolicat           National Taiwan University (NTU)
 11 |     Michael Jahrer    Michael Jahrer    Opera Solutions
 12 | 
 13 | Our final model is an ensemble of NTU's model and Michael's model. Michael's
 14 | model is based on his work in Opera Solutions, so he cannot release his part.
 15 | Therefore, in the codes and documents we only present NTU's model.
 16 | 
 17 | This README introduces how to run our code up. For the introduction to our
 18 | approach, please see 
 19 | 
 20 |     http://www.csie.ntu.edu.tw/~r01922136/slides/kaggle-avazu.pdf
 21 | 
 22 | The model we use for this competition is called `field-aware factorization
 23 | machines.' We have released a package for this model at:
 24 | 
 25 |     http://www.csie.ntu.edu.tw/~r01922136/libffm
 26 | 
 27 | 
 28 | 
 29 | System Requirement
 30 | ==================
 31 | 
 32 | - 64-bit Unix-like operating system
 33 | 
 34 | - Python 3
 35 | 
 36 | - g++ (with C++11 and OpenMP support)
 37 | 
 38 | - pandas (required if you want to run the `bag' part. See `Step-by-step'
 39 |   below.)
 40 | 
 41 | 
 42 | 
 43 | Step-by-step
 44 | ============
 45 | 
 46 | Our solution is an ensemble of 20 models. It is organized into the following
 47 | three parts:
 48 |     
 49 |     name       public score     private score     description        
 50 |     ===========================================================================
 51 |     base             0.3832            0.3813     2 basic models
 52 | 
 53 |     bag              0.3826            0.3807     2 models using bag features.
 54 | 
 55 |     ensemble         0.3817            0.3797     an ensemble of the above 4 
 56 |                                                   models and 16 new small models
 57 | 
 58 | Because the `bag' part consumes a huge amount of memory (more than 64GB), and
 59 | the `ensemble' part takes a long time to run, this instruction guides you to
 60 | run our `base' part first. If you want reproduce our best result, please run the
 61 | commands in the final step on a suitable machine.
 62 | 
 63 | 
 64 | 1.  First, please use the following command to run a tiny example up
 65 | 
 66 |     $ ./run.sh x
 67 | 
 68 | 2.  Create a symbolic link to the training dataset
 69 | 
 70 |     $ ln -sf <training_set_path> tr.r0.csv
 71 | 
 72 | 3.  Add a dummy label to the test set
 73 | 
 74 |     $ ./add_dummy_label.py <test_set_path> va.r0.csv
 75 | 
 76 | 4.  Checksum
 77 | 
 78 |     $ md5sum tr.r0.csv va.r0.csv
 79 |     f5d49ff28f41dc993b9ecb2372abb033  tr.r0.csv
 80 |     6edd380a5897bc16b61c5a626062f7b3  va.r0.csv
 81 | 
 82 | 5.  Reproduce our base submission
 83 | 
 84 |     $ ./run.sh 0
 85 |     
 86 |     Note: base.r0.prd is the submission file
 87 | 
 88 | 6.  (optional) Reproduce our best submission
 89 | 
 90 |     $ ./run_all.sh x
 91 | 
 92 |     If success, then run
 93 | 
 94 |     $ ./run_all.sh 0
 95 | 
 96 |     Note: The algorithm in the `bag' part is non-deterministic. That is, the
 97 |     result can be slightly different when you run it two or more times.
 98 | 
 99 | 
100 | 
101 | ==============
102 | 
103 | If you want to trace these codes, please be prepared that it will take some
104 | efforts. We do not have enough time to polish the codes here to improve the
105 | readability. Sorry about it. 
106 | 


--------------------------------------------------------------------------------
/add_dummy_label.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, hashlib
 4 | 
 5 | parser = argparse.ArgumentParser(description='process some integers')
 6 | parser.add_argument('csv_path', type=str, nargs=1, help='set path to the csv file')
 7 | parser.add_argument('out_path', type=str, nargs=1, help='set path to the svm file')
 8 | args = parser.parse_args()
 9 | 
10 | CSV_PATH, OUT_PATH = args.csv_path[0], args.out_path[0]
11 | 
12 | f = csv.writer(open(OUT_PATH, 'w'))
13 | for i, row in enumerate(csv.reader(open(CSV_PATH))):
14 |     if i == 0:
15 |         row.insert(1, 'click')
16 |     else:
17 |         row.insert(1, '0')
18 |     f.writerow(row)
19 | 


--------------------------------------------------------------------------------
/bag/converter/6.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, math
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('tr_src_path', type=str)
12 | parser.add_argument('va_src_path', type=str)
13 | parser.add_argument('tr_dst_path', type=str)
14 | parser.add_argument('va_dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | def convert(src_path, dst_path, is_train):
20 |     with open(dst_path, 'w') as f:
21 |         for row in csv.DictReader(open(src_path)):
22 |             i = 1
23 |             w = math.sqrt(2)/math.sqrt(15)
24 |             feats = []
25 | 
26 |             for field in fields:
27 |                 v = hashstr(field+'-'+row[field])
28 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
29 |                 i += 1
30 | 
31 |             v = hashstr('hour-'+row['hour'][-2:])
32 |             feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
33 |             i += 1
34 | 
35 |             if int(row['device_ip_count']) > 1000:
36 |                 v = hashstr('device_ip-'+row['device_ip'])
37 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
38 |             else:
39 |                 v = hashstr('device_ip-less-'+row['device_ip_count'])
40 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
41 |             i += 1
42 | 
43 |             if int(row['device_id_count']) > 1000:
44 |                 v = hashstr('device_id-'+row['device_id'])
45 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
46 |             else:
47 |                 v = hashstr('device_id-less-'+row['device_id_count'])
48 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
49 |             i += 1
50 | 
51 |             if int(row['smooth_user_hour_count']) > 30:
52 |                 v = hashstr('smooth_user_hour_count-0')
53 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
54 |             else:
55 |                 v = hashstr('smooth_user_hour_count-'+row['smooth_user_hour_count'])
56 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
57 |             i += 1
58 | 
59 |             if int(row['user_count']) > 30:
60 |                 v = hashstr('user_click_histroy-'+row['user_count'])
61 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
62 |             else:
63 |                 v = hashstr('user_click_histroy-'+row['user_count']+'-'+row['user_click_histroy'])
64 |                 feats.append('{i}:{v}:{w:.20f}'.format(i=i, v=v, w=w))
65 |             i += 1
66 | 
67 |             f.write('{0} {1} {2}\n'.format(row['id'], row['click'], ' '.join(feats)))
68 | 
69 | convert(args['tr_src_path'], args['tr_dst_path'], True)
70 | convert(args['va_src_path'], args['va_dst_path'], False)
71 | 


--------------------------------------------------------------------------------
/bag/converter/common.py:
--------------------------------------------------------------------------------
 1 | import hashlib, csv, math, os, subprocess
 2 | 
 3 | NR_BINS = 1000000
 4 | 
 5 | def hashstr(input):
 6 |     return str(int(hashlib.md5(input.encode('utf8')).hexdigest(), 16)%(NR_BINS-1)+1)
 7 | 
 8 | def open_with_first_line_skipped(path, skip=True):
 9 |     f = open(path)
10 |     if not skip:
11 |         return f
12 |     next(f)
13 |     return f
14 | 
15 | def split(path, nr_thread, has_header):
16 | 
17 |     def open_with_header_witten(path, idx, header):
18 |         f = open(path+'.__tmp__.{0}'.format(idx), 'w')
19 |         if not has_header:
20 |             return f 
21 |         f.write(header)
22 |         return f
23 | 
24 |     def calc_nr_lines_per_thread():
25 |         nr_lines = int(list(subprocess.Popen('wc -l {0}'.format(path), shell=True, 
26 |             stdout=subprocess.PIPE).stdout)[0].split()[0])
27 |         if not has_header:
28 |             nr_lines += 1 
29 |         return math.ceil(float(nr_lines)/nr_thread)
30 | 
31 |     header = open(path).readline()
32 | 
33 |     nr_lines_per_thread = calc_nr_lines_per_thread()
34 | 
35 |     idx = 0
36 |     f = open_with_header_witten(path, idx, header)
37 |     for i, line in enumerate(open_with_first_line_skipped(path, has_header), start=1):
38 |         if i%nr_lines_per_thread == 0:
39 |             f.close()
40 |             idx += 1
41 |             f = open_with_header_witten(path, idx, header)
42 |         f.write(line)
43 |     f.close()
44 | 
45 | def parallel_convert(cvt_path, arg_paths, nr_thread):
46 | 
47 |     workers = []
48 |     for i in range(nr_thread):
49 |         cmd = '{0}'.format(os.path.join('.', cvt_path))
50 |         for path in arg_paths:
51 |             cmd += ' {0}'.format(path+'.__tmp__.{0}'.format(i))
52 |         worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)
53 |         workers.append(worker)
54 |     for worker in workers:
55 |         worker.communicate()
56 | 
57 | def cat(path, nr_thread):
58 |     
59 |     if os.path.exists(path):
60 |         os.remove(path)
61 |     for i in range(nr_thread):
62 |         cmd = 'cat {svm}.__tmp__.{idx} >> {svm}'.format(svm=path, idx=i)
63 |         p = subprocess.Popen(cmd, shell=True)
64 |         p.communicate()
65 | 
66 | def delete(path, nr_thread):
67 |     
68 |     for i in range(nr_thread):
69 |         os.remove('{0}.__tmp__.{1}'.format(path, i))
70 | 
71 | def def_user(row):
72 |     
73 |     if row['device_id'] == 'a99f214a':
74 |         user = 'ip-' + row['device_ip'] + '-' + row['device_model']
75 |     else:
76 |         user = 'id-' + row['device_id']
77 | 
78 |     return user
79 | 
80 | def is_app(row):
81 |     
82 |     return True if row['site_id'] == '85f751fd' else False
83 | 
84 | def has_id_info(row):
85 |     
86 |     return False if row['device_id'] == 'a99f214a' else True
87 | 


--------------------------------------------------------------------------------
/bag/converter/group6.py:
--------------------------------------------------------------------------------
  1 | #!/usr/bin/env python3
  2 | import argparse
  3 | import copy
  4 | import hashlib
  5 | import itertools
  6 | import math
  7 | import multiprocessing
  8 | import numpy as np
  9 | import os
 10 | import pandas as pd
 11 | import pickle
 12 | import random
 13 | import time
 14 | from multiprocessing import Pool 
 15 | import subprocess
 16 | from collections import defaultdict
 17 | from collections import Counter
 18 | 
 19 | f_fields = ['hour', 'banner_pos', 'device_id', 'device_ip', 'device_model', 'device_conn_type', 'C14', 'C17', 'C20', 'C21', 'pub_id', 'pub_domain', 'pub_category', 'device_id_count', 'device_ip_count', 'user_count', 'smooth_user_hour_count', 'user_click_histroy']
 20 | 
 21 | def parse_args():
 22 | 	parser = argparse.ArgumentParser('Calculate group features and dump them to a specified file')
 23 | 	parser.add_argument('train', type=str, help='csv file')
 24 | 	parser.add_argument('valid', type=str, help='csv file')
 25 | 	parser.add_argument('partition', type=str, help='site/app')
 26 | 	parser.add_argument('g_field', type=str, help='specified the fields used to group instances')
 27 | 	parser.add_argument('a_field', type=str, help='specified the fields considered in each group')
 28 | 	parser.add_argument('--gc_begin', type=int, default=16, help='the index of the first column in group features')
 29 | 	parser.add_argument('--max_occur', type=int, default=100, help='specified the maximum number of count features. Any feature with counts less than the value would be replaced with its count.')
 30 | 	parser.add_argument('--max_sz_group', type=int, default=100, help='the upper limit of the size of each group')
 31 | 	parser.add_argument('--max_nr_group_feats', type=int, default=2500, help='the maximum number of features among a group')
 32 | 	return vars(parser.parse_args())
 33 | 
 34 | def hashstr(str, nr_bins=1e6):
 35 |     return int(hashlib.md5(str.encode('utf8')).hexdigest(), 16)%(nr_bins-1)+1
 36 | 
 37 | def vtform(v, partition, c, cnts, max_occur):
 38 | 	pub_in_raw = {'pub_id': {'app': 'app_id', 'site': 'site_id'}, 'pub_domain': {'app': 'app_domain', 'site': 'site_domain'}, 'pub_category': {'app': 'app_category', 'site': 'site_category'}}
 39 | 	if c in pub_in_raw:
 40 | 		c = pub_in_raw[c][partition]
 41 | 	if c != 'hour':
 42 | 		if v in cnts[c]:
 43 | 			if cnts[c][v] >= max_occur:
 44 | 				return c+'-'+v
 45 | 			else:
 46 | 				return c+'-less-'+str(cnts[c][v])
 47 | 		else:
 48 | 			return c+'-less'
 49 | 	else:
 50 | 		return c+'-'+v[-2:]
 51 | 
 52 | def generate_feats(df, partition, a_field, gc_begin, max_occur, max_sz_group, max_nr_group_feats, tr_path, va_path):
 53 | 	g_added = set(a_field.split(',')) & set(f_fields)
 54 | 	col_fm_indices = {c:i+gc_begin for i, c in enumerate(g_added)}
 55 | 	with open('fc.trva.r0.t2.pkl', 'rb') as fh:
 56 | 		cnts = pickle.load(fh)
 57 | 	with open(tr_path, 'wt') as f_tr, open(va_path, 'wt') as f_va:
 58 | 		for gid, group in df.groupby('__kid__'):
 59 | 			group_feats = dict()
 60 | 			if len(group) < max_sz_group:
 61 | 				for c in g_added:
 62 | 					group_feats[c] = Counter(group[c].apply(lambda x: vtform(x, partition, c, cnts, max_occur)))
 63 | 					c_norm = 1/math.sqrt(sum([w**2 for w in group_feats[c].values()]))/len(g_added)
 64 | 					for v, w in group_feats[c].items():
 65 | 						group_feats[c][v] = w*c_norm
 66 | 			
 67 | 			gf_str = ''
 68 | 			for c, vws in group_feats.items():
 69 | 				for v, w in vws.items():
 70 | 					gf_str += ' {0}:{1}:{2:.5f}'.format(col_fm_indices[c], int(hashstr('group-'+v)), w)
 71 | 
 72 | 			for rid, row in group.iterrows():
 73 | 				feats_str = row['id'] + gf_str
 74 | 				if row['__src__'] == '__tr__':
 75 | 					f_tr.write(feats_str+'\n')
 76 | 				elif row['__src__'] == '__va__':
 77 | 					f_va.write(feats_str+'\n')
 78 | 
 79 | def cat(combined, names):
 80 | 	if os.path.exists(combined):
 81 | 		os.remove(combined)
 82 | 	for name in names: 
 83 | 		cmd = 'cat {0} >> {1}'.format(name, combined)
 84 | 		p = subprocess.Popen(cmd, shell=True)
 85 | 		p.communicate()
 86 | 
 87 | 
 88 | def delete(names):
 89 | 	for name in names:
 90 | 		cmd = 'rm {0}'.format(name)
 91 | 		p = subprocess.Popen(cmd, shell=True)
 92 | 		p.communicate()
 93 | 
 94 | def get_pid_table(df, col, sz_chunk):
 95 | 	return df.groupby(col)['id'].count().cumsum().apply(lambda x: int(x/sz_chunk))
 96 | 
 97 | if __name__ == '__main__':
 98 | 	args = parse_args()
 99 | 	spec = '.T_{max_occur}.gins_{max_sz_group}.gfeat_{max_nr_group_feats}.gby_{g_field}.add_{a_field}'.format(
100 | 		max_occur=args['max_occur'], max_sz_group=args['max_sz_group'], max_nr_group_feats=args['max_nr_group_feats'],
101 | 		g_field=args['g_field'], a_field=args['a_field'])
102 | 	# loading
103 | 	start = time.time()
104 | 	tr = pd.read_csv(args['train'], dtype=str)
105 | 	tr['__src__'] = '__tr__'
106 | 	va = pd.read_csv(args['valid'], dtype=str)
107 | 	va['__src__'] = '__va__'
108 | 	trva = pd.concat([tr, va])
109 | 	if args['g_field'] != 'device_id':
110 | 		trva['__kid__'] = trva.apply(lambda row: '-'.join([row[c] for c in args['g_field'].split(',')]), axis=1)
111 | 	else:
112 | 		trva['__kid__'] = trva.apply(lambda row: row['device_id'] if row['device_id'] != 'a99f214a' else row['device_ip']+'-'+row['device_model'], axis=1)
113 | 	del tr
114 | 	del va
115 | 	print('Loading: {0} sec.'.format(time.time()-start))
116 | 
117 | 	# assign process IDs
118 | 	start = time.time()
119 | 	sz_chunk = max(20000, int(len(trva)/100) + 1)
120 | 	trva['__pid__'] = get_pid_table(trva, '__kid__', sz_chunk)[trva['__kid__']].values
121 | 	pids = set(trva['__pid__'])
122 | 	tr_files = [args['train']+'.__tmp__.'+str(k)+spec for k in pids]
123 | 	va_files = [args['valid']+'.__tmp__.'+str(k)+spec for k in pids]
124 | 	print('Compute the sizes of groups: {0} sec.'.format(time.time()-start))
125 | 
126 | 	# compute group features in parallel
127 | 	start = time.time()
128 | 	nr_procs = multiprocessing.cpu_count()
129 | 	pool = Pool(processes=nr_procs)
130 | 
131 | 	result = pool.starmap(generate_feats, [(g[1], args['partition'], args['a_field'], args['gc_begin'], args['max_occur'], args['max_sz_group'], args['max_nr_group_feats'], f_tr, f_va) for g, f_tr, f_va in zip(trva.groupby('__pid__'), tr_files, va_files)])
132 | 	pool.close()
133 | 	pool.join()
134 | 	print('Calculate groups'' features: {0} sec.'.format(time.time()-start))
135 | 
136 | 	# combine results and delete redundant files
137 | 	start = time.time()
138 | 	tr_path = args['train']+'.group'
139 | 	va_path = args['valid']+'.group'
140 | 	cat(tr_path, tr_files)
141 | 	cat(va_path, va_files)
142 | 	delete(tr_files)
143 | 	delete(va_files)
144 | 	print('Clean temporary files: {0} sec.'.format(time.time()-start))
145 | 


--------------------------------------------------------------------------------
/bag/mark/Makefile:
--------------------------------------------------------------------------------
 1 | CXX = g++
 2 | CXXFLAGS = -Wall -Wconversion -O3 -fPIC -std=c++0x -march=native -fopenmp
 3 | MAIN = mark18
 4 | FILES = common.cpp timer.cpp
 5 | SRCS = $(FILES:%.cpp=src/%.cpp)
 6 | HEADERS = $(FILES:%.cpp=src/%.h)
 7 | 
 8 | #DFLAG = -DNOSSE
 9 | 
10 | all: $(MAIN)
11 | 
12 | mark18: src/train.cpp $(SRCS) $(HEADERS)
13 | 	$(CXX) $(CXXFLAGS) $(DFLAG) -o $@ $< $(SRCS)
14 | 
15 | clean:
16 | 	rm -f $(MAIN)
17 | 


--------------------------------------------------------------------------------
/bag/mark/README:
--------------------------------------------------------------------------------
 1 | Data Format
 2 | ===========
 3 | The input of this factorization machine solver consists of a label vector (y)
 4 | and a binary sparse matrix (X). The input format is:
 5 | 
 6 | <label> <index_1> <index_2> ... 
 7 | .
 8 | .
 9 | .
10 | 
11 | To represent a binary sparse matrix, we only need to know where non-zero
12 | elements are, so values are not specified.
13 | 
14 | For example, 
15 | 
16 | 1 2 9 5
17 | 0 1 3 7
18 | 0 4 8 2
19 | 
20 | represents:
21 | 
22 | y          X
23 | 1   0 1 0 0 1 0 0 0 1
24 | 0   1 0 1 0 0 0 1 0 0
25 | 0   0 1 0 1 0 0 0 1 0
26 | 


--------------------------------------------------------------------------------
/bag/mark/src/common.cpp:
--------------------------------------------------------------------------------
  1 | #include <stdexcept>
  2 | #include <cstring>
  3 | #include <omp.h>
  4 | 
  5 | #include "common.h"
  6 | 
  7 | namespace {
  8 | 
  9 | int const kMaxLineSize = 1000000;
 10 | 
 11 | } //unamed namespace
 12 | 
 13 | Problem read_problem(std::string const path)
 14 | {
 15 |     if(path.empty())
 16 |         return Problem();
 17 |     Problem prob;
 18 | 
 19 |     FILE *f = open_c_file(path.c_str(), "r");
 20 |     char line[kMaxLineSize];
 21 | 
 22 |     uint64_t p = 0;
 23 |     prob.P.push_back(0);
 24 |     for(uint32_t i = 0; fgets(line, kMaxLineSize, f) != nullptr; ++i, ++prob.nr_instance)
 25 |     {
 26 |         char *y_char = strtok(line, " \t");
 27 |         float const y = (atoi(y_char)>0)? 1.0f : -1.0f;
 28 |         prob.Y.push_back(y);
 29 | 
 30 |         for(; ; ++p)
 31 |         {
 32 |             char *field_char = strtok(nullptr,":");
 33 |             char *idx_char = strtok(nullptr,":");
 34 |             char *value_char = strtok(nullptr," \t");
 35 |             if(field_char == nullptr || *field_char == '\n')
 36 |                 break;
 37 |             uint32_t const field = static_cast<uint32_t>(atoi(field_char));
 38 |             uint32_t const idx = static_cast<uint32_t>(atoi(idx_char));
 39 |             float const value = static_cast<float>(atof(value_char));
 40 | 
 41 |             prob.nr_field = std::max(prob.nr_field, field);
 42 |             prob.nr_feature = std::max(prob.nr_feature, idx);
 43 | 
 44 |             prob.JFV.push_back(DNode(field-1, idx-1, value));
 45 |         }
 46 |         prob.P.push_back(p);
 47 |     }
 48 | 
 49 |     fclose(f);
 50 | 
 51 |     return prob;
 52 | }
 53 | 
 54 | FILE *open_c_file(std::string const &path, std::string const &mode)
 55 | {
 56 |     FILE *f = fopen(path.c_str(), mode.c_str());
 57 |     if(!f)
 58 |         throw std::runtime_error(std::string("cannot open ")+path);
 59 |     return f;
 60 | }
 61 | 
 62 | std::vector<std::string> 
 63 | argv_to_args(int const argc, char const * const * const argv)
 64 | {
 65 |     std::vector<std::string> args;
 66 |     for(int i = 1; i < argc; ++i)
 67 |         args.emplace_back(argv[i]);
 68 |     return args;
 69 | }
 70 | 
 71 | float predict(Problem const &prob, Model &model, 
 72 |     std::string const &output_path)
 73 | {
 74 |     FILE *f = nullptr;
 75 |     if(!output_path.empty())
 76 |         f = open_c_file(output_path, "w");
 77 | 
 78 |     double loss = 0;
 79 |     #pragma omp parallel for schedule(static) reduction(+:loss)
 80 |     for(uint32_t i = 0; i < prob.Y.size(); ++i)
 81 |     {
 82 |         float const y = prob.Y[i];
 83 | 
 84 |         float const t = wTx(prob, model, i);
 85 |         
 86 |         float const prob = 1/(1+static_cast<float>(exp(-t)));
 87 | 
 88 |         float const expnyt = static_cast<float>(exp(-y*t));
 89 | 
 90 |         loss += log(1+expnyt);
 91 | 
 92 |         if(f)
 93 |             fprintf(f, "%lf\n", prob);
 94 |     }
 95 | 
 96 |     if(f)
 97 |         fclose(f);
 98 | 
 99 |     return static_cast<float>(loss/static_cast<double>(prob.Y.size()));
100 | }
101 | 


--------------------------------------------------------------------------------
/bag/mark/src/common.h:
--------------------------------------------------------------------------------
  1 | #pragma GCC diagnostic ignored "-Wunused-result"
  2 | 
  3 | #ifndef _COMMON_H_
  4 | #define _COMMON_H_
  5 | 
  6 | #define flag { printf("\nLINE: %d\n", __LINE__); fflush(stdout); }
  7 | 
  8 | #include <vector>
  9 | #include <cmath>
 10 | #include <pmmintrin.h>
 11 | 
 12 | struct DNode
 13 | {
 14 |     DNode(uint32_t f, uint32_t j, float v) : f(f), j(j), v(v) {}
 15 |     uint32_t f, j;
 16 |     float v;
 17 | };
 18 | 
 19 | struct Problem
 20 | {
 21 |     Problem() : nr_feature(0), nr_instance(0), nr_field(0) {}
 22 | 
 23 |     uint32_t nr_feature, nr_instance, nr_field;
 24 |     std::vector<DNode> JFV;
 25 |     std::vector<uint64_t> P;
 26 |     std::vector<float> Y;
 27 | };
 28 | 
 29 | Problem read_problem(std::string const path);
 30 | 
 31 | uint32_t const kW_NODE_SIZE = 2;
 32 | 
 33 | struct Model
 34 | {
 35 |     Model(uint32_t const nr_feature, uint32_t const nr_factor, uint32_t const nr_field) 
 36 |         : W(static_cast<uint64_t>(nr_feature)*nr_field*nr_factor*kW_NODE_SIZE, 0), 
 37 |           nr_feature(nr_feature), nr_factor(nr_factor), nr_field(nr_field) {}
 38 |     std::vector<float> W;
 39 |     const uint32_t nr_feature, nr_factor, nr_field;
 40 | };
 41 | 
 42 | FILE *open_c_file(std::string const &path, std::string const &mode);
 43 | 
 44 | std::vector<std::string> 
 45 | argv_to_args(int const argc, char const * const * const argv);
 46 | 
 47 | #if defined NOSSE
 48 | 
 49 | inline float qrsqrt(float x)
 50 | {
 51 |     _mm_store_ss(&x, _mm_rsqrt_ps(_mm_load1_ps(&x)));
 52 |     return x;
 53 | }
 54 | 
 55 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
 56 |     float const kappa=0, float const eta=0, float const lambda=0, 
 57 |     bool const do_update=false)
 58 | {
 59 |     uint32_t const nr_factor = model.nr_factor;
 60 |     uint32_t const nr_field = model.nr_field;
 61 |     uint32_t const nr_feature = model.nr_feature;
 62 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
 63 |     uint64_t const align1 = nr_field*align0;
 64 | 
 65 |     uint32_t const * const J = &prob.J[i*nr_field];
 66 |     float * const W = model.W.data();
 67 | 
 68 |     float const v = prob.v;
 69 |     float const kappav = kappa*v;
 70 | 
 71 |     float t = 0;
 72 |     for(uint32_t f1 = 0; f1 < nr_field; ++f1)
 73 |     {
 74 |         uint32_t const j1 = J[f1];
 75 |         if(j1 >= nr_feature)
 76 |             continue;
 77 | 
 78 |         for(uint32_t f2 = f1+1; f2 < nr_field; ++f2)
 79 |         {
 80 |             uint32_t const j2 = J[f2];
 81 |             if(j2 >= nr_feature)
 82 |                 continue;
 83 | 
 84 |             float * w1 = W + j1*align1 + f2*align0;
 85 |             float * w2 = W + j2*align1 + f1*align0;
 86 | 
 87 |             if(do_update)
 88 |             {
 89 |                 float * wg1 = w1 + nr_factor;
 90 |                 float * wg2 = w2 + nr_factor;
 91 |                 for(uint32_t d = 0; d < nr_factor; ++d)
 92 |                 {
 93 |                     float const g1 = lambda*w1[d] + kappav*w2[d];
 94 |                     float const g2 = lambda*w2[d] + kappav*w1[d];
 95 | 
 96 |                     wg1[d] += g1*g1;
 97 |                     wg2[d] += g2*g2;
 98 | 
 99 |                     w1[d] -= eta*qrsqrt(wg1[d])*g1;
100 |                     w2[d] -= eta*qrsqrt(wg2[d])*g2;
101 | 
102 |                 }
103 |             }
104 |             else
105 |             {
106 |                 for(uint32_t d = 0; d < nr_factor; ++d)
107 |                     t += w1[d]*w2[d]*v;
108 |             }
109 |         }
110 |     }
111 | 
112 |     return t;
113 | }
114 | 
115 | #else
116 | 
117 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
118 |     float const kappa=0, float const eta=0, float const lambda=0, 
119 |     bool const do_update=false)
120 | {
121 |     uint32_t const nr_factor = model.nr_factor;
122 |     uint32_t const nr_field = model.nr_field;
123 |     uint32_t const nr_feature = model.nr_feature;
124 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
125 |     uint64_t const align1 = nr_field*align0;
126 | 
127 |     DNode const * const JFV = prob.JFV.data();
128 |     uint64_t const * const P = prob.P.data();
129 |     float * const W = model.W.data();
130 | 
131 |     __m128 const XMMkappa = _mm_set1_ps(kappa);
132 |     __m128 const XMMeta = _mm_set1_ps(eta);
133 |     __m128 const XMMlambda = _mm_set1_ps(lambda);
134 | 
135 |     __m128 XMMt = _mm_setzero_ps();
136 |     for(uint64_t p1 = P[i]; p1 < P[i+1]; ++p1)
137 |     {
138 |         uint32_t const j1 = JFV[p1].j;
139 |         uint32_t const f1 = JFV[p1].f;
140 |         float const v1 = JFV[p1].v;
141 |         if(j1 >= nr_feature || f1 >= nr_field)
142 |             continue;
143 | 
144 |         for(uint64_t p2 = p1+1; p2 < P[i+1]; ++p2)
145 |         {
146 |             uint32_t const j2 = JFV[p2].j;
147 |             uint32_t const f2 = JFV[p2].f;
148 |             float const v2 = JFV[p2].v;
149 |             if(j2 >= nr_feature || f2 >= nr_field)
150 |                 continue;
151 |             if(f1 == f2)
152 |                 continue;
153 | 
154 |             float * const w1 = W + j1*align1 + f2*align0;
155 |             float * const w2 = W + j2*align1 + f1*align0;
156 | 
157 |             __m128 const XMMv = _mm_set1_ps(v1*v2);
158 | 
159 |             if(do_update)
160 |             {
161 |                 __m128 const XMMkappav = _mm_mul_ps(XMMkappa, XMMv);
162 | 
163 |                 float * const wg1 = w1 + nr_factor;
164 |                 float * const wg2 = w2 + nr_factor;
165 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
166 |                 {
167 |                     __m128 XMMw1 = _mm_load_ps(w1+d);
168 |                     __m128 XMMw2 = _mm_load_ps(w2+d);
169 | 
170 |                     __m128 XMMwg1 = _mm_load_ps(wg1+d);
171 |                     __m128 XMMwg2 = _mm_load_ps(wg2+d);
172 | 
173 |                     __m128 XMMg1 = _mm_add_ps(
174 |                                    _mm_mul_ps(XMMlambda, XMMw1),
175 |                                    _mm_mul_ps(XMMkappav, XMMw2));
176 |                     __m128 XMMg2 = _mm_add_ps(
177 |                                    _mm_mul_ps(XMMlambda, XMMw2),
178 |                                    _mm_mul_ps(XMMkappav, XMMw1));
179 | 
180 |                     XMMwg1 = _mm_add_ps(XMMwg1, _mm_mul_ps(XMMg1, XMMg1));
181 |                     XMMwg2 = _mm_add_ps(XMMwg2, _mm_mul_ps(XMMg2, XMMg2));
182 | 
183 |                     XMMw1 = _mm_sub_ps(XMMw1, _mm_mul_ps(XMMeta, 
184 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg1), XMMg1)));
185 |                     XMMw2 = _mm_sub_ps(XMMw2, _mm_mul_ps(XMMeta, 
186 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg2), XMMg2)));
187 | 
188 |                     _mm_store_ps(w1+d, XMMw1);
189 |                     _mm_store_ps(w2+d, XMMw2);
190 | 
191 |                     _mm_store_ps(wg1+d, XMMwg1);
192 |                     _mm_store_ps(wg2+d, XMMwg2);
193 |                 }
194 |             }
195 |             else
196 |             {
197 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
198 |                 {
199 |                     __m128 const XMMw1 = _mm_load_ps(w1+d);
200 |                     __m128 const XMMw2 = _mm_load_ps(w2+d);
201 | 
202 |                     XMMt = _mm_add_ps(XMMt, 
203 |                            _mm_mul_ps(_mm_mul_ps(XMMw1, XMMw2), XMMv));
204 |                 }
205 |             }
206 |         }
207 |     }
208 | 
209 |     if(do_update)
210 |         return 0;
211 | 
212 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
213 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
214 |     float t;
215 |     _mm_store_ss(&t, XMMt);
216 | 
217 |     return t;
218 | }
219 | 
220 | #endif
221 | 
222 | float predict(Problem const &prob, Model &model, 
223 |     std::string const &output_path = std::string(""));
224 | #endif // _COMMON_H_
225 | 


--------------------------------------------------------------------------------
/bag/mark/src/timer.cpp:
--------------------------------------------------------------------------------
 1 | #include <string>
 2 | #include "timer.h"
 3 | 
 4 | Timer::Timer()
 5 | {
 6 |     reset();
 7 | }
 8 | 
 9 | void Timer::reset()
10 | {
11 |     begin = std::chrono::high_resolution_clock::now();
12 |     duration = 
13 |         std::chrono::duration_cast<std::chrono::milliseconds>(begin-begin);
14 | }
15 | 
16 | void Timer::tic()
17 | {
18 |     begin = std::chrono::high_resolution_clock::now();
19 | }
20 | 
21 | float Timer::toc()
22 | {
23 |     duration += std::chrono::duration_cast<std::chrono::milliseconds>
24 |                     (std::chrono::high_resolution_clock::now()-begin);
25 |     return (float)duration.count()/1000;
26 | }
27 | 
28 | float Timer::get()
29 | {
30 |     float time = toc();
31 |     tic();
32 |     return time;
33 | }
34 | 


--------------------------------------------------------------------------------
/bag/mark/src/timer.h:
--------------------------------------------------------------------------------
 1 | #include <chrono>
 2 | 
 3 | class Timer
 4 | {
 5 | public:
 6 |     Timer();
 7 |     void reset();
 8 |     void tic();
 9 |     float toc();
10 |     float get();
11 | private:
12 |     std::chrono::high_resolution_clock::time_point begin;
13 |     std::chrono::milliseconds duration;
14 | };
15 | 


--------------------------------------------------------------------------------
/bag/mark/src/train.cpp:
--------------------------------------------------------------------------------
  1 | #include <iostream>
  2 | #include <algorithm>
  3 | #include <stdexcept>
  4 | #include <omp.h>
  5 | 
  6 | #include "common.h"
  7 | #include "timer.h"
  8 | 
  9 | namespace {
 10 | 
 11 | struct Option
 12 | {
 13 |     Option() 
 14 |         : eta(0.1f), lambda(0.00002f), iter(15), nr_factor(4), 
 15 |           nr_threads(1), do_prediction(true) {}
 16 |     std::string Tr_path, Va_path;
 17 |     float eta, lambda;
 18 |     uint32_t iter, nr_factor, nr_threads;
 19 |     bool do_prediction;
 20 | };
 21 | 
 22 | std::string train_help()
 23 | {
 24 |     return std::string(
 25 | "usage: fm [<options>] <validation_path> <train_path>\n"
 26 | "\n"
 27 | "<validation_path>.out will be automatically generated at the end of training\n"
 28 | "\n"
 29 | "options:\n"
 30 | "-l <lambda>: set the regularization penalty\n"
 31 | "-k <factor>: set the number of latent factors, which must be a multiple of 4\n"
 32 | "-t <iteration>: set the number of iterations\n"
 33 | "-r <eta>: set the learning rate\n"
 34 | "-s <nr_threads>: set the number of threads\n"
 35 | "-q: if it is set, then there is no output file\n");
 36 | }
 37 | 
 38 | Option parse_option(std::vector<std::string> const &args)
 39 | {
 40 |     uint32_t const argc = static_cast<uint32_t>(args.size());
 41 | 
 42 |     if(argc == 0)
 43 |         throw std::invalid_argument(train_help());
 44 | 
 45 |     Option opt; 
 46 | 
 47 |     uint32_t i = 0;
 48 |     for(; i < argc; ++i)
 49 |     {
 50 |         if(args[i].compare("-t") == 0)
 51 |         {
 52 |             if(i == argc-1)
 53 |                 throw std::invalid_argument("invalid command\n");
 54 |             opt.iter = std::stoi(args[++i]);
 55 |         }
 56 |         else if(args[i].compare("-k") == 0)
 57 |         {
 58 |             if(i == argc-1)
 59 |                 throw std::invalid_argument("invalid command\n");
 60 |             opt.nr_factor = std::stoi(args[++i]);
 61 |             if(opt.nr_factor%4 != 0)
 62 |                 throw std::invalid_argument("k should be a multiple of 4\n");
 63 |         }
 64 |         else if(args[i].compare("-r") == 0)
 65 |         {
 66 |             if(i == argc-1)
 67 |                 throw std::invalid_argument("invalid command\n");
 68 |             opt.eta = std::stof(args[++i]);
 69 |         }
 70 |         else if(args[i].compare("-l") == 0)
 71 |         {
 72 |             if(i == argc-1)
 73 |                 throw std::invalid_argument("invalid command\n");
 74 |             opt.lambda = std::stof(args[++i]);
 75 |         }
 76 |         else if(args[i].compare("-s") == 0)
 77 |         {
 78 |             if(i == argc-1)
 79 |                 throw std::invalid_argument("invalid command\n");
 80 |             opt.nr_threads = std::stoi(args[++i]);
 81 |         }
 82 |         else if(args[i].compare("-q") == 0)
 83 |         {
 84 |             opt.do_prediction = false;
 85 |         }
 86 |         else
 87 |         {
 88 |             break;
 89 |         }
 90 |     }
 91 | 
 92 |     if(i >= argc-1)
 93 |         throw std::invalid_argument("training or test set not specified\n");
 94 | 
 95 |     opt.Va_path = args[i++];
 96 |     opt.Tr_path = args[i++];
 97 | 
 98 |     return opt;
 99 | }
100 | 
101 | void init_model(Model &model)
102 | {
103 |     uint32_t const nr_factor = model.nr_factor;
104 |     float const coef = 
105 |         static_cast<float>(0.5/sqrt(static_cast<double>(nr_factor)));
106 | 
107 |     float * w = model.W.data();
108 |     for(uint32_t j = 0; j < model.nr_feature; ++j)
109 |     {
110 |         for(uint32_t f = 0; f < model.nr_field; ++f)
111 |         {
112 |             for(uint32_t d = 0; d < nr_factor; ++d, ++w)
113 |                 *w = coef*static_cast<float>(drand48());
114 |             for(uint32_t d = nr_factor; d < nr_factor; ++d, ++w)
115 |                 *w = 0;
116 |             for(uint32_t d = nr_factor; d < 2*nr_factor; ++d, ++w)
117 |                 *w = 1;
118 |         }
119 |     }
120 | }
121 | 
122 | void train(Problem const &Tr, Problem const &Va, Model &model, Option const &opt)
123 | {
124 |     std::vector<uint32_t> order(Tr.Y.size());
125 |     for(uint32_t i = 0; i < Tr.Y.size(); ++i)
126 |         order[i] = i;
127 | 
128 |     Timer timer;
129 |     printf("iter     time    tr_loss    va_loss\n");
130 |     for(uint32_t iter = 0; iter < opt.iter; ++iter)
131 |     {
132 |         timer.tic();
133 | 
134 |         double Tr_loss = 0;
135 |         //std::random_shuffle(order.begin(), order.end());
136 | #pragma omp parallel for schedule(static)
137 |         for(uint32_t i_ = 0; i_ < order.size(); ++i_)
138 |         {
139 |             uint32_t const i = order[i_];
140 | 
141 |             float const y = Tr.Y[i];
142 |             
143 |             float const t = wTx(Tr, model, i);
144 | 
145 |             float const expnyt = static_cast<float>(exp(-y*t));
146 | 
147 |             Tr_loss += log(1+expnyt);
148 |                
149 |             float const kappa = -y*expnyt/(1+expnyt);
150 | 
151 |             wTx(Tr, model, i, kappa, opt.eta, opt.lambda, true);
152 |         }
153 |         Tr_loss /= static_cast<double>(Tr.Y.size());
154 | 
155 |         double const Va_loss = predict(Va, model);
156 | 
157 |         printf("%4d %8.1f %10.5f %10.5f\n", 
158 |                iter, timer.toc(), Tr_loss, Va_loss);
159 |         fflush(stdout);
160 |     }
161 | }
162 | 
163 | } //unnamed namespace
164 | 
165 | int main(int const argc, char const * const * const argv)
166 | {
167 |     Option opt;
168 |     try
169 |     {
170 |         opt = parse_option(argv_to_args(argc, argv));
171 |     }
172 |     catch(std::invalid_argument const &e)
173 |     {
174 |         std::cout << e.what();
175 |         return EXIT_FAILURE;
176 |     }
177 | 
178 |     std::cout << "reading data..." << std::flush;
179 |     Problem const Va = read_problem(opt.Va_path);
180 |     Problem const Tr = read_problem(opt.Tr_path);
181 |     std::cout << "done\n" << std::flush;
182 | 
183 |     std::cout << "initializing model..." << std::flush;
184 |     Model model(Tr.nr_feature, opt.nr_factor, Tr.nr_field);
185 |     init_model(model);
186 |     std::cout << "done\n" << std::flush;
187 | 
188 | 	omp_set_num_threads(static_cast<int>(opt.nr_threads));
189 | 
190 |     train(Tr, Va, model, opt);
191 | 
192 | 	omp_set_num_threads(1);
193 | 
194 |     if(opt.do_prediction)
195 |         predict(Va, model, opt.Va_path+".out");
196 | 
197 |     return EXIT_SUCCESS;
198 | }
199 | 


--------------------------------------------------------------------------------
/bag/run.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/sh
 2 | 
 3 | cd mark
 4 | make clean all
 5 | cd ..
 6 | 
 7 | if [ -s "mark18" ]
 8 | then 
 9 | 	rm mark18
10 | 	ln -s mark/mark18 
11 | else
12 | 	ln -s mark/mark18 
13 | fi
14 | 
15 | ln -sf ../tr.r$1.csv .
16 | ln -sf ../va.r$1.csv .
17 | ln -sf ../base/tr.r$1.site.new.csv .
18 | ln -sf ../base/tr.r$1.app.new.csv .
19 | ln -sf ../base/va.r$1.site.new.csv .
20 | ln -sf ../base/va.r$1.app.new.csv .
21 | 
22 | ./util/count_feat.py tr.r$1.csv va.r$1.csv 2 fc.trva.r0.t2.pkl
23 | ./run/6.py app $1
24 | ./run/6.py site $1
25 | ./util/cat_submit.py va.r$1.app.submit va.r$1.site.submit bag.r$1.prd
26 | 


--------------------------------------------------------------------------------
/bag/run/6.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, subprocess, sys, os, time, socket
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser()
 9 | parser.add_argument('category', type=str)
10 | parser.add_argument('size', type=str)
11 | args = vars(parser.parse_args())
12 | 
13 | CATEGORY = args['category']
14 | SIZE = args['size']
15 | 
16 | start = time.time()
17 | 
18 | cmd = 'util/parallelizer.py -s 24 converter/6.py tr.r{size}.{category}.new.csv va.r{size}.{category}.new.csv tr.r{size}.{category}.sp va.r{size}.{category}.sp'.format(size=SIZE, category=CATEGORY)
19 | subprocess.call(cmd.split())
20 | 
21 | cmd = 'converter/group6.py tr.r{size}.{category}.new.csv va.r{size}.{category}.new.csv {category} device_id pub_id,pub_domain '.format(size=SIZE, category=CATEGORY)
22 | subprocess.call(cmd.split())
23 | 
24 | cmd = 'util/join_data.py tr.r{size}.{category}.sp tr.r{size}.{category}.new.csv.group'.format(size=SIZE, category=CATEGORY)
25 | subprocess.call(cmd.split())
26 | 
27 | cmd = 'util/join_data.py va.r{size}.{category}.sp va.r{size}.{category}.new.csv.group'.format(size=SIZE, category=CATEGORY)
28 | subprocess.call(cmd.split())
29 | 
30 | print('time used = {0:.0f}'.format(time.time()-start))
31 | 
32 | cmd = './mark18 -r 0.05 -s 1 -t 6 va.r{size}.{category}.sp.join tr.r{size}.{category}.sp.join'.format(size=SIZE, category=CATEGORY) 
33 | subprocess.call(cmd.split())
34 | 
35 | cmd = './util/cat_id_click.py va.r{size}.{category}.sp va.r{size}.{category}.sp.join.out va.r{size}.{category}.submit'.format(size=SIZE, category=CATEGORY) 
36 | subprocess.call(cmd.split())
37 | 


--------------------------------------------------------------------------------
/bag/util/cat_id_click.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | import argparse
 3 | import sys
 4 | 
 5 | def parse_args():
 6 | 	parser = argparse.ArgumentParser()
 7 | 	parser.add_argument('ins_feat', type=str)
 8 | 	parser.add_argument('pred', type=str)
 9 | 	parser.add_argument('submit', type=str)
10 | 	return vars(parser.parse_args())
11 | 
12 | if __name__ == '__main__':
13 | 	args = parse_args()
14 | 	with open(args['ins_feat'], 'rt') as fi, open(args['pred'], 'rt') as fp, open(args['submit'], 'wt') as fs:
15 | 		fs.write('id,click\n')
16 | 		for li, lp in zip(fi, fp):
17 | 			i, feat = li.rstrip().split(' ', 1)
18 | 			clk = lp.rstrip()
19 | 			fs.write('{i},{click}\n'.format(i=i, click=clk))
20 | 


--------------------------------------------------------------------------------
/bag/util/cat_submit.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | import argparse
 3 | 
 4 | def parse_args():
 5 | 	parser = argparse.ArgumentParser('concatenate two disjoint submissions')
 6 | 	parser.add_argument('sub0', type=str, help='one submission file')
 7 | 	parser.add_argument('sub1', type=str, help='the other submission file')
 8 | 	parser.add_argument('concated', type=str, help='path to the concantenated submission') 
 9 | 	return vars(parser.parse_args())
10 | 
11 | if __name__ == '__main__':
12 | 	args = parse_args()
13 | 	with open(args['sub0'], 'rt') as fh0, open(args['sub1'], 'rt') as fh1, open(args['concated'], 'wt') as fout:
14 | 		for line in fh0:
15 | 			fout.write(line)
16 | 		fh1.readline() # drop the header of the second file
17 | 		for line in fh1:
18 | 			fout.write(line)
19 | 


--------------------------------------------------------------------------------
/bag/util/common.py:
--------------------------------------------------------------------------------
1 | ../converter/common.py


--------------------------------------------------------------------------------
/bag/util/count_feat.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | import argparse
 3 | import pandas as pd
 4 | import pickle
 5 | 
 6 | def parse_args():
 7 | 	parser = argparse.ArgumentParser('count the occurences of all features')
 8 | 	parser.add_argument('tr_path', type=str, help='path to training set in CSV format')
 9 | 	parser.add_argument('va_path', type=str, help='path to test set in CSV format')
10 | 	parser.add_argument('min_occur', type=int, help='set the minimum occurence of the considered features')
11 | 	parser.add_argument('cnt_path', type=str, help='path to the counting result') 
12 | 	return vars(parser.parse_args())
13 | 
14 | if __name__ == '__main__':
15 | 	args = parse_args()
16 | 	tr = pd.read_csv(args['tr_path'], dtype=str)
17 | 	va = pd.read_csv(args['va_path'], dtype=str)
18 | 
19 | 	trva = pd.concat([tr, va])
20 | 
21 | 	group_counts = dict()
22 | 
23 | 	min_occur = args['min_occur']
24 | 
25 | 	nr_feats = 0
26 | 	for field in trva.columns:
27 | 		cnts = trva[field].value_counts()
28 | 		group_counts[field] = cnts[cnts >= min_occur].to_dict()
29 | 		nr_feats += len(group_counts[field])
30 | 
31 | 	with open(args['cnt_path'], 'wb') as fh:
32 | 		pickle.dump(group_counts, fh) 
33 | 


--------------------------------------------------------------------------------
/bag/util/join_data.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | import argparse
 3 | import pandas as pd
 4 | 
 5 | def parse_args():
 6 | 	parser = argparse.ArgumentParser()
 7 | 	parser.add_argument('raw')
 8 | 	parser.add_argument('join')
 9 | 	return vars(parser.parse_args())
10 | 
11 | if __name__ == '__main__':
12 | 	args = parse_args()
13 | 	to_join = dict()
14 | 	with open(args['join'], 'rt') as fh:
15 | 		for line in fh:
16 | 			x = line.rstrip().split(' ', 1)
17 | 			to_join[x[0]] = x[1] if len(x) == 2 else ''
18 | 	with open(args['raw'], 'rt') as fi, open(args['raw']+'.join', 'wt') as fo:
19 | 		for line in fi:
20 | 			i, ins = line.rstrip().split(' ', 1)
21 | 			fo.write(ins + ' ' + to_join[i] + '\n')
22 | 


--------------------------------------------------------------------------------
/bag/util/parallel_do.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, sys, subprocess
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser()
 9 | parser.add_argument('task_path', type=str)
10 | args = vars(parser.parse_args())
11 | 
12 | tasks = []
13 | for line in open(args['task_path']):
14 |     log_path, cmd = line.strip().split(' ', 1)
15 |     tasks.append({'log_path': log_path, 'cmd': cmd})
16 | 
17 | workers = []
18 | for task in tasks:
19 |     worker = subprocess.Popen(task['cmd'].split(), stdout=open(task['log_path'], 'w'))
20 |     workers.append(worker)
21 | 
22 | for worker in workers:
23 |     worker.communicate()
24 | 


--------------------------------------------------------------------------------
/bag/util/parallelizer.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, sys
 4 | 
 5 | from common import *
 6 | 
 7 | def parse_args():
 8 |     
 9 |     if len(sys.argv) == 1:
10 |         sys.argv.append('-h')
11 | 
12 |     parser = argparse.ArgumentParser()
13 |     parser.add_argument('-s', dest='nr_thread', default=12, type=int)
14 |     parser.add_argument('cvt_path')
15 |     parser.add_argument('tr_src_path')
16 |     parser.add_argument('va_src_path')
17 |     parser.add_argument('tr_dst_path')
18 |     parser.add_argument('va_dst_path')
19 |     args = vars(parser.parse_args())
20 | 
21 |     return args
22 | 
23 | def main():
24 |     
25 |     args = parse_args()
26 | 
27 |     nr_thread = args['nr_thread']
28 |     
29 |     split(args['tr_src_path'], nr_thread, True)
30 |     split(args['va_src_path'], nr_thread, True)
31 | 
32 |     parallel_convert(args['cvt_path'], [args['tr_src_path'], args['va_src_path'], args['tr_dst_path'], args['va_dst_path']], nr_thread)
33 | 
34 |     delete(args['tr_src_path'], nr_thread)
35 |     delete(args['va_src_path'], nr_thread)
36 | 
37 |     cat(args['tr_dst_path'], nr_thread)
38 |     cat(args['va_dst_path'], nr_thread)
39 | 
40 |     delete(args['tr_dst_path'], nr_thread)
41 |     delete(args['va_dst_path'], nr_thread)
42 | 
43 | main()
44 | 


--------------------------------------------------------------------------------
/base/converter/2.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('tr_src_path', type=str)
12 | parser.add_argument('va_src_path', type=str)
13 | parser.add_argument('tr_dst_path', type=str)
14 | parser.add_argument('va_dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | def convert(src_path, dst_path, is_train):
20 |     with open(dst_path, 'w') as f:
21 |         for row in csv.DictReader(open(src_path)):
22 |             
23 |             feats = []
24 | 
25 |             for field in fields:
26 |                 feats.append(hashstr(field+'-'+row[field]))
27 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
28 | 
29 |             if int(row['device_ip_count']) > 1000:
30 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
31 |             else:
32 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_count']))
33 | 
34 |             if int(row['device_id_count']) > 1000:
35 |                 feats.append(hashstr('device_id-'+row['device_id']))
36 |             else:
37 |                 feats.append(hashstr('device_id-less-'+row['device_id_count']))
38 | 
39 |             if int(row['smooth_user_hour_count']) > 30:
40 |                 feats.append(hashstr('smooth_user_hour_count-0'))
41 |             else:
42 |                 feats.append(hashstr('smooth_user_hour_count-'+row['smooth_user_hour_count']))
43 | 
44 |             if int(row['user_count']) > 30:
45 |                 feats.append(hashstr('user_click_histroy-'+row['user_count']))
46 |             else:
47 |                 feats.append(hashstr('user_click_histroy-'+row['user_count']+'-'+row['user_click_histroy']))
48 | 
49 |             f.write('{0} {1} {2}\n'.format(row['id'], row['click'], ' '.join(feats)))
50 | 
51 | convert(args['tr_src_path'], args['tr_dst_path'], True)
52 | convert(args['va_src_path'], args['va_dst_path'], False)
53 | 


--------------------------------------------------------------------------------
/base/converter/common.py:
--------------------------------------------------------------------------------
  1 | import hashlib, csv, math, os, subprocess
  2 | 
  3 | NR_BINS = 1000000
  4 | 
  5 | def hashstr(input):
  6 |     return str(int(hashlib.md5(input.encode('utf8')).hexdigest(), 16)%(NR_BINS-1)+1)
  7 | 
  8 | def open_with_first_line_skipped(path, skip=True):
  9 |     f = open(path)
 10 |     if not skip:
 11 |         return f
 12 |     next(f)
 13 |     return f
 14 | 
 15 | def split(path, nr_thread, has_header):
 16 | 
 17 |     def open_with_header_witten(path, idx, header):
 18 |         f = open(path+'.__tmp__.{0}'.format(idx), 'w')
 19 |         if not has_header:
 20 |             return f 
 21 |         f.write(header)
 22 |         return f
 23 | 
 24 |     def calc_nr_lines_per_thread():
 25 |         nr_lines = int(list(subprocess.Popen('wc -l {0}'.format(path), shell=True, 
 26 |             stdout=subprocess.PIPE).stdout)[0].split()[0])
 27 |         if not has_header:
 28 |             nr_lines += 1 
 29 |         return math.ceil(float(nr_lines)/nr_thread)
 30 | 
 31 |     header = open(path).readline()
 32 | 
 33 |     nr_lines_per_thread = calc_nr_lines_per_thread()
 34 | 
 35 |     idx = 0
 36 |     f = open_with_header_witten(path, idx, header)
 37 |     for i, line in enumerate(open_with_first_line_skipped(path, has_header), start=1):
 38 |         if i%nr_lines_per_thread == 0:
 39 |             f.close()
 40 |             idx += 1
 41 |             f = open_with_header_witten(path, idx, header)
 42 |         f.write(line)
 43 |     f.close()
 44 | 
 45 | def parallel_convert(cvt_path, arg_paths, nr_thread):
 46 | 
 47 |     workers = []
 48 |     for i in range(nr_thread):
 49 |         cmd = '{0}'.format(os.path.join('.', cvt_path))
 50 |         for path in arg_paths:
 51 |             cmd += ' {0}'.format(path+'.__tmp__.{0}'.format(i))
 52 |         worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)
 53 |         workers.append(worker)
 54 |     for worker in workers:
 55 |         worker.communicate()
 56 | 
 57 | def cat(path, nr_thread):
 58 |     
 59 |     if os.path.exists(path):
 60 |         os.remove(path)
 61 |     for i in range(nr_thread):
 62 |         cmd = 'cat {svm}.__tmp__.{idx} >> {svm}'.format(svm=path, idx=i)
 63 |         p = subprocess.Popen(cmd, shell=True)
 64 |         p.communicate()
 65 | 
 66 | def delete(path, nr_thread):
 67 |     
 68 |     for i in range(nr_thread):
 69 |         os.remove('{0}.__tmp__.{1}'.format(path, i))
 70 | 
 71 | def def_user(row):
 72 |     
 73 |     if row['device_id'] == 'a99f214a':
 74 |         user = 'ip-' + row['device_ip'] + '-' + row['device_model']
 75 |     else:
 76 |         user = 'id-' + row['device_id']
 77 | 
 78 |     return user
 79 | 
 80 | def is_app(row):
 81 |     
 82 |     return True if row['site_id'] == '85f751fd' else False
 83 | 
 84 | def has_id_info(row):
 85 |     
 86 |     return False if row['device_id'] == 'a99f214a' else True
 87 | 
 88 | def add_hour(summand, addend):
 89 |     date = int(summand[:-2])
 90 |     hour = int(summand[-2:])
 91 |     hour += int(addend)
 92 |     if hour > 23:
 93 |         hour -= 24
 94 |         date += 1
 95 |     return '{0:6}{1:02d}'.format(date, hour)
 96 | 
 97 | def hour_diff(a, b):
 98 |     if int(a) > int(b):
 99 |         greater = a
100 |         smaller = b
101 |     else:
102 |         greater = b
103 |         smaller = a
104 | 
105 |     greater_day = int(greater[:-2])
106 |     greater_hour = int(greater[-2:])
107 | 
108 |     smaller_day = int(smaller[:-2])
109 |     smaller_hour = int(smaller[-2:])
110 | 
111 |     return (greater_day-smaller_day)*24+(greater_hour-smaller_hour)
112 | 


--------------------------------------------------------------------------------
/base/mark/mark1/Makefile:
--------------------------------------------------------------------------------
 1 | CXX = g++
 2 | CXXFLAGS = -Wall -Wconversion -O3 -fPIC -std=c++0x -march=native -fopenmp
 3 | MAIN = mark1
 4 | FILES = common.cpp timer.cpp
 5 | SRCS = $(FILES:%.cpp=src/%.cpp)
 6 | HEADERS = $(FILES:%.cpp=src/%.h)
 7 | 
 8 | #DFLAG = -DNOSSE
 9 | 
10 | all: $(MAIN)
11 | 
12 | mark1: src/train.cpp $(SRCS) $(HEADERS)
13 | 	$(CXX) $(CXXFLAGS) $(DFLAG) -o $@ $< $(SRCS)
14 | 
15 | clean:
16 | 	rm -f $(MAIN)
17 | 


--------------------------------------------------------------------------------
/base/mark/mark1/README:
--------------------------------------------------------------------------------
 1 | Data Format
 2 | ===========
 3 | The input of this factorization machine solver consists of a label vector (y)
 4 | and a binary sparse matrix (X). The input format is:
 5 | 
 6 | <label> <index_1> <index_2> ... 
 7 | .
 8 | .
 9 | .
10 | 
11 | To represent a binary sparse matrix, we only need to know where non-zero
12 | elements are, so values are not specified.
13 | 
14 | For example, 
15 | 
16 | 1 2 9 5
17 | 0 1 3 7
18 | 0 4 8 2
19 | 
20 | represents:
21 | 
22 | y          X
23 | 1   0 1 0 0 1 0 0 0 1
24 | 0   1 0 1 0 0 0 1 0 0
25 | 0   0 1 0 1 0 0 0 1 0
26 | 


--------------------------------------------------------------------------------
/base/mark/mark1/src/common.cpp:
--------------------------------------------------------------------------------
  1 | #include <stdexcept>
  2 | #include <cstring>
  3 | #include <omp.h>
  4 | 
  5 | #include "common.h"
  6 | 
  7 | namespace {
  8 | 
  9 | int const kMaxLineSize = 1000000;
 10 | 
 11 | uint32_t get_nr_line(std::string const &path)
 12 | {
 13 |     FILE *f = open_c_file(path.c_str(), "r");
 14 |     char line[kMaxLineSize];
 15 | 
 16 |     uint32_t nr_line = 0;
 17 |     while(fgets(line, kMaxLineSize, f) != nullptr)
 18 |         ++nr_line;
 19 | 
 20 |     fclose(f);
 21 | 
 22 |     return nr_line;
 23 | }
 24 | 
 25 | uint32_t get_nr_field(std::string const &path)
 26 | {
 27 |     FILE *f = open_c_file(path.c_str(), "r");
 28 |     char line[kMaxLineSize];
 29 | 
 30 |     fgets(line, kMaxLineSize, f);
 31 |     strtok(line, " \t");
 32 |     strtok(nullptr, " \t");
 33 | 
 34 |     uint32_t nr_field = 0;
 35 |     while(1)
 36 |     {
 37 |         char *idx_char = strtok(nullptr," \t");
 38 |         if(idx_char == nullptr || *idx_char == '\n')
 39 |             break;
 40 |         ++nr_field;
 41 |     }
 42 | 
 43 |     fclose(f);
 44 | 
 45 |     return nr_field;
 46 | }
 47 | 
 48 | } //unamed namespace
 49 | 
 50 | Problem read_problem(std::string const path)
 51 | {
 52 |     if(path.empty())
 53 |         return Problem(0, 0);
 54 |     Problem prob(get_nr_line(path), get_nr_field(path));
 55 | 
 56 |     FILE *f = open_c_file(path.c_str(), "r");
 57 |     char line[kMaxLineSize];
 58 | 
 59 |     uint64_t p = 0;
 60 |     for(uint32_t i = 0; fgets(line, kMaxLineSize, f) != nullptr; ++i)
 61 |     {
 62 |         char *z_char = strtok(line, " \t");
 63 |         prob.Z[i] = std::string(z_char);
 64 | 
 65 |         char *y_char = strtok(nullptr, " \t");
 66 |         float const y = (atoi(y_char)>0)? 1.0f : -1.0f;
 67 |         prob.Y[i] = y;
 68 |         for(; ; ++p)
 69 |         {
 70 |             char *idx_char = strtok(nullptr," \t");
 71 |             if(idx_char == nullptr || *idx_char == '\n')
 72 |                 break;
 73 |             uint32_t idx = static_cast<uint32_t>(atoi(idx_char));
 74 |             prob.nr_feature = std::max(prob.nr_feature, idx);
 75 |             prob.J[p] = idx-1;
 76 |         }
 77 |     }
 78 | 
 79 |     fclose(f);
 80 | 
 81 |     return prob;
 82 | }
 83 | 
 84 | FILE *open_c_file(std::string const &path, std::string const &mode)
 85 | {
 86 |     FILE *f = fopen(path.c_str(), mode.c_str());
 87 |     if(!f)
 88 |         throw std::runtime_error(std::string("cannot open ")+path);
 89 |     return f;
 90 | }
 91 | 
 92 | std::vector<std::string> 
 93 | argv_to_args(int const argc, char const * const * const argv)
 94 | {
 95 |     std::vector<std::string> args;
 96 |     for(int i = 1; i < argc; ++i)
 97 |         args.emplace_back(argv[i]);
 98 |     return args;
 99 | }
100 | 
101 | float predict(Problem const &prob, Model &model, 
102 |     std::string const &output_path)
103 | {
104 |     FILE *f = nullptr;
105 |     if(!output_path.empty())
106 |     {
107 |         f = open_c_file(output_path, "w");
108 |         fprintf(f, "id,click\n");
109 |     }
110 | 
111 |     double loss = 0;
112 |     #pragma omp parallel for schedule(static) reduction(+:loss)
113 |     for(uint32_t i = 0; i < prob.Y.size(); ++i)
114 |     {
115 |         float const y = prob.Y[i];
116 | 
117 |         float const t = wTx(prob, model, i);
118 |         
119 |         float const pred = 1/(1+static_cast<float>(exp(-t)));
120 | 
121 |         float const expnyt = static_cast<float>(exp(-y*t));
122 | 
123 |         loss += log(1+expnyt);
124 | 
125 |         if(f)
126 |             fprintf(f, "%s,%.5lf\n", prob.Z[i].c_str(), pred);
127 |     }
128 | 
129 |     if(f)
130 |         fclose(f);
131 | 
132 |     return static_cast<float>(loss/static_cast<double>(prob.Y.size()));
133 | }
134 | 


--------------------------------------------------------------------------------
/base/mark/mark1/src/common.h:
--------------------------------------------------------------------------------
  1 | #pragma GCC diagnostic ignored "-Wunused-result"
  2 | 
  3 | #ifndef _COMMON_H_
  4 | #define _COMMON_H_
  5 | 
  6 | #define flag { printf("\nLINE: %d\n", __LINE__); fflush(stdout); }
  7 | 
  8 | #include <vector>
  9 | #include <cmath>
 10 | #include <pmmintrin.h>
 11 | 
 12 | struct Problem
 13 | {
 14 |     Problem(uint32_t const nr_instance, uint32_t const nr_field) 
 15 |         : nr_feature(0), nr_instance(nr_instance), nr_field(nr_field), 
 16 |           v(2.0f/static_cast<float>(nr_field)), 
 17 |           J(static_cast<uint64_t>(nr_instance)*nr_field), 
 18 |           Y(nr_instance), Z(nr_instance) {}
 19 |     uint32_t nr_feature, nr_instance, nr_field;
 20 |     float v;
 21 |     std::vector<uint32_t> J;
 22 |     std::vector<float> Y;
 23 |     std::vector<std::string> Z;
 24 | };
 25 | 
 26 | Problem read_problem(std::string const path);
 27 | 
 28 | uint32_t const kW_NODE_SIZE = 2;
 29 | 
 30 | struct Model
 31 | {
 32 |     Model(uint32_t const nr_feature, uint32_t const nr_factor, uint32_t const nr_field) 
 33 |         : W(static_cast<uint64_t>(nr_feature)*nr_field*nr_factor*kW_NODE_SIZE, 0), 
 34 |           nr_feature(nr_feature), nr_factor(nr_factor), nr_field(nr_field) {}
 35 |     std::vector<float> W;
 36 |     const uint32_t nr_feature, nr_factor, nr_field;
 37 | };
 38 | 
 39 | FILE *open_c_file(std::string const &path, std::string const &mode);
 40 | 
 41 | std::vector<std::string> 
 42 | argv_to_args(int const argc, char const * const * const argv);
 43 | 
 44 | #if defined NOSSE
 45 | 
 46 | inline float qrsqrt(float x)
 47 | {
 48 |     _mm_store_ss(&x, _mm_rsqrt_ps(_mm_load1_ps(&x)));
 49 |     return x;
 50 | }
 51 | 
 52 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
 53 |     float const kappa=0, float const eta=0, float const lambda=0, 
 54 |     bool const do_update=false)
 55 | {
 56 |     uint32_t const nr_factor = model.nr_factor;
 57 |     uint32_t const nr_field = model.nr_field;
 58 |     uint32_t const nr_feature = model.nr_feature;
 59 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
 60 |     uint64_t const align1 = nr_field*align0;
 61 | 
 62 |     uint32_t const * const J = &prob.J[i*nr_field];
 63 |     float * const W = model.W.data();
 64 | 
 65 |     float const v = prob.v;
 66 |     float const kappav = kappa*v;
 67 | 
 68 |     float t = 0;
 69 |     for(uint32_t f1 = 0; f1 < nr_field; ++f1)
 70 |     {
 71 |         uint32_t const j1 = J[f1];
 72 |         if(j1 >= nr_feature)
 73 |             continue;
 74 | 
 75 |         for(uint32_t f2 = f1+1; f2 < nr_field; ++f2)
 76 |         {
 77 |             uint32_t const j2 = J[f2];
 78 |             if(j2 >= nr_feature)
 79 |                 continue;
 80 | 
 81 |             float * w1 = W + j1*align1 + f2*align0;
 82 |             float * w2 = W + j2*align1 + f1*align0;
 83 | 
 84 |             if(do_update)
 85 |             {
 86 |                 float * wg1 = w1 + nr_factor;
 87 |                 float * wg2 = w2 + nr_factor;
 88 |                 for(uint32_t d = 0; d < nr_factor; ++d)
 89 |                 {
 90 |                     float const g1 = lambda*w1[d] + kappav*w2[d];
 91 |                     float const g2 = lambda*w2[d] + kappav*w1[d];
 92 | 
 93 |                     wg1[d] += g1*g1;
 94 |                     wg2[d] += g2*g2;
 95 | 
 96 |                     w1[d] -= eta*qrsqrt(wg1[d])*g1;
 97 |                     w2[d] -= eta*qrsqrt(wg2[d])*g2;
 98 | 
 99 |                 }
100 |             }
101 |             else
102 |             {
103 |                 for(uint32_t d = 0; d < nr_factor; ++d)
104 |                     t += w1[d]*w2[d]*v;
105 |             }
106 |         }
107 |     }
108 | 
109 |     return t;
110 | }
111 | 
112 | #else
113 | 
114 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
115 |     float const kappa=0, float const eta=0, float const lambda=0, 
116 |     bool const do_update=false)
117 | {
118 |     uint32_t const nr_factor = model.nr_factor;
119 |     uint32_t const nr_field = model.nr_field;
120 |     uint32_t const nr_feature = model.nr_feature;
121 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
122 |     uint64_t const align1 = nr_field*align0;
123 | 
124 |     uint32_t const * const J = &prob.J[i*nr_field];
125 |     float * const W = model.W.data();
126 | 
127 |     __m128 const XMMv = _mm_set1_ps(prob.v);
128 |     __m128 const XMMkappav = _mm_set1_ps(kappa*prob.v);
129 |     __m128 const XMMeta = _mm_set1_ps(eta);
130 |     __m128 const XMMlambda = _mm_set1_ps(lambda);
131 | 
132 |     __m128 XMMt = _mm_setzero_ps();
133 |     for(uint32_t f1 = 0; f1 < nr_field; ++f1)
134 |     {
135 |         uint32_t const j1 = J[f1];
136 |         if(j1 >= nr_feature)
137 |             continue;
138 | 
139 |         for(uint32_t f2 = f1+1; f2 < nr_field; ++f2)
140 |         {
141 |             uint32_t const j2 = J[f2];
142 |             if(j2 >= nr_feature)
143 |                 continue;
144 | 
145 |             float * const w1 = W + j1*align1 + f2*align0;
146 |             float * const w2 = W + j2*align1 + f1*align0;
147 | 
148 |             if(do_update)
149 |             {
150 |                 float * const wg1 = w1 + nr_factor;
151 |                 float * const wg2 = w2 + nr_factor;
152 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
153 |                 {
154 |                     __m128 XMMw1 = _mm_load_ps(w1+d);
155 |                     __m128 XMMw2 = _mm_load_ps(w2+d);
156 | 
157 |                     __m128 XMMwg1 = _mm_load_ps(wg1+d);
158 |                     __m128 XMMwg2 = _mm_load_ps(wg2+d);
159 | 
160 |                     __m128 XMMg1 = _mm_add_ps(
161 |                                    _mm_mul_ps(XMMlambda, XMMw1),
162 |                                    _mm_mul_ps(XMMkappav, XMMw2));
163 |                     __m128 XMMg2 = _mm_add_ps(
164 |                                    _mm_mul_ps(XMMlambda, XMMw2),
165 |                                    _mm_mul_ps(XMMkappav, XMMw1));
166 | 
167 |                     XMMwg1 = _mm_add_ps(XMMwg1, _mm_mul_ps(XMMg1, XMMg1));
168 |                     XMMwg2 = _mm_add_ps(XMMwg2, _mm_mul_ps(XMMg2, XMMg2));
169 | 
170 |                     XMMw1 = _mm_sub_ps(XMMw1, _mm_mul_ps(XMMeta, 
171 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg1), XMMg1)));
172 |                     XMMw2 = _mm_sub_ps(XMMw2, _mm_mul_ps(XMMeta, 
173 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg2), XMMg2)));
174 | 
175 |                     _mm_store_ps(w1+d, XMMw1);
176 |                     _mm_store_ps(w2+d, XMMw2);
177 | 
178 |                     _mm_store_ps(wg1+d, XMMwg1);
179 |                     _mm_store_ps(wg2+d, XMMwg2);
180 |                 }
181 |             }
182 |             else
183 |             {
184 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
185 |                 {
186 |                     __m128 const XMMw1 = _mm_load_ps(w1+d);
187 |                     __m128 const XMMw2 = _mm_load_ps(w2+d);
188 | 
189 |                     XMMt = _mm_add_ps(XMMt, 
190 |                            _mm_mul_ps(_mm_mul_ps(XMMw1, XMMw2), XMMv));
191 |                 }
192 |             }
193 |         }
194 |     }
195 | 
196 |     if(do_update)
197 |         return 0;
198 | 
199 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
200 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
201 |     float t;
202 |     _mm_store_ss(&t, XMMt);
203 | 
204 |     return t;
205 | }
206 | 
207 | #endif
208 | 
209 | float predict(Problem const &prob, Model &model, 
210 |     std::string const &output_path = std::string(""));
211 | #endif // _COMMON_H_
212 | 


--------------------------------------------------------------------------------
/base/mark/mark1/src/timer.cpp:
--------------------------------------------------------------------------------
 1 | #include <string>
 2 | #include "timer.h"
 3 | 
 4 | Timer::Timer()
 5 | {
 6 |     reset();
 7 | }
 8 | 
 9 | void Timer::reset()
10 | {
11 |     begin = std::chrono::high_resolution_clock::now();
12 |     duration = 
13 |         std::chrono::duration_cast<std::chrono::milliseconds>(begin-begin);
14 | }
15 | 
16 | void Timer::tic()
17 | {
18 |     begin = std::chrono::high_resolution_clock::now();
19 | }
20 | 
21 | float Timer::toc()
22 | {
23 |     duration += std::chrono::duration_cast<std::chrono::milliseconds>
24 |                     (std::chrono::high_resolution_clock::now()-begin);
25 |     return (float)duration.count()/1000;
26 | }
27 | 
28 | float Timer::get()
29 | {
30 |     float time = toc();
31 |     tic();
32 |     return time;
33 | }
34 | 


--------------------------------------------------------------------------------
/base/mark/mark1/src/timer.h:
--------------------------------------------------------------------------------
 1 | #include <chrono>
 2 | 
 3 | class Timer
 4 | {
 5 | public:
 6 |     Timer();
 7 |     void reset();
 8 |     void tic();
 9 |     float toc();
10 |     float get();
11 | private:
12 |     std::chrono::high_resolution_clock::time_point begin;
13 |     std::chrono::milliseconds duration;
14 | };
15 | 


--------------------------------------------------------------------------------
/base/mark/mark1/src/train.cpp:
--------------------------------------------------------------------------------
  1 | #include <iostream>
  2 | #include <algorithm>
  3 | #include <stdexcept>
  4 | #include <omp.h>
  5 | 
  6 | #include "common.h"
  7 | #include "timer.h"
  8 | 
  9 | namespace {
 10 | 
 11 | struct Option
 12 | {
 13 |     Option() 
 14 |         : eta(0.1f), lambda(0.00002f), iter(15), nr_factor(4), nr_factor_real(4), 
 15 |           nr_threads(1), do_prediction(true) {}
 16 |     std::string Tr_path, Va_path;
 17 |     float eta, lambda;
 18 |     uint32_t iter, nr_factor, nr_factor_real, nr_threads;
 19 |     bool do_prediction;
 20 | };
 21 | 
 22 | std::string train_help()
 23 | {
 24 |     return std::string(
 25 | "usage: fm [<options>] <validation_path> <train_path>\n"
 26 | "\n"
 27 | "<validation_path>.out will be automatically generated at the end of training\n"
 28 | "\n"
 29 | "options:\n"
 30 | "-l <lambda>: set the regularization penalty\n"
 31 | "-k <factor>: set the number of latent factors, which must be a multiple of 4\n"
 32 | "-t <iteration>: set the number of iterations\n"
 33 | "-r <eta>: set the learning rate\n"
 34 | "-s <nr_threads>: set the number of threads\n"
 35 | "-q: if it is set, then there is no output file\n");
 36 | }
 37 | 
 38 | Option parse_option(std::vector<std::string> const &args)
 39 | {
 40 |     uint32_t const argc = static_cast<uint32_t>(args.size());
 41 | 
 42 |     if(argc == 0)
 43 |         throw std::invalid_argument(train_help());
 44 | 
 45 |     Option opt; 
 46 | 
 47 |     uint32_t i = 0;
 48 |     for(; i < argc; ++i)
 49 |     {
 50 |         if(args[i].compare("-t") == 0)
 51 |         {
 52 |             if(i == argc-1)
 53 |                 throw std::invalid_argument("invalid command\n");
 54 |             opt.iter = std::stoi(args[++i]);
 55 |         }
 56 |         else if(args[i].compare("-k") == 0)
 57 |         {
 58 |             if(i == argc-1)
 59 |                 throw std::invalid_argument("invalid command\n");
 60 |             opt.nr_factor_real = std::stoi(args[++i]);
 61 |             opt.nr_factor = static_cast<uint32_t>(ceil(static_cast<float>(opt.nr_factor_real)/4.0f)*4);
 62 |         }
 63 |         else if(args[i].compare("-r") == 0)
 64 |         {
 65 |             if(i == argc-1)
 66 |                 throw std::invalid_argument("invalid command\n");
 67 |             opt.eta = std::stof(args[++i]);
 68 |         }
 69 |         else if(args[i].compare("-l") == 0)
 70 |         {
 71 |             if(i == argc-1)
 72 |                 throw std::invalid_argument("invalid command\n");
 73 |             opt.lambda = std::stof(args[++i]);
 74 |         }
 75 |         else if(args[i].compare("-s") == 0)
 76 |         {
 77 |             if(i == argc-1)
 78 |                 throw std::invalid_argument("invalid command\n");
 79 |             opt.nr_threads = std::stoi(args[++i]);
 80 |         }
 81 |         else if(args[i].compare("-q") == 0)
 82 |         {
 83 |             opt.do_prediction = false;
 84 |         }
 85 |         else
 86 |         {
 87 |             break;
 88 |         }
 89 |     }
 90 | 
 91 |     if(i >= argc-1)
 92 |         throw std::invalid_argument("training or test set not specified\n");
 93 | 
 94 |     opt.Va_path = args[i++];
 95 |     opt.Tr_path = args[i++];
 96 | 
 97 |     return opt;
 98 | }
 99 | 
100 | void init_model(Model &model, uint32_t const nr_factor_real)
101 | {
102 |     uint32_t const nr_factor = model.nr_factor;
103 |     float const coef = 
104 |         static_cast<float>(0.5/sqrt(static_cast<double>(nr_factor)));
105 | 
106 |     float * w = model.W.data();
107 |     for(uint32_t j = 0; j < model.nr_feature; ++j)
108 |     {
109 |         for(uint32_t f = 0; f < model.nr_field; ++f)
110 |         {
111 |             for(uint32_t d = 0; d < nr_factor_real; ++d, ++w)
112 |                 *w = coef*static_cast<float>(drand48());
113 |             for(uint32_t d = nr_factor_real; d < nr_factor; ++d, ++w)
114 |                 *w = 0;
115 |             for(uint32_t d = nr_factor; d < 2*nr_factor; ++d, ++w)
116 |                 *w = 1;
117 |         }
118 |     }
119 | }
120 | 
121 | void train(Problem const &Tr, Problem const &Va, Model &model, Option const &opt)
122 | {
123 |     std::vector<uint32_t> order(Tr.Y.size());
124 |     for(uint32_t i = 0; i < Tr.Y.size(); ++i)
125 |         order[i] = i;
126 | 
127 |     Timer timer;
128 |     printf("iter     time    tr_loss    va_loss\n");
129 |     for(uint32_t iter = 0; iter < opt.iter; ++iter)
130 |     {
131 |         timer.tic();
132 | 
133 |         double Tr_loss = 0;
134 |         //std::random_shuffle(order.begin(), order.end());
135 | #pragma omp parallel for schedule(static)
136 |         for(uint32_t i_ = 0; i_ < order.size(); ++i_)
137 |         {
138 |             uint32_t const i = order[i_];
139 | 
140 |             float const y = Tr.Y[i];
141 |             
142 |             float const t = wTx(Tr, model, i);
143 | 
144 |             float const expnyt = static_cast<float>(exp(-y*t));
145 | 
146 |             Tr_loss += log(1+expnyt);
147 |                
148 |             float const kappa = -y*expnyt/(1+expnyt);
149 | 
150 |             wTx(Tr, model, i, kappa, opt.eta, opt.lambda, true);
151 |         }
152 |         Tr_loss /= static_cast<double>(Tr.Y.size());
153 | 
154 |         double const Va_loss = predict(Va, model);
155 | 
156 |         printf("%4d %8.1f %10.5f %10.5f\n", 
157 |                iter, timer.toc(), Tr_loss, Va_loss);
158 |         fflush(stdout);
159 |     }
160 | }
161 | 
162 | } //unnamed namespace
163 | 
164 | int main(int const argc, char const * const * const argv)
165 | {
166 |     Option opt;
167 |     try
168 |     {
169 |         opt = parse_option(argv_to_args(argc, argv));
170 |     }
171 |     catch(std::invalid_argument const &e)
172 |     {
173 |         std::cout << e.what();
174 |         return EXIT_FAILURE;
175 |     }
176 | 
177 |     std::cout << "reading data..." << std::flush;
178 |     Problem const Va = read_problem(opt.Va_path);
179 |     Problem const Tr = read_problem(opt.Tr_path);
180 |     std::cout << "done\n" << std::flush;
181 | 
182 |     std::cout << "initializing model..." << std::flush;
183 |     Model model(Tr.nr_feature, opt.nr_factor, Tr.nr_field);
184 |     init_model(model, opt.nr_factor_real);
185 |     std::cout << "done\n" << std::flush;
186 | 
187 | 	omp_set_num_threads(static_cast<int>(opt.nr_threads));
188 | 
189 |     train(Tr, Va, model, opt);
190 | 
191 | 	omp_set_num_threads(1);
192 | 
193 |     if(opt.do_prediction)
194 |         predict(Va, model, opt.Va_path+".prd");
195 | 
196 |     return EXIT_SUCCESS;
197 | }
198 | 


--------------------------------------------------------------------------------
/base/run.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import subprocess, sys, os, time, socket
 4 | 
 5 | size = sys.argv[1]
 6 | 
 7 | start = time.time()
 8 | print('size = {size}'.format(size=size))
 9 | 
10 | cmd = 'make -C mark/mark1 && ln -sf mark/mark1/mark1'
11 | subprocess.call(cmd, shell=True)
12 | 
13 | cmd = './util/gen_data.py ../tr.r{size}.csv ../va.r{size}.csv tr.r{size}.app.new.csv va.r{size}.app.new.csv tr.r{size}.site.new.csv va.r{size}.site.new.csv'.format(size=size)
14 | subprocess.call(cmd.split())
15 | 
16 | for category in ['app', 'site']:
17 |     cmd = 'util/parallelizer.py -s 12 converter/2.py tr.r{size}.{category}.new.csv va.r{size}.{category}.new.csv tr.r{size}.{category}.sp va.r{size}.{category}.sp'.format(size=size, category=category)
18 |     subprocess.call(cmd.split())
19 | 
20 | cmd = './mark1 -r 0.03 -s 1 -t 13 va.r{size}.app.sp tr.r{size}.app.sp'.format(size=size) 
21 | subprocess.call(cmd.split())
22 | cmd = './mark1 -r 0.03 -s 1 -t 17 va.r{size}.site.sp tr.r{size}.site.sp'.format(size=size) 
23 | subprocess.call(cmd.split())
24 | 
25 | for category in ['app', 'site']:
26 |     cmd = './util/pickle_prediction.py va.r{size}.{category}.sp.prd va.r{size}.{category}.sp.prd.pickle'.format(size=size, category=category) 
27 |     subprocess.call(cmd.split())
28 | 
29 | cmd = './util/merge_prediction.py va.r{size}.app.sp.prd.pickle va.r{size}.site.sp.prd.pickle va.r{size}.prd.pickle'.format(size=size) 
30 | subprocess.call(cmd.split())
31 | 
32 | cmd = './util/unpickle_prediction.py va.r{size}.prd.pickle base.r{size}.prd'.format(size=size)
33 | subprocess.call(cmd.split())
34 | 
35 | print('time used = {0:.0f}'.format(time.time()-start))
36 | 


--------------------------------------------------------------------------------
/base/run/app.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, subprocess, sys, os, time, socket
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser()
 9 | parser.add_argument('size', type=str)
10 | args = vars(parser.parse_args())
11 | 
12 | target = 'app'
13 | size = args['size']
14 | 
15 | subprocess.call('./util/prepare.sh', stdout=subprocess.PIPE)
16 | 
17 | start = time.time()
18 | 
19 | cmd = 'util/parallelizer.py -s 24 converter/{target}.py tr.r{size}.app.csv va.r{size}.app.csv tr.r{size}.{target}.sp va.r{size}.{target}.sp'.format(size=size, target=target)
20 | subprocess.call(cmd.split())
21 | 
22 | print('r{0} time used = {1:.0f}'.format(size, time.time()-start))
23 | 
24 | cmd = './mark1 -r 0.05 -s 24 -t 3 va.r{size}.{target}.sp tr.r{size}.{target}.sp'.format(size=size, target=target) 
25 | subprocess.call(cmd.split())
26 | 
27 | cmd = './util/pickle_prediction.py va.r{size}.{target}.sp.prd va.r{size}.{target}.sp.prd.pickle'.format(size=size, target=target) 
28 | subprocess.call(cmd.split())
29 | 


--------------------------------------------------------------------------------
/base/run/site.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, subprocess, sys, os, time, socket
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser()
 9 | parser.add_argument('size', type=str)
10 | args = vars(parser.parse_args())
11 | 
12 | target = 'site'
13 | size = args['size']
14 | 
15 | subprocess.call('./util/prepare.sh', stdout=subprocess.PIPE)
16 | 
17 | start = time.time()
18 | 
19 | cmd = 'util/parallelizer.py -s 24 converter/{target}.py tr.r{size}.site.csv va.r{size}.site.csv tr.r{size}.{target}.sp va.r{size}.{target}.sp'.format(size=size, target=target)
20 | subprocess.call(cmd.split())
21 | 
22 | print('r{0} time used = {1:.0f}'.format(size, time.time()-start))
23 | 
24 | cmd = './mark1 -r 0.05 -s 24 -t 3 va.r{size}.{target}.sp tr.r{size}.{target}.sp'.format(size=size, target=target) 
25 | subprocess.call(cmd.split())
26 | 
27 | cmd = './util/pickle_prediction.py va.r{size}.{target}.sp.prd va.r{size}.{target}.sp.prd.pickle'.format(size=size, target=target) 
28 | subprocess.call(cmd.split())
29 | 


--------------------------------------------------------------------------------
/base/util/common.py:
--------------------------------------------------------------------------------
1 | ../converter/common.py


--------------------------------------------------------------------------------
/base/util/gen_data.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('tr_src_path', type=str)
12 | parser.add_argument('va_src_path', type=str)
13 | parser.add_argument('tr_app_dst_path', type=str)
14 | parser.add_argument('va_app_dst_path', type=str)
15 | parser.add_argument('tr_site_dst_path', type=str)
16 | parser.add_argument('va_site_dst_path', type=str)
17 | args = vars(parser.parse_args())
18 | 
19 | FIELDS = ['id','click','hour','banner_pos','device_id','device_ip','device_model','device_conn_type','C14','C17','C20','C21']
20 | NEW_FIELDS = FIELDS+['pub_id','pub_domain','pub_category','device_id_count','device_ip_count','user_count','smooth_user_hour_count','user_click_histroy']
21 | 
22 | id_cnt = collections.defaultdict(int)
23 | ip_cnt = collections.defaultdict(int)
24 | user_cnt = collections.defaultdict(int)
25 | user_hour_cnt = collections.defaultdict(int)
26 | 
27 | start = time.time()
28 | 
29 | def scan(path):
30 |     for i, row in enumerate(csv.DictReader(open(path)), start=1):
31 |         if i % 1000000 == 0:
32 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
33 | 
34 |         user = def_user(row)
35 |         id_cnt[row['device_id']] += 1
36 |         ip_cnt[row['device_ip']] += 1
37 |         user_cnt[user] += 1
38 |         user_hour_cnt[user+'-'+row['hour']] += 1
39 | 
40 | history = collections.defaultdict(lambda: {'history': '', 'buffer': '', 'prev_hour': ''})
41 | 
42 | def gen_data(src_path, dst_app_path, dst_site_path, is_train):
43 |     reader = csv.DictReader(open(src_path))
44 |     writer_app = csv.DictWriter(open(dst_app_path, 'w'), NEW_FIELDS)
45 |     writer_site = csv.DictWriter(open(dst_site_path, 'w'), NEW_FIELDS)
46 |     writer_app.writeheader()
47 |     writer_site.writeheader()
48 | 
49 |     for i, row in enumerate(reader, start=1):
50 |         if i % 1000000 == 0:
51 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
52 |         
53 |         new_row = {}
54 |         for field in FIELDS:
55 |             new_row[field] = row[field]
56 | 
57 |         new_row['device_id_count'] = id_cnt[row['device_id']]
58 |         new_row['device_ip_count'] = ip_cnt[row['device_ip']]
59 | 
60 |         user, hour = def_user(row), row['hour']
61 |         new_row['user_count'] = user_cnt[user]
62 |         new_row['smooth_user_hour_count'] = str(user_hour_cnt[user+'-'+hour])
63 | 
64 |         if has_id_info(row):
65 | 
66 |             if history[user]['prev_hour'] != row['hour']:
67 |                 history[user]['history'] = (history[user]['history'] + history[user]['buffer'])[-4:]
68 |                 history[user]['buffer'] = ''
69 |                 history[user]['prev_hour'] = row['hour']
70 | 
71 |             new_row['user_click_histroy'] = history[user]['history']
72 | 
73 |             if is_train:
74 |                 history[user]['buffer'] += row['click']
75 |         else:
76 |             new_row['user_click_histroy'] = ''
77 | 
78 |         if is_app(row):
79 |             new_row['pub_id'] = row['app_id']
80 |             new_row['pub_domain'] = row['app_domain']
81 |             new_row['pub_category'] = row['app_category']
82 |             writer_app.writerow(new_row)
83 |         else:
84 |             new_row['pub_id'] = row['site_id']
85 |             new_row['pub_domain'] = row['site_domain']
86 |             new_row['pub_category'] = row['site_category']
87 |             writer_site.writerow(new_row)
88 | 
89 | scan(args['tr_src_path'])
90 | scan(args['va_src_path'])
91 | 
92 | print('======================scan complete======================')
93 | 
94 | gen_data(args['tr_src_path'], args['tr_app_dst_path'], args['tr_site_dst_path'], True)
95 | gen_data(args['va_src_path'], args['va_app_dst_path'], args['va_site_dst_path'], False)
96 | 


--------------------------------------------------------------------------------
/base/util/merge_prediction.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, math
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser(description='process some integers')
 9 | parser.add_argument('prd_paths', nargs='+', type=str)
10 | parser.add_argument('out_path', type=str)
11 | args = vars(parser.parse_args())
12 | 
13 | def logistic_func(x):
14 |     return 1/(1+math.exp(-x))
15 | 
16 | def inv_logistic_func(x):
17 |     return math.log(x/(1-x))
18 | 
19 | mprd = collections.defaultdict(list)
20 | for path in args['prd_paths']:
21 |     prd = pickle.load(open(path, 'rb'))
22 |     for key, value in prd.items():
23 |         mprd[key].append(value)
24 | 
25 | for key in mprd:
26 |     mprd[key] = logistic_func(sum(map(inv_logistic_func, mprd[key]))/len(mprd[key]))
27 | 
28 | pickle.dump(mprd, open(args['out_path'], 'wb'))
29 | 


--------------------------------------------------------------------------------
/base/util/parallelizer.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, sys
 4 | 
 5 | from common import *
 6 | 
 7 | def parse_args():
 8 |     
 9 |     if len(sys.argv) == 1:
10 |         sys.argv.append('-h')
11 | 
12 |     parser = argparse.ArgumentParser()
13 |     parser.add_argument('-s', dest='nr_thread', default=12, type=int)
14 |     parser.add_argument('cvt_path')
15 |     parser.add_argument('tr_src_path')
16 |     parser.add_argument('va_src_path')
17 |     parser.add_argument('tr_dst_path')
18 |     parser.add_argument('va_dst_path')
19 |     args = vars(parser.parse_args())
20 | 
21 |     return args
22 | 
23 | def main():
24 |     
25 |     args = parse_args()
26 | 
27 |     nr_thread = args['nr_thread']
28 |     
29 |     split(args['tr_src_path'], nr_thread, True)
30 |     split(args['va_src_path'], nr_thread, True)
31 | 
32 |     parallel_convert(args['cvt_path'], [args['tr_src_path'], args['va_src_path'], args['tr_dst_path'], args['va_dst_path']], nr_thread)
33 | 
34 |     delete(args['tr_src_path'], nr_thread)
35 |     delete(args['va_src_path'], nr_thread)
36 | 
37 |     cat(args['tr_dst_path'], nr_thread)
38 |     cat(args['va_dst_path'], nr_thread)
39 | 
40 |     delete(args['tr_dst_path'], nr_thread)
41 |     delete(args['va_dst_path'], nr_thread)
42 | 
43 | main()
44 | 


--------------------------------------------------------------------------------
/base/util/pickle_prediction.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser(description='process some integers')
 9 | parser.add_argument('prd_path', type=str)
10 | parser.add_argument('out_path', type=str)
11 | args = vars(parser.parse_args())
12 | 
13 | prd = {}
14 | for row in csv.DictReader(open(args['prd_path']), delimiter=','):
15 |     prd[row['id']] = float(row['click'])
16 | 
17 | pickle.dump(prd, open(args['out_path'], 'wb'))
18 | 


--------------------------------------------------------------------------------
/base/util/unpickle_prediction.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, sys, pickle
 4 | 
 5 | if len(sys.argv) == 1:
 6 |     sys.argv.append('-h')
 7 | 
 8 | parser = argparse.ArgumentParser(description='process some integers')
 9 | parser.add_argument('src_path', type=str)
10 | parser.add_argument('dst_path', type=str)
11 | args = vars(parser.parse_args())
12 | 
13 | prd = pickle.load(open(args['src_path'], 'rb'))
14 | 
15 | with open(args['dst_path'], 'w') as f:
16 |     f.write('id,click\n')
17 |     for id, click in sorted(prd.items()):
18 |         f.write('{0},{1}\n'.format(id,round(click, 5)))
19 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/Makefile:
--------------------------------------------------------------------------------
 1 | CXX = g++
 2 | CXXFLAGS = -Wall -Wconversion -O3 -fPIC -std=c++0x -march=native -fopenmp
 3 | MAIN = mark1
 4 | FILES = common.cpp timer.cpp
 5 | SRCS = $(FILES:%.cpp=src/%.cpp)
 6 | HEADERS = $(FILES:%.cpp=src/%.h)
 7 | 
 8 | #DFLAG = -DNOSSE
 9 | 
10 | all: $(MAIN)
11 | 
12 | mark1: src/train.cpp $(SRCS) $(HEADERS)
13 | 	$(CXX) $(CXXFLAGS) $(DFLAG) -o $@ $< $(SRCS)
14 | 
15 | clean:
16 | 	rm -f $(MAIN)
17 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/README:
--------------------------------------------------------------------------------
 1 | Data Format
 2 | ===========
 3 | The input of this factorization machine solver consists of a label vector (y)
 4 | and a binary sparse matrix (X). The input format is:
 5 | 
 6 | <label> <index_1> <index_2> ... 
 7 | .
 8 | .
 9 | .
10 | 
11 | To represent a binary sparse matrix, we only need to know where non-zero
12 | elements are, so values are not specified.
13 | 
14 | For example, 
15 | 
16 | 1 2 9 5
17 | 0 1 3 7
18 | 0 4 8 2
19 | 
20 | represents:
21 | 
22 | y          X
23 | 1   0 1 0 0 1 0 0 0 1
24 | 0   1 0 1 0 0 0 1 0 0
25 | 0   0 1 0 1 0 0 0 1 0
26 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/src/common.cpp:
--------------------------------------------------------------------------------
  1 | #include <stdexcept>
  2 | #include <cstring>
  3 | #include <omp.h>
  4 | 
  5 | #include "common.h"
  6 | 
  7 | namespace {
  8 | 
  9 | int const kMaxLineSize = 1000000;
 10 | 
 11 | uint32_t get_nr_line(std::string const &path)
 12 | {
 13 |     FILE *f = open_c_file(path.c_str(), "r");
 14 |     char line[kMaxLineSize];
 15 | 
 16 |     uint32_t nr_line = 0;
 17 |     while(fgets(line, kMaxLineSize, f) != nullptr)
 18 |         ++nr_line;
 19 | 
 20 |     fclose(f);
 21 | 
 22 |     return nr_line;
 23 | }
 24 | 
 25 | uint32_t get_nr_field(std::string const &path)
 26 | {
 27 |     FILE *f = open_c_file(path.c_str(), "r");
 28 |     char line[kMaxLineSize];
 29 | 
 30 |     fgets(line, kMaxLineSize, f);
 31 |     strtok(line, " \t");
 32 | 
 33 |     uint32_t nr_field = 0;
 34 |     while(1)
 35 |     {
 36 |         char *idx_char = strtok(nullptr," \t");
 37 |         if(idx_char == nullptr || *idx_char == '\n')
 38 |             break;
 39 |         ++nr_field;
 40 |     }
 41 | 
 42 |     fclose(f);
 43 | 
 44 |     return nr_field;
 45 | }
 46 | 
 47 | } //unamed namespace
 48 | 
 49 | Problem read_problem(std::string const path)
 50 | {
 51 |     if(path.empty())
 52 |         return Problem(0, 0);
 53 |     Problem prob(get_nr_line(path), get_nr_field(path));
 54 | 
 55 |     FILE *f = open_c_file(path.c_str(), "r");
 56 |     char line[kMaxLineSize];
 57 | 
 58 |     uint64_t p = 0;
 59 |     for(uint32_t i = 0; fgets(line, kMaxLineSize, f) != nullptr; ++i)
 60 |     {
 61 |         char *y_char = strtok(line, " \t");
 62 |         float const y = (atoi(y_char)>0)? 1.0f : -1.0f;
 63 |         prob.Y[i] = y;
 64 |         for(; ; ++p)
 65 |         {
 66 |             char *idx_char = strtok(nullptr," \t");
 67 |             if(idx_char == nullptr || *idx_char == '\n')
 68 |                 break;
 69 |             uint32_t idx = static_cast<uint32_t>(atoi(idx_char));
 70 |             prob.nr_feature = std::max(prob.nr_feature, idx);
 71 |             prob.J[p] = idx-1;
 72 |         }
 73 |     }
 74 | 
 75 |     fclose(f);
 76 | 
 77 |     return prob;
 78 | }
 79 | 
 80 | FILE *open_c_file(std::string const &path, std::string const &mode)
 81 | {
 82 |     FILE *f = fopen(path.c_str(), mode.c_str());
 83 |     if(!f)
 84 |         throw std::runtime_error(std::string("cannot open ")+path);
 85 |     return f;
 86 | }
 87 | 
 88 | std::vector<std::string> 
 89 | argv_to_args(int const argc, char const * const * const argv)
 90 | {
 91 |     std::vector<std::string> args;
 92 |     for(int i = 1; i < argc; ++i)
 93 |         args.emplace_back(argv[i]);
 94 |     return args;
 95 | }
 96 | 
 97 | float predict(Problem const &prob, Model &model, 
 98 |     std::string const &output_path)
 99 | {
100 |     FILE *f = nullptr;
101 |     if(!output_path.empty())
102 |         f = open_c_file(output_path, "w");
103 | 
104 |     double loss = 0;
105 |     #pragma omp parallel for schedule(static) reduction(+:loss)
106 |     for(uint32_t i = 0; i < prob.Y.size(); ++i)
107 |     {
108 |         float const y = prob.Y[i];
109 | 
110 |         float const t = wTx(prob, model, i);
111 |         
112 |         float const pred = 1/(1+static_cast<float>(exp(-t)));
113 | 
114 |         float const expnyt = static_cast<float>(exp(-y*t));
115 | 
116 |         loss += log(1+expnyt);
117 | 
118 |         if(f)
119 |             fprintf(f, "%.5lf\n", pred);
120 |     }
121 | 
122 |     if(f)
123 |         fclose(f);
124 | 
125 |     return static_cast<float>(loss/static_cast<double>(prob.Y.size()));
126 | }
127 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/src/common.h:
--------------------------------------------------------------------------------
  1 | #pragma GCC diagnostic ignored "-Wunused-result"
  2 | 
  3 | #ifndef _COMMON_H_
  4 | #define _COMMON_H_
  5 | 
  6 | #define flag { printf("\nLINE: %d\n", __LINE__); fflush(stdout); }
  7 | 
  8 | #include <vector>
  9 | #include <cmath>
 10 | #include <pmmintrin.h>
 11 | 
 12 | struct Problem
 13 | {
 14 |     Problem(uint32_t const nr_instance, uint32_t const nr_field) 
 15 |         : nr_feature(0), nr_instance(nr_instance), nr_field(nr_field), 
 16 |           v(2.0f/static_cast<float>(nr_field)), 
 17 |           J(static_cast<uint64_t>(nr_instance)*nr_field), 
 18 |           Y(nr_instance) {}
 19 |     uint32_t nr_feature, nr_instance, nr_field;
 20 |     float v;
 21 |     std::vector<uint32_t> J;
 22 |     std::vector<float> Y;
 23 | };
 24 | 
 25 | Problem read_problem(std::string const path);
 26 | 
 27 | uint32_t const kW_NODE_SIZE = 2;
 28 | 
 29 | struct Model
 30 | {
 31 |     Model(uint32_t const nr_feature, uint32_t const nr_factor, uint32_t const nr_field) 
 32 |         : W(static_cast<uint64_t>(nr_feature)*nr_field*nr_factor*kW_NODE_SIZE, 0), 
 33 |           nr_feature(nr_feature), nr_factor(nr_factor), nr_field(nr_field) {}
 34 |     std::vector<float> W;
 35 |     const uint32_t nr_feature, nr_factor, nr_field;
 36 | };
 37 | 
 38 | FILE *open_c_file(std::string const &path, std::string const &mode);
 39 | 
 40 | std::vector<std::string> 
 41 | argv_to_args(int const argc, char const * const * const argv);
 42 | 
 43 | #if defined NOSSE
 44 | 
 45 | inline float qrsqrt(float x)
 46 | {
 47 |     _mm_store_ss(&x, _mm_rsqrt_ps(_mm_load1_ps(&x)));
 48 |     return x;
 49 | }
 50 | 
 51 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
 52 |     float const kappa=0, float const eta=0, float const lambda=0, 
 53 |     bool const do_update=false)
 54 | {
 55 |     uint32_t const nr_factor = model.nr_factor;
 56 |     uint32_t const nr_field = model.nr_field;
 57 |     uint32_t const nr_feature = model.nr_feature;
 58 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
 59 |     uint64_t const align1 = nr_field*align0;
 60 | 
 61 |     uint32_t const * const J = &prob.J[i*nr_field];
 62 |     float * const W = model.W.data();
 63 | 
 64 |     float const v = prob.v;
 65 |     float const kappav = kappa*v;
 66 | 
 67 |     float t = 0;
 68 |     for(uint32_t f1 = 0; f1 < nr_field; ++f1)
 69 |     {
 70 |         uint32_t const j1 = J[f1];
 71 |         if(j1 >= nr_feature)
 72 |             continue;
 73 | 
 74 |         for(uint32_t f2 = f1+1; f2 < nr_field; ++f2)
 75 |         {
 76 |             uint32_t const j2 = J[f2];
 77 |             if(j2 >= nr_feature)
 78 |                 continue;
 79 | 
 80 |             float * w1 = W + j1*align1 + f2*align0;
 81 |             float * w2 = W + j2*align1 + f1*align0;
 82 | 
 83 |             if(do_update)
 84 |             {
 85 |                 float * wg1 = w1 + nr_factor;
 86 |                 float * wg2 = w2 + nr_factor;
 87 |                 for(uint32_t d = 0; d < nr_factor; ++d)
 88 |                 {
 89 |                     float const g1 = lambda*w1[d] + kappav*w2[d];
 90 |                     float const g2 = lambda*w2[d] + kappav*w1[d];
 91 | 
 92 |                     wg1[d] += g1*g1;
 93 |                     wg2[d] += g2*g2;
 94 | 
 95 |                     w1[d] -= eta*qrsqrt(wg1[d])*g1;
 96 |                     w2[d] -= eta*qrsqrt(wg2[d])*g2;
 97 | 
 98 |                 }
 99 |             }
100 |             else
101 |             {
102 |                 for(uint32_t d = 0; d < nr_factor; ++d)
103 |                     t += w1[d]*w2[d]*v;
104 |             }
105 |         }
106 |     }
107 | 
108 |     return t;
109 | }
110 | 
111 | #else
112 | 
113 | inline float wTx(Problem const &prob, Model &model, uint32_t const i, 
114 |     float const kappa=0, float const eta=0, float const lambda=0, 
115 |     bool const do_update=false)
116 | {
117 |     uint32_t const nr_factor = model.nr_factor;
118 |     uint32_t const nr_field = model.nr_field;
119 |     uint32_t const nr_feature = model.nr_feature;
120 |     uint64_t const align0 = nr_factor*kW_NODE_SIZE;
121 |     uint64_t const align1 = nr_field*align0;
122 | 
123 |     uint32_t const * const J = &prob.J[i*nr_field];
124 |     float * const W = model.W.data();
125 | 
126 |     __m128 const XMMv = _mm_set1_ps(prob.v);
127 |     __m128 const XMMkappav = _mm_set1_ps(kappa*prob.v);
128 |     __m128 const XMMeta = _mm_set1_ps(eta);
129 |     __m128 const XMMlambda = _mm_set1_ps(lambda);
130 | 
131 |     __m128 XMMt = _mm_setzero_ps();
132 |     for(uint32_t f1 = 0; f1 < nr_field; ++f1)
133 |     {
134 |         uint32_t const j1 = J[f1];
135 |         if(j1 >= nr_feature)
136 |             continue;
137 | 
138 |         for(uint32_t f2 = f1+1; f2 < nr_field; ++f2)
139 |         {
140 |             uint32_t const j2 = J[f2];
141 |             if(j2 >= nr_feature)
142 |                 continue;
143 | 
144 |             float * const w1 = W + j1*align1 + f2*align0;
145 |             float * const w2 = W + j2*align1 + f1*align0;
146 | 
147 |             if(do_update)
148 |             {
149 |                 float * const wg1 = w1 + nr_factor;
150 |                 float * const wg2 = w2 + nr_factor;
151 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
152 |                 {
153 |                     __m128 XMMw1 = _mm_load_ps(w1+d);
154 |                     __m128 XMMw2 = _mm_load_ps(w2+d);
155 | 
156 |                     __m128 XMMwg1 = _mm_load_ps(wg1+d);
157 |                     __m128 XMMwg2 = _mm_load_ps(wg2+d);
158 | 
159 |                     __m128 XMMg1 = _mm_add_ps(
160 |                                    _mm_mul_ps(XMMlambda, XMMw1),
161 |                                    _mm_mul_ps(XMMkappav, XMMw2));
162 |                     __m128 XMMg2 = _mm_add_ps(
163 |                                    _mm_mul_ps(XMMlambda, XMMw2),
164 |                                    _mm_mul_ps(XMMkappav, XMMw1));
165 | 
166 |                     XMMwg1 = _mm_add_ps(XMMwg1, _mm_mul_ps(XMMg1, XMMg1));
167 |                     XMMwg2 = _mm_add_ps(XMMwg2, _mm_mul_ps(XMMg2, XMMg2));
168 | 
169 |                     XMMw1 = _mm_sub_ps(XMMw1, _mm_mul_ps(XMMeta, 
170 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg1), XMMg1)));
171 |                     XMMw2 = _mm_sub_ps(XMMw2, _mm_mul_ps(XMMeta, 
172 |                             _mm_mul_ps(_mm_rsqrt_ps(XMMwg2), XMMg2)));
173 | 
174 |                     _mm_store_ps(w1+d, XMMw1);
175 |                     _mm_store_ps(w2+d, XMMw2);
176 | 
177 |                     _mm_store_ps(wg1+d, XMMwg1);
178 |                     _mm_store_ps(wg2+d, XMMwg2);
179 |                 }
180 |             }
181 |             else
182 |             {
183 |                 for(uint32_t d = 0; d < nr_factor; d += 4)
184 |                 {
185 |                     __m128 const XMMw1 = _mm_load_ps(w1+d);
186 |                     __m128 const XMMw2 = _mm_load_ps(w2+d);
187 | 
188 |                     XMMt = _mm_add_ps(XMMt, 
189 |                            _mm_mul_ps(_mm_mul_ps(XMMw1, XMMw2), XMMv));
190 |                 }
191 |             }
192 |         }
193 |     }
194 | 
195 |     if(do_update)
196 |         return 0;
197 | 
198 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
199 |     XMMt = _mm_hadd_ps(XMMt, XMMt);
200 |     float t;
201 |     _mm_store_ss(&t, XMMt);
202 | 
203 |     return t;
204 | }
205 | 
206 | #endif
207 | 
208 | float predict(Problem const &prob, Model &model, 
209 |     std::string const &output_path = std::string(""));
210 | #endif // _COMMON_H_
211 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/src/timer.cpp:
--------------------------------------------------------------------------------
 1 | #include <string>
 2 | #include "timer.h"
 3 | 
 4 | Timer::Timer()
 5 | {
 6 |     reset();
 7 | }
 8 | 
 9 | void Timer::reset()
10 | {
11 |     begin = std::chrono::high_resolution_clock::now();
12 |     duration = 
13 |         std::chrono::duration_cast<std::chrono::milliseconds>(begin-begin);
14 | }
15 | 
16 | void Timer::tic()
17 | {
18 |     begin = std::chrono::high_resolution_clock::now();
19 | }
20 | 
21 | float Timer::toc()
22 | {
23 |     duration += std::chrono::duration_cast<std::chrono::milliseconds>
24 |                     (std::chrono::high_resolution_clock::now()-begin);
25 |     return (float)duration.count()/1000;
26 | }
27 | 
28 | float Timer::get()
29 | {
30 |     float time = toc();
31 |     tic();
32 |     return time;
33 | }
34 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/src/timer.h:
--------------------------------------------------------------------------------
 1 | #include <chrono>
 2 | 
 3 | class Timer
 4 | {
 5 | public:
 6 |     Timer();
 7 |     void reset();
 8 |     void tic();
 9 |     float toc();
10 |     float get();
11 | private:
12 |     std::chrono::high_resolution_clock::time_point begin;
13 |     std::chrono::milliseconds duration;
14 | };
15 | 


--------------------------------------------------------------------------------
/ensemble/mark/mark1/src/train.cpp:
--------------------------------------------------------------------------------
  1 | #include <iostream>
  2 | #include <algorithm>
  3 | #include <stdexcept>
  4 | #include <omp.h>
  5 | 
  6 | #include "common.h"
  7 | #include "timer.h"
  8 | 
  9 | namespace {
 10 | 
 11 | struct Option
 12 | {
 13 |     Option() 
 14 |         : eta(0.05f), lambda(0.00002f), iter(15), nr_factor(4), nr_factor_real(4), 
 15 |           nr_threads(1), do_prediction(true) {}
 16 |     std::string Tr_path, Va_path, out_path;
 17 |     float eta, lambda;
 18 |     uint32_t iter, nr_factor, nr_factor_real, nr_threads;
 19 |     bool do_prediction;
 20 | };
 21 | 
 22 | std::string train_help()
 23 | {
 24 |     return std::string(
 25 | "usage: fm [<options>] <validation_path> <train_path>\n"
 26 | "\n"
 27 | "<validation_path>.out will be automatically generated at the end of training\n"
 28 | "\n"
 29 | "options:\n"
 30 | "-l <lambda>: set the regularization penalty\n"
 31 | "-k <factor>: set the number of latent factors, which must be a multiple of 4\n"
 32 | "-t <iteration>: set the number of iterations\n"
 33 | "-r <eta>: set the learning rate\n"
 34 | "-s <nr_threads>: set the number of threads\n"
 35 | "-q: if it is set, then there is no output file\n");
 36 | }
 37 | 
 38 | Option parse_option(std::vector<std::string> const &args)
 39 | {
 40 |     uint32_t const argc = static_cast<uint32_t>(args.size());
 41 | 
 42 |     if(argc == 0)
 43 |         throw std::invalid_argument(train_help());
 44 | 
 45 |     Option opt; 
 46 | 
 47 |     uint32_t i = 0;
 48 |     for(; i < argc; ++i)
 49 |     {
 50 |         if(args[i].compare("-t") == 0)
 51 |         {
 52 |             if(i == argc-1)
 53 |                 throw std::invalid_argument("invalid command\n");
 54 |             opt.iter = std::stoi(args[++i]);
 55 |         }
 56 |         else if(args[i].compare("-k") == 0)
 57 |         {
 58 |             if(i == argc-1)
 59 |                 throw std::invalid_argument("invalid command\n");
 60 |             opt.nr_factor_real = std::stoi(args[++i]);
 61 |             opt.nr_factor = static_cast<uint32_t>(ceil(static_cast<float>(opt.nr_factor_real)/4.0f)*4);
 62 |         }
 63 |         else if(args[i].compare("-r") == 0)
 64 |         {
 65 |             if(i == argc-1)
 66 |                 throw std::invalid_argument("invalid command\n");
 67 |             opt.eta = std::stof(args[++i]);
 68 |         }
 69 |         else if(args[i].compare("-l") == 0)
 70 |         {
 71 |             if(i == argc-1)
 72 |                 throw std::invalid_argument("invalid command\n");
 73 |             opt.lambda = std::stof(args[++i]);
 74 |         }
 75 |         else if(args[i].compare("-s") == 0)
 76 |         {
 77 |             if(i == argc-1)
 78 |                 throw std::invalid_argument("invalid command\n");
 79 |             opt.nr_threads = std::stoi(args[++i]);
 80 |         }
 81 |         else if(args[i].compare("-q") == 0)
 82 |         {
 83 |             opt.do_prediction = false;
 84 |         }
 85 |         else
 86 |         {
 87 |             break;
 88 |         }
 89 |     }
 90 | 
 91 |     if(i >= argc-2)
 92 |         throw std::invalid_argument("training or test set not specified\n");
 93 | 
 94 |     opt.Va_path = args[i++];
 95 |     opt.Tr_path = args[i++];
 96 |     opt.out_path = args[i++];
 97 | 
 98 |     return opt;
 99 | }
100 | 
101 | void init_model(Model &model, uint32_t const nr_factor_real)
102 | {
103 |     uint32_t const nr_factor = model.nr_factor;
104 |     float const coef = 
105 |         static_cast<float>(0.5/sqrt(static_cast<double>(nr_factor)));
106 | 
107 |     float * w = model.W.data();
108 |     for(uint32_t j = 0; j < model.nr_feature; ++j)
109 |     {
110 |         for(uint32_t f = 0; f < model.nr_field; ++f)
111 |         {
112 |             for(uint32_t d = 0; d < nr_factor_real; ++d, ++w)
113 |                 *w = coef*static_cast<float>(drand48());
114 |             for(uint32_t d = nr_factor_real; d < nr_factor; ++d, ++w)
115 |                 *w = 0;
116 |             for(uint32_t d = nr_factor; d < 2*nr_factor; ++d, ++w)
117 |                 *w = 1;
118 |         }
119 |     }
120 | }
121 | 
122 | void train(Problem const &Tr, Problem const &Va, Model &model, Option const &opt)
123 | {
124 |     std::vector<uint32_t> order(Tr.Y.size());
125 |     for(uint32_t i = 0; i < Tr.Y.size(); ++i)
126 |         order[i] = i;
127 | 
128 |     Timer timer;
129 |     printf("iter     time    tr_loss    va_loss\n");
130 |     for(uint32_t iter = 0; iter < opt.iter; ++iter)
131 |     {
132 |         timer.tic();
133 | 
134 |         double Tr_loss = 0;
135 |         //std::random_shuffle(order.begin(), order.end());
136 | #pragma omp parallel for schedule(static)
137 |         for(uint32_t i_ = 0; i_ < order.size(); ++i_)
138 |         {
139 |             uint32_t const i = order[i_];
140 | 
141 |             float const y = Tr.Y[i];
142 |             
143 |             float const t = wTx(Tr, model, i);
144 | 
145 |             float const expnyt = static_cast<float>(exp(-y*t));
146 | 
147 |             Tr_loss += log(1+expnyt);
148 |                
149 |             float const kappa = -y*expnyt/(1+expnyt);
150 | 
151 |             wTx(Tr, model, i, kappa, opt.eta, opt.lambda, true);
152 |         }
153 |         Tr_loss /= static_cast<double>(Tr.Y.size());
154 | 
155 |         double const Va_loss = predict(Va, model);
156 | 
157 |         printf("%4d %8.1f %10.5f %10.5f\n", 
158 |                iter, timer.toc(), Tr_loss, Va_loss);
159 |         fflush(stdout);
160 |     }
161 | }
162 | 
163 | } //unnamed namespace
164 | 
165 | int main(int const argc, char const * const * const argv)
166 | {
167 |     Option opt;
168 |     try
169 |     {
170 |         opt = parse_option(argv_to_args(argc, argv));
171 |     }
172 |     catch(std::invalid_argument const &e)
173 |     {
174 |         std::cout << e.what();
175 |         return EXIT_FAILURE;
176 |     }
177 | 
178 |     std::cout << "reading data..." << std::flush;
179 |     Problem const Va = read_problem(opt.Va_path);
180 |     Problem const Tr = read_problem(opt.Tr_path);
181 |     std::cout << "done\n" << std::flush;
182 | 
183 |     std::cout << "initializing model..." << std::flush;
184 |     Model model(Tr.nr_feature, opt.nr_factor, Tr.nr_field);
185 |     init_model(model, opt.nr_factor_real);
186 |     std::cout << "done\n" << std::flush;
187 | 
188 | 	omp_set_num_threads(static_cast<int>(opt.nr_threads));
189 | 
190 |     train(Tr, Va, model, opt);
191 | 
192 | 	omp_set_num_threads(1);
193 | 
194 |     if(opt.do_prediction)
195 |         predict(Va, model, opt.out_path);
196 | 
197 |     return EXIT_SUCCESS;
198 | }
199 | 


--------------------------------------------------------------------------------
/ensemble/model/app.id/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 100:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             if int(row['device_id_cnt']) > 20:
38 |                 feats.append(hashstr('device_id-'+row['device_id']))
39 |             else:
40 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
41 | 
42 |             if int(row['user_hour_cnt']) > 30:
43 |                 feats.append(hashstr('user_hour_cnt-0'))
44 |             else:
45 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
46 | 
47 |             if int(row['user_cnt']) > 30:
48 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
49 |             else:
50 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
51 | 
52 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
53 | 
54 | print('=====converting=====')
55 | convert(args['src_path'], args['dst_path'], True)
56 | 


--------------------------------------------------------------------------------
/ensemble/model/app.id/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/app.id/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/app.id/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_id-85f751fd,B-device_id-a99f214a 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/app.id/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/app.ip/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 20:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             feats.append(hashstr('bias'))
38 | 
39 |             if int(row['user_hour_cnt']) > 30:
40 |                 feats.append(hashstr('user_hour_cnt-0'))
41 |             else:
42 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
43 | 
44 |             if int(row['user_cnt']) > 30:
45 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
46 |             elif has_id_info(row):
47 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
48 |             else:
49 |                 feats.append(hashstr('user_click_history2-'+row['user_cnt']+'-'+row['user_click_history2']))
50 | 
51 |             feats.append(hashstr('user_count-'+row['user_cnt']))
52 | 
53 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
54 | 
55 | print('=====converting=====')
56 | convert(args['src_path'], args['dst_path'], True)
57 | 


--------------------------------------------------------------------------------
/ensemble/model/app.ip/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/app.ip/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/app.ip/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_id-85f751fd,A-device_id-a99f214a 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/app.ip/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/app/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 100:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             if int(row['device_id_cnt']) > 100:
38 |                 feats.append(hashstr('device_id-'+row['device_id']))
39 |             else:
40 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
41 | 
42 |             if int(row['user_hour_cnt']) > 30:
43 |                 feats.append(hashstr('user_hour_cnt-0'))
44 |             else:
45 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
46 | 
47 |             if int(row['user_cnt']) > 30:
48 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
49 |             elif has_id_info(row):
50 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
51 |             else:
52 |                 feats.append(hashstr('user_click_history2-'+row['user_cnt']+'-'+row['user_click_history2']))
53 | 
54 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
55 | 
56 | print('=====converting=====')
57 | convert(args['src_path'], args['dst_path'], True)
58 | 


--------------------------------------------------------------------------------
/ensemble/model/app/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/app/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/app/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_id-85f751fd 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/app/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/app_category-0f2161f8/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             elif has_id_info(row):
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 |             else:
53 |                 feats.append(hashstr('user_click_history2-'+row['user_cnt']+'-'+row['user_click_history2']))
54 | 
55 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
56 | 
57 | print('=====converting=====')
58 | convert(args['src_path'], args['dst_path'], True)
59 | 


--------------------------------------------------------------------------------
/ensemble/model/app_category-0f2161f8/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/app_category-0f2161f8/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/app_category-0f2161f8/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-app_category-0f2161f8 10
9 | 


--------------------------------------------------------------------------------
/ensemble/model/app_category-0f2161f8/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/app_id-92f5800b/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 100:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 100:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             elif has_id_info(row):
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 |             else:
53 |                 feats.append(hashstr('user_click_history2-'+row['user_cnt']+'-'+row['user_click_history2']))
54 | 
55 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
56 | 
57 | print('=====converting=====')
58 | convert(args['src_path'], args['dst_path'], True)
59 | 


--------------------------------------------------------------------------------
/ensemble/model/app_id-92f5800b/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/app_id-92f5800b/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/app_id-92f5800b/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-app_id-92f5800b 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/app_id-92f5800b/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/banner_pos-1/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/banner_pos-1/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/banner_pos-1/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/banner_pos-1/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-banner_pos-1 10
9 | 


--------------------------------------------------------------------------------
/ensemble/model/banner_pos-1/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/device_conn_type-3/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 100:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 100:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
54 | 
55 | print('=====converting=====')
56 | convert(args['src_path'], args['dst_path'], True)
57 | 


--------------------------------------------------------------------------------
/ensemble/model/device_conn_type-3/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/device_conn_type-3/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/device_conn_type-3/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-device_conn_type-3 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/device_conn_type-3/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site.cold_feature/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 30:
34 |                 feats.append(hashstr('device_ip-'))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 30:
39 |                 feats.append(hashstr('device_id-'))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/site.cold_feature/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site.cold_feature/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site.cold_feature/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 B-site_id-85f751fd,D 14
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site.cold_feature/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site.exd1d2/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/site.exd1d2/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site.exd1d2/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site.exd1d2/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-app_id-ecad2386,B-hour-141021,B-hour-141022 10
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site.exd1d2/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site.id/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 100:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             if int(row['device_id_cnt']) > 20:
38 |                 feats.append(hashstr('device_id-'+row['device_id']))
39 |             else:
40 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
41 | 
42 |             if int(row['user_hour_cnt']) > 30:
43 |                 feats.append(hashstr('user_hour_cnt-0'))
44 |             else:
45 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
46 | 
47 |             if int(row['user_cnt']) > 30:
48 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
49 |             else:
50 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
51 | 
52 |             if int(row['sp1_cnt']) < 20:
53 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
54 |             else:
55 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
56 | 
57 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
58 | 
59 | print('=====converting=====')
60 | convert(args['src_path'], args['dst_path'], True)
61 | 


--------------------------------------------------------------------------------
/ensemble/model/site.id/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site.id/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site.id/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 B-site_id-85f751fd,B-device_id-a99f214a 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site.id/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site.ip/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 20:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             feats.append(hashstr('bias'))
38 | 
39 |             if int(row['user_hour_cnt']) > 30:
40 |                 feats.append(hashstr('user_hour_cnt-0'))
41 |             else:
42 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
43 | 
44 |             feats.append(hashstr('user_count-'+row['user_cnt']))
45 | 
46 |             if int(row['sp1_cnt']) < 20:
47 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
48 |             else:
49 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
50 | 
51 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
52 | 
53 | print('=====converting=====')
54 | convert(args['src_path'], args['dst_path'], True)
55 | 


--------------------------------------------------------------------------------
/ensemble/model/site.ip/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site.ip/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site.ip/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 B-site_id-85f751fd,A-device_id-a99f214a 8
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site.ip/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','pub_category','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/site/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-app_id-ecad2386 10
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site_category-3e814130/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/site_category-3e814130/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site_category-3e814130/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site_category-3e814130/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_category-3e814130 5
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site_category-3e814130/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site_category-f028772b/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['pub_id','pub_domain','banner_pos','device_model','device_conn_type','C14','C17','C20','C21']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 |             feats.append(hashstr('hour-'+row['hour'][-2:]))
32 | 
33 |             if int(row['device_ip_cnt']) > 1000:
34 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
35 |             else:
36 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
37 | 
38 |             if int(row['device_id_cnt']) > 1000:
39 |                 feats.append(hashstr('device_id-'+row['device_id']))
40 |             else:
41 |                 feats.append(hashstr('device_id-less-'+row['device_id_cnt']))
42 | 
43 |             if int(row['user_hour_cnt']) > 30:
44 |                 feats.append(hashstr('user_hour_cnt-0'))
45 |             else:
46 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
47 | 
48 |             if int(row['user_cnt']) > 30:
49 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
50 |             else:
51 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
52 | 
53 |             if int(row['sp1_cnt']) < 20:
54 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
55 |             else:
56 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
57 | 
58 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
59 | 
60 | print('=====converting=====')
61 | convert(args['src_path'], args['dst_path'], True)
62 | 


--------------------------------------------------------------------------------
/ensemble/model/site_category-f028772b/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site_category-f028772b/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site_category-f028772b/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_category-f028772b 10
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site_category-f028772b/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site_domain-7e091613/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['device_model','device_conn_type','C14','C20']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 30:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             if int(row['user_hour_cnt']) > 2:
38 |                 feats.append(hashstr('user_hour_cnt-0'))
39 |             else:
40 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
41 | 
42 |             if int(row['user_cnt']) > 5:
43 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
44 |             else:
45 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
46 | 
47 |             if int(row['sp1_cnt']) < 20:
48 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
49 |             else:
50 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
51 | 
52 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
53 | 
54 | print('=====converting=====')
55 | convert(args['src_path'], args['dst_path'], True)
56 | 


--------------------------------------------------------------------------------
/ensemble/model/site_domain-7e091613/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site_domain-7e091613/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site_domain-7e091613/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py $1 A-site_domain-7e091613 3
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site_domain-7e091613/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/model/site_id-e151e245/cvt.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, time
 4 | 
 5 | sys.path.append('util')
 6 | 
 7 | from common import *
 8 | 
 9 | if len(sys.argv) == 1:
10 |     sys.argv.append('-h')
11 | 
12 | parser = argparse.ArgumentParser()
13 | parser.add_argument('src_path', type=str)
14 | parser.add_argument('dst_path', type=str)
15 | args = vars(parser.parse_args())
16 | 
17 | fields = ['device_model','device_conn_type','C14','C20']
18 | 
19 | start = time.time()
20 | 
21 | def convert(src_path, dst_path, is_train):
22 |     with open(dst_path, 'w') as f:
23 |         for i, row in enumerate(csv.DictReader(open(src_path)), start=1):
24 |             if i % 10000000 == 0:
25 |                 sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
26 |             
27 |             feats = []
28 | 
29 |             for field in fields:
30 |                 feats.append(hashstr(field+'-'+row[field]))
31 | 
32 |             if int(row['device_ip_cnt']) > 30:
33 |                 feats.append(hashstr('device_ip-'+row['device_ip']))
34 |             else:
35 |                 feats.append(hashstr('device_ip-less-'+row['device_ip_cnt']))
36 | 
37 |             if int(row['user_hour_cnt']) > 2:
38 |                 feats.append(hashstr('user_hour_cnt-0'))
39 |             else:
40 |                 feats.append(hashstr('user_hour_cnt-'+row['user_hour_cnt']))
41 | 
42 |             if int(row['user_cnt']) > 5:
43 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']))
44 |             else:
45 |                 feats.append(hashstr('user_click_history-'+row['user_cnt']+'-'+row['user_click_history']))
46 | 
47 |             if int(row['sp1_cnt']) < 20:
48 |                 feats.append(hashstr('sp1-'+row['sp1_cnt']))
49 |             else:
50 |                 feats.append(hashstr('sp1-log-'+str(int(math.log(float(row['sp1_cnt']))))))
51 | 
52 |             f.write('{0} {1}\n'.format(row['click'], ' '.join(feats)))
53 | 
54 | print('=====converting=====')
55 | convert(args['src_path'], args['dst_path'], True)
56 | 


--------------------------------------------------------------------------------
/ensemble/model/site_id-e151e245/data:
--------------------------------------------------------------------------------
1 | ../../data/


--------------------------------------------------------------------------------
/ensemble/model/site_id-e151e245/mark:
--------------------------------------------------------------------------------
1 | ../../mark


--------------------------------------------------------------------------------
/ensemble/model/site_id-e151e245/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | if [ "$#" -ne 1 ]; then
4 |     echo "usage: run.sh <size>"
5 |     exit 1
6 | fi
7 | 
8 | util/run.template.py --reg 0.0005 --eta 0.02 $1 A-site_id-e151e245 14
9 | 


--------------------------------------------------------------------------------
/ensemble/model/site_id-e151e245/util:
--------------------------------------------------------------------------------
1 | ../../util


--------------------------------------------------------------------------------
/ensemble/run.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | mkdir -p data pool
 4 | make -C mark/mark1
 5 | ln -sf ../../base/base.r$1.prd pool/
 6 | ln -sf ../../bag/bag.r$1.prd pool/
 7 | ln -sf ../../tr.r$1.csv data/
 8 | ln -sf ../../va.r$1.csv data/
 9 | 
10 | util/runall.py $1
11 | util/ensemble.py $1
12 | 


--------------------------------------------------------------------------------
/ensemble/util/calc_loss.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, math
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('prd_path', type=str)
12 | parser.add_argument('ans_path', type=str)
13 | args = vars(parser.parse_args())
14 | 
15 | prd = read_prd(args['prd_path'])
16 | ans = {}
17 | for row in csv.DictReader(open(args['ans_path'])):
18 |     ans[row['id']] = float(row['click'])
19 | 
20 | if len(prd) < len(ans):
21 |     print('Warning: it is not a full prediction')
22 | 
23 | loss, total = 0.0, 0
24 | for key in set(prd.keys()).intersection(ans.keys()):
25 |     if ans[key] == 1:
26 |         loss += math.log(prd[key])
27 |     else:
28 |         loss += math.log(1-prd[key])
29 |     total += 1
30 | 
31 | if total == 0:
32 |     print('nan')
33 | else:
34 |     print(round(-loss/total, 5))
35 | 


--------------------------------------------------------------------------------
/ensemble/util/calc_loss2.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, math
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('prd_path', type=str)
12 | parser.add_argument('base_path', type=str)
13 | parser.add_argument('ans_path', type=str)
14 | args = vars(parser.parse_args())
15 | 
16 | prd = read_prd(args['prd_path'])
17 | base_prd = read_prd(args['base_path'])
18 | ans = {}
19 | for row in csv.DictReader(open(args['ans_path'])):
20 |     print(row['id'], row['click'])
21 |     ans[row['id']] = float(row['click'])
22 | 
23 | 
24 | loss, base_loss, total = 0.0, 0.0, 0
25 | for key in set(prd.keys()).intersection(ans.keys()):
26 |     if ans[key] == 1:
27 |         loss += math.log(prd[key])
28 |         base_loss += math.log(base_prd[key])
29 |     else:
30 |         loss += math.log(1-prd[key])
31 |         base_loss += math.log(1-base_prd[key])
32 |     total += 1
33 | 
34 | if total == 0:
35 |     print('nan nan')
36 | else:
37 |     print('{0:.5f} {1:.5f}'.format(round(-loss/total, 5), round(-base_loss/total, 5)))
38 | 


--------------------------------------------------------------------------------
/ensemble/util/common.py:
--------------------------------------------------------------------------------
  1 | import hashlib, csv, math, os, subprocess
  2 | 
  3 | NR_BINS = 1000000
  4 | 
  5 | def hashstr(input):
  6 |     return str(int(hashlib.md5(input.encode('utf8')).hexdigest(), 16)%(NR_BINS-1)+1)
  7 | 
  8 | def open_with_first_line_skipped(path, skip=True):
  9 |     f = open(path)
 10 |     if not skip:
 11 |         return f
 12 |     next(f)
 13 |     return f
 14 | 
 15 | def split(path, nr_thread, has_header):
 16 | 
 17 |     def open_with_header_witten(path, idx, header):
 18 |         f = open(path+'.__tmp__.{0}'.format(idx), 'w')
 19 |         if not has_header:
 20 |             return f 
 21 |         f.write(header)
 22 |         return f
 23 | 
 24 |     def calc_nr_lines_per_thread():
 25 |         nr_lines = int(list(subprocess.Popen('wc -l {0}'.format(path), shell=True, 
 26 |             stdout=subprocess.PIPE).stdout)[0].split()[0])
 27 |         if not has_header:
 28 |             nr_lines += 1 
 29 |         return math.ceil(float(nr_lines)/nr_thread)
 30 | 
 31 |     header = open(path).readline()
 32 | 
 33 |     nr_lines_per_thread = calc_nr_lines_per_thread()
 34 | 
 35 |     idx = 0
 36 |     f = open_with_header_witten(path, idx, header)
 37 |     for i, line in enumerate(open_with_first_line_skipped(path, has_header), start=1):
 38 |         if i%nr_lines_per_thread == 0:
 39 |             f.close()
 40 |             idx += 1
 41 |             f = open_with_header_witten(path, idx, header)
 42 |         f.write(line)
 43 |     f.close()
 44 | 
 45 | def parallel_convert(cvt_path, arg_paths, nr_thread):
 46 | 
 47 |     workers = []
 48 |     for i in range(nr_thread):
 49 |         cmd = '{0}'.format(os.path.join('.', cvt_path))
 50 |         for path in arg_paths:
 51 |             cmd += ' {0}'.format(path+'.__tmp__.{0}'.format(i))
 52 |         worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)
 53 |         workers.append(worker)
 54 |     for worker in workers:
 55 |         worker.communicate()
 56 | 
 57 | def cat(path, nr_thread):
 58 |     
 59 |     if os.path.exists(path):
 60 |         os.remove(path)
 61 |     for i in range(nr_thread):
 62 |         cmd = 'cat {svm}.__tmp__.{idx} >> {svm}'.format(svm=path, idx=i)
 63 |         p = subprocess.Popen(cmd, shell=True)
 64 |         p.communicate()
 65 | 
 66 | def delete(path, nr_thread):
 67 |     
 68 |     for i in range(nr_thread):
 69 |         os.remove('{0}.__tmp__.{1}'.format(path, i))
 70 | 
 71 | def def_user(row):
 72 |     
 73 |     if row['device_id'] == 'a99f214a':
 74 |         user = 'ip-' + row['device_ip'] + '-' + row['device_model']
 75 |     else:
 76 |         user = 'id-' + row['device_id']
 77 | 
 78 |     return user
 79 | 
 80 | def def_user_hour(row):
 81 |     return def_user(row) + '-' + row['hour']
 82 | 
 83 | def is_app(row):
 84 |     
 85 |     return True if row['site_id'] == '85f751fd' else False
 86 | 
 87 | def has_id_info(row):
 88 |     
 89 |     return False if row['device_id'] == 'a99f214a' else True
 90 | 
 91 | def runcmd(cmd):
 92 |     subprocess.call(cmd, shell=True)
 93 | 
 94 | def read_prd(path):
 95 |     prd = {} 
 96 |     for row in csv.DictReader(open(path)):
 97 |         prd[row['id']] = float(row['click'])
 98 |     return prd
 99 | 
100 | def write_prd(prd, path):
101 |     with open(path, 'w') as f:
102 |         f.write('id,click\n')
103 |         for id, click in sorted(prd.items()):
104 |             f.write('{0},{1:.5f}\n'.format(id, click))
105 | 


--------------------------------------------------------------------------------
/ensemble/util/ensemble.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, time, os, subprocess
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('size', type=str)
12 | args = vars(parser.parse_args())
13 | 
14 | prd_paths, workers = [], {}
15 | 
16 | for prd_path in os.listdir('pool'):
17 |     if '.r{0}.'.format(args['size']) not in prd_path:
18 |         continue
19 |     prd_path = 'pool/'+prd_path
20 |     prd_paths.append(prd_path)
21 |     #if args['size'] != '0':
22 |     #    cmd = 'util/calc_loss2.py {prd_path} pool/base.r{size}.prd data/va.r{size}.csv'.format(prd_path=prd_path, size=args['size'])
23 |     #    worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)
24 |     #    workers[prd_path] = worker
25 | 
26 | runcmd('util/merge_prd.py {prds} r{size}.prd'.format(prds=' '.join(prd_paths), size=args['size']))
27 | 
28 | if args['size'] != '0':
29 |     cmd = 'util/calc_loss.py r{size}.prd data/va.r{size}.csv'.format(size=args['size'])
30 |     worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE)
31 |     loss = worker.communicate()[0].decode('utf-8').strip()
32 |     print('loss = {0}'.format(loss))
33 | 
34 |     #for prd_path in workers:
35 |     #    worker = workers[prd_path]
36 |     #    loss, base_loss = worker.communicate()[0].decode('utf-8').split()
37 |     #    print('{model:30} {loss:>10} {base_loss:>10}'.format(model=os.path.basename(prd_path), loss=loss, base_loss=base_loss))
38 | 


--------------------------------------------------------------------------------
/ensemble/util/gendata.py:
--------------------------------------------------------------------------------
  1 | #!/usr/bin/env python3
  2 | 
  3 | import argparse, csv, sys, pickle, collections, time
  4 | 
  5 | from common import *
  6 | 
  7 | if len(sys.argv) == 1:
  8 |     sys.argv.append('-h')
  9 | 
 10 | parser = argparse.ArgumentParser()
 11 | parser.add_argument('tr_src_path', type=str)
 12 | parser.add_argument('va_src_path', type=str)
 13 | parser.add_argument('tr_dst_path', type=str)
 14 | parser.add_argument('va_dst_path', type=str)
 15 | args = vars(parser.parse_args())
 16 | 
 17 | SIMPLE_FIELDS = ['id','click','hour','banner_pos','device_id','device_ip','device_model','device_type','device_conn_type','C1','C14','C15','C16','C17','C18','C19','C20','C21']
 18 | NEW_FIELDS = SIMPLE_FIELDS + ['pub_id','pub_domain','pub_category','device_id_cnt','device_ip_cnt','user_cnt','user_hour_cnt','user_click_history','sp1_cnt','user_click_history2']
 19 | 
 20 | id_cnt = collections.defaultdict(int)
 21 | ip_cnt = collections.defaultdict(int)
 22 | user_cnt = collections.defaultdict(int)
 23 | user_hour_cnt = collections.defaultdict(int)
 24 | sp1_cnt = collections.defaultdict(int)
 25 | 
 26 | start = time.time()
 27 | 
 28 | def def_sp1(row):
 29 |     sp1 = ''
 30 |     for field in ['hour','banner_pos','device_id','device_ip','device_model','device_type','device_conn_type','C1','C14','C15','C16','C17','C18','C19','C20','C21','app_id','app_domain','app_category','site_id','site_domain','site_category']:
 31 |         sp1 += row[field]
 32 |     return sp1
 33 | 
 34 | 
 35 | def scan(path):
 36 |     for i, row in enumerate(csv.DictReader(open(path)), start=1):
 37 |         if i % 10000000 == 0:
 38 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
 39 | 
 40 |         user, user_hour = def_user(row), def_user_hour(row)
 41 |         id_cnt[row['device_id']] += 1
 42 |         ip_cnt[row['device_ip']] += 1
 43 |         user_cnt[user] += 1
 44 |         user_hour_cnt[user_hour] += 1
 45 | 
 46 |         sp1_cnt[def_sp1(row)] += 1
 47 | 
 48 | 
 49 | history = collections.defaultdict(lambda: {'history': '', 'buffer': '', 'prev_hour': ''})
 50 | history2 = collections.defaultdict(lambda: {'history': '', 'buffer': '', 'prev_hour': ''})
 51 | 
 52 | def gen_data(src_path, dst_path, is_train):
 53 |     reader = csv.DictReader(open(src_path))
 54 |     writer = csv.DictWriter(open(dst_path, 'w'), NEW_FIELDS)
 55 |     writer.writeheader()
 56 | 
 57 |     for i, row in enumerate(reader, start=1):
 58 |         if i % 10000000 == 0:
 59 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
 60 |         
 61 |         new_row = {}
 62 |         for field in SIMPLE_FIELDS:
 63 |             new_row[field] = row[field]
 64 | 
 65 |         new_row['device_id_cnt'] = id_cnt[row['device_id']]
 66 |         new_row['device_ip_cnt'] = ip_cnt[row['device_ip']]
 67 | 
 68 |         user, hour, user_hour = def_user(row), row['hour'], def_user_hour(row)
 69 |         new_row['user_cnt'] = user_cnt[user]
 70 |         new_row['user_hour_cnt'] = user_hour_cnt[user_hour]
 71 |         new_row['sp1_cnt'] = sp1_cnt[def_sp1(row)]
 72 | 
 73 |         if has_id_info(row):
 74 | 
 75 |             if history[user]['prev_hour'] != row['hour']:
 76 |                 history[user]['history'] = (history[user]['history'] + history[user]['buffer'])[-4:]
 77 |                 history[user]['buffer'] = ''
 78 |                 history[user]['prev_hour'] = row['hour']
 79 | 
 80 |             new_row['user_click_history'] = history[user]['history']
 81 | 
 82 |             if is_train:
 83 |                 history[user]['buffer'] += row['click']
 84 |         else:
 85 |             if history2[user]['prev_hour'] != row['hour']:
 86 |                 history2[user]['history'] = (history2[user]['history'] + history2[user]['buffer'])[-4:]
 87 |                 history2[user]['buffer'] = ''
 88 |                 history2[user]['prev_hour'] = row['hour']
 89 | 
 90 |             new_row['user_click_history2'] = history2[user]['history']
 91 | 
 92 |             if is_train:
 93 |                 history2[user]['buffer'] += row['click']
 94 | 
 95 |         if is_app(row):
 96 |             new_row['pub_id'] = row['app_id']
 97 |             new_row['pub_domain'] = row['app_domain']
 98 |             new_row['pub_category'] = row['app_category']
 99 |         else:
100 |             new_row['pub_id'] = row['site_id']
101 |             new_row['pub_domain'] = row['site_domain']
102 |             new_row['pub_category'] = row['site_category']
103 | 
104 |         writer.writerow(new_row)
105 | 
106 | print('=====scanning=====')
107 | scan(args['tr_src_path'])
108 | scan(args['va_src_path'])
109 | 
110 | print('=====generating=====')
111 | gen_data(args['tr_src_path'], args['tr_dst_path'], True)
112 | gen_data(args['va_src_path'], args['va_dst_path'], False)
113 | 


--------------------------------------------------------------------------------
/ensemble/util/merge_prd.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, pickle, collections, math
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser(description='process some integers')
11 | parser.add_argument('prd_paths', nargs='+', type=str)
12 | parser.add_argument('out_path', type=str)
13 | args = vars(parser.parse_args())
14 | 
15 | def logistic_func(x):
16 |     return 1/(1+math.exp(-x))
17 | 
18 | def inv_logistic_func(x):
19 |     return math.log(x/(1-x))
20 | 
21 | mprd = collections.defaultdict(list)
22 | for path in args['prd_paths']:
23 |     prd = read_prd(path)
24 |     for key, value in prd.items():
25 |         value = float(value)
26 |         if value == 0:
27 |             value = 0.00001
28 |         mprd[key].append(value)
29 | 
30 | for key in mprd:
31 |     mprd[key] = logistic_func(sum(map(inv_logistic_func, mprd[key]))/len(mprd[key]))
32 | 
33 | write_prd(mprd, args['out_path'])
34 | 


--------------------------------------------------------------------------------
/ensemble/util/mkprd.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('csv_path', type=str)
12 | parser.add_argument('out_path', type=str)
13 | parser.add_argument('prd_path', type=str)
14 | args = vars(parser.parse_args())
15 | 
16 | with open(args['prd_path'], 'w') as f:
17 |     f.write('id,click\n')
18 | 
19 | prd = {}
20 | for csv_row, out_line in zip(csv.DictReader(open(args['csv_path'])), open(args['out_path'])):
21 |     prd[csv_row['id']] = float(out_line.strip())
22 | 
23 | write_prd(prd, args['prd_path'])
24 | 


--------------------------------------------------------------------------------
/ensemble/util/parallelizer.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, sys
 4 | 
 5 | from common import *
 6 | 
 7 | def parse_args():
 8 |     
 9 |     if len(sys.argv) == 1:
10 |         sys.argv.append('-h')
11 | 
12 |     parser = argparse.ArgumentParser()
13 |     parser.add_argument('-s', dest='nr_thread', default=12, type=int)
14 |     parser.add_argument('cvt_path')
15 |     parser.add_argument('src_path')
16 |     parser.add_argument('dst_path')
17 |     args = vars(parser.parse_args())
18 | 
19 |     return args
20 | 
21 | def main():
22 |     
23 |     args = parse_args()
24 | 
25 |     nr_thread = args['nr_thread']
26 |     
27 |     split(args['src_path'], nr_thread, True)
28 | 
29 |     parallel_convert(args['cvt_path'], [args['src_path'], args['dst_path']], nr_thread)
30 | 
31 |     delete(args['src_path'], nr_thread)
32 | 
33 |     cat(args['dst_path'], nr_thread)
34 | 
35 |     delete(args['dst_path'], nr_thread)
36 | 
37 | main()
38 | 


--------------------------------------------------------------------------------
/ensemble/util/run.template.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, subprocess, sys, os, time, socket
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('--reg', dest='reg', type=float, default=0.00002)
12 | parser.add_argument('--eta', dest='eta', type=float, default=0.05)
13 | parser.add_argument('--mark', dest='mark', type=str, default='mark1')
14 | parser.add_argument('size', type=str)
15 | parser.add_argument('filter_string', type=str)
16 | parser.add_argument('iter', type=str)
17 | args = vars(parser.parse_args())
18 | 
19 | ##################################################
20 | 
21 | start = time.time()
22 | 
23 | runcmd('util/subset.py {filter_string} data/tr.r{size}.csv data/va.r{size}.csv tr.r{size}.sub.csv va.r{size}.sub.csv'.format(filter_string=args['filter_string'], size=args['size']))
24 | 
25 | runcmd('util/gendata.py tr.r{size}.sub.csv va.r{size}.sub.csv tr.r{size}.new.csv va.r{size}.new.csv'.format(size=args['size']))
26 | 
27 | for dataset in ['tr', 'va']:
28 |     runcmd('./cvt.py {dataset}.r{size}.new.csv {dataset}.r{size}.sp'.format(dataset=dataset, size=args['size']))
29 | 
30 | runcmd('mark/{mark}/{mark} -t {iter} -l {reg} -r {eta} va.r{size}.sp tr.r{size}.sp va.r{size}.out'.format(iter=args['iter'], size=args['size'], reg=args['reg'], eta=args['eta'], mark=args['mark']))
31 | 
32 | runcmd('util/mkprd.py va.r{size}.sub.csv va.r{size}.out va.r{size}.prd'.format(size=args['size']))
33 | runcmd('util/calc_loss.py va.r{size}.prd va.r{size}.sub.csv'.format(size=args['size']))
34 | 


--------------------------------------------------------------------------------
/ensemble/util/runall.py:
--------------------------------------------------------------------------------
 1 | #!/usr/bin/env python3
 2 | 
 3 | import argparse, csv, sys, time, os, subprocess
 4 | 
 5 | from common import *
 6 | 
 7 | if len(sys.argv) == 1:
 8 |     sys.argv.append('-h')
 9 | 
10 | parser = argparse.ArgumentParser()
11 | parser.add_argument('size', type=str)
12 | args = vars(parser.parse_args())
13 | 
14 | models = os.listdir('model')
15 | 
16 | 
17 | workers = []
18 | for model in models:
19 |     prd_path = 'pool/{model}.r{size}.prd'.format(model=model, size=args['size'])
20 |     if os.path.exists(prd_path):
21 |         continue
22 |     print('running {model}'.format(model=model))
23 |     cmd = 'cd model/{model} && ./run.sh {size} && cp va.r{size}.prd ../../pool/{model}.r{size}.prd'.format(model=model, size=args['size'])
24 |     worker = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
25 |     workers.append(worker)
26 | 
27 | for worker in workers:
28 |     worker.communicate()
29 | 


--------------------------------------------------------------------------------
/ensemble/util/subset.py:
--------------------------------------------------------------------------------
  1 | #!/usr/bin/env python3
  2 | 
  3 | import argparse, csv, sys, time, collections
  4 | 
  5 | from common import *
  6 | 
  7 | if len(sys.argv) == 1:
  8 |     sys.argv.append('-h')
  9 | 
 10 | parser = argparse.ArgumentParser()
 11 | parser.add_argument('filter_string', type=str)
 12 | parser.add_argument('tr_src_path', type=str)
 13 | parser.add_argument('va_src_path', type=str)
 14 | parser.add_argument('tr_dst_path', type=str)
 15 | parser.add_argument('va_dst_path', type=str)
 16 | args = vars(parser.parse_args())
 17 | 
 18 | filter = collections.defaultdict(list) 
 19 | inv_filter = collections.defaultdict(list)
 20 | cnt_filter = collections.defaultdict(list)
 21 | inv_end_filter = collections.defaultdict(list)
 22 | cold_user_filter = False
 23 | for token in args['filter_string'].split(','):
 24 |     if token.startswith('D'):
 25 |         cold_user_filter = True
 26 |     else:
 27 |         type, field, value = token.split('-')
 28 |         if type == 'A':
 29 |             filter[field].append(value)
 30 |         elif type == 'B':
 31 |             inv_filter[field].append(value)
 32 |         elif type == 'C':
 33 |             cnt_filter[field].append(int(value))
 34 |         elif type == 'E':
 35 |             inv_end_filter[field].append(value)
 36 |         else:
 37 |             print('unknown filter type')
 38 |             exit(1)
 39 | 
 40 | start = time.time()
 41 | 
 42 | cnt = collections.defaultdict(int)
 43 | 
 44 | def scan(path):
 45 |     for i, row in enumerate(csv.DictReader(open(path)), start=1):
 46 |         if i % 10000000 == 0:
 47 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
 48 | 
 49 |         for field in cnt_filter:
 50 |             cnt[field+'-'+row[field]] += 1
 51 | 
 52 | user_set = set()
 53 | def scan_user(path):
 54 |     for i, row in enumerate(csv.DictReader(open(path)), start=1):
 55 |         if i % 10000000 == 0:
 56 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
 57 | 
 58 |         user_set.add(def_user(row))
 59 | 
 60 | def subset(src_path, dst_path, is_train):
 61 |     reader = csv.DictReader(open(src_path))
 62 |     writer = csv.DictWriter(open(dst_path, 'w'), reader.fieldnames)
 63 |     writer.writeheader()
 64 | 
 65 |     for i, row in enumerate(reader, start=1):
 66 |         if i % 10000000 == 0:
 67 |             sys.stderr.write('{0:6.0f}    {1}m\n'.format(time.time()-start,int(i/1000000)))
 68 | 
 69 |         match = True
 70 |         for field, values in filter.items():
 71 |             for value in values:
 72 |                 if not row[field].startswith(value):
 73 |                     match = False
 74 |                     break
 75 |         if not match:
 76 |             continue
 77 |         
 78 |         for field, values in inv_end_filter.items():
 79 |             for value in values:
 80 |                 if row[field].endswith(value):
 81 |                     match = False
 82 |                     break
 83 |         if not match:
 84 |             continue
 85 |         
 86 |         for field, values in cnt_filter.items():
 87 |             for value in values:
 88 |                 if cnt[field+'-'+row[field]] != value:
 89 |                     match = False
 90 |                     break
 91 |         if not match:
 92 |             continue
 93 | 
 94 |         for field, values in inv_filter.items():
 95 |             for value in values:
 96 |                 if row[field].startswith(value):
 97 |                     match = False
 98 |                     break
 99 |         if not match:
100 |             continue
101 | 
102 |         if cold_user_filter and not is_train:
103 |             user = def_user(row)
104 |             if user not in user_set:
105 |                 match = False
106 |         if not match:
107 |             continue
108 | 
109 |         writer.writerow(row)
110 | 
111 | if len(cnt_filter) != 0:
112 |     print('=====scanning=====')
113 |     scan(args['tr_src_path'])
114 |     scan(args['va_src_path'])
115 | 
116 | if cold_user_filter:
117 |     print('=====scanning=====')
118 |     scan_user(args['tr_src_path'])
119 | 
120 | print('=====subsetting=====')
121 | subset(args['tr_src_path'], args['tr_dst_path'], True)
122 | subset(args['va_src_path'], args['va_dst_path'], False)
123 | 


--------------------------------------------------------------------------------
/license.txt:
--------------------------------------------------------------------------------
 1 | Copyright 2015 Yu-Chin Juan, Wei-Sheng Chin, and Yong Zhuang.
 2 | 
 3 | Licensed under the Apache License, Version 2.0 (the "License"); you may not use
 4 | this file except in compliance with the License.  You may obtain a copy of the
 5 | License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by
 6 | applicable law or agreed to in writing, software distributed under the License
 7 | is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
 8 | KIND, either express or implied.  See the License for the specific language
 9 | governing permissions and limitations under the License.
10 | 


--------------------------------------------------------------------------------
/run.sh:
--------------------------------------------------------------------------------
1 | #!/bin/bash
2 | 
3 | cd base
4 | ./run.py $1
5 | cd ..
6 | 
7 | cp base/base.r$1.prd .
8 | 


--------------------------------------------------------------------------------
/run_all.sh:
--------------------------------------------------------------------------------
 1 | #!/bin/bash
 2 | 
 3 | cd base
 4 | ./run.py $1
 5 | cd ..
 6 | 
 7 | cd bag
 8 | ./run.sh $1
 9 | cd ..
10 | 
11 | cd ensemble
12 | ./run.sh $1
13 | cd ..
14 | 
15 | cp ensemble/r$1.prd .
16 | 


--------------------------------------------------------------------------------