├── Poisoned_datasets
    ├── Beauty_poison_0.01.txt
    ├── Beauty_poison_0.02.txt
    ├── Beauty_poison_0.03.txt
    ├── Sports_poison_0.01.txt
    ├── Sports_poison_0.02.txt
    ├── Sports_poison_0.03.txt
    ├── Toys_poison_0.01.txt
    ├── Toys_poison_0.02.txt
    ├── Toys_poison_0.03.txt
    ├── Yelp_poison_0.01.txt
    ├── Yelp_poison_0.02.txt
    ├── Yelp_poison_0.03.txt
    └── Yelp_poison_only1perline_0.01.txt
├── README.md
└── Seq-poison
    ├── Bi_classifier model
        ├── Beauty_bi_classify.pt
        ├── Sports_and_Outdoors_bi_classify.pt
        ├── Toys_and_Games_bi_classify.pt
        └── Yelp_bi_classify.pt
    ├── classify.py
    ├── data_processing.py
    ├── dataloader.py
    ├── dataset
        ├── Beauty.txt
        ├── Sports_and_Outdoors.txt
        ├── Toys_and_Games.txt
        └── Yelp.txt
    ├── discriminator.py
    ├── generate_data.py
    ├── generator.py
    ├── helpers.py
    ├── main.py
    ├── process.py
    └── train_classify.py


/README.md:
--------------------------------------------------------------------------------
 1 | ### Poisoned_datasets
 2 | This is the implementation code for paper 《Poisoning Self-supervised Learning Based Sequential Recommendations》 on ACM SIGIR 2023 
 3 | 
 4 | For each dataset, we generated fake users whose numbers are 1%, 2%, and 3% of real users.
 5 | 
 6 | It is worth noting that, in the three original __Amazon__ datasets (__Beauty__, __Sports and Outdoors__, and __Toys and Games__), none of the users has multiple interactions with the same item, while in the __Yelp__ dataset, users often interact with the same item multiple times.
 7 | Therefore, to ensure the stealthiness of our attack, when constructing the poisoning data of the __Amazon__ datasets, we let each fake user only interact with the target item once, while in __Yelp__, we allow each fake user to interact with the target item multiple times.
 8 | For comparison, we also provide the poisoning data of the __Yelp__ dataset where each user interacts with the same item at most once.
 9 | 
10 | ### Seq-poison
11 | Our model for fake user generating.
12 | 
13 | #### datasets
14 | Original pre-processed user-item interaction records obtained by the data downloaded from [Google Drive](https://drive.google.com/drive/folders/1ahiLmzU7cGRPXf5qGMqtAChte2eYp9gI) (which is publicly available). 
15 | 
16 | We use the "5-core" datasets as described in our paper. 
17 | 
18 | #### Run
19 | Create "5-core" datasets:
20 | ```
21 | python data_processing.py
22 | ```
23 | You can also use these already processed datasets directly in __Seq-poison/dataset__
24 | 
25 | Create bi-classifier:
26 |   
27 | ```
28 | python train_classify.py
29 | ```
30 | 
31 | Now we get the bi-classifier model __{data_name}_bi_classify.pt__.
32 | 
33 | Train the generator that generates fake users:
34 | 
35 | ```
36 | python main.py
37 | ```
38 | 
39 | Generate poisoning data (the percentage of fake users can be set)：
40 | 
41 | ```
42 | python generate_data.py
43 | ```
44 | 
45 | 


--------------------------------------------------------------------------------
/Seq-poison/Bi_classifier model/Beauty_bi_classify.pt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/CongGroup/Poisoning-SSL-based-RS/7c30ca3d9df621080afc38f8aa20c09e0b5e6891/Seq-poison/Bi_classifier model/Beauty_bi_classify.pt


--------------------------------------------------------------------------------
/Seq-poison/Bi_classifier model/Sports_and_Outdoors_bi_classify.pt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/CongGroup/Poisoning-SSL-based-RS/7c30ca3d9df621080afc38f8aa20c09e0b5e6891/Seq-poison/Bi_classifier model/Sports_and_Outdoors_bi_classify.pt


--------------------------------------------------------------------------------
/Seq-poison/Bi_classifier model/Toys_and_Games_bi_classify.pt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/CongGroup/Poisoning-SSL-based-RS/7c30ca3d9df621080afc38f8aa20c09e0b5e6891/Seq-poison/Bi_classifier model/Toys_and_Games_bi_classify.pt


--------------------------------------------------------------------------------
/Seq-poison/Bi_classifier model/Yelp_bi_classify.pt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/CongGroup/Poisoning-SSL-based-RS/7c30ca3d9df621080afc38f8aa20c09e0b5e6891/Seq-poison/Bi_classifier model/Yelp_bi_classify.pt


--------------------------------------------------------------------------------
/Seq-poison/classify.py:
--------------------------------------------------------------------------------
 1 | import torch
 2 | import torch.nn as nn
 3 | import torch.nn.functional as F
 4 | 
 5 | 
 6 | # a simple network with convs structure
 7 | class Classify(nn.Module):
 8 | 
 9 |     def __init__(self, num_classes, vocab_size, emb_dim, filter_sizes, num_filters, dropout):
10 |         super(Classify, self).__init__()
11 |         self.emb = nn.Embedding(vocab_size, emb_dim)
12 |         self.convs = nn.ModuleList([
13 |             nn.Conv2d(1, n, (f, emb_dim)) for (n, f) in zip(num_filters, filter_sizes)
14 |         ])
15 |         self.highway = nn.Linear(sum(num_filters), sum(num_filters))
16 |         self.dropout = nn.Dropout(p=dropout)
17 |         self.lin = nn.Linear(sum(num_filters), num_classes)
18 |         self.softmax = nn.Softmax(dim=1)
19 |         self.init_parameters()
20 | 
21 |     def forward(self, x):
22 |         """
23 |         Args:
24 |             x: (batch_size * seq_len)
25 |         """
26 |         emb = self.emb(x).unsqueeze(1)  # batch_size * 1 * seq_len * emb_dim
27 |         convs = [F.relu(conv(emb)).squeeze(3) for conv in self.convs]  # [batch_size * num_filter * length]
28 |         pools = [F.max_pool1d(conv, conv.size(2)).squeeze(2) for conv in convs] # [batch_size * num_filter]
29 |         pred = torch.cat(pools, 1)  # batch_size * num_filters_sum
30 |         highway = self.highway(pred)
31 |         pred = torch.sigmoid(highway) *  F.relu(highway) + (1. - torch.sigmoid(highway)) * pred
32 |         logit = self.lin(self.dropout(pred))
33 |         pred = self.softmax(logit)
34 |         return pred
35 | 
36 |     def init_parameters(self):
37 |         for param in self.parameters():
38 |             param.data.uniform_(-0.05, 0.05)
39 | 
40 | 
41 |     


--------------------------------------------------------------------------------
/Seq-poison/data_processing.py:
--------------------------------------------------------------------------------
  1 | import gzip
  2 | import numpy as np
  3 | from collections import defaultdict
  4 | import pandas as pd
  5 | from pandas.core.frame import DataFrame
  6 | import tqdm
  7 | import json
  8 | 
  9 | """
 10 | Tool function for generating 5-core dataset
 11 | """
 12 | 
 13 | def parse(path): # for Amazon
 14 |     g = gzip.open(path, 'r')
 15 |     for l in g:
 16 |         yield eval(l)
 17 |         
 18 | def Yelp(date_min, date_max, rating_score):
 19 |     users = []
 20 |     items = []
 21 |     scores = []
 22 |     times = []
 23 |     data_flie = './data_processing/Data/Yelp/yelp_academic_dataset_review_2020.json'
 24 |     lines = open(data_flie).readlines()
 25 |     for line in tqdm.tqdm(lines):
 26 |         review = json.loads(line.strip())
 27 |         rating = review['stars']
 28 |         # 2004-10-12 10:13:32 2019-12-13 15:51:19
 29 |         date = review['date']
 30 |         # 剔除一些例子
 31 |         if date < date_min or date > date_max or float(rating) <= rating_score:
 32 |             continue
 33 |         user = review['user_id']
 34 |         item = review['business_id']
 35 |         time = date.replace('-','').replace(':','').replace(' ','')
 36 |         users.append(user)
 37 |         items.append(item)
 38 |         scores.append(rating)
 39 |         times.append(time)
 40 |     return users,items,scores,times
 41 | 
 42 | # return (user item timestamp) sort in get_interaction
 43 | def Amazon(dataset_name, rating_score):
 44 |     '''
 45 |     reviewerID - ID of the reviewer, e.g. A2SUAM1J3GNN3B
 46 |     asin - ID of the product, e.g. 0000013714
 47 |     reviewerName - name of the reviewer
 48 |     helpful - helpfulness rating of the review, e.g. 2/3
 49 |     --"helpful": [2, 3],
 50 |     reviewText - text of the review
 51 |     --"reviewText": "I bought this for my husband who plays the piano. ..."
 52 |     overall - rating of the product
 53 |     --"overall": 5.0,
 54 |     summary - summary of the review
 55 |     --"summary": "Heavenly Highway Hymns",
 56 |     unixReviewTime - time of the review (unix time)
 57 |     --"unixReviewTime": 1252800000,
 58 |     reviewTime - time of the review (raw)
 59 |     --"reviewTime": "09 13, 2009"
 60 |     '''
 61 |     users = []
 62 |     items = []
 63 |     scores = []
 64 |     times = []
 65 |     # older Amazon
 66 |     data_flie = './data_processing/Data/'+ dataset_name +'/reviews_' + dataset_name + '_5' + '.json.gz'
 67 |     # latest Amazon
 68 |     # data_flie = '/home/hui_wang/data/new_Amazon/' + dataset_name + '.json.gz'
 69 |     for inter in parse(data_flie):
 70 |         if float(inter['overall']) <= rating_score: # 小于一定分数去掉
 71 |             continue
 72 |         user = inter['reviewerID']
 73 |         item = inter['asin']
 74 |         score = inter["overall"]
 75 |         time = inter['unixReviewTime']
 76 |         users.append(user)
 77 |         items.append(item)
 78 |         scores.append(score)
 79 |         times.append(time)
 80 |     return users,items,scores,times
 81 | 
 82 | # 循环过滤 K-core
 83 | def filter_Kcore(user_items, user_core, item_core): # user 接所有items
 84 |     user_count, item_count, isKcore = check_Kcore(user_items, user_core, item_core)
 85 |     pop_users = set()
 86 |     pop_items = set()
 87 |     while not isKcore:
 88 |         for user, num in user_count.items():
 89 |             if user_count[user] < user_core: # 直接把user 删除
 90 |                 user_items.pop(user)
 91 |                 pop_users.add(user)
 92 |             else:
 93 |                 for item in user_items[user]:
 94 |                     if item_count[item] < item_core:
 95 |                         user_items[user].remove(item)
 96 |                         pop_items.add(item)
 97 |         user_count, item_count, isKcore = check_Kcore(user_items, user_core, item_core)
 98 |     return user_items, pop_users, pop_items
 99 | 
100 | # K-core user_core item_core
101 | def check_Kcore(user_items, user_core, item_core):
102 |     user_count = defaultdict(int)
103 |     item_count = defaultdict(int)
104 |     for user, items in user_items.items():
105 |         for item in items: # 统计出现的次数
106 |             user_count[user] += 1
107 |             item_count[item] += 1
108 | 
109 |     for user, num in user_count.items():
110 |         if num < user_core:
111 |             return user_count, item_count, False
112 |     for item, num in item_count.items():
113 |         if num < item_core:
114 |             return user_count, item_count, False
115 |     return user_count, item_count, True # 已经保证Kcore
116 | 
117 | def id_map(user_items): # user_items dict
118 | 
119 |     user2id = {} # raw 2 uid
120 |     item2id = {} # raw 2 iid
121 |     id2user = {} # uid 2 raw
122 |     id2item = {} # iid 2 raw
123 |     user_id = 1
124 |     item_id = 1
125 |     final_data = {}
126 |     for user, items in user_items.items():
127 |         if user not in user2id:
128 |             user2id[user] = str(user_id)
129 |             id2user[str(user_id)] = user
130 |             user_id += 1
131 |         iids = [] # item id lists
132 |         for item in items:
133 |             if item not in item2id:
134 |                 item2id[item] = str(item_id)
135 |                 id2item[str(item_id)] = item
136 |                 item_id += 1
137 |             iids.append(item2id[item])
138 |         uid = user2id[user]
139 |         final_data[uid] = iids
140 |     data_maps = {
141 |         'user2id': user2id,
142 |         'item2id': item2id,
143 |         'id2user': id2user,
144 |         'id2item': id2item
145 |     }
146 |     return final_data, user_id-1, item_id-1, data_maps
147 | 
148 | def get_interaction(datas):
149 |     user_seq = {}
150 |     for index, inter in datas.iterrows():
151 |         user, item, time = inter['userId'],inter['itemId'],inter["timestamp"]
152 |         if user in user_seq:
153 |             user_seq[user].append((item, time))
154 |         else:
155 |             user_seq[user] = []
156 |             user_seq[user].append((item, time))
157 | 
158 |     for user, item_time in user_seq.items():
159 |         item_time.sort(key=lambda x: x[1])  # 对各个数据集得单独排序
160 |         items = []
161 |         for t in item_time:
162 |             items.append(t[0])
163 |         user_seq[user] = items
164 |     return user_seq
165 | 
166 | def main(data_name, data_type='Amazon'):
167 |     assert data_type in {'Amazon', 'Yelp'}
168 |     np.random.seed(12345)
169 |     rating_score = 0.0  # rating score smaller than this score would be deleted
170 |     # user 5-core item 5-core
171 |     user_core = 5
172 |     item_core = 5
173 |     attribute_core = 0
174 | 
175 |     if data_type == 'Yelp':
176 |         date_max = '2019-12-31 00:00:00'
177 |         date_min = '2019-01-01 00:00:00'
178 |         users, items, scores, times = Yelp(date_min, date_max, rating_score)
179 |     else:
180 |         users, items, scores, times = Amazon(data_name, rating_score=rating_score)
181 | 
182 |     data = DataFrame({
183 |         "userId":users,
184 |         "itemId":items,
185 |         "rating":scores,
186 |         "timestamp":times
187 |     })
188 |     
189 |     user_items = get_interaction(data)
190 |     user_items, pop_users, pop_items = filter_Kcore(user_items, user_core=user_core, item_core=item_core)
191 |     
192 |     
193 |     data = data[(-data['userId'].isin(pop_users))]
194 |     data = data[(-data['itemId'].isin(pop_items))]
195 | 
196 |     user_items, user_num, item_num, data_maps = id_map(user_items)  # new_num_id
197 |     
198 |     user2id = data_maps['user2id']
199 |     item2id = data_maps['item2id']
200 |     data['userId'] = data.userId.apply(lambda x: user2id[x])
201 |     data['itemId'] = data.itemId.apply(lambda x: item2id[x])
202 | 
203 | 
204 |     data.to_csv("./"+ data_name +".csv",index=False)
205 |     
206 | if __name__ =="__main__":
207 |     main("Beauty", data_type="Amazon")


--------------------------------------------------------------------------------
/Seq-poison/dataloader.py:
--------------------------------------------------------------------------------
  1 | # -*- coding:utf-8 -*-
  2 | 
  3 | import os
  4 | import random
  5 | import math
  6 | from cv2 import randn
  7 | from torch.utils.data import Dataset, DataLoader
  8 | import numpy as np
  9 | import torch
 10 | 
 11 | class GenDataset(Dataset):
 12 |     """
 13 |     Toy data iter to load digits 
 14 |     """
 15 |     def __init__(self, max_seq_length, user_seq, mode="train"):
 16 |         super(GenDataset, self).__init__()
 17 |         self.max_seq_length = max_seq_length
 18 |         self.user_seq = self.padding(user_seq)
 19 |         
 20 |         if mode == 'train':
 21 |             self.user_seq = self.user_seq[:int(0.9*len(self.user_seq))] 
 22 |         else:
 23 |             self.user_seq = self.user_seq[int(0.9*len(self.user_seq)):] 
 24 | 
 25 |     def padding(self, user_seq):
 26 |         user_seqs = []
 27 |         for s in user_seq:
 28 |             pad_len = self.max_seq_length - len(s)
 29 |             s = s + [0] * pad_len
 30 |             user_seqs.append(s)
 31 |         return user_seqs
 32 |     
 33 |     def __len__(self):
 34 |         return len(self.user_seq)
 35 |     
 36 |     def __getitem__(self, index):
 37 |         item = self.user_seq[index]
 38 |         label = torch.LongTensor(np.array(item,dtype="int64"))
 39 |         data = [0] + item[:-1]
 40 |         data = torch.LongTensor(np.array(data,dtype="int64"))
 41 |         return data, label
 42 |         
 43 |         
 44 | 
 45 | class DisDataset(Dataset):
 46 |     """
 47 |     Toy data iter to load digits 
 48 |     """
 49 |     def __init__(self, real_data, fake_data, max_seq_length):
 50 |         super(DisDataset, self).__init__()
 51 |         self.max_seq_length = max_seq_length
 52 |         self.data = self.padding(real_data) + fake_data
 53 |         self.labels = [1 for _ in range(len(real_data))] +\
 54 |                         [0 for _ in range(len(fake_data))]
 55 |         self.pairs = list(zip(self.data, self.labels))
 56 |         
 57 |     def padding(self, user_seq):
 58 |         user_seqs = []
 59 |         for s in user_seq:
 60 |             pad_len = self.max_seq_length - len(s)
 61 |             s = s + [0] * pad_len
 62 |             user_seqs.append(s)
 63 |         return user_seqs
 64 | 
 65 |     def __len__(self):
 66 |         return len(self.pairs)
 67 | 
 68 |     def __getitem__(self, index):
 69 |         pair = self.pairs[index]
 70 |         data = torch.LongTensor(np.array(pair[0],dtype="int64"))
 71 |         label = torch.LongTensor([pair[1]])
 72 |         return data, label
 73 | 
 74 | # Dataset class for bi_classifier
 75 | class ClaDataset(Dataset):
 76 |     def __init__(self, max_seq_length, real_seq, fake_seq, mask_id):
 77 |         self.real_seq = self.unpadding(real_seq)
 78 |         self.fake_seq = self.unpadding(fake_seq)
 79 |         self.masked_segment_sequence = []
 80 |         self.anti_masked_segment_sequence = []
 81 |         self.data_pairs = [] # data pair
 82 |         self.max_len = max_seq_length
 83 |         self.mask_id = mask_id
 84 | 
 85 |         self.mask_sequence()
 86 |         self.get_pos_neg_pairs()
 87 | 
 88 |     def unpadding(self, fake_seq):
 89 |         #tensor to list
 90 |         fake_seq = fake_seq.cpu().data.numpy().tolist()
 91 |         fake_seqs = []
 92 |         for fake_data in fake_seq:
 93 |             seq = []
 94 |             for i, f in enumerate(fake_data):
 95 |                 if f != 0:
 96 |                     seq.append(f)
 97 |                 else:
 98 |                     # clip when there are two consecutive "0"
 99 |                     if i == (len(fake_data) - 1) or fake_data[i+1] == 0:
100 |                         break
101 |                     else:
102 |                         continue
103 |             fake_seqs.append(seq)
104 |  
105 |         return fake_seqs
106 |     
107 |     def mask_sequence(self):
108 |         """
109 |         mask user_seq and do padding
110 |         """
111 |         for fake_data in self.fake_seq:
112 |             masked_segment_sequence = []
113 |             anti_masked_segment_sequence = []
114 |             # Masked Item Prediction
115 |             if len(fake_data) < 2:
116 |                 masked_segment_sequence = fake_data
117 |                 anti_masked_segment_sequence = [self.mask_id] * len(fake_data)
118 |             else:
119 |                 real_sample = self.real_seq[random.randint(0, len(self.real_seq)-1)]
120 |                 min_len = len(fake_data) if len(fake_data)<len(real_sample) else len(real_sample)
121 |                 
122 |                 sample_length = random.randint(1, min_len // 2)
123 |                 start_id = random.randint(0, min_len - sample_length)
124 |                 masked_segment_sequence =  [self.mask_id] * len(real_sample[:start_id]) + fake_data[start_id:start_id+sample_length] +\
125 |                                                     [self.mask_id] * len(real_sample[start_id + sample_length:])
126 |                 
127 |                 anti_masked_segment_sequence = real_sample[:start_id] + [self.mask_id] * sample_length + \
128 |                                                     real_sample[start_id + sample_length:]
129 | 
130 | 
131 |             # padding sequence
132 |             pad_len_masked = self.max_len - len(masked_segment_sequence)
133 |             pad_len_anti_masked = self.max_len - len(anti_masked_segment_sequence)
134 |             masked_segment_sequence = masked_segment_sequence + [0] * pad_len_masked
135 |             anti_masked_segment_sequence = anti_masked_segment_sequence + [0] * pad_len_anti_masked
136 | 
137 | 
138 |             masked_segment_sequence = masked_segment_sequence[:self.max_len]
139 |             anti_masked_segment_sequence = anti_masked_segment_sequence[:self.max_len]
140 |             
141 |             self.masked_segment_sequence.append(masked_segment_sequence)
142 |             self.anti_masked_segment_sequence.append(anti_masked_segment_sequence)
143 | 
144 |     def get_pos_neg_pairs(self):
145 |         for masked, anti_masked in zip(self.masked_segment_sequence,self.anti_masked_segment_sequence):
146 |             self.data_pairs.append([masked,anti_masked,0])
147 | 
148 | 
149 |     def __len__(self):
150 |         return len(self.data_pairs)
151 | 
152 |     def __getitem__(self, index):
153 |         data = torch.cat((torch.tensor(self.data_pairs[index][0],dtype=torch.long),torch.tensor(self.data_pairs[index][1],dtype=torch.long)),dim=0)
154 |         target = torch.tensor(self.data_pairs[index][2],dtype=torch.long)
155 |         return data, target
156 | 


--------------------------------------------------------------------------------
/Seq-poison/discriminator.py:
--------------------------------------------------------------------------------
 1 | import torch
 2 | import torch.autograd as autograd
 3 | import torch.nn as nn
 4 | import pdb
 5 | 
 6 | # Discriminator with GRU
 7 | class Discriminator(nn.Module):
 8 | 
 9 |     def __init__(self, embedding_dim, hidden_dim, vocab_size, max_seq_len, gpu=False, dropout=0.2):
10 |         super(Discriminator, self).__init__()
11 |         self.hidden_dim = hidden_dim
12 |         self.embedding_dim = embedding_dim
13 |         self.max_seq_len = max_seq_len
14 |         self.gpu = gpu
15 | 
16 |         self.embeddings = nn.Embedding(vocab_size, embedding_dim)
17 |         self.gru = nn.GRU(embedding_dim, hidden_dim, num_layers=2, bidirectional=True, dropout=dropout)
18 |         self.gru2hidden = nn.Linear(2*2*hidden_dim, hidden_dim)
19 |         self.dropout_linear = nn.Dropout(p=dropout)
20 |         self.hidden2out = nn.Linear(hidden_dim, 1)
21 | 
22 |     def init_hidden(self, batch_size):
23 |         h = autograd.Variable(torch.zeros(2*2*1, batch_size, self.hidden_dim))
24 | 
25 |         if self.gpu:
26 |             return h.cuda()
27 |         else:
28 |             return h
29 | 
30 |     def forward(self, input, hidden):
31 |         # input dim                                                # batch_size x seq_len
32 |         emb = self.embeddings(input)                               # batch_size x seq_len x embedding_dim
33 |         emb = emb.permute(1, 0, 2)                                 # seq_len x batch_size x embedding_dim
34 |         _, hidden = self.gru(emb, hidden)                          # 4 x batch_size x hidden_dim
35 |         hidden = hidden.permute(1, 0, 2).contiguous()              # batch_size x 4 x hidden_dim
36 |         out = self.gru2hidden(hidden.view(-1, 4*self.hidden_dim))  # batch_size x 4*hidden_dim
37 |         out = torch.tanh(out)
38 |         out = self.dropout_linear(out)
39 |         out = self.hidden2out(out)                                 # batch_size x 1
40 |         out = torch.sigmoid(out)
41 |         return out
42 | 
43 |     def batchClassify(self, inp):
44 |         """
45 |         Classifies a batch of sequences.
46 | 
47 |         Inputs: inp
48 |             - inp: batch_size x seq_len
49 | 
50 |         Returns: out
51 |             - out: batch_size ([0,1] score)
52 |         """
53 | 
54 |         h = self.init_hidden(inp.size()[0])
55 |         out = self.forward(inp, h)
56 |         return out.view(-1)
57 | 
58 |     def batchBCELoss(self, inp, target):
59 |         """
60 |         Returns Binary Cross Entropy Loss for discriminator.
61 | 
62 |          Inputs: inp, target
63 |             - inp: batch_size x seq_len
64 |             - target: batch_size (binary 1/0)
65 |         """
66 | 
67 |         loss_fn = nn.BCELoss()
68 |         h = self.init_hidden(inp.size()[0])
69 |         out = self.forward(inp, h)
70 |         return loss_fn(out, target)
71 | 
72 | 


--------------------------------------------------------------------------------
/Seq-poison/generate_data.py:
--------------------------------------------------------------------------------
 1 | import torch
 2 | import generator
 3 | import os
 4 | 
 5 | CUDA = True
 6 | # Hyperparameter Settings
 7 | MAX_SEQ_LEN = 50
 8 | START_LETTER = 0
 9 | BATCH_SIZE = 32
10 | MLE_TRAIN_EPOCHS = 20
11 | ADV_TRAIN_EPOCHS = 100
12 | POS_NEG_SAMPLES = 10000
13 | a, b, c = 0.2, 0.6, 0.2
14 | GEN_EMBEDDING_DIM = 64
15 | GEN_HIDDEN_DIM = 64
16 | DIS_EMBEDDING_DIM = 64
17 | DIS_HIDDEN_DIM = 64
18 | 
19 | torch.cuda.set_device(0)
20 | 
21 | def unpadding(fake_seq, start_id, target_item):
22 |     #tensor to list
23 |     fake_seqs = []
24 |     id = start_id
25 |     for fake_data in fake_seq:
26 |         seq = []
27 |         seq.append(id)
28 |         for i, f in enumerate(fake_data):
29 |             if f != 0:
30 |                 seq.append(f)
31 |             else:
32 |                 # clip when there are two consecutive "0"
33 |                 if i == (len(fake_data) - 1) or fake_data[i+1] == 0:
34 |                     break
35 |                 else:
36 |                     continue
37 |         if len(seq) == 1 or len(seq) == 2 or target_item not in seq:
38 |             continue
39 |         fake_seqs.append(seq)
40 |         id += 1
41 | 
42 |     return fake_seqs
43 | 
44 | def get_user_seqs_long(data_file):
45 |     lines = open(data_file).readlines()
46 |     user_seq = []
47 |     long_sequence = []
48 |     item_set = set()
49 |     for line in lines:
50 |         user, items = line.strip().split(' ', 1)
51 |         items = items.split(' ')
52 |         items = [int(item) for item in items]
53 |         long_sequence.extend(items) # negative samples
54 |         user_seq.append(items)
55 |         item_set = item_set | set(items)
56 |     max_item = max(item_set)
57 | 
58 |     return user_seq, max_item, long_sequence
59 | 
60 | def generate_data():
61 | 
62 |     dataset = "Yelp"
63 |     dataset_path = os.path.join("./dataset", dataset) + ".txt"
64 |     percentage = 0.01
65 |     user_seq, max_item, _ = get_user_seqs_long(dataset_path)
66 |     data_num = len(user_seq)
67 |     start_id = len(user_seq) + 1
68 |     
69 |     gen = generator.Generator(GEN_EMBEDDING_DIM, GEN_HIDDEN_DIM, max_item+1, MAX_SEQ_LEN, gpu=CUDA).cuda()
70 |     
71 |     i = 79  #epoch
72 |     
73 |     gen.load_state_dict(torch.load(f"./output/{dataset}/output/attack-generator-epochs-{i}.pt"))
74 |     datas = []
75 | 
76 |     while True:
77 |         data = gen.sample(10).cpu().data.numpy().tolist()
78 |         data = unpadding(data,start_id=start_id, target_item=5556) #target item
79 |         datas.extend(data)
80 |         start_id = start_id + len(data)
81 |         if len(datas) > int(data_num * percentage):
82 |             break
83 | 
84 |     with open(f"./output/{dataset}/generate_epoch{i}_data_{str(percentage)}.txt", 'w') as fout:
85 |         for sample in datas:
86 |             string = ' '.join([str(s) for s in sample])
87 |             fout.write('%s\n' % string)
88 | 
89 | 
90 | if __name__ == "__main__":
91 |     generate_data()
92 | 


--------------------------------------------------------------------------------
/Seq-poison/generator.py:
--------------------------------------------------------------------------------
  1 | import torch
  2 | import torch.autograd as autograd
  3 | import torch.nn as nn
  4 | import torch.nn.functional as F
  5 | import numpy as np
  6 | import pdb
  7 | import math
  8 | import torch.nn.init as init
  9 | import random
 10 | 
 11 | 
 12 | class Generator(nn.Module):
 13 | 
 14 |     def __init__(self, embedding_dim, hidden_dim, vocab_size, max_seq_len, gpu=False, oracle_init=False):
 15 |         super(Generator, self).__init__()
 16 |         self.hidden_dim = hidden_dim
 17 |         self.embedding_dim = embedding_dim
 18 |         self.max_seq_len = max_seq_len
 19 |         self.vocab_size = vocab_size
 20 |         self.gpu = gpu
 21 | 
 22 |         self.embeddings = nn.Embedding(vocab_size, embedding_dim)
 23 |         self.gru = nn.GRU(embedding_dim, hidden_dim)
 24 |         self.gru2out = nn.Linear(hidden_dim, vocab_size)
 25 | 
 26 |         # initialise oracle network with N(0,1)
 27 |         # otherwise variance of initialisation is very small => high NLL for data sampled from the same model
 28 |         if oracle_init:
 29 |             for p in self.parameters():
 30 |                 init.normal(p, 0, 1)
 31 | 
 32 |     def init_hidden(self, batch_size=1):
 33 |         h = autograd.Variable(torch.zeros(1, batch_size, self.hidden_dim))
 34 | 
 35 |         if self.gpu:
 36 |             return h.cuda()
 37 |         else:
 38 |             return h
 39 | 
 40 |     def forward(self, inp, hidden):
 41 |         """
 42 |         Embeds input and applies GRU one token at a time (seq_len = 1)
 43 |         """
 44 |         # input dim                                             # batch_size
 45 |         emb = self.embeddings(inp)                              # batch_size x embedding_dim
 46 |         emb = emb.view(1, -1, self.embedding_dim)               # 1 x batch_size x embedding_dim
 47 |         out, hidden = self.gru(emb, hidden)                     # 1 x batch_size x hidden_dim (out)
 48 |         out = self.gru2out(out.view(-1, self.hidden_dim))       # batch_size x vocab_size
 49 |         out = F.log_softmax(out, dim=1)
 50 |         return out, hidden
 51 | 
 52 |     def unpadding(self,fake_seq):
 53 |         #tensor to list
 54 |         fake_seq = fake_seq.cpu().data.numpy().tolist()
 55 |         fake_seqs = []
 56 |         for fake_data in fake_seq:
 57 |             seq = []
 58 |             for f in fake_data:
 59 |                 if f != 0:
 60 |                     seq.append(f)
 61 |                 else:
 62 |                     break
 63 |             fake_seqs.append(seq)
 64 |         return fake_seqs
 65 | 
 66 |     def get_attack_target(self, inputs, seq_len, attack_item = 8887, target_p=0.9):
 67 |         targets = []
 68 |         for input in inputs:
 69 |             input_seq = []
 70 |             for item in input:
 71 |                 prob = random.random()
 72 |                 if prob < target_p:
 73 |                     input_seq.append(int(attack_item))
 74 |                 else:
 75 |                     input_seq.append(item)
 76 |             input_seq = input_seq + [0]*(seq_len - len(input_seq))
 77 |             input_seq = torch.Tensor(input_seq).type(torch.LongTensor)
 78 |             targets.append(input_seq)
 79 |         return torch.stack(targets, 0)
 80 |             
 81 | 
 82 |     def sample(self, num_samples, start_letter=0):
 83 |         """
 84 |         Samples the network and returns num_samples samples of length max_seq_len.
 85 | 
 86 |         Outputs: samples, hidden
 87 |             - samples: num_samples x max_seq_length (a sampled sequence in each row)
 88 |         """
 89 | 
 90 |         samples = torch.zeros(num_samples, self.max_seq_len).type(torch.LongTensor)
 91 | 
 92 |         h = self.init_hidden(num_samples)
 93 |         inp = autograd.Variable(torch.LongTensor([start_letter]*num_samples))
 94 | 
 95 |         if self.gpu:
 96 |             samples = samples.cuda()
 97 |             inp = inp.cuda()
 98 | 
 99 |         for i in range(self.max_seq_len):
100 |             out, h = self.forward(inp, h)               # out: num_samples x vocab_size
101 |             out = torch.multinomial(torch.exp(out), 1)  # num_samples x 1 (sampling from each row)
102 |             samples[:, i] = out.view(-1).data
103 | 
104 |             inp = out.view(-1)
105 | 
106 |         return samples
107 | 
108 |     def batchNLLLoss(self, inp, target):
109 |         """
110 |         Returns the NLL Loss for predicting target sequence.
111 | 
112 |         Inputs: inp, target
113 |             - inp: batch_size x seq_len
114 |             - target: batch_size x seq_len
115 | 
116 |             inp should be target with <s> (start letter) prepended
117 |         """
118 | 
119 |         loss_fn = nn.NLLLoss()
120 |         batch_size, seq_len = inp.size()
121 |         inp = inp.permute(1, 0)           # seq_len x batch_size
122 |         target = target.permute(1, 0)     # seq_len x batch_size
123 |         h = self.init_hidden(batch_size)
124 | 
125 |         loss = 0
126 |         for i in range(seq_len):
127 |             out, h = self.forward(inp[i], h)
128 |             loss += loss_fn(out, target[i])
129 | 
130 |         return loss     # per batch
131 | 
132 |     def batchPGLoss(self, inp, target, reward):
133 |         """
134 |         Returns a pseudo-loss that gives corresponding policy gradients (on calling .backward()).
135 | 
136 |         Inputs: inp, target
137 |             - inp: batch_size x seq_len
138 |             - target: batch_size x seq_len
139 |             - reward: batch_size (discriminator reward for each sentence, applied to each token of the corresponding
140 |                       sentence)
141 | 
142 |             inp should be target with <s> (start letter) prepended
143 |         """
144 | 
145 |         batch_size, seq_len = inp.size()
146 |         inp = inp.permute(1, 0)          # seq_len x batch_size
147 |         target = target.permute(1, 0)    # seq_len x batch_size
148 |         h = self.init_hidden(batch_size)
149 | 
150 |         loss = 0
151 |         for i in range(seq_len):
152 |             out, h = self.forward(inp[i], h)
153 |             # TODO: should h be detached from graph (.detach())?
154 |             for j in range(batch_size):
155 |                 loss += -out[j][target.data[i][j]]*reward[j]     # log(P(y_t|Y_1:Y_{t-1})) * Q
156 | 
157 |         return loss/batch_size
158 | 
159 |     def batchLoss_A(self, inp, target, attack_item=8887):
160 |         """
161 |         Returns a pseudo-loss that gives corresponding policy gradients (on calling .backward()).
162 | 
163 |         Inputs: inp, target
164 |             - inp: batch_size x seq_len
165 |             - target: batch_size x seq_len
166 |             - reward: batch_size (discriminator reward for each sentence, applied to each token of the corresponding
167 |                       sentence)
168 | 
169 |             inp should be target with <s> (start letter) prepended
170 |         """
171 | 
172 |         batch_size, seq_len = target.size()
173 |         unpadding_target = self.unpadding(target)
174 |         
175 |         inp = inp.permute(1, 0)          # seq_len x batch_size
176 |         h = self.init_hidden(batch_size)
177 |         
178 |         attack_target = self.get_attack_target(unpadding_target, seq_len, attack_item=attack_item)
179 |         attack_target = attack_target.permute(1, 0)
180 |         loss = 0
181 |         for i in range(seq_len):
182 |             out, h = self.forward(inp[i], h)
183 |             # TODO: should h be detached from graph (.detach())?
184 |             for j in range(batch_size):
185 |                 loss += -out[j][attack_target.data[i][j]]     
186 | 
187 |         return loss/batch_size
188 | 
189 |     def batchLoss_B(self, inp, target, data, label, bi_classify):
190 |         """
191 |         Returns a pseudo-loss that gives corresponding policy gradients (on calling .backward()).
192 | 
193 |         Inputs: inp, target
194 |             - inp: batch_size x seq_len
195 |             - target: batch_size x seq_len
196 |             - reward: batch_size (discriminator reward for each sentence, applied to each token of the corresponding
197 |                       sentence)
198 | 
199 |             inp should be target with <s> (start letter) prepended
200 |         """
201 |         batch_size, seq_len = inp.size()
202 |         inp = inp.permute(1, 0)          # seq_len x batch_size
203 |         target = target.permute(1, 0)    # seq_len x batch_size
204 |         h = self.init_hidden(batch_size)
205 | 
206 |         output = bi_classify(data)[:,1] # get label 1, which means concentrating on the real label 
207 |         rewards = []
208 |         for i in range(batch_size):
209 |             reward = output[i]
210 |             rewards.append(reward)
211 | 
212 |         loss = 0
213 |         for i in range(seq_len):
214 |             out, h = self.forward(inp[i], h)
215 |             # TODO: should h be detached from graph (.detach())?
216 |             for j in range(batch_size):
217 |                 loss += -out[j][target.data[i][j]]* rewards[j]     # log(P(y_t|Y_1:Y_{t-1})) * Q
218 | 
219 |         return loss/batch_size
220 | 


--------------------------------------------------------------------------------
/Seq-poison/helpers.py:
--------------------------------------------------------------------------------
 1 | import torch
 2 | from torch.autograd import Variable
 3 | from math import ceil
 4 | 
 5 | 
 6 | def prepare_generator_batch(samples, start_letter=0, gpu=False):
 7 |     """
 8 |     Takes samples (a batch) and returns
 9 | 
10 |     Inputs: samples, start_letter, cuda
11 |         - samples: batch_size x seq_len (Tensor with a sample in each row)
12 | 
13 |     Returns: inp, target
14 |         - inp: batch_size x seq_len (same as target, but with start_letter prepended)
15 |         - target: batch_size x seq_len (Variable same as samples)
16 |     """
17 | 
18 |     batch_size, seq_len = samples.size()
19 | 
20 |     inp = torch.zeros(batch_size, seq_len)
21 |     target = samples
22 |     inp[:, 0] = start_letter
23 |     inp[:, 1:] = target[:, :seq_len-1]
24 | 
25 |     inp = Variable(inp).type(torch.LongTensor)
26 |     target = Variable(target).type(torch.LongTensor)
27 | 
28 |     if gpu:
29 |         inp = inp.cuda()
30 |         target = target.cuda()
31 | 
32 |     return inp, target
33 | 
34 | 
35 | def prepare_discriminator_data(pos_samples, neg_samples, gpu=False):
36 |     """
37 |     Takes positive (target) samples, negative (generator) samples and prepares inp and target data for discriminator.
38 | 
39 |     Inputs: pos_samples, neg_samples
40 |         - pos_samples: pos_size x seq_len
41 |         - neg_samples: neg_size x seq_len
42 | 
43 |     Returns: inp, target
44 |         - inp: (pos_size + neg_size) x seq_len
45 |         - target: pos_size + neg_size (boolean 1/0)
46 |     """
47 |     if gpu:
48 |         pos_samples = pos_samples.cuda()
49 |         neg_samples = neg_samples.cuda()
50 |     inp = torch.cat((pos_samples, neg_samples), 0).type(torch.LongTensor)
51 |     target = torch.ones(pos_samples.size()[0] + neg_samples.size()[0])
52 |     target[pos_samples.size()[0]:] = 0
53 | 
54 |     # shuffle
55 |     perm = torch.randperm(target.size()[0])
56 |     target = target[perm]
57 |     inp = inp[perm]
58 | 
59 |     inp = Variable(inp)
60 |     target = Variable(target)
61 | 
62 |     if gpu:
63 |         inp = inp.cuda()
64 |         target = target.cuda()
65 | 
66 |     return inp, target
67 | 
68 | 
69 | def batchwise_sample(gen, num_samples, batch_size):
70 |     """
71 |     Sample num_samples samples batch_size samples at a time from gen.
72 |     Does not require gpu since gen.sample() takes care of that.
73 |     """
74 | 
75 |     samples = []
76 |     for i in range(int(ceil(num_samples/float(batch_size)))):
77 |         samples.append(gen.sample(batch_size))
78 | 
79 |     return torch.cat(samples, 0)[:num_samples]
80 | 
81 | 
82 | def batchwise_oracle_nll(gen, oracle, num_samples, batch_size, max_seq_len, start_letter=0, gpu=False):
83 |     s = batchwise_sample(gen, num_samples, batch_size)
84 |     oracle_nll = 0
85 |     for i in range(0, num_samples, batch_size):
86 |         inp, target = prepare_generator_batch(s[i:i+batch_size], start_letter, gpu)
87 |         oracle_loss = oracle.batchNLLLoss(inp, target) / max_seq_len
88 |         oracle_nll += oracle_loss.data.item()
89 | 
90 |     return oracle_nll/(num_samples/batch_size)
91 | 


--------------------------------------------------------------------------------
/Seq-poison/main.py:
--------------------------------------------------------------------------------
  1 | from __future__ import print_function
  2 | from math import ceil
  3 | from matplotlib import use
  4 | import numpy as np
  5 | import sys
  6 | import pdb
  7 | import random
  8 | import os
  9 | import torch
 10 | import torch.optim as optim
 11 | import torch.nn as nn
 12 | 
 13 | import generator
 14 | import discriminator
 15 | import helpers
 16 | import matplotlib.pyplot as plt
 17 | 
 18 | from classify import Classify
 19 | #from log import Logger
 20 | from dataloader import GenDataset, DisDataset, ClaDataset
 21 | from torch.utils.data import Dataset, DataLoader
 22 | 
 23 | CUDA = True
 24 | # Hyperparameter Settings
 25 | MAX_SEQ_LEN = 50
 26 | START_LETTER = 0
 27 | BATCH_SIZE = 32
 28 | MLE_TRAIN_EPOCHS = 20
 29 | ADV_TRAIN_EPOCHS = 100
 30 | POS_NEG_SAMPLES = 10000
 31 | a, b, c = 0.2, 0.3, 0.5  #a=popularity, b=bi_classify, c=GAN
 32 | GEN_EMBEDDING_DIM = 64
 33 | GEN_HIDDEN_DIM = 64
 34 | DIS_EMBEDDING_DIM = 64
 35 | DIS_HIDDEN_DIM = 64
 36 | 
 37 | d_emb_dim = 64
 38 | d_filter_sizes = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20]
 39 | d_num_filters = [100, 200, 200, 200, 200, 100, 100, 100, 100, 100, 160, 160]
 40 | d_dropout = 0.75
 41 | d_num_class = 2
 42 | 
 43 | def padding(user_seq, max_seq_length):
 44 |     user_seqs = []
 45 |     for s in user_seq:
 46 |         pad_len = max_seq_length - len(s)
 47 |         s = s + [0] * pad_len
 48 |         s = s[:max_seq_length]
 49 |         user_seqs.append(s)
 50 |     return user_seqs
 51 | 
 52 | def unpadding(fake_seq, start_id):
 53 |     #tensor to list
 54 |     fake_seqs = []
 55 |     id = start_id
 56 |     for fake_data in fake_seq:
 57 |         seq = []
 58 |         seq.append(id)
 59 |         for i, f in enumerate(fake_data):
 60 |             if f != 0:
 61 |                 seq.append(f)
 62 |             else:
 63 |                 # clip when there are two consecutive "0"
 64 |                 if i == (len(fake_data) - 1) or fake_data[i+1] == 0:
 65 |                     break
 66 |                 else:
 67 |                     continue
 68 |         fake_seqs.append(seq)
 69 |         id += 1
 70 |     return fake_seqs
 71 | 
 72 | def read_file(data_file):
 73 |     with open(data_file, 'r') as f:
 74 |         lines = f.readlines()
 75 |     lis = []
 76 |     for line in lines:
 77 |         l = line.strip().split(' ')
 78 |         l = [int(s) for s in l]
 79 |         lis.append(l)
 80 |     return lis
 81 | 
 82 | def get_user_seqs_long(data_file):
 83 |     lines = open(data_file).readlines()
 84 |     user_seq = []
 85 |     long_sequence = []
 86 |     item_set = set()
 87 |     for line in lines:
 88 |         user, items = line.strip().split(' ', 1)
 89 |         items = items.split(' ')
 90 |         items = [int(item) for item in items]
 91 |         long_sequence.extend(items) # negative samples
 92 |         user_seq.append(items)
 93 |         item_set = item_set | set(items)
 94 |     max_item = max(item_set)
 95 | 
 96 |     return user_seq, max_item, long_sequence
 97 | 
 98 | def train_generator_MLE(gen, gen_opt, real_data_samples, epochs):
 99 |     """
100 |     Max Likelihood Pretraining for the generator
101 |     """
102 |     train_len = len(real_data_samples)
103 |     
104 |     for epoch in range(epochs):
105 |         print('epoch %d : ' % (epoch + 1), end='')
106 |         sys.stdout.flush()
107 |         total_loss = 0
108 | 
109 |         for i in range(0, train_len, BATCH_SIZE):
110 |             inp, target = helpers.prepare_generator_batch(real_data_samples[i:i + BATCH_SIZE], start_letter=START_LETTER,
111 |                                                           gpu=CUDA)
112 |             gen_opt.zero_grad()
113 |             loss = gen.batchNLLLoss(inp, target)
114 |             loss.backward()
115 |             gen_opt.step()
116 | 
117 |             total_loss += loss.data.item()
118 | 
119 |         # each loss in a batch is loss per sample
120 |         total_loss = total_loss / ceil(train_len / float(BATCH_SIZE)) / MAX_SEQ_LEN
121 |         
122 |         print(' average_train_NLL = %.4f' % (total_loss))
123 | 
124 | def eval_generator(gen, eval_samples):
125 |     oracle_loss = 0
126 |     eval_len = len(eval_samples)
127 |     for i in range(0, eval_len, BATCH_SIZE):
128 |         inp, target = helpers.prepare_generator_batch(eval_samples[i:i + BATCH_SIZE], start_letter=START_LETTER,
129 |                                                         gpu=CUDA)
130 |         loss = gen.batchNLLLoss(inp, target)
131 | 
132 |         oracle_loss += loss.data.item()
133 | 
134 |         if (i / BATCH_SIZE) % ceil(
135 |                         ceil(eval_len / float(BATCH_SIZE)) / 10.) == 0:  # roughly every 10% of an epoch
136 |             print('.', end='')
137 |             sys.stdout.flush()
138 | 
139 |         # each loss in a batch is loss per sample
140 |     oracle_loss = oracle_loss / ceil(eval_len / float(BATCH_SIZE)) / MAX_SEQ_LEN
141 |     return oracle_loss
142 | 
143 | def train_generator_PG(gen, gen_opt, bi_classify, train_samples, dis, num_batches, attack_item, mask_id):
144 |     """
145 |     The generator is trained using policy gradients, using the reward from the discriminator.
146 |     Training is done for num_batches batches.
147 |     """
148 |     
149 |     for batch in range(num_batches):
150 |         s = gen.sample(BATCH_SIZE*2)        # 64 works best
151 |         inp, target = helpers.prepare_generator_batch(s, start_letter=START_LETTER, gpu=CUDA)
152 |         rewards = dis.batchClassify(target)
153 | 
154 |         loss_a = gen.batchLoss_A(inp, target, attack_item=attack_item)
155 |         loss_b = 0
156 |         dataset = ClaDataset(MAX_SEQ_LEN, train_samples, s, mask_id=mask_id)
157 |         dataloader = DataLoader(dataset, batch_size=64)
158 |         for data, label in dataloader:
159 |             loss_b = gen.batchLoss_B(inp, target, data, label, bi_classify)
160 | 
161 |         gen_opt.zero_grad()
162 |         loss_c = gen.batchPGLoss(inp, target, rewards)
163 |         loss = c*loss_c + b*loss_b + a*loss_a
164 | 
165 |         loss.backward()
166 |         gen_opt.step()
167 | 
168 |         print("training PG total_loss = %.4f, loss_a = %.4f, loss_b = %.4f, loss_c = %.4f" % (loss,loss_a,loss_b,loss_c))
169 |         return loss, loss_a, loss_b, loss_c
170 | 
171 |     # sample from generator and compute oracle NLL
172 |     # train_loss = eval_generator(gen, train_samples)
173 |     # eval_loss = eval_generator(gen, eval_samples)
174 |     # print(' train_sample_NLL = %.4f, eval_sample_NLL = %.4f' % (train_loss,eval_loss))
175 | 
176 | 
177 | def train_discriminator(discriminator, dis_opt, real_data_samples, generator, d_steps, epochs):
178 |     """
179 |     Training the discriminator on real_data_samples (positive) and generated samples from generator (negative).
180 |     Samples are drawn d_steps times, and the discriminator is trained for epochs epochs.
181 |     """
182 |     # generating a small validation set before training (using oracle and generator)
183 |     for d_step in range(d_steps):
184 |         s = helpers.batchwise_sample(generator, POS_NEG_SAMPLES, BATCH_SIZE)
185 |         dis_inp, dis_target = helpers.prepare_discriminator_data(real_data_samples, s, gpu=CUDA)
186 |         for epoch in range(epochs):
187 |             print('d-step %d epoch %d : ' % (d_step + 1, epoch + 1), end='')
188 |             sys.stdout.flush()
189 |             total_loss = 0
190 |             total_acc = 0
191 | 
192 |             for i in range(0, len(s)+len(real_data_samples), BATCH_SIZE):
193 |                 inp, target = dis_inp[i:i + BATCH_SIZE], dis_target[i:i + BATCH_SIZE]
194 |                 dis_opt.zero_grad()
195 |                 out = discriminator.batchClassify(inp)
196 |                 loss_fn = nn.BCELoss()
197 |                 loss = loss_fn(out, target)
198 |                 loss.backward()
199 |                 dis_opt.step()
200 | 
201 |                 total_loss += loss.data.item()
202 |                 total_acc += torch.sum((out>0.5)==(target>0.5)).data.item()
203 | 
204 |                 if (i / BATCH_SIZE) % ceil(ceil((len(s)+len(real_data_samples)) / float(
205 |                         BATCH_SIZE)) / 10.) == 0:  # roughly every 10% of an epoch
206 |                     print('.', end='')
207 |                     sys.stdout.flush()
208 | 
209 |             total_loss /= ceil((len(s)+len(real_data_samples)) / float(BATCH_SIZE))
210 |             total_acc /= float(len(s)+len(real_data_samples))
211 | 
212 |             print(' average_loss = %.4f, train_acc = %.4f' % (total_loss, total_acc))
213 | 
214 | def get_attack_item(dataset):
215 |     if dataset == "Beauty":
216 |         return 8887
217 |     elif dataset == "Toys_and_Games":
218 |         return 6662
219 |     elif dataset == "Sports_and_Outdoors":
220 |         return 7775
221 |     elif dataset == "Yelp":
222 |         return 5556
223 |     
224 | def main():
225 |     #oracle = generator.Generator(GEN_EMBEDDING_DIM, GEN_HIDDEN_DIM, VOCAB_SIZE, MAX_SEQ_LEN, gpu=CUDA)
226 |     #oracle.load_state_dict(torch.load(oracle_state_dict_path))
227 |     dataset = "Beauty"
228 |     attack_item = get_attack_item(dataset)
229 |     dataset_path = os.path.join("./dataset", dataset) + ".txt"
230 | 
231 |     user_seq, max_item, long_sequence = get_user_seqs_long(dataset_path)
232 |     mask_id = max_item + 1
233 |     user_seq = padding(user_seq, MAX_SEQ_LEN)
234 |     train_samples = torch.Tensor(user_seq).type(torch.LongTensor)
235 |     
236 |     # a new oracle can be generated by passing oracle_init=True in the generator constructor
237 |     # samples for the new oracle can be generated using helpers.batchwise_sample()
238 | 
239 |     gen = generator.Generator(GEN_EMBEDDING_DIM, GEN_HIDDEN_DIM, max_item+1, MAX_SEQ_LEN, gpu=CUDA)
240 |     dis = discriminator.Discriminator(DIS_EMBEDDING_DIM, DIS_HIDDEN_DIM, max_item+1, MAX_SEQ_LEN, gpu=CUDA)
241 | 
242 |     bi_classify = Classify(d_num_class, max_item+2, d_emb_dim, d_filter_sizes, d_num_filters, d_dropout)
243 |     #bi_classify.load_state_dict(torch.load(dataset + "_bi_classify.pt"))
244 |     bi_classify.load_state_dict(torch.load(dataset + "_bi_classify.pt",map_location={'cuda:2': 'cuda:0','cuda:1': 'cuda:0'}))
245 | 
246 |     if CUDA:
247 |         #oracle = oracle.cuda()
248 |         gen = gen.cuda()
249 |         dis = dis.cuda()
250 |         train_samples = train_samples.cuda()
251 | 
252 |     # GENERATOR MLE TRAINING
253 |     print('Starting Generator MLE Training...')
254 |     gen_optimizer = optim.Adam(gen.parameters())
255 |     train_generator_MLE(gen, gen_optimizer, train_samples, MLE_TRAIN_EPOCHS) # pretrain
256 | 
257 |     # torch.save(gen.state_dict(), pretrained_gen_path)
258 |     # gen.load_state_dict(torch.load(pretrained_gen_path))
259 | 
260 |     # PRETRAIN DISCRIMINATOR
261 |     print('\nStarting Discriminator Training...')
262 |     dis_optimizer = optim.Adagrad(dis.parameters())
263 |     train_discriminator(dis, dis_optimizer, train_samples, gen, 20, 3) # pretrain，20 rounds, 3 epochs per round
264 | 
265 |     # torch.save(dis.state_dict(), pretrained_dis_path)
266 |     # dis.load_state_dict(torch.load(pretrained_dis_path))
267 | 
268 |     # ADVERSARIAL TRAINING
269 |     print('\nStarting Adversarial Training...')
270 | 
271 |     loss_A = []
272 |     loss_B = []
273 |     loss_C = []
274 |     total_loss = []
275 |     
276 |     output_path = os.path.join("./output", dataset)
277 |     if not os.path.exists(output_path):
278 |         os.makedirs(output_path)
279 |     for epoch in range(ADV_TRAIN_EPOCHS):
280 |         print('\n--------\nEPOCH %d\n--------' % (epoch+1))
281 |         # TRAIN GENERATOR
282 |         print('\nAdversarial Training Generator : ', end='')
283 |         sys.stdout.flush()
284 |         loss, loss_a, loss_b, loss_c = train_generator_PG(gen, gen_optimizer, bi_classify, train_samples, dis, 1, attack_item=attack_item, mask_id=mask_id)
285 |         total_loss.append(loss.cpu().detach().numpy())
286 |         loss_A.append(loss_a.cpu().detach().numpy())
287 |         loss_B.append(loss_b.cpu().detach().numpy())
288 |         loss_C.append(loss_c.cpu().detach().numpy())
289 | 
290 |         if (epoch+1) % 10 == 0:
291 |             torch.save(gen.cpu().state_dict(), os.path.join(output_path, f'attack-generator-epochs-{epoch+1}.pt'))
292 |             gen.cuda()
293 |             datas = gen.sample(int(len(user_seq) * 0.01)).cpu().data.numpy().tolist()
294 |             datas = unpadding(datas, len(user_seq)+1)
295 |             with open(os.path.join(output_path, f"generate_epoch{epoch+1}_data.txt"), 'w') as fout:
296 |                 for sample in datas:
297 |                     string = ' '.join([str(s) for s in sample])
298 |                     fout.write('%s\n' % string)
299 | 
300 |         if epoch in range(30,100):
301 |             torch.save(gen.cpu().state_dict(), os.path.join(output_path, f'attack-generator-epochs-{epoch+1}.pt'))
302 |             gen.cuda()
303 |             datas = gen.sample(int(len(user_seq) * 0.01)).cpu().data.numpy().tolist()
304 |             datas = unpadding(datas, len(user_seq)+1)
305 |             with open(os.path.join(output_path, f"generate_epoch{epoch+1}_data.txt"), 'w') as fout:
306 |                 for sample in datas:
307 |                     string = ' '.join([str(s) for s in sample])
308 |                     fout.write('%s\n' % string)
309 | 
310 |         # TRAIN DISCRIMINATOR
311 |         print('\nAdversarial Training Discriminator : ')
312 |         train_discriminator(dis, dis_optimizer, train_samples, gen, 3, 2)
313 | 
314 | 
315 |     plt.title(dataset + '_training loss')
316 |     plt.plot(np.arange(len(total_loss)), total_loss, label="total loss")
317 | 
318 |     plt.plot(np.arange(len(loss_A)), loss_A, label="loss A")
319 | 
320 |     plt.plot(np.arange(len(loss_B)), loss_B, label="loss B")
321 | 
322 |     plt.plot(np.arange(len(loss_C)), loss_C, label="loss C")
323 |     plt.legend(loc='upper right')
324 | 
325 |     plt.savefig(dataset + "_loss.png")
326 | 
327 | 
328 | # MAIN
329 | if __name__ == '__main__':
330 |     main()
331 | 


--------------------------------------------------------------------------------
/Seq-poison/process.py:
--------------------------------------------------------------------------------
 1 | from importlib.resources import read_binary
 2 | 
 3 | 
 4 | MAX_SEQ_LEN = 204
 5 | 
 6 | 
 7 | def read_file(data_file):
 8 |     with open(data_file, 'r') as f:
 9 |         lines = f.readlines()
10 |     lis = []
11 |     for line in lines:
12 |         l = line.strip().split(' ')
13 |         l = [int(s) for s in l]
14 |         l += [0] * (MAX_SEQ_LEN - len(l))
15 | 
16 |         lis.append(l)
17 |     with open("_beauty.txt","w") as f:
18 |         for l in lis:
19 |             string = ' '.join([str(s) for s in l])
20 |             f.write('%s\n' % string)
21 | 
22 | def get_train_eval_dataset(data_file):
23 |     with open(data_file,'r') as f:
24 |         lines = f.readlines()
25 |     lis = []
26 |     for line in lines:
27 |         l = line.strip().split(' ')
28 |         l = [int(s) for s in l]
29 |         lis.append(l)
30 | 
31 |     train_list = lis[0:20000]
32 |     eval_list = lis[20000:]
33 |     
34 |     with open("beauty_train.txt", "w") as f:
35 |         for l in train_list:
36 |             string = ' '.join([str(s) for s in l])
37 |             f.write('%s\n' % string)
38 | 
39 |     with open("beauty_eval.txt", "w") as f:
40 |         for l in eval_list:
41 |             string = ' '.join([str(s) for s in l])
42 |             f.write('%s\n' % string)
43 | 
44 | if __name__ == "__main__":
45 |     #read_file("./beauty.txt")
46 |     get_train_eval_dataset("./beauty_padding.txt")


--------------------------------------------------------------------------------
/Seq-poison/train_classify.py:
--------------------------------------------------------------------------------
  1 | from classify import Classify
  2 | from torch.utils.data import Dataset, DataLoader
  3 | import random
  4 | import torch
  5 | 
  6 | max_seq_len = 50
  7 | 
  8 | d_emb_dim = 64
  9 | d_filter_sizes = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20]
 10 | d_num_filters = [100, 200, 200, 200, 200, 100, 100, 100, 100, 100, 160, 160]
 11 | 
 12 | d_dropout = 0.75
 13 | d_num_class = 2
 14 | 
 15 | 
 16 | class PretrainDataset(Dataset):
 17 |     def __init__(self, max_seq_length, user_seq, long_sequence, mask_p, mask_id, mode):
 18 |         self.user_seq = user_seq
 19 |         self.masked_segment_sequence = []
 20 |         self.anti_masked_segment_sequence = []
 21 |         self.data_pairs = [] # data pair
 22 |         self.long_sequence = long_sequence
 23 |         self.max_len = max_seq_length
 24 |         self.mask_id = mask_id
 25 |         self.mask_p = mask_p
 26 |         self.mask_sequence()
 27 |         self.get_pos_neg_pairs()
 28 | 
 29 |         if mode == 'train':
 30 |             self.data_pairs = self.data_pairs[:int(0.9*len(self.data_pairs)/2)] + \
 31 |                 self.data_pairs[int(len(self.data_pairs)/2):int(len(self.data_pairs)/2) + int(0.9*len(self.data_pairs)/2)]
 32 |         else:
 33 |             self.data_pairs = self.data_pairs[int(0.9*len(self.data_pairs)/2):int(len(self.data_pairs)/2)] + \
 34 |                 self.data_pairs[int(len(self.data_pairs)/2) + int(0.9*len(self.data_pairs)/2):]
 35 | 
 36 | 
 37 |     def mask_sequence(self):
 38 |         """
 39 |         mask user_seq and do padding
 40 |         """
 41 |         for seq in self.user_seq:
 42 |             masked_segment_sequence = []
 43 |             anti_masked_segment_sequence = []
 44 | 
 45 |             # Masked Item Prediction
 46 |             # for item in s:
 47 |             #     prob = random.random()
 48 |             #     if prob < self.mask_p:
 49 |             #         masked_segment_sequence.append(self.mask_id)
 50 |             #         anti_masked_segment_sequence.append(item)
 51 |             #     else:
 52 |             #         masked_segment_sequence.append(item)
 53 |             #         anti_masked_segment_sequence.append(self.mask_id)
 54 |             # Segment Prediction
 55 |             if len(seq) < 2:
 56 |                 masked_segment_sequence = seq
 57 |                 anti_masked_segment_sequence = [self.mask_id] * len(seq)
 58 |             else:
 59 |                 sample_length = random.randint(1, len(seq) // 2)
 60 |                 start_id = random.randint(0, len(seq) - sample_length)
 61 |                 masked_segment_sequence = seq[:start_id] + [self.mask_id] * sample_length + seq[start_id + sample_length:]
 62 |                 anti_masked_segment_sequence = [self.mask_id] * len(seq[:start_id]) + seq[start_id:start_id+sample_length] + \
 63 |                                                     [self.mask_id] * len(seq[start_id + sample_length:])
 64 | 
 65 |             # padding sequence
 66 |             pad_len = self.max_len - len(seq)
 67 |             masked_segment_sequence = masked_segment_sequence + [0] * pad_len
 68 |             anti_masked_segment_sequence = anti_masked_segment_sequence + [0] * pad_len
 69 | 
 70 |             masked_segment_sequence = masked_segment_sequence[:self.max_len]
 71 |             anti_masked_segment_sequence = anti_masked_segment_sequence[:self.max_len]
 72 |             
 73 |             self.masked_segment_sequence.append(masked_segment_sequence)
 74 |             self.anti_masked_segment_sequence.append(anti_masked_segment_sequence)
 75 | 
 76 |     def get_pos_neg_pairs(self):
 77 |         """
 78 |         Randomly reorganize the masked data pairs and label them
 79 |         """
 80 |         for masked, anti_masked in zip(self.masked_segment_sequence,self.anti_masked_segment_sequence):
 81 |             self.data_pairs.append([masked,anti_masked,1])
 82 |         
 83 |         for masked in self.masked_segment_sequence:
 84 |             index = self.masked_segment_sequence.index(masked)
 85 |             item = random.randint(0, len(self.masked_segment_sequence)-1)
 86 |             while item == index:
 87 |                 item = random.randint(0, len(self.masked_segment_sequence)-1)
 88 |             self.data_pairs.append([masked,self.anti_masked_segment_sequence[item],0])
 89 | 
 90 |     def __len__(self):
 91 |         return len(self.data_pairs)
 92 | 
 93 |     def __getitem__(self, index):
 94 |         """
 95 |         return data pairs
 96 |         """
 97 |         data = torch.cat((torch.tensor(self.data_pairs[index][0],dtype=torch.long),torch.tensor(self.data_pairs[index][1],dtype=torch.long)),dim=0)
 98 |         target = torch.tensor(self.data_pairs[index][2],dtype=torch.long)
 99 |         return data, target
100 | 
101 | def get_user_seqs_long(data_file):
102 |     lines = open(data_file).readlines()
103 |     user_seq = []
104 |     long_sequence = []
105 |     item_set = set()
106 |     for line in lines:
107 |         user, items = line.strip().split(' ', 1)
108 |         items = items.split(' ')
109 |         items = [int(item) for item in items]
110 |         long_sequence.extend(items) # negative samples
111 |         user_seq.append(items)
112 |         item_set = item_set | set(items)
113 |     max_item = max(item_set)
114 | 
115 |     return user_seq, max_item, long_sequence
116 | 
117 | def main():
118 |     device = torch.device("cuda:0")
119 |     #dataset
120 |     dataset = "Beauty"
121 |     dataset_path = "./dataset/"+ dataset + ".txt"
122 |     user_seq, max_item, long_sequence = get_user_seqs_long(dataset_path)
123 |     mask_id  = max_item + 1
124 |     mask_p = 0.2
125 |     model = Classify(d_num_class,max_item+2,d_emb_dim,d_filter_sizes,d_num_filters,d_dropout)
126 |     model.to(device)
127 |     criterion = torch.nn.NLLLoss(reduction='mean')
128 |     optimizer = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)
129 |     pretrain_dataset = PretrainDataset(max_seq_len, user_seq, long_sequence, mask_p, mask_id, mode="train")
130 |     eval_dataset = PretrainDataset(max_seq_len, user_seq, long_sequence, mask_p, mask_id, mode="eval")
131 |     pretrain_dataloader = DataLoader(pretrain_dataset, batch_size=64, shuffle=True)
132 |     eval_dataloader = DataLoader(eval_dataset, batch_size=64, shuffle=False)
133 |     """
134 |     start training bi-classifier
135 |     """
136 |     print("Training bi-classifier...'")
137 |     epochs = 20
138 |     for epoch in range(epochs):
139 |         train_loss = 0
140 |         train_acc = 0
141 | 
142 |         eval_loss = 0
143 |         eval_acc = 0
144 |         for mask_sequecne, target in pretrain_dataloader:
145 |             mask_sequecne = mask_sequecne.to(device)
146 |             target = target.to(device)
147 |             output = model(mask_sequecne)
148 |             loss = criterion(output,target)
149 |             train_loss += loss.item()
150 |             optimizer.zero_grad()
151 |             loss.backward()
152 |             optimizer.step()
153 |             
154 |             _, pred = output.max(1)
155 |             num_correct = (pred == target).sum().item()
156 |             acc = num_correct / mask_sequecne.size(0)
157 |             train_acc += acc
158 | 
159 |         for mask_sequecne, target in eval_dataloader:
160 |             mask_sequecne = mask_sequecne.to(device)
161 |             target = target.to(device)
162 |             output = model(mask_sequecne)
163 |             loss = criterion(output,target)
164 |             eval_loss += loss.item()
165 |             
166 |             _, pred = output.max(1)
167 |             num_correct = (pred == target).sum().item()
168 |             acc = num_correct / mask_sequecne.size(0)
169 |             eval_acc += acc
170 |         print(f"epoch:{epoch}, train_loss:{train_loss/len(pretrain_dataloader)},train_acc:{train_acc/len(pretrain_dataloader)},\
171 |             eval_loss:{eval_loss/len(eval_dataloader)},eval_acc:{eval_acc/len(eval_dataloader)}")
172 |     
173 |     torch.save(model.state_dict(), f"{dataset}_bi_classify.pt")
174 | 
175 | 
176 | if __name__ == "__main__":
177 |     main()
178 | 


--------------------------------------------------------------------------------