├── PBCT
    ├── utils
    │   ├── __pycache__
    │   │   ├── SFS.cpython-39.pyc
    │   │   └── solve_loss.cpython-39.pyc
    │   ├── solve_loss.py
    │   ├── PBCT.py
    │   └── SFS.py
    ├── Offline
    │   ├── __pycache__
    │   │   ├── SFS.cpython-39.pyc
    │   │   └── solve_loss.cpython-39.pyc
    │   ├── solve_loss.py
    │   ├── SFS.py
    │   └── PBCT_offline.py
    ├── Online
    │   ├── __pycache__
    │   │   ├── SFS.cpython-39.pyc
    │   │   └── solve_loss.cpython-39.pyc
    │   ├── solve_loss.py
    │   ├── SFS.py
    │   └── PBCT_online.py
    ├── Unlabeled_Offline
    │   ├── __pycache__
    │   │   ├── SFS.cpython-39.pyc
    │   │   └── solve_loss.cpython-39.pyc
    │   ├── solve_loss.py
    │   ├── SFS.py
    │   └── PBCT_offline_unlabeled.py
    ├── Unlabeled_Online
    │   ├── __pycache__
    │   │   ├── SFS.cpython-39.pyc
    │   │   └── solve_loss.cpython-39.pyc
    │   ├── solve_loss.py
    │   ├── SFS.py
    │   └── PBCT_online_unlabeled.py
    ├── README.txt
    └── Data
    │   ├── sec_20_feature.csv
    │   ├── train_20_feature.csv
    │   └── pri_20_feature.csv
├── README.md
└── LICENSE


/PBCT/utils/__pycache__/SFS.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/utils/__pycache__/SFS.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Offline/__pycache__/SFS.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Offline/__pycache__/SFS.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Online/__pycache__/SFS.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Online/__pycache__/SFS.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/utils/__pycache__/solve_loss.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/utils/__pycache__/solve_loss.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Offline/__pycache__/solve_loss.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Offline/__pycache__/solve_loss.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Online/__pycache__/solve_loss.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Online/__pycache__/solve_loss.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Offline/__pycache__/SFS.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Unlabeled_Offline/__pycache__/SFS.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Online/__pycache__/SFS.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Unlabeled_Online/__pycache__/SFS.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Offline/__pycache__/solve_loss.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Unlabeled_Offline/__pycache__/solve_loss.cpython-39.pyc


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Online/__pycache__/solve_loss.cpython-39.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/ppguo/PBCT/HEAD/PBCT/Unlabeled_Online/__pycache__/solve_loss.cpython-39.pyc


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | The core function of the PBCT algorithm is included in the file utils/PBCT.py. Given the labeled and unlabeled training data as well as the test data, it triggers the training of the complete-view model and parital-view models, save the model parameters in the desired paths, and return the test error measured using RMSE. An example for utilizing the PBCT algorithm is provided in the __main__ section of this file.
2 | 
3 | The source dataset under /data comes from
4 | 
5 | Severson, K.A., Attia, P.M., Jin, N., Perkins, N., Jiang, B., Yang, Z., Chen, M.H., Aykol, M., Herring, P.K., Fraggedakis, D., et al. (2019). Data-driven prediction of battery cycle life before capacity degradation. Nat. Energy 4, 383–391
6 | 
7 | The original data can be found in [link](https://data.matr.io/1/) under the license of [CC-BY](https://creativecommons.org/licenses/by/4.0/).
8 | We extract the features according to the instruction from paper.
9 | 


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
 1 | MIT License
 2 | 
 3 | Copyright (c) 2024 Nanlin Guo
 4 | 
 5 | Permission is hereby granted, free of charge, to any person obtaining a copy
 6 | of this software and associated documentation files (the "Software"), to deal
 7 | in the Software without restriction, including without limitation the rights
 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 | 
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 | 
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.
22 | 


--------------------------------------------------------------------------------
/PBCT/README.txt:
--------------------------------------------------------------------------------
 1 | Requirements:
 2 | python==3.9
 3 | numpy==1.23.3
 4 | pandas==1.4.4
 5 | scikit-learn==1.1.2
 6 | scipy==1.9.1
 7 | gurobi==9.5.2  
 8 | 
 9 | 
10 | --- Project
11 |     - utils/
12 | 	PBCT.py
13 | 	SFS.py
14 | 	solve_loss.py
15 |     - Data/
16 | 	train_20_feature.csv (dataset1)
17 | 	pri_20_feature.csv (dataset2)
18 | 	sec_20_feature.csv (dataset3)
19 |     - Offline/
20 | 	PBCT_offline.py
21 |     - Online/
22 | 	PBCT_online.py
23 |     - Unlabeled_Offline/
24 | 	PBCT_offline_unlabeled.py
25 |     - Unlabeled_Online/
26 | 	PBCT_online_unlabeled.py
27 | 
28 | 
29 | The core function of the PBCT algorithm is included in the file utils/PBCT.py. Given the labeled and unlabeled training data as well as the test data, it triggers the training of the complete-view model and parital-view models, save the model parameters in the desired paths, and return the test error measured using RMSE. An example for utilizing the PBCT algorithm is provided in the __main__ section of this file.
30 | 
31 | As four scenarios have been considered in this work, we provide four scripts accordingly as follows, to obtain the corresponding experimental results. 
32 |     - Offline/PBCT_offline.py
33 |     - Online/PBCT_online.py
34 |     - Unlabeled_Offline/PBCT_offline_unlabeled.py
35 |     - Unlabeled_Online/PBCT_online_unlabeled.py
36 | The impact of labeled training data size in the offline scenario can be evaluated through executing Offline/PBCT_offline.py. The impact of labeled training data size in the online scenario can be evaluated through executing Online/PBCT_online.py. The impact of unlabeled training data size in the offline scenario can be evaluated through executing Unlabeled_Offline/PBCT_offline_unlabeled.py. The impact of unlabeled training data size in the online scenario can be evaluated through executing Unlabeled_Online/PBCT_online_unlabeled.py. The results of the baseline methods considered in these scenarios can also be obtained through executing the corresponding scripts.
37 | 
38 | 
39 | 


--------------------------------------------------------------------------------
/PBCT/Offline/solve_loss.py:
--------------------------------------------------------------------------------
  1 | import gurobipy as gp
  2 | from gurobipy import GRB
  3 | from gurobipy import quicksum as qsum
  4 | import numpy as np
  5 | 
  6 | def solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5):
  7 |     N = XL.shape[0]
  8 |     L = XU.shape[0]
  9 |     L2 = ZU.shape[0]
 10 |     M = XL.shape[1]
 11 |     P = ZL.shape[1]
 12 | 
 13 |     alpha = []
 14 |     beta = []
 15 |     m = gp.Model("loss_model_with_l1_prior")
 16 |     for i in range(M):
 17 |         alpha.append(m.addVar(name="alpha%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 18 |     for i in range(P):
 19 |         beta.append(m.addVar(name = "beta%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 20 | 
 21 |     h0 = [m.addVar(name = "h0%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 22 |     for i in range(N):
 23 |         m.addConstr(h0[i] == y[i]-qsum(XL[i][j]*alpha[j] for j in range(M)))
 24 |     if l1>=0:
 25 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 26 |     else:
 27 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 28 |     m.addConstr(sub1==l1*qsum(h0[i]**2 for i in range(N)))
 29 | 
 30 |     h2 = [m.addVar(name = "h2%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 31 |     for i in range(N):
 32 |         m.addConstr(h2[i] == y[i]-qsum(ZL[i][j]*beta[j] for j in range(P)))
 33 |     if l2>=0:
 34 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 35 |     else:
 36 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 37 |     m.addConstr(sub2==l2*qsum(h2[i]**2 for i in range(N)))
 38 | 
 39 |     h6 = [m.addVar(name = "h6%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 40 | 
 41 |     for i in range(N):
 42 |         m.addConstr(h6[i]==qsum(ZL[i][j]*beta[j] for j in range(P))-qsum(XL[i][j]*alpha[j] for j in range(M)))
 43 |     if l3>=0:
 44 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 45 |     else:
 46 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 47 |     m.addConstr(sub3==l3*qsum(h6[i]**2 for i in range(N)))
 48 | 
 49 |     h9 = [m.addVar(name = "h9%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(L)]
 50 | 
 51 |     for i in range(L):
 52 |         m.addConstr(h9[i]==qsum(ZU[i][j]*beta[j] for j in range(P))-qsum(XU[i][j]*alpha[j] for j in range(M)))
 53 |     if l4>=0:
 54 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 55 |     else:
 56 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 57 |     m.addConstr(sub4==l4*qsum(h9[i]**2 for i in range(L)))
 58 | 
 59 |     l1_norm = [m.addVar(name = "l1%d" % i,vtype = GRB.CONTINUOUS,lb=0) for i in range(M)]
 60 |     for i in range(M):
 61 |         m.addConstr(alpha[i]<=l1_norm[i])
 62 |         m.addConstr(-1*alpha[i]<=l1_norm[i])
 63 |     #for i in range(P):
 64 |     #    m.addConstr(beta[i]<=l1_norm[i+M])
 65 |     #    m.addConstr(-1*beta[i]<=l1_norm[i+M])
 66 |     if l5>=0:
 67 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 68 |     else:
 69 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 70 |     #sub5 = m.addVar(vtype = GRB.CONTINUOUS)
 71 |     m.addConstr(sub5==l5*qsum(l1_norm[i] for i in range(M)))
 72 | 
 73 |     m.setObjective(sub1+sub2+sub3+sub4+sub5, GRB.MINIMIZE)
 74 |     m.Params.NonConvex = 2
 75 |     m.setParam('MIPGap',0.01)
 76 |     m.setParam('TimeLimit', 20)
 77 |     #m.setParam('Threads',16)
 78 | 
 79 | 
 80 |     m.optimize()
 81 |     #m.computeIIS()
 82 |     #m.write('my_iis.ilp')
 83 |     alpha_final = []
 84 |     beta_final = []
 85 |     for i in range(M):
 86 |         alpha_final.append(alpha[i].x)
 87 |         if i<P:
 88 |             beta_final.append(beta[i].x)
 89 |     return np.array(alpha_final).reshape((M,1)),np.array(beta_final).reshape((P,1))
 90 |     #return np.array(alpha_final),np.array(beta_final)
 91 | 
 92 | if __name__=="__main__":
 93 |     l1 = 0.1
 94 |     l2 = 0.1
 95 |     l3 = 0.2
 96 |     l4 = 0.5
 97 |     l5 = 0.4
 98 | 
 99 |     XU = np.array([[1,2,3],[1,4,5]])
100 |     ZU = np.array([[1,2],[1,4]])
101 |     ZL = np.array([[1,3],[1,8],[1,9]])
102 |     XL = np.array([[1,3,9],[1,8,7],[1,9,5]])
103 | 
104 |     y = np.array([1,2,3])
105 | 
106 |     alpha,beta = solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5)
107 |     print(alpha,beta)
108 | 
109 | 
110 | 
111 |     
112 | 
113 | 
114 | 
115 | 
116 |     
117 | 
118 |     
119 | 
120 | 
121 |     
122 | 
123 | 
124 |     
125 | 
126 | 


--------------------------------------------------------------------------------
/PBCT/Online/solve_loss.py:
--------------------------------------------------------------------------------
  1 | import gurobipy as gp
  2 | from gurobipy import GRB
  3 | from gurobipy import quicksum as qsum
  4 | import numpy as np
  5 | 
  6 | def solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5):
  7 |     N = XL.shape[0]
  8 |     L = XU.shape[0]
  9 |     L2 = ZU.shape[0]
 10 |     M = XL.shape[1]
 11 |     P = ZL.shape[1]
 12 | 
 13 |     alpha = []
 14 |     beta = []
 15 |     m = gp.Model("loss_model_with_l1_prior")
 16 |     for i in range(M):
 17 |         alpha.append(m.addVar(name="alpha%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 18 |     for i in range(P):
 19 |         beta.append(m.addVar(name = "beta%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 20 | 
 21 |     h0 = [m.addVar(name = "h0%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 22 |     for i in range(N):
 23 |         m.addConstr(h0[i] == y[i]-qsum(XL[i][j]*alpha[j] for j in range(M)))
 24 |     if l1>=0:
 25 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 26 |     else:
 27 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 28 |     m.addConstr(sub1==l1*qsum(h0[i]**2 for i in range(N)))
 29 | 
 30 |     h2 = [m.addVar(name = "h2%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 31 |     for i in range(N):
 32 |         m.addConstr(h2[i] == y[i]-qsum(ZL[i][j]*beta[j] for j in range(P)))
 33 |     if l2>=0:
 34 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 35 |     else:
 36 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 37 |     m.addConstr(sub2==l2*qsum(h2[i]**2 for i in range(N)))
 38 | 
 39 |     h6 = [m.addVar(name = "h6%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 40 | 
 41 |     for i in range(N):
 42 |         m.addConstr(h6[i]==qsum(ZL[i][j]*beta[j] for j in range(P))-qsum(XL[i][j]*alpha[j] for j in range(M)))
 43 |     if l3>=0:
 44 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 45 |     else:
 46 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 47 |     m.addConstr(sub3==l3*qsum(h6[i]**2 for i in range(N)))
 48 | 
 49 |     h9 = [m.addVar(name = "h9%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(L)]
 50 | 
 51 |     for i in range(L):
 52 |         m.addConstr(h9[i]==qsum(ZU[i][j]*beta[j] for j in range(P))-qsum(XU[i][j]*alpha[j] for j in range(M)))
 53 |     if l4>=0:
 54 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 55 |     else:
 56 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 57 |     m.addConstr(sub4==l4*qsum(h9[i]**2 for i in range(L)))
 58 | 
 59 |     l1_norm = [m.addVar(name = "l1%d" % i,vtype = GRB.CONTINUOUS,lb=0) for i in range(M)]
 60 |     for i in range(M):
 61 |         m.addConstr(alpha[i]<=l1_norm[i])
 62 |         m.addConstr(-1*alpha[i]<=l1_norm[i])
 63 |     #for i in range(P):
 64 |     #    m.addConstr(beta[i]<=l1_norm[i+M])
 65 |     #    m.addConstr(-1*beta[i]<=l1_norm[i+M])
 66 |     if l5>=0:
 67 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 68 |     else:
 69 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 70 |     #sub5 = m.addVar(vtype = GRB.CONTINUOUS)
 71 |     m.addConstr(sub5==l5*qsum(l1_norm[i] for i in range(M)))
 72 | 
 73 |     m.setObjective(sub1+sub2+sub3+sub4+sub5, GRB.MINIMIZE)
 74 |     m.Params.NonConvex = 2
 75 |     m.setParam('MIPGap',0.01)
 76 |     m.setParam('TimeLimit', 20)
 77 |     #m.setParam('Threads',16)
 78 | 
 79 | 
 80 |     m.optimize()
 81 |     #m.computeIIS()
 82 |     #m.write('my_iis.ilp')
 83 |     alpha_final = []
 84 |     beta_final = []
 85 |     for i in range(M):
 86 |         alpha_final.append(alpha[i].x)
 87 |         if i<P:
 88 |             beta_final.append(beta[i].x)
 89 |     return np.array(alpha_final).reshape((M,1)),np.array(beta_final).reshape((P,1))
 90 |     #return np.array(alpha_final),np.array(beta_final)
 91 | 
 92 | if __name__=="__main__":
 93 |     l1 = 0.1
 94 |     l2 = 0.1
 95 |     l3 = 0.2
 96 |     l4 = 0.5
 97 |     l5 = 0.4
 98 | 
 99 |     XU = np.array([[1,2,3],[1,4,5]])
100 |     ZU = np.array([[1,2],[1,4]])
101 |     ZL = np.array([[1,3],[1,8],[1,9]])
102 |     XL = np.array([[1,3,9],[1,8,7],[1,9,5]])
103 | 
104 |     y = np.array([1,2,3])
105 | 
106 |     alpha,beta = solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5)
107 |     print(alpha,beta)
108 | 
109 | 
110 | 
111 |     
112 | 
113 | 
114 | 
115 | 
116 |     
117 | 
118 |     
119 | 
120 | 
121 |     
122 | 
123 | 
124 |     
125 | 
126 | 


--------------------------------------------------------------------------------
/PBCT/utils/solve_loss.py:
--------------------------------------------------------------------------------
  1 | import gurobipy as gp
  2 | from gurobipy import GRB
  3 | from gurobipy import quicksum as qsum
  4 | import numpy as np
  5 | 
  6 | def solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5):
  7 |     N = XL.shape[0]
  8 |     L = XU.shape[0]
  9 |     L2 = ZU.shape[0]
 10 |     M = XL.shape[1]
 11 |     P = ZL.shape[1]
 12 | 
 13 |     alpha = []
 14 |     beta = []
 15 |     m = gp.Model("loss_model_with_l1_prior")
 16 |     for i in range(M):
 17 |         alpha.append(m.addVar(name="alpha%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 18 |     for i in range(P):
 19 |         beta.append(m.addVar(name = "beta%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 20 | 
 21 |     h0 = [m.addVar(name = "h0%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 22 |     for i in range(N):
 23 |         m.addConstr(h0[i] == y[i]-qsum(XL[i][j]*alpha[j] for j in range(M)))
 24 |     if l1>=0:
 25 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 26 |     else:
 27 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 28 |     m.addConstr(sub1==l1*qsum(h0[i]**2 for i in range(N)))
 29 | 
 30 |     h2 = [m.addVar(name = "h2%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 31 |     for i in range(N):
 32 |         m.addConstr(h2[i] == y[i]-qsum(ZL[i][j]*beta[j] for j in range(P)))
 33 |     if l2>=0:
 34 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 35 |     else:
 36 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 37 |     m.addConstr(sub2==l2*qsum(h2[i]**2 for i in range(N)))
 38 | 
 39 |     h6 = [m.addVar(name = "h6%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 40 | 
 41 |     for i in range(N):
 42 |         m.addConstr(h6[i]==qsum(ZL[i][j]*beta[j] for j in range(P))-qsum(XL[i][j]*alpha[j] for j in range(M)))
 43 |     if l3>=0:
 44 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 45 |     else:
 46 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 47 |     m.addConstr(sub3==l3*qsum(h6[i]**2 for i in range(N)))
 48 | 
 49 |     h9 = [m.addVar(name = "h9%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(L)]
 50 | 
 51 |     for i in range(L):
 52 |         m.addConstr(h9[i]==qsum(ZU[i][j]*beta[j] for j in range(P))-qsum(XU[i][j]*alpha[j] for j in range(M)))
 53 |     if l4>=0:
 54 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 55 |     else:
 56 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 57 |     m.addConstr(sub4==l4*qsum(h9[i]**2 for i in range(L)))
 58 | 
 59 |     l1_norm = [m.addVar(name = "l1%d" % i,vtype = GRB.CONTINUOUS,lb=0) for i in range(M)]
 60 |     for i in range(M):
 61 |         m.addConstr(alpha[i]<=l1_norm[i])
 62 |         m.addConstr(-1*alpha[i]<=l1_norm[i])
 63 |     #for i in range(P):
 64 |     #    m.addConstr(beta[i]<=l1_norm[i+M])
 65 |     #    m.addConstr(-1*beta[i]<=l1_norm[i+M])
 66 |     if l5>=0:
 67 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 68 |     else:
 69 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 70 |     #sub5 = m.addVar(vtype = GRB.CONTINUOUS)
 71 |     m.addConstr(sub5==l5*qsum(l1_norm[i] for i in range(M)))
 72 | 
 73 |     m.setObjective(sub1+sub2+sub3+sub4+sub5, GRB.MINIMIZE)
 74 |     m.Params.NonConvex = 2
 75 |     m.setParam('MIPGap',0.01)
 76 |     m.setParam('TimeLimit', 20)
 77 |     #m.setParam('Threads',16)
 78 | 
 79 | 
 80 |     m.optimize()
 81 |     #m.computeIIS()
 82 |     #m.write('my_iis.ilp')
 83 |     alpha_final = []
 84 |     beta_final = []
 85 |     for i in range(M):
 86 |         alpha_final.append(alpha[i].x)
 87 |         if i<P:
 88 |             beta_final.append(beta[i].x)
 89 |     return np.array(alpha_final).reshape((M,1)),np.array(beta_final).reshape((P,1))
 90 |     #return np.array(alpha_final),np.array(beta_final)
 91 | 
 92 | if __name__=="__main__":
 93 |     l1 = 0.1
 94 |     l2 = 0.1
 95 |     l3 = 0.2
 96 |     l4 = 0.5
 97 |     l5 = 0.4
 98 | 
 99 |     XU = np.array([[1,2,3],[1,4,5]])
100 |     ZU = np.array([[1,2],[1,4]])
101 |     ZL = np.array([[1,3],[1,8],[1,9]])
102 |     XL = np.array([[1,3,9],[1,8,7],[1,9,5]])
103 | 
104 |     y = np.array([1,2,3])
105 | 
106 |     alpha,beta = solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5)
107 |     print(alpha,beta)
108 | 
109 | 
110 | 
111 |     
112 | 
113 | 
114 | 
115 | 
116 |     
117 | 
118 |     
119 | 
120 | 
121 |     
122 | 
123 | 
124 |     
125 | 
126 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Offline/solve_loss.py:
--------------------------------------------------------------------------------
  1 | import gurobipy as gp
  2 | from gurobipy import GRB
  3 | from gurobipy import quicksum as qsum
  4 | import numpy as np
  5 | 
  6 | def solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5):
  7 |     N = XL.shape[0]
  8 |     L = XU.shape[0]
  9 |     L2 = ZU.shape[0]
 10 |     M = XL.shape[1]
 11 |     P = ZL.shape[1]
 12 | 
 13 |     alpha = []
 14 |     beta = []
 15 |     m = gp.Model("loss_model_with_l1_prior")
 16 |     for i in range(M):
 17 |         alpha.append(m.addVar(name="alpha%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 18 |     for i in range(P):
 19 |         beta.append(m.addVar(name = "beta%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 20 | 
 21 |     h0 = [m.addVar(name = "h0%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 22 |     for i in range(N):
 23 |         m.addConstr(h0[i] == y[i]-qsum(XL[i][j]*alpha[j] for j in range(M)))
 24 |     if l1>=0:
 25 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 26 |     else:
 27 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 28 |     m.addConstr(sub1==l1*qsum(h0[i]**2 for i in range(N)))
 29 | 
 30 |     h2 = [m.addVar(name = "h2%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 31 |     for i in range(N):
 32 |         m.addConstr(h2[i] == y[i]-qsum(ZL[i][j]*beta[j] for j in range(P)))
 33 |     if l2>=0:
 34 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 35 |     else:
 36 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 37 |     m.addConstr(sub2==l2*qsum(h2[i]**2 for i in range(N)))
 38 | 
 39 |     h6 = [m.addVar(name = "h6%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 40 | 
 41 |     for i in range(N):
 42 |         m.addConstr(h6[i]==qsum(ZL[i][j]*beta[j] for j in range(P))-qsum(XL[i][j]*alpha[j] for j in range(M)))
 43 |     if l3>=0:
 44 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 45 |     else:
 46 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 47 |     m.addConstr(sub3==l3*qsum(h6[i]**2 for i in range(N)))
 48 | 
 49 |     h9 = [m.addVar(name = "h9%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(L)]
 50 | 
 51 |     for i in range(L):
 52 |         m.addConstr(h9[i]==qsum(ZU[i][j]*beta[j] for j in range(P))-qsum(XU[i][j]*alpha[j] for j in range(M)))
 53 |     if l4>=0:
 54 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 55 |     else:
 56 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 57 |     m.addConstr(sub4==l4*qsum(h9[i]**2 for i in range(L)))
 58 | 
 59 |     l1_norm = [m.addVar(name = "l1%d" % i,vtype = GRB.CONTINUOUS,lb=0) for i in range(M)]
 60 |     for i in range(M):
 61 |         m.addConstr(alpha[i]<=l1_norm[i])
 62 |         m.addConstr(-1*alpha[i]<=l1_norm[i])
 63 |     #for i in range(P):
 64 |     #    m.addConstr(beta[i]<=l1_norm[i+M])
 65 |     #    m.addConstr(-1*beta[i]<=l1_norm[i+M])
 66 |     if l5>=0:
 67 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 68 |     else:
 69 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 70 |     #sub5 = m.addVar(vtype = GRB.CONTINUOUS)
 71 |     m.addConstr(sub5==l5*qsum(l1_norm[i] for i in range(M)))
 72 | 
 73 |     m.setObjective(sub1+sub2+sub3+sub4+sub5, GRB.MINIMIZE)
 74 |     m.Params.NonConvex = 2
 75 |     m.setParam('MIPGap',0.01)
 76 |     m.setParam('TimeLimit', 20)
 77 |     #m.setParam('Threads',16)
 78 | 
 79 | 
 80 |     m.optimize()
 81 |     #m.computeIIS()
 82 |     #m.write('my_iis.ilp')
 83 |     alpha_final = []
 84 |     beta_final = []
 85 |     for i in range(M):
 86 |         alpha_final.append(alpha[i].x)
 87 |         if i<P:
 88 |             beta_final.append(beta[i].x)
 89 |     return np.array(alpha_final).reshape((M,1)),np.array(beta_final).reshape((P,1))
 90 |     #return np.array(alpha_final),np.array(beta_final)
 91 | 
 92 | if __name__=="__main__":
 93 |     l1 = 0.1
 94 |     l2 = 0.1
 95 |     l3 = 0.2
 96 |     l4 = 0.5
 97 |     l5 = 0.4
 98 | 
 99 |     XU = np.array([[1,2,3],[1,4,5]])
100 |     ZU = np.array([[1,2],[1,4]])
101 |     ZL = np.array([[1,3],[1,8],[1,9]])
102 |     XL = np.array([[1,3,9],[1,8,7],[1,9,5]])
103 | 
104 |     y = np.array([1,2,3])
105 | 
106 |     alpha,beta = solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5)
107 |     print(alpha,beta)
108 | 
109 | 
110 | 
111 |     
112 | 
113 | 
114 | 
115 | 
116 |     
117 | 
118 |     
119 | 
120 | 
121 |     
122 | 
123 | 
124 |     
125 | 
126 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Online/solve_loss.py:
--------------------------------------------------------------------------------
  1 | import gurobipy as gp
  2 | from gurobipy import GRB
  3 | from gurobipy import quicksum as qsum
  4 | import numpy as np
  5 | 
  6 | def solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5):
  7 |     N = XL.shape[0]
  8 |     L = XU.shape[0]
  9 |     L2 = ZU.shape[0]
 10 |     M = XL.shape[1]
 11 |     P = ZL.shape[1]
 12 | 
 13 |     alpha = []
 14 |     beta = []
 15 |     m = gp.Model("loss_model_with_l1_prior")
 16 |     for i in range(M):
 17 |         alpha.append(m.addVar(name="alpha%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 18 |     for i in range(P):
 19 |         beta.append(m.addVar(name = "beta%d" % i,vtype = GRB.CONTINUOUS,lb=-10))
 20 | 
 21 |     h0 = [m.addVar(name = "h0%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 22 |     for i in range(N):
 23 |         m.addConstr(h0[i] == y[i]-qsum(XL[i][j]*alpha[j] for j in range(M)))
 24 |     if l1>=0:
 25 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 26 |     else:
 27 |         sub1 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 28 |     m.addConstr(sub1==l1*qsum(h0[i]**2 for i in range(N)))
 29 | 
 30 |     h2 = [m.addVar(name = "h2%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 31 |     for i in range(N):
 32 |         m.addConstr(h2[i] == y[i]-qsum(ZL[i][j]*beta[j] for j in range(P)))
 33 |     if l2>=0:
 34 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 35 |     else:
 36 |         sub2 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 37 |     m.addConstr(sub2==l2*qsum(h2[i]**2 for i in range(N)))
 38 | 
 39 |     h6 = [m.addVar(name = "h6%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(N)]
 40 | 
 41 |     for i in range(N):
 42 |         m.addConstr(h6[i]==qsum(ZL[i][j]*beta[j] for j in range(P))-qsum(XL[i][j]*alpha[j] for j in range(M)))
 43 |     if l3>=0:
 44 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 45 |     else:
 46 |         sub3 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 47 |     m.addConstr(sub3==l3*qsum(h6[i]**2 for i in range(N)))
 48 | 
 49 |     h9 = [m.addVar(name = "h9%d" % i,vtype = GRB.CONTINUOUS,lb=-100) for i in range(L)]
 50 | 
 51 |     for i in range(L):
 52 |         m.addConstr(h9[i]==qsum(ZU[i][j]*beta[j] for j in range(P))-qsum(XU[i][j]*alpha[j] for j in range(M)))
 53 |     if l4>=0:
 54 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 55 |     else:
 56 |         sub4 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 57 |     m.addConstr(sub4==l4*qsum(h9[i]**2 for i in range(L)))
 58 | 
 59 |     l1_norm = [m.addVar(name = "l1%d" % i,vtype = GRB.CONTINUOUS,lb=0) for i in range(M)]
 60 |     for i in range(M):
 61 |         m.addConstr(alpha[i]<=l1_norm[i])
 62 |         m.addConstr(-1*alpha[i]<=l1_norm[i])
 63 |     #for i in range(P):
 64 |     #    m.addConstr(beta[i]<=l1_norm[i+M])
 65 |     #    m.addConstr(-1*beta[i]<=l1_norm[i+M])
 66 |     if l5>=0:
 67 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,lb = 0)
 68 |     else:
 69 |         sub5 = m.addVar(vtype = GRB.CONTINUOUS,ub = 0)
 70 |     #sub5 = m.addVar(vtype = GRB.CONTINUOUS)
 71 |     m.addConstr(sub5==l5*qsum(l1_norm[i] for i in range(M)))
 72 | 
 73 |     m.setObjective(sub1+sub2+sub3+sub4+sub5, GRB.MINIMIZE)
 74 |     m.Params.NonConvex = 2
 75 |     m.setParam('MIPGap',0.01)
 76 |     m.setParam('TimeLimit', 20)
 77 |     #m.setParam('Threads',16)
 78 | 
 79 | 
 80 |     m.optimize()
 81 |     #m.computeIIS()
 82 |     #m.write('my_iis.ilp')
 83 |     alpha_final = []
 84 |     beta_final = []
 85 |     for i in range(M):
 86 |         alpha_final.append(alpha[i].x)
 87 |         if i<P:
 88 |             beta_final.append(beta[i].x)
 89 |     return np.array(alpha_final).reshape((M,1)),np.array(beta_final).reshape((P,1))
 90 |     #return np.array(alpha_final),np.array(beta_final)
 91 | 
 92 | if __name__=="__main__":
 93 |     l1 = 0.1
 94 |     l2 = 0.1
 95 |     l3 = 0.2
 96 |     l4 = 0.5
 97 |     l5 = 0.4
 98 | 
 99 |     XU = np.array([[1,2,3],[1,4,5]])
100 |     ZU = np.array([[1,2],[1,4]])
101 |     ZL = np.array([[1,3],[1,8],[1,9]])
102 |     XL = np.array([[1,3,9],[1,8,7],[1,9,5]])
103 | 
104 |     y = np.array([1,2,3])
105 | 
106 |     alpha,beta = solve_loss(y,XL,ZL,XU,ZU,l1,l2,l3,l4,l5)
107 |     print(alpha,beta)
108 | 
109 | 
110 | 
111 |     
112 | 
113 | 
114 | 
115 | 
116 |     
117 | 
118 |     
119 | 
120 | 
121 |     
122 | 
123 | 
124 |     
125 | 
126 | 


--------------------------------------------------------------------------------
/PBCT/utils/PBCT.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | import pandas as pd
  3 | from SFS import Sequential_Forward_Selection_corr_test
  4 | from sklearn.linear_model import LinearRegression
  5 | from solve_loss import solve_loss
  6 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  7 | import numpy as np
  8 | import math
  9 | import sklearn
 10 | import random
 11 | import matplotlib.pyplot as plt
 12 | 
 13 | 
 14 | def PBCT(L,random_index,repeated_num,coef_file,data_labled,data_unlabled,data_test,data_columnslable_x,data_columnslable_y):
 15 |     """
 16 |     L:number of labeled data
 17 |     repeat_num: random experiment index (for repeated experiment)
 18 |     random_index: list of current index sample
 19 |     coef_file: file to store the coef of learned model parameter
 20 |     data_labeled: labeled data (feature and cyclelife)
 21 |     data_unlabeled: unlabeled data (feature and cyclelife(ignored))
 22 |     data_test: test data (feature and cyclelife)
 23 |     data_columnslable_x: column names of feature
 24 |     data_columnslable_y: column names of cyclelife
 25 | 
 26 |     """
 27 | 
 28 |     data_labled_x = data_labled[data_columnslable_x]
 29 |     data_labled_y = data_labled[data_columnslable_y]
 30 |     data_unlabled_x = data_unlabled[data_columnslable_x]
 31 |     data_unlabled_y = data_unlabled[data_columnslable_y]
 32 |     data_test_x = data_test[data_columnslable_x]
 33 |     data_test_y = data_test[data_columnslable_y]
 34 |     ####Nomalize####
 35 |     mean_labled_x = data_labled_x.mean()
 36 |     std_labled_x = data_labled_x.std()
 37 | 
 38 |     mean_labled_y = data_labled_y.mean()
 39 |     std_labled_y = data_labled_y.std()
 40 | 
 41 |     X_train_labled = (data_labled_x-mean_labled_x)/std_labled_x
 42 |     X_train_unlabled = (data_unlabled_x-mean_labled_x)/std_labled_x
 43 |     y_train = (data_labled_y-mean_labled_y)/std_labled_y
 44 |     X_test = (data_test_x-mean_labled_x)/std_labled_x
 45 |     y_test = (data_test_y-mean_labled_y)/std_labled_y
 46 |     #################
 47 | 
 48 |     ####build Partial model####
 49 |     Partial_feature_var2 = Sequential_Forward_Selection_corr_test(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
 50 |     Partial_feature = Partial_feature_var2[0]
 51 |     print(Partial_feature)
 52 | 
 53 | 
 54 |     ZL = data_labled_x[Partial_feature]
 55 |     ZU = data_unlabled_x[Partial_feature]
 56 |     Z_test = X_test[Partial_feature]
 57 |     #var2 = max(Partial_feature_var2[1],1e-3)
 58 |     var2 = Partial_feature_var2[1]
 59 |     print('var2 is ',var2)
 60 | 
 61 | 
 62 | 
 63 |     ####find the var1####
 64 |     V = [0.5,1,2,5,10]
 65 |     print('current V',V)
 66 |     var1_candidate_set = [i*var2 for i in V]
 67 | 
 68 |     l5_candidate = [10,100]
 69 | 
 70 |     LOO_list = []
 71 | 
 72 |     for i in range(len(V)):
 73 |         for m in range(len(l5_candidate)):
 74 |             tmp_var1 = var1_candidate_set[i]
 75 |             l1 = 1/2/tmp_var1
 76 |             l2 = 1/2/var2
 77 |             l3 = 0
 78 |             l4 = 1/2/(tmp_var1+var2)
 79 |             #l5 = 0
 80 |             l5 = l1*l5_candidate[m]
 81 |             error_list = []
 82 |             for j in range(L):
 83 |                 predict_x = data_labled_x.iloc[j]
 84 |                 tmp_X = data_labled_x.drop(random_index[j])
 85 |                 tmp_ZL = ZL.drop(random_index[j])
 86 |                 predict_y = data_labled_y.iloc[j]
 87 |                 tmp_y = data_labled_y.drop(random_index[j])
 88 | 
 89 |                 ##Normalize##
 90 |                 mean_labled_x = tmp_X.mean()
 91 |                 std_labled_x = tmp_X.std()
 92 |                 mean_labled_y = tmp_y.mean()
 93 |                 std_labled_y = tmp_y.std()
 94 |                 mean_labled_z = tmp_ZL.mean()
 95 |                 std_labled_z = tmp_ZL.std()
 96 | 
 97 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
 98 |                 y_train_tmp = (tmp_y-mean_labled_y)/std_labled_y
 99 |                 X_train_unlabled_tmp = (data_unlabled_x-mean_labled_x)/std_labled_x
100 | 
101 |                 tmp_ZL = (tmp_ZL-mean_labled_z)/std_labled_z
102 |                 tmp_ZU = (ZU-mean_labled_z)/std_labled_z
103 | 
104 | 
105 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
106 | 
107 | 
108 |                 alpha,beta = solve_loss(y_train_tmp.to_numpy().ravel(),X_train_tmp.to_numpy(),tmp_ZL.to_numpy(),
109 |                         X_train_unlabled_tmp.to_numpy(),tmp_ZU.to_numpy(),l1,l2,l3,l4,l5)
110 | 
111 |                 real_predict_y = predict_y.to_numpy()
112 |                 alpha_y = np.matmul(alpha.T,predict_x.to_numpy())
113 |                 real_alpha_y = (alpha_y*std_labled_y+mean_labled_y).to_numpy()
114 | 
115 |                 tmp_error = (real_predict_y[0] - real_alpha_y[0])
116 |                 tmp_error_square = tmp_error * tmp_error
117 |                 error_list.append(tmp_error_square)
118 |             LOO_list.append(np.mean(error_list))
119 |     var1_index = np.argmin(np.array(LOO_list))
120 |     l1_index = var1_index // len(l5_candidate)
121 |     l5_index = var1_index % len(l5_candidate)
122 |     #######################
123 |     print('var1_index',var1_index)
124 |     ####get the optimal alpha and beta####
125 |     l1 = 1/2/var1_candidate_set[l1_index]
126 |     l2 = 1/2/var2
127 |     l3 = 0
128 |     l4 = 1/2/(var1_candidate_set[l1_index]+var2)
129 |     l5 = l1*l5_candidate[l5_index]
130 | 
131 |     ZL_all = X_train_labled[Partial_feature]
132 |     ZU_all = X_train_unlabled[Partial_feature]
133 | 
134 | 
135 | 
136 |     alpha,beta = solve_loss(y_train.to_numpy().ravel(),X_train_labled.to_numpy(),ZL_all.to_numpy(),
137 |                         X_train_unlabled.to_numpy(),ZU_all.to_numpy(),l1,l2,l3,l4,l5)
138 |     print('alpha is ',alpha)
139 |     print('beta is',beta)
140 |     Loss = (l1*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(X_train_labled.to_numpy(),alpha)),2)+
141 |             l2*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(ZL.to_numpy(),beta)),2)+
142 |             l3*math.pow(np.linalg.norm(np.matmul(X_train_labled.to_numpy(),alpha)-np.matmul(ZL.to_numpy(),beta)),2)+
143 |             l4*math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
144 |     #check_loss(y_train,X_train_labled,ZL,
145 |     #                    X_train_unlabled,ZU,l1,l2,l3,l4,alpha,beta,Loss)
146 |     print('Loss',math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
147 |     #####################################
148 | 
149 | 
150 |     ####start to test######
151 |     test_err_list = []
152 |     err_percent_list = []
153 |     for i in range(y_test.shape[0]):
154 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
155 |         tmp_pre = np.matmul(alpha.T,X_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
156 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
157 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
158 |         tmp_error_square = tmp_error * tmp_error
159 |         test_err_list.append(tmp_error_square)
160 |         err_percent_list.append(tmp_percent_err)
161 | 
162 |     print('PBCT_RMSE',np.sqrt(np.mean(test_err_list)))
163 |     print('PBCT_ERR',np.mean(err_percent_list))
164 |     
165 |     PBCT_RMSE = np.sqrt(np.mean(test_err_list))
166 |     PBCT_ERR = np.mean(err_percent_list)
167 |     #print(LOO_list)
168 |     test0_err_list = []
169 |     err0_percent_list = []
170 |     for i in range(y_test.shape[0]):
171 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
172 |         tmp_pre = np.matmul(beta.T,Z_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
173 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
174 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
175 |         tmp_error_square = tmp_error * tmp_error
176 |         test0_err_list.append(tmp_error_square)
177 |         err0_percent_list.append(tmp_percent_err)
178 | 
179 |     print('PBCT_beta_RMSE',np.sqrt(np.mean(test0_err_list)))
180 |     print('PBCT_beta_ERR',np.mean(err0_percent_list))
181 |     PBCT_beta_RMSE = np.sqrt(np.mean(test0_err_list))
182 |     PBCT_beta_ERR = np.mean(err0_percent_list)
183 | 
184 | 
185 |     coef_list = []
186 |     coef_list.append(np.array([v for v in alpha.ravel()]))
187 |     coef_list.append(np.array(beta.ravel()))
188 |     tmp_df = pd.DataFrame(data = coef_list)
189 |     tmp_df.to_csv(coef_file+str(L)+'_'+str(repeated_num)+'.csv',index = False, header = False)
190 |     return PBCT_RMSE, PBCT_beta_RMSE
191 | 
192 | 
193 | if __name__=="__main__":
194 |     coef_file = './tmp_coef/'
195 |     repeated_num = 50
196 |     all_average = {}
197 |     all_median = {}
198 |     csv_name = '../Data/pri_20_feature'
199 |     file_name =  'tmp_file'
200 |     Upper_var1 = 1
201 |     data_num = 43
202 |     labeled_num = 10
203 |     unlabeled_num = 10 
204 |     test_num = 10
205 |     random_index = [random.sample(range(43),43) for i in range(repeated_num)]
206 |     repeated_num = 0
207 | 
208 |     data_samples = pd.read_csv(csv_name+'.csv',index_col=FALSE)
209 |     data_columnslable_x = data_samples.columns[:-2]
210 |     data_columnslable_y = data_samples.columns[-1:]
211 |     train_index = random_index[repeated_num][:data_num-test_num]
212 |     test_index = random_index[repeated_num][data_num-test_num:]
213 |     data_labled = data_samples.loc[train_index[:labeled_num]]  
214 |     data_unlabled = data_samples.loc[train_index[-unlabeled_num:]]
215 |     data_test = data_samples.loc[test_index]
216 | 
217 | 
218 |     PBCT_RMSE, PBCT_beta_RMSE= PBCT(labeled_num, random_index[repeated_num],repeated_num,coef_file,data_labled,data_unlabled,data_test,data_columnslable_x,data_columnslable_y)
219 |     
220 | 
221 | 
222 | 
223 | 
224 | 
225 | 
226 | 
227 | 
228 | 
229 | 
230 | 
231 | 


--------------------------------------------------------------------------------
/PBCT/Data/sec_20_feature.csv:
--------------------------------------------------------------------------------
 1 | ,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12,C13,C14,C15,C16,C17,C18,C19,C20,Cyclelife,cyle_log
 2 | 0,-1.632426848,-1.99558501,-2.122340179,-0.709694604,0.068884546,-0.003767809,-5.35E-06,1.070659091,-4.19E-05,1.073592474,1.0674551,0.0039161,1.0694544,10.044531,33.974361,30.64265223,3155.148238,0.015398955,0.015180224,-0.000128412,1009,3.003891166
 3 | 1,-1.651224532,-2.016778931,-2.142554099,-0.543073173,0.05076408,-0.003753382,-1.47E-05,1.068472358,-6.47E-05,1.072881217,1.0650603,0.0036796,1.0664777,10.04113867,38.707848,31.221146,3413.622588,0.015162034,0.014931546,-0.000102823,1063,3.026533265
 4 | 2,-1.571272268,-1.970396519,-2.058086629,-0.319166474,0.008770857,-0.003719433,-1.27E-05,1.065298418,-7.75E-05,1.071194784,1.0628892,0.002645,1.0635946,10.04206533,40.076626,31.780437,3536.128531,0.015006617,0.014885032,5.61E-05,1115,3.047274867
 5 | 3,-1.605368409,-1.995401847,-2.089015581,-0.36065353,0.044585786,-0.003055656,-5.23E-06,1.074804658,-2.38E-05,1.076184468,1.0724765,0.0027885,1.0738586,10.04503133,33.39357831,30.86325642,3147.541607,0.015246842,0.015085269,-6.73E-05,1048,3.020361283
 6 | 4,-1.594395868,-1.941355158,-2.056994731,-0.78786009,0.108811655,-0.003516727,-1.60E-05,1.053974207,-6.30E-05,1.058087015,1.0514506,0.0026052,1.0518515,10.04191,40.19554383,31.60561894,3484.763151,0.015374157,0.015130546,-0.000167234,828,2.918030337
 7 | 5,-1.274074926,-1.544887619,-1.762636841,-0.315910258,-0.061941634,-0.02215991,-0.000202398,1.064081999,-0.000243287,1.068014835,1.0626124,0.0004592,1.04378,10.06247167,37.461433,30.94306117,3342.547044,0.013527169,0.013527169,0.000320148,667,2.824125834
 8 | 6,-1.768045875,-2.152564374,-2.244153838,-0.467522164,0.079457689,-0.002131123,-2.36E-06,1.070297655,-6.75E-05,1.076085287,1.0675218,0.0033972,1.0684743,11.04157733,34.60008198,31.00022334,3214.186777,0.015535541,0.015372629,-3.54E-05,1836,3.263872677
 9 | 7,-1.57107236,-1.927883668,-2.045684623,-0.667416149,0.106922666,-0.003410334,-3.31E-06,1.068174847,-3.77E-05,1.070842241,1.0647362,0.0039782,1.067026,10.04495,35.54589716,30.969942,3239.487989,0.015438134,0.01520093,-0.000172681,828,2.918030337
10 | 8,-1.529071212,-1.839291073,-1.990931221,-1.252987647,0.129437322,-0.004967161,6.68E-07,1.072825256,-8.25E-06,1.073239733,1.0694826,0.0038881,1.0724456,10.04174933,35.68543912,31.0201248,3242.674231,0.015903223,0.015742281,-2.94E-05,1039,3.016615548
11 | 9,-1.719125239,-2.07908483,-2.205460706,-0.610911056,0.076230822,-0.003161444,-2.88E-06,1.064525264,-0.000113952,1.074603958,1.0617746,0.0032262,1.0623909,11.04500333,35.20887742,30.42616191,3188.473581,0.015551002,0.015318613,-0.000143864,1078,3.032618761
12 | 10,-1.467406442,-1.806299754,-1.942243326,-0.853274963,0.10229864,-0.005870842,-1.77E-05,1.070729462,-3.90E-05,1.072246544,1.0680679,0.0026928,1.0682998,10.04221833,38.22832464,31.117903,3351.980946,0.015608084,0.015485173,-4.96E-05,817,2.912222057
13 | 11,-1.498462568,-1.814886031,-1.973177733,-2.045376078,0.108352195,-0.006072419,-6.68E-06,1.076676032,-2.38E-05,1.077940266,1.0741653,0.0027777,1.0755343,10.04249167,36.1158558,30.95178679,3255.643362,0.016139418,0.01599754,-4.04E-05,932,2.969415912
14 | 12,-1.558366377,-1.929390343,-2.047015987,-0.587928164,0.078434661,-0.003419358,-1.22E-05,1.069335077,-4.98E-05,1.072257731,1.065558,0.0040867,1.067306,10.04231967,37.80334002,31.00840862,3343.624094,0.015250437,0.01506449,-0.000145141,816,2.911690159
15 | 13,-1.533393919,-1.879309044,-1.999616592,-0.716601829,0.120520241,-0.003836441,4.64E-06,1.076779365,-1.70E-05,1.078110351,1.0727056,0.0050386,1.0763919,10.041712,36.10149946,30.790092,3245.782832,0.015668793,0.015496999,-7.74E-05,858,2.933487288
16 | 14,-1.530408516,-1.8748334,-2.000124955,-0.812976499,0.10865481,-0.004274607,-1.16E-05,1.071136518,-7.97E-05,1.077064293,1.0684187,0.0028587,1.0693594,10.04153367,37.344582,30.48859917,3284.088782,0.015417448,0.01525728,-9.03E-05,876,2.942504106
17 | 15,-1.871213282,-2.273818866,-2.347039494,-1.273501176,-0.05127774,-0.002983686,-9.69E-06,1.064003112,-8.32E-05,1.070542173,1.061009,0.0033309,1.0625579,11.04336633,38.21816186,31.64106944,3424.281204,0.015453937,0.015253145,-0.000120936,1638,3.214313897
18 | 16,-1.7475744,-2.140488428,-2.219639284,-1.777335405,-0.088713941,-0.004417854,-5.83E-06,1.067345296,-2.00E-05,1.068533195,1.0664514,0.0025996,1.0664585,10.04197433,38.138309,31.04113689,3436.914963,0.015524552,0.01535425,-0.000162275,1315,3.118925753
19 | 17,-1.629750306,-1.985384664,-2.126808745,-0.640237159,0.024125686,-0.005007944,-2.93E-05,1.070361931,-7.01E-05,1.074033416,1.0680237,0.0021301,1.0670015,10.04312967,38.518787,32.020798,3458.576218,0.015098186,0.014978203,-3.74E-05,1146,3.059184618
20 | 18,-1.596988363,-1.937588019,-2.085753681,-0.917652272,0.046058591,-0.00552114,-2.97E-05,1.074235086,-7.90E-05,1.078710202,1.0719248,0.0019749,1.0708553,10.043437,38.401493,31.769892,3439.654828,0.015555796,0.015178323,-4.25E-05,1155,3.062581984
21 | 19,-1.551726744,-1.923746211,-2.032955091,-0.469121786,0.072911487,-0.003484364,-7.15E-06,1.067814756,-4.07E-05,1.070552776,1.0650502,0.0030607,1.0664401,10.04332967,36.232254,30.59856744,3244.071147,0.015409848,0.015206913,-7.64E-05,813,2.910090546
22 | 20,-1.363751397,-1.628217448,-1.851946087,-0.295729559,-0.072584687,-0.018335863,-0.000159492,1.070112267,-0.000192495,1.073130889,1.0678563,0.0008404,1.0538316,10.067868,38.317612,31.55476192,3420.241884,0.013943589,0.01394002,0.000233937,772,2.8876173
23 | 21,-1.546539013,-1.862565162,-2.023193943,-1.276362836,0.103452596,-0.005950154,-1.60E-05,1.05897035,-5.29E-05,1.062242032,1.0562643,0.0028446,1.0569046,10.04338433,37.97354076,31.405123,3391.854302,0.015852775,0.015614755,-0.000122983,1002,3.000867722
24 | 22,-1.60603194,-1.985249237,-2.077410242,-0.473985523,0.101008493,-0.002010983,9.65E-06,1.049949028,-5.47E-05,1.055517054,1.0462732,0.0048557,1.050084,10.04224033,37.871063,31.71232416,3399.37733,0.015751192,0.01550305,-0.000150559,825,2.916453949
25 | 23,-1.575506312,-1.961545893,-2.073063116,-0.436102642,0.030735094,-0.003425932,6.95E-06,1.064468012,-5.59E-05,1.06989657,1.0611302,0.0043403,1.0643663,10.04159833,39.5951108,31.926973,3487.042687,0.015752004,0.015591009,-4.92E-05,989,2.995196292
26 | 24,-1.616559163,-1.993979486,-2.109536451,-0.465776501,0.025503714,-0.004120246,-4.29E-07,1.075134168,-4.37E-05,1.078754517,1.0720186,0.0037909,1.074435,10.04181667,39.786995,31.812666,3503.124381,0.015693368,0.015538619,-4.24E-05,1028,3.011993115
27 | 25,-1.575113615,-1.970214143,-2.0648489,-0.442306919,0.046943114,-0.002895925,-4.04E-06,1.063914867,-4.65E-05,1.067372125,1.0604171,0.0040355,1.0627574,10.04502233,38.98098,31.88298,3460.237796,0.015073455,0.014868693,-9.95E-05,850,2.929418926
28 | 26,-1.237838393,-1.519186777,-1.725611691,-0.523396751,-0.008640401,-0.02167493,-0.000198022,1.054621147,-0.000267253,1.060669153,1.0518668,0.0008317,1.0340093,10.05914167,39.85648636,31.972694,3498.271949,0.013169404,0.013169404,0.000435923,541,2.733197265
29 | 27,-1.538779559,-1.946899452,-2.031570794,-0.457860949,0.071792871,-0.002686028,4.08E-06,1.070292311,-5.96E-05,1.075542098,1.0663688,0.004832,1.0696349,10.04168767,31.999889,30.393116,3063.772211,0.014962286,0.014745088,-0.000165511,858,2.933487288
30 | 28,-1.572884567,-1.953209518,-2.049895518,-0.411939153,0.055725818,-0.003441804,-3.42E-06,1.071880175,-3.10E-05,1.074063598,1.0687393,0.0036005,1.0710108,10.04367867,34.756858,30.474829,3159.876736,0.015732529,0.015509814,-0.000114126,935,2.970811611
31 | 29,-1.448313282,-1.786467672,-1.919584257,-0.917743225,0.111140247,-0.005812061,-9.00E-06,1.071258666,-3.54E-05,1.073281415,1.0681812,0.0034605,1.0698149,10.04647767,37.242977,30.81633655,3331.99831,0.015983483,0.015812302,-2.98E-05,731,2.863917377
32 | 30,-1.701454189,-2.105203468,-2.197731911,-0.376714345,0.003858915,-0.003039712,-1.26E-05,1.062801338,-5.69E-05,1.066627388,1.060272,0.0026444,1.0609198,10.04330133,34.695709,31.415869,3244.521808,0.015511206,0.015279103,-0.000153993,1284,3.108565024
33 | 31,-1.667361755,-2.019905433,-2.152612496,-0.734992783,0.06288837,-0.003900595,-2.12E-05,1.06432507,-7.77E-05,1.069308148,1.061535,0.0027431,1.0615493,10.04418467,39.49040963,31.956257,3506.39779,0.015438841,0.015220164,-0.000106908,1158,3.063708559
34 | 32,-1.637742362,-2.007604425,-2.117211889,-0.528215339,0.061761013,-0.003399793,-1.95E-05,1.065495417,-4.98E-05,1.068198545,1.0633804,0.0020494,1.0632331,10.04314867,39.086731,31.761244,3482.267812,0.01549053,0.015308049,-7.60E-05,1093,3.038620162
35 | 33,-1.638615704,-2.003998333,-2.126511704,-0.600116743,0.040137917,-0.003765574,-2.20E-05,1.060483815,-5.94E-05,1.063666739,1.0575287,0.0030761,1.0577667,10.043801,39.893036,31.939495,3516.153406,0.015267849,0.015083324,-8.83E-05,923,2.965201701
36 | 34,-1.69578949,-2.060826155,-2.170809266,-1.266283531,0.070734681,-0.003795779,-8.79E-06,1.072430919,-6.19E-05,1.077245644,1.0701473,0.0025093,1.0710695,10.044471,38.268311,30.966864,3405.122013,0.015988033,0.015742945,-0.000115897,1935,3.286680969
37 | 35,-1.758007558,-2.191894501,-2.227100282,-0.533816817,0.001306764,-0.001619909,-6.58E-06,1.050918796,-2.41E-05,1.052010814,1.0474036,0.004107,1.0495038,10.043833,36.491322,30.9973162,3320.904448,0.015740704,0.015480768,-0.000155274,1156,3.062957834
38 | 36,-1.656516677,-2.04196861,-2.147336882,-0.501095774,0.056337958,-0.002503893,-7.69E-06,1.063391687,-4.83E-05,1.066635646,1.0593235,0.00451,1.0617574,10.043563,38.358112,30.658075,3337.234477,0.015561919,0.015254971,-0.000234305,796,2.900913068
39 | 37,-1.616310388,-2.011082228,-2.109537429,-0.447169341,0.026586428,-0.003228927,9.73E-06,1.053877799,-5.06E-05,1.059149495,1.0505219,0.0043619,1.0541531,10.04297433,37.245838,30.47063702,3296.789848,0.01854171,0.017006677,-0.000173132,786,2.895422546
40 | 38,-1.585275075,-1.94957921,-2.065530505,-0.61151449,0.092859503,-0.00313518,4.69E-06,1.073078213,-1.79E-05,1.074668847,1.06972,0.0041849,1.0729284,10.04343567,36.881859,30.183569,3268.477965,0.015722955,0.01551657,-0.000105745,940,2.973127854
41 | 39,-1.783096536,-2.146803739,-2.260208144,-0.483936795,0.070823912,-0.002677592,-1.26E-07,1.071472276,-7.19E-06,1.071735902,1.0695485,0.0025962,1.0711251,11.03765,35.085537,30.620083,3207.216268,0.015742011,0.015557319,-7.95E-05,1801,3.255513713


--------------------------------------------------------------------------------
/PBCT/Data/train_20_feature.csv:
--------------------------------------------------------------------------------
 1 | ,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12,C13,C14,C15,C16,C17,C18,C19,C20,Cyclelife,cycle_log
 2 | 0,-1.958456657,-2.387256967,-2.506762553,-0.367163344,0.012464331,-0.001194152,5.54E-06,1.08096458,-4.13E-05,1.084767,1.0753012,0.0092883,1.0806297,13.40915,34.712265,29.230637,3070.271766,0.017038831,0,-4.20E-05,2160,3.334453751
 3 | 1,-1.722149303,-2.127506642,-2.221089424,-0.357485561,0.03957902,-0.001759018,1.71E-05,1.084075016,-3.68E-06,1.085131095,1.0797229,0.0065301,1.0847498,12.02513967,31.691414,29.023619,2934.239337,0.016369704,0,3.86E-05,1434,3.156549151
 4 | 2,-1.598965335,-1.955698894,-2.089221726,-0.825794342,0.089030884,-0.003880525,1.12E-05,1.079754795,-2.32E-05,1.082084999,1.0761266,0.0059438,1.0797794,10.96784967,34.654667,28.914812,3030.315513,0.016437579,0.015922785,-0.000111867,1074,3.031004281
 5 | 3,-1.417557233,-1.778697226,-1.906525783,-0.477012756,0.049425777,-0.007319803,-6.43E-06,1.09725427,-4.06E-05,1.099840619,1.0938644,0.0041042,1.0957625,10.02508167,36.053928,29.368095,3134.969863,0.016311171,0,-3.84E-05,870,2.939519253
 6 | 4,-1.625407203,-2.076849012,-2.073231009,-0.225594077,0.081187197,0.000581834,2.18E-05,1.058971606,-1.16E-05,1.061117519,1.0537786,0.0094604,1.0599719,11.668876,37.128967,29.87781,3210.35319,0.016575078,0,-0.000303578,788,2.896526217
 7 | 5,-1.538433128,-1.958090839,-2.008757296,-0.316954268,0.09706841,-0.000944834,2.90E-05,1.066175368,-2.44E-05,1.070170135,1.0611236,0.0082151,1.0677497,10.79770567,38.47617,29.44138,3248.493147,0.017168047,0.016542939,-0.000253296,719,2.85672889
 8 | 6,-1.507687163,-1.874742746,-1.98486247,-0.591780484,0.110826083,-0.003769687,1.79E-05,1.076194039,-1.27E-05,1.078266405,1.072052,0.0071738,1.0769763,10.14688067,37.208405,29.182228,3144.765764,0.016778639,0.016238289,2.22E-05,857,2.932980822
 9 | 7,-1.338256453,-1.696668386,-1.809736158,-0.563163903,0.105651445,-0.007128245,-1.04E-05,1.08889662,-3.33E-05,1.090313945,1.0851147,0.0041907,1.0870851,9.924738333,37.49086,29.91865,3238.33188,0.016449727,0.016205151,-6.61E-05,788,2.896526217
10 | 8,-1.188959728,-1.513462171,-1.67495177,-1.044954055,0.058077511,-0.016681426,-8.18E-05,1.086397504,-0.000159053,1.092649285,1.0824388,0.0034874,1.0767291,8.964706333,37.615559,29.948643,3247.341442,0.015348774,0,-0.000203807,559,2.747411808
11 | 9,-1.496997833,-1.857813742,-1.969114006,-0.469975711,0.105233575,-0.00420689,2.02E-06,1.07792995,-7.40E-05,1.084523121,1.0745355,0.0045395,1.0776314,12.147216,37.596226,30.30908,3271.036413,0.016687831,0.016390581,-4.86E-06,1017,3.007320953
12 | 10,-1.416184199,-1.748357957,-1.897392743,-0.931561192,0.106078636,-0.007151987,-1.52E-05,1.091350021,-9.83E-05,1.098625475,1.0876514,0.0038948,1.0893713,10.76481967,37.077717,30.189548,3249.342212,0.016376387,0.016129743,1.29E-05,870,2.939519253
13 | 11,-1.429299712,-1.777332351,-1.922138648,-0.845779952,0.092889828,-0.006957487,-7.73E-06,1.08108969,-3.48E-05,1.083175631,1.0777475,0.003847,1.0796947,11.12990733,38.303513,30.421293,3309.847905,0.016742077,0.016467512,6.38E-05,860,2.934498451
14 | 12,-1.389176102,-1.751557798,-1.872132353,-0.544863539,0.088841604,-0.006137662,-1.64E-05,1.083658496,-3.75E-05,1.085152836,1.0798637,0.0039545,1.0814074,10.13017967,37.483994,30.457619,3286.997914,0.016072329,0.015838005,5.84E-05,709,2.850646235
15 | 13,-1.341356375,-1.683394961,-1.823014493,-0.807834047,0.107022205,-0.008212426,-1.28E-05,1.081323039,-3.84E-05,1.083227069,1.0778366,0.0038201,1.0793804,10.096438,37.14436,30.193592,3241.929734,0.016239462,0.015933495,5.13E-05,731,2.863917377
16 | 14,-1.429245314,-1.793704248,-1.924090823,-0.821307408,0.071845251,-0.005515266,-3.13E-07,1.08008595,-3.01E-05,1.082449982,1.0766174,0.004865,1.0794187,11.067937,37.240925,29.709148,3201.170751,0.0169825,0.016567618,-2.84E-05,742,2.870403905
17 | 15,-1.35045675,-1.676905742,-1.834533415,-1.617615702,0.109824665,-0.009246867,-7.18E-06,1.081642895,-4.10E-05,1.084323084,1.0778315,0.0045278,1.0802411,11.52484333,34.868446,30.028351,3140.649062,0.016480684,0.016229769,8.79E-05,704,2.847572659
18 | 16,-1.248600812,-1.572445833,-1.716306831,-1.195108382,0.129801972,-0.01211406,-9.44E-06,1.076282799,-7.16E-06,1.075664488,1.0729513,0.0036465,1.0749754,10.24306667,37.995705,30.288816,3302.107264,0.016260354,0.016066672,8.90E-05,617,2.790285164
19 | 17,-1.536171058,-1.898637645,-2.027389097,-0.604665456,0.093944667,-0.005164813,-8.20E-06,1.087348426,-4.21E-05,1.089952279,1.0833029,0.0045033,1.0857353,12.07122267,38.388569,30.003733,3279.06455,0.016756468,0.016480761,6.66E-05,966,2.984977126
20 | 18,-1.349598771,-1.68614943,-1.832710637,-0.967808152,0.119335705,-0.008207832,2.11E-06,1.08378139,-3.26E-05,1.086507071,1.0798725,0.0049595,1.0832821,11.17109367,38.397423,30.125891,3291.345373,0.0167679,0.016511114,0.000103314,702,2.846337112
21 | 19,-1.230644303,-1.532701369,-1.710132747,-0.856735788,0.110348796,-0.015959881,-3.36E-05,1.08855646,-5.14E-05,1.089854065,1.0847682,0.0035624,1.0847102,10.27110433,36.804283,29.747217,3190.235032,0.017436398,0.017142953,0.000152771,616,2.789580712
22 | 20,-0.868309264,-1.146677406,-1.372639315,-0.310813309,-0.054311,-0.060687624,-0.000354731,1.07883863,-0.000696795,1.108732469,1.0700541,0.0035296,1.038452,10.24416467,33.972218,26.734909,2944.977147,0.017505454,0.016423751,-0.00021299,300,2.477121255
23 | 21,-1.263094289,-1.610985208,-1.746412134,-0.769043504,0.108508492,-0.010613542,-1.28E-05,1.078679621,-5.64E-05,1.081637856,1.0735391,0.0064283,1.0759984,10.075615,39.198795,28.835936,3209.329731,0.017894397,0.017209327,-0.000232082,438,2.641474111
24 | 22,-1.193764577,-1.491719462,-1.675785268,-0.795787759,0.05590189,-0.019982972,-0.00010675,1.077330645,-0.000189493,1.084105793,1.0728973,0.0027499,1.0650914,10.124655,38.022896,29.794935,3224.407304,0.016936054,0.015997788,-0.00085516,444,2.64738297
25 | 23,-1.139918711,-1.405886257,-1.621977517,-0.361250728,0.005525264,-0.029010827,-0.000214386,1.075658243,-0.000290691,1.081211722,1.0687391,0.0037921,1.0521992,10.19462267,38.299351,29.188963,3212.13423,0.016829265,0.015648872,-0.001029189,511,2.7084209
26 | 24,-1.248020978,-1.557622745,-1.731141789,-1.05543352,0.082594809,-0.015396412,-4.15E-05,1.076324939,-0.000125932,1.083208858,1.0717047,0.0042239,1.0705185,10.107076,38.132206,30.125391,3254.451996,0.017606791,0.017036082,-0.00052274,477,2.678518379
27 | 25,-1.113893114,-1.429824404,-1.592191747,-1.295000661,0.065156916,-0.021898411,-0.000121204,1.085154313,-0.000186149,1.090231258,1.080285,0.0029318,1.0716245,10.23092367,39.087688,29.9837,3269.636348,0.017087275,0.016480118,-0.000497063,483,2.683947131
28 | 26,-1.237925613,-1.611364897,-1.714278543,-0.521854131,0.09974026,-0.008945096,2.06E-05,1.073533826,-7.10E-05,1.0806242,1.0656468,0.0110646,1.073837,10.161191,35.806377,28.374697,3080.401961,0.017780064,0.016974878,-0.000504403,494,2.693726949
29 | 27,-1.190164921,-1.501189261,-1.657785184,-1.414892025,0.090062003,-0.018303065,-0.000178508,1.051277032,-0.000171432,1.049971758,1.0480373,0.0016425,1.0328457,10.333377,37.402428,29.229534,3179.218713,0.017928939,0.01643493,-0.001034869,461,2.663700925
30 | 28,-1.230650502,-1.581553129,-1.763050919,-0.89253553,0.076952991,-0.014316807,-4.40E-05,1.082136947,-0.000109075,1.087376249,1.0768799,0.005137,1.0766457,10.121576,37.163727,29.150013,3171.068044,0.017655412,0.017165525,-0.000258873,489,2.689308859
31 | 29,-1.280650809,-1.563023107,-1.762912314,-0.572505163,0.067693341,-0.016768533,-6.66E-05,1.078901174,-0.000125752,1.083801218,1.0745209,0.00356,1.0714235,10.250747,36.934685,29.381733,3160.822321,0.017877026,0.01690297,-0.00082546,527,2.721810615
32 | 30,-1.244540939,-1.572584733,-1.726014121,-1.648455294,0.102776378,-0.013258914,-3.03E-05,1.072093634,-0.000126161,1.080208468,1.0672674,0.0048971,1.0676695,10.04198667,33.972847,27.869812,2920.891715,0.017678419,0.016953357,-0.000553833,461,2.663700925
33 | 31,-1.298864379,-1.637543356,-1.780686921,-1.042000687,0.102419048,-0.009806329,4.95E-07,1.070597696,-6.74E-05,1.076084512,1.065841,0.005946,1.0693567,10.14740933,36.62397,29.155989,3136.406661,0.017624324,0.017141469,-0.00026701,468,2.670245853
34 | 32,-1.386179372,-1.753946404,-1.85423426,-0.543987343,0.134322772,-0.004392582,3.28E-05,1.076574752,-1.81E-05,1.08047904,1.0725043,0.0068375,1.0787998,10.114581,39.010788,30.02223,3281.801848,0.017144648,0.016837668,4.10E-05,498,2.697229343
35 | 33,-1.34314469,-1.658957372,-1.813314495,-2.337812994,0.133107305,-0.00883026,1.27E-05,1.07857364,-5.83E-05,1.084380818,1.0732793,0.0068458,1.0785081,10.14688433,35.575104,29.430504,3115.208702,0.01768863,0.017417014,-3.72E-05,492,2.691965103
36 | 34,-1.36479095,-1.704590148,-1.841592771,-1.126582219,0.131303618,-0.007397814,2.07E-05,1.08352129,-1.62E-05,1.086236694,1.079052,0.006544,1.0847911,10.12924833,37.553761,29.949514,3231.380182,0.017695136,0.017406421,9.91E-05,520,2.716003344
37 | 35,-1.272055591,-1.628983776,-1.743868445,-0.728436834,0.139738367,-0.008691661,-2.80E-07,1.073355198,-7.22E-05,1.079095497,1.0687217,0.0057665,1.0718495,10.13029333,40.031326,30.03739,3296.044703,0.017460613,0.016969517,-0.000378346,463,2.665580991
38 | 36,-1.291292746,-1.632434305,-1.761351388,-0.948254492,0.139515213,-0.008764194,3.51E-05,1.07889607,-3.18E-05,1.084373907,1.0748166,0.0068574,1.081265,10.11468833,36.40403,29.367825,3130.587654,0.018226312,0.01798249,9.34E-05,478,2.679427897
39 | 37,-1.283622453,-1.593239933,-1.752581648,-1.298407454,0.142137464,-0.012203128,3.19E-05,1.084284399,-2.65E-05,1.088829988,1.0784613,0.0084206,1.0863159,10.14447933,36.903049,29.399006,3148.712511,0.018174672,0.017882114,7.45E-05,459,2.661812686
40 | 38,-1.247334921,-1.587985536,-1.719323761,-0.866600089,0.140075548,-0.009933227,1.66E-05,1.073882672,-6.89E-05,1.080949204,1.0682049,0.0079039,1.0736984,10.12803633,38.922901,29.400105,3247.207896,0.0179385,0.017491397,-7.86E-05,429,2.632457292
41 | 39,-1.226029272,-1.547619126,-1.697266924,-1.993883621,0.134111958,-0.013852453,1.25E-05,1.078976253,-2.66E-05,1.081680605,1.0735646,0.0070754,1.0790776,10.12917433,38.905258,29.649296,3235.109068,0.01812768,0.017879792,9.04E-05,462,2.664641976
42 | 40,-1.361351223,-1.680774843,-1.843991575,-1.53969922,0.113009868,-0.009449903,-7.06E-06,1.074867974,-7.21E-05,1.080170462,1.0704726,0.0051856,1.0730408,10.097114,37.933308,29.381407,3196.248318,0.017153347,0.01683791,-0.000126906,487,2.687528961


--------------------------------------------------------------------------------
/PBCT/Online/SFS.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  3 | from sklearn.linear_model import LinearRegression
  4 | import numpy as np
  5 | from numpy import mean,absolute,sqrt
  6 | import copy
  7 | import math
  8 | import pandas as pd
  9 | import random
 10 | 
 11 | def Sequential_Forward_Selection(Features,labeled_X,labled_Y,R):
 12 |     Feature_set = []
 13 |     Feature_candidates = copy.deepcopy(Features)
 14 | 
 15 |     cv = LeaveOneOut()
 16 |     model = LinearRegression(fit_intercept=False)
 17 |     for i in range(R):
 18 |         error_list = []
 19 |         for tmp_Feature in Feature_candidates:
 20 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 21 |             tmp_Feature_set.append(tmp_Feature)
 22 |             tmp_X = labeled_X[tmp_Feature_set]
 23 |             #print(tmp_X)
 24 |             #use LOOCV to evaluate model
 25 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 26 |                          cv=cv, n_jobs=-1)
 27 |             #print(scores)
 28 |             error_list.append(mean(absolute(scores)))
 29 | 
 30 |         min_index = np.argmin(np.array(error_list))
 31 |         #print(min_index)
 32 |         if i>0:
 33 |             if error_list[min_index]>curr_error:
 34 |                 return [Feature_set,curr_error]
 35 |         curr_error = error_list[min_index]
 36 |         Feature_set.append(Feature_candidates[min_index])
 37 |         Feature_candidates = Feature_candidates.delete(min_index)
 38 |         #print(Feature_candidates)
 39 |     return [Feature_set,curr_error]
 40 | 
 41 | 
 42 | def Sequential_Forward_Selection_dc(Features,labeled_X,labled_Y,R):
 43 |     Feature_set = ['dc']
 44 |     Feature_candidates = copy.deepcopy(Features)
 45 | 
 46 |     cv = LeaveOneOut()
 47 |     model = LinearRegression(fit_intercept=False)
 48 |     for i in range(R):
 49 |         error_list = []
 50 |         for tmp_Feature in Feature_candidates:
 51 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 52 |             tmp_Feature_set.append(tmp_Feature)
 53 |             tmp_X = labeled_X[tmp_Feature_set]
 54 |             #print(tmp_X)
 55 |             #use LOOCV to evaluate model
 56 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 57 |                          cv=cv, n_jobs=-1)
 58 |             #print(scores)
 59 |             error_list.append(mean(absolute(scores)))
 60 | 
 61 |         min_index = np.argmin(np.array(error_list))
 62 |         #print(min_index)
 63 |         if i>0:
 64 |             if error_list[min_index]>curr_error:
 65 |                 return [Feature_set,curr_error]
 66 |         curr_error = error_list[min_index]
 67 |         Feature_set.append(Feature_candidates[min_index])
 68 |         Feature_candidates = Feature_candidates.delete(min_index)
 69 |         #print(Feature_candidates)
 70 |     return [Feature_set,curr_error]
 71 | 
 72 | 
 73 | 
 74 | 
 75 | def Sequential_Forward_Selection_corr(Features,labeled_X,labled_Y,random_index,L,R):
 76 |     """
 77 |     The input should be original Labeled X, y
 78 |     """
 79 |     
 80 |     
 81 |     Feature_set = []
 82 |     Feature_candidates = copy.deepcopy(Features)
 83 |     
 84 |     for i in range(R):
 85 |         error_list = []
 86 |         for tmp_Feature in Feature_candidates:
 87 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 88 |             tmp_Feature_set.append(tmp_Feature)
 89 |             tmp_X_all = labeled_X[tmp_Feature_set]
 90 |             #print(tmp_X)
 91 |             #use LOOCV to evaluate model
 92 |             LOO_list = []
 93 |             for j in range(L):
 94 |                 model = LinearRegression(fit_intercept=False)
 95 |                 predict_x = tmp_X_all.iloc[j]
 96 |                 tmp_X = tmp_X_all.drop(random_index[j])
 97 |                 predict_y = labled_Y.iloc[j]
 98 |                 tmp_Y = labled_Y.drop(random_index[j])
 99 |                 print(tmp_X)
100 |                 mean_labled_x = tmp_X.mean()
101 |                 print(mean_labled_x)
102 |                 std_labled_x = tmp_X.std()
103 |                 mean_labled_y = tmp_Y.mean()
104 |                 std_labled_y = tmp_Y.std()
105 |                 ##Normalize##
106 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
107 |                 print(X_train_tmp)
108 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
109 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
110 | 
111 | 
112 |                 #print(tmp_X.to_numpy())
113 |                 #print(tmp_Y.to_numpy())
114 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
115 |                 #print('alpha',alpha)
116 |                 #print('beta',beta)
117 |                 #print(predict_x)
118 |                 alpha_y = model.predict([predict_x])
119 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
120 |                 print('alpha_y',real_alpha_y[0])
121 | 
122 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
123 |                 #print(tmp_error)
124 |                 tmp_error_square = tmp_error * tmp_error
125 |                 LOO_list.append(tmp_error_square)
126 |             print(LOO_list)
127 |             error_list.append(np.mean(LOO_list))
128 | 
129 | 
130 |         min_index = np.argmin(np.array(error_list))
131 |         #print(min_index)
132 |         if i>0:
133 |             if error_list[min_index]>curr_error:
134 |                 return [Feature_set,curr_error]
135 |         curr_error = error_list[min_index]
136 |         Feature_set.append(Feature_candidates[min_index])
137 |         Feature_candidates = Feature_candidates.delete(min_index)
138 |         #print(Feature_candidates)
139 |     return [Feature_set,curr_error]
140 | 
141 |     
142 | def Sequential_Forward_Selection_corr_test(Features,labeled_X,labled_Y,random_index,L,R):
143 |     """
144 |     The input should be original Labeled X, y
145 |     """
146 |     
147 |     
148 |     Feature_set = []
149 |     Feature_candidates = copy.deepcopy(Features)
150 |     
151 |     for i in range(R):
152 |         error_list = []
153 |         err_nor_list = []
154 |         for tmp_Feature in Feature_candidates:
155 |             tmp_Feature_set = copy.deepcopy(Feature_set)
156 |             tmp_Feature_set.append(tmp_Feature)
157 |             tmp_X_all = labeled_X[tmp_Feature_set]
158 |             #print(tmp_X)
159 |             #use LOOCV to evaluate model
160 |             LOO_list = []
161 |             LOO_nor_list = []
162 |             for j in range(L):
163 |                 model = LinearRegression(fit_intercept=False)
164 |                 predict_x = tmp_X_all.iloc[j]
165 |                 tmp_X = tmp_X_all.drop(random_index[j])
166 |                 predict_y = labled_Y.iloc[j]
167 |                 tmp_Y = labled_Y.drop(random_index[j])
168 |                 print(tmp_X)
169 |                 mean_labled_x = tmp_X.mean()
170 |                 print(mean_labled_x)
171 |                 std_labled_x = tmp_X.std()
172 |                 mean_labled_y = tmp_Y.mean()
173 |                 std_labled_y = tmp_Y.std()
174 |                 ##Normalize##
175 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
176 |                 print(X_train_tmp)
177 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
178 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
179 |                 predict_y_nor = (predict_y-mean_labled_y)/std_labled_y
180 | 
181 | 
182 |                 #print(tmp_X.to_numpy())
183 |                 #print(tmp_Y.to_numpy())
184 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
185 |                 #print('alpha',alpha)
186 |                 #print('beta',beta)
187 |                 #print(predict_x)
188 |                 alpha_y = model.predict([predict_x])
189 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
190 |                 print('alpha_y',real_alpha_y[0])
191 | 
192 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
193 |                 tmp_error_nor = alpha_y[0]-predict_y_nor.to_numpy()[0]
194 |                 #print(tmp_error)
195 |                 tmp_error_square = tmp_error * tmp_error
196 |                 tmp_err_nor_square = tmp_error_nor * tmp_error_nor
197 |                 LOO_list.append(tmp_error_square)
198 |                 LOO_nor_list.append(tmp_err_nor_square)
199 |             print(LOO_list)
200 |             error_list.append(np.mean(LOO_list))
201 |             err_nor_list.append(np.mean(LOO_nor_list))
202 | 
203 | 
204 |         min_index = np.argmin(np.array(error_list))
205 |         #print(min_index)
206 |         if i>0:
207 |             if error_list[min_index]>curr_error:
208 |                 return [Feature_set,curr_error_nor]
209 |         curr_error = error_list[min_index]
210 |         curr_error_nor = err_nor_list[min_index]
211 |         Feature_set.append(Feature_candidates[min_index])
212 |         Feature_candidates = Feature_candidates.delete(min_index)
213 |         #print(Feature_candidates)
214 |     return [Feature_set,curr_error_nor]
215 | 
216 | if __name__=="__main__":
217 |     data_samples = pd.read_csv('train_20_feature.csv',index_col=FALSE)
218 |     data_shape = data_samples.shape
219 |     data_columnslable_x = data_samples.columns[:-2]
220 |     data_columnslable_y = data_samples.columns[-1:]
221 |     print(data_columnslable_x)
222 |     print(data_columnslable_y)
223 |     ##split the labeled and unlabeled data
224 |     L = 5
225 |     random_index = [32, 27, 29, 7, 20, 39, 16, 18, 24, 23, 11, 33, 10, 40, 5, 37, 2, 25, 34, 6, 36, 1, 21, 14, 9, 19, 13, 0, 12, 22, 35, 17, 3, 31, 4, 38, 28, 26, 30, 8, 15]
226 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
227 | 
228 | 
229 |     data_labled_x = data_labled[data_columnslable_x]
230 |     data_labled_y = data_labled[data_columnslable_y]
231 |     ####
232 |     Partial_Feature = Sequential_Forward_Selection_corr(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
233 | 
234 |     print(Partial_Feature[0],Partial_Feature[1])
235 | 


--------------------------------------------------------------------------------
/PBCT/utils/SFS.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  3 | from sklearn.linear_model import LinearRegression
  4 | import numpy as np
  5 | from numpy import mean,absolute,sqrt
  6 | import copy
  7 | import math
  8 | import pandas as pd
  9 | import random
 10 | 
 11 | def Sequential_Forward_Selection(Features,labeled_X,labled_Y,R):
 12 |     Feature_set = []
 13 |     Feature_candidates = copy.deepcopy(Features)
 14 | 
 15 |     cv = LeaveOneOut()
 16 |     model = LinearRegression(fit_intercept=False)
 17 |     for i in range(R):
 18 |         error_list = []
 19 |         for tmp_Feature in Feature_candidates:
 20 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 21 |             tmp_Feature_set.append(tmp_Feature)
 22 |             tmp_X = labeled_X[tmp_Feature_set]
 23 |             #print(tmp_X)
 24 |             #use LOOCV to evaluate model
 25 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 26 |                          cv=cv, n_jobs=-1)
 27 |             #print(scores)
 28 |             error_list.append(mean(absolute(scores)))
 29 | 
 30 |         min_index = np.argmin(np.array(error_list))
 31 |         #print(min_index)
 32 |         if i>0:
 33 |             if error_list[min_index]>curr_error:
 34 |                 return [Feature_set,curr_error]
 35 |         curr_error = error_list[min_index]
 36 |         Feature_set.append(Feature_candidates[min_index])
 37 |         Feature_candidates = Feature_candidates.delete(min_index)
 38 |         #print(Feature_candidates)
 39 |     return [Feature_set,curr_error]
 40 | 
 41 | 
 42 | def Sequential_Forward_Selection_dc(Features,labeled_X,labled_Y,R):
 43 |     Feature_set = ['dc']
 44 |     Feature_candidates = copy.deepcopy(Features)
 45 | 
 46 |     cv = LeaveOneOut()
 47 |     model = LinearRegression(fit_intercept=False)
 48 |     for i in range(R):
 49 |         error_list = []
 50 |         for tmp_Feature in Feature_candidates:
 51 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 52 |             tmp_Feature_set.append(tmp_Feature)
 53 |             tmp_X = labeled_X[tmp_Feature_set]
 54 |             #print(tmp_X)
 55 |             #use LOOCV to evaluate model
 56 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 57 |                          cv=cv, n_jobs=-1)
 58 |             #print(scores)
 59 |             error_list.append(mean(absolute(scores)))
 60 | 
 61 |         min_index = np.argmin(np.array(error_list))
 62 |         #print(min_index)
 63 |         if i>0:
 64 |             if error_list[min_index]>curr_error:
 65 |                 return [Feature_set,curr_error]
 66 |         curr_error = error_list[min_index]
 67 |         Feature_set.append(Feature_candidates[min_index])
 68 |         Feature_candidates = Feature_candidates.delete(min_index)
 69 |         #print(Feature_candidates)
 70 |     return [Feature_set,curr_error]
 71 | 
 72 | 
 73 | 
 74 | 
 75 | def Sequential_Forward_Selection_corr(Features,labeled_X,labled_Y,random_index,L,R):
 76 |     """
 77 |     The input should be original Labeled X, y
 78 |     """
 79 |     
 80 |     
 81 |     Feature_set = []
 82 |     Feature_candidates = copy.deepcopy(Features)
 83 |     
 84 |     for i in range(R):
 85 |         error_list = []
 86 |         for tmp_Feature in Feature_candidates:
 87 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 88 |             tmp_Feature_set.append(tmp_Feature)
 89 |             tmp_X_all = labeled_X[tmp_Feature_set]
 90 |             #print(tmp_X)
 91 |             #use LOOCV to evaluate model
 92 |             LOO_list = []
 93 |             for j in range(L):
 94 |                 model = LinearRegression(fit_intercept=False)
 95 |                 predict_x = tmp_X_all.iloc[j]
 96 |                 tmp_X = tmp_X_all.drop(random_index[j])
 97 |                 predict_y = labled_Y.iloc[j]
 98 |                 tmp_Y = labled_Y.drop(random_index[j])
 99 |                 print(tmp_X)
100 |                 mean_labled_x = tmp_X.mean()
101 |                 print(mean_labled_x)
102 |                 std_labled_x = tmp_X.std()
103 |                 mean_labled_y = tmp_Y.mean()
104 |                 std_labled_y = tmp_Y.std()
105 |                 ##Normalize##
106 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
107 |                 print(X_train_tmp)
108 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
109 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
110 | 
111 | 
112 |                 #print(tmp_X.to_numpy())
113 |                 #print(tmp_Y.to_numpy())
114 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
115 |                 #print('alpha',alpha)
116 |                 #print('beta',beta)
117 |                 #print(predict_x)
118 |                 alpha_y = model.predict([predict_x])
119 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
120 |                 print('alpha_y',real_alpha_y[0])
121 | 
122 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
123 |                 #print(tmp_error)
124 |                 tmp_error_square = tmp_error * tmp_error
125 |                 LOO_list.append(tmp_error_square)
126 |             print(LOO_list)
127 |             error_list.append(np.mean(LOO_list))
128 | 
129 | 
130 |         min_index = np.argmin(np.array(error_list))
131 |         #print(min_index)
132 |         if i>0:
133 |             if error_list[min_index]>curr_error:
134 |                 return [Feature_set,curr_error]
135 |         curr_error = error_list[min_index]
136 |         Feature_set.append(Feature_candidates[min_index])
137 |         Feature_candidates = Feature_candidates.delete(min_index)
138 |         #print(Feature_candidates)
139 |     return [Feature_set,curr_error]
140 | 
141 |     
142 | def Sequential_Forward_Selection_corr_test(Features,labeled_X,labled_Y,random_index,L,R):
143 |     """
144 |     The input should be original Labeled X, y
145 |     """
146 |     
147 |     
148 |     Feature_set = []
149 |     Feature_candidates = copy.deepcopy(Features)
150 |     
151 |     for i in range(R):
152 |         error_list = []
153 |         err_nor_list = []
154 |         for tmp_Feature in Feature_candidates:
155 |             tmp_Feature_set = copy.deepcopy(Feature_set)
156 |             tmp_Feature_set.append(tmp_Feature)
157 |             tmp_X_all = labeled_X[tmp_Feature_set]
158 |             #print(tmp_X)
159 |             #use LOOCV to evaluate model
160 |             LOO_list = []
161 |             LOO_nor_list = []
162 |             for j in range(L):
163 |                 model = LinearRegression(fit_intercept=False)
164 |                 predict_x = tmp_X_all.iloc[j]
165 |                 tmp_X = tmp_X_all.drop(random_index[j])
166 |                 predict_y = labled_Y.iloc[j]
167 |                 tmp_Y = labled_Y.drop(random_index[j])
168 |                 print(tmp_X)
169 |                 mean_labled_x = tmp_X.mean()
170 |                 print(mean_labled_x)
171 |                 std_labled_x = tmp_X.std()
172 |                 mean_labled_y = tmp_Y.mean()
173 |                 std_labled_y = tmp_Y.std()
174 |                 ##Normalize##
175 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
176 |                 print(X_train_tmp)
177 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
178 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
179 |                 predict_y_nor = (predict_y-mean_labled_y)/std_labled_y
180 | 
181 | 
182 |                 #print(tmp_X.to_numpy())
183 |                 #print(tmp_Y.to_numpy())
184 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
185 |                 #print('alpha',alpha)
186 |                 #print('beta',beta)
187 |                 #print(predict_x)
188 |                 alpha_y = model.predict([predict_x])
189 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
190 |                 print('alpha_y',real_alpha_y[0])
191 | 
192 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
193 |                 tmp_error_nor = alpha_y[0]-predict_y_nor.to_numpy()[0]
194 |                 #print(tmp_error)
195 |                 tmp_error_square = tmp_error * tmp_error
196 |                 tmp_err_nor_square = tmp_error_nor * tmp_error_nor
197 |                 LOO_list.append(tmp_error_square)
198 |                 LOO_nor_list.append(tmp_err_nor_square)
199 |             print(LOO_list)
200 |             error_list.append(np.mean(LOO_list))
201 |             err_nor_list.append(np.mean(LOO_nor_list))
202 | 
203 | 
204 |         min_index = np.argmin(np.array(error_list))
205 |         #print(min_index)
206 |         if i>0:
207 |             if error_list[min_index]>curr_error:
208 |                 return [Feature_set,curr_error_nor]
209 |         curr_error = error_list[min_index]
210 |         curr_error_nor = err_nor_list[min_index]
211 |         Feature_set.append(Feature_candidates[min_index])
212 |         Feature_candidates = Feature_candidates.delete(min_index)
213 |         #print(Feature_candidates)
214 |     return [Feature_set,curr_error_nor]
215 | 
216 | if __name__=="__main__":
217 |     data_samples = pd.read_csv('train_20_feature.csv',index_col=FALSE)
218 |     data_shape = data_samples.shape
219 |     data_columnslable_x = data_samples.columns[:-2]
220 |     data_columnslable_y = data_samples.columns[-1:]
221 |     print(data_columnslable_x)
222 |     print(data_columnslable_y)
223 |     ##split the labeled and unlabeled data
224 |     L = 5
225 |     random_index = [32, 27, 29, 7, 20, 39, 16, 18, 24, 23, 11, 33, 10, 40, 5, 37, 2, 25, 34, 6, 36, 1, 21, 14, 9, 19, 13, 0, 12, 22, 35, 17, 3, 31, 4, 38, 28, 26, 30, 8, 15]
226 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
227 | 
228 | 
229 |     data_labled_x = data_labled[data_columnslable_x]
230 |     data_labled_y = data_labled[data_columnslable_y]
231 |     ####
232 |     Partial_Feature = Sequential_Forward_Selection_corr(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
233 | 
234 |     print(Partial_Feature[0],Partial_Feature[1])
235 | 


--------------------------------------------------------------------------------
/PBCT/Offline/SFS.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  3 | from sklearn.linear_model import LinearRegression
  4 | import numpy as np
  5 | from numpy import mean,absolute,sqrt
  6 | import copy
  7 | import math
  8 | import pandas as pd
  9 | import random
 10 | 
 11 | def Sequential_Forward_Selection(Features,labeled_X,labled_Y,R):
 12 |     Feature_set = []
 13 |     Feature_candidates = copy.deepcopy(Features)
 14 | 
 15 |     cv = LeaveOneOut()
 16 |     model = LinearRegression(fit_intercept=False)
 17 |     for i in range(R):
 18 |         error_list = []
 19 |         for tmp_Feature in Feature_candidates:
 20 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 21 |             tmp_Feature_set.append(tmp_Feature)
 22 |             tmp_X = labeled_X[tmp_Feature_set]
 23 |             #print(tmp_X)
 24 |             #use LOOCV to evaluate model
 25 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 26 |                          cv=cv, n_jobs=-1)
 27 |             #print(scores)
 28 |             error_list.append(mean(absolute(scores)))
 29 | 
 30 |         min_index = np.argmin(np.array(error_list))
 31 |         #print(min_index)
 32 |         if i>0:
 33 |             if error_list[min_index]>curr_error:
 34 |                 return [Feature_set,curr_error]
 35 |         curr_error = error_list[min_index]
 36 |         Feature_set.append(Feature_candidates[min_index])
 37 |         Feature_candidates = Feature_candidates.delete(min_index)
 38 |         #print(Feature_candidates)
 39 |     return [Feature_set,curr_error]
 40 | 
 41 | 
 42 | def Sequential_Forward_Selection_dc(Features,labeled_X,labled_Y,R):
 43 |     Feature_set = ['dc']
 44 |     Feature_candidates = copy.deepcopy(Features)
 45 | 
 46 |     cv = LeaveOneOut()
 47 |     model = LinearRegression(fit_intercept=False)
 48 |     for i in range(R):
 49 |         error_list = []
 50 |         for tmp_Feature in Feature_candidates:
 51 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 52 |             tmp_Feature_set.append(tmp_Feature)
 53 |             tmp_X = labeled_X[tmp_Feature_set]
 54 |             #print(tmp_X)
 55 |             #use LOOCV to evaluate model
 56 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 57 |                          cv=cv, n_jobs=-1)
 58 |             #print(scores)
 59 |             error_list.append(mean(absolute(scores)))
 60 | 
 61 |         min_index = np.argmin(np.array(error_list))
 62 |         #print(min_index)
 63 |         if i>0:
 64 |             if error_list[min_index]>curr_error:
 65 |                 return [Feature_set,curr_error]
 66 |         curr_error = error_list[min_index]
 67 |         Feature_set.append(Feature_candidates[min_index])
 68 |         Feature_candidates = Feature_candidates.delete(min_index)
 69 |         #print(Feature_candidates)
 70 |     return [Feature_set,curr_error]
 71 | 
 72 | 
 73 | 
 74 | 
 75 | def Sequential_Forward_Selection_corr(Features,labeled_X,labled_Y,random_index,L,R):
 76 |     """
 77 |     The input should be original Labeled X, y
 78 |     """
 79 |     
 80 |     
 81 |     Feature_set = []
 82 |     Feature_candidates = copy.deepcopy(Features)
 83 |     
 84 |     for i in range(R):
 85 |         error_list = []
 86 |         for tmp_Feature in Feature_candidates:
 87 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 88 |             tmp_Feature_set.append(tmp_Feature)
 89 |             tmp_X_all = labeled_X[tmp_Feature_set]
 90 |             #print(tmp_X)
 91 |             #use LOOCV to evaluate model
 92 |             LOO_list = []
 93 |             for j in range(L):
 94 |                 model = LinearRegression(fit_intercept=False)
 95 |                 predict_x = tmp_X_all.iloc[j]
 96 |                 tmp_X = tmp_X_all.drop(random_index[j])
 97 |                 predict_y = labled_Y.iloc[j]
 98 |                 tmp_Y = labled_Y.drop(random_index[j])
 99 |                 print(tmp_X)
100 |                 mean_labled_x = tmp_X.mean()
101 |                 print(mean_labled_x)
102 |                 std_labled_x = tmp_X.std()
103 |                 mean_labled_y = tmp_Y.mean()
104 |                 std_labled_y = tmp_Y.std()
105 |                 ##Normalize##
106 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
107 |                 print(X_train_tmp)
108 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
109 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
110 | 
111 | 
112 |                 #print(tmp_X.to_numpy())
113 |                 #print(tmp_Y.to_numpy())
114 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
115 |                 #print('alpha',alpha)
116 |                 #print('beta',beta)
117 |                 #print(predict_x)
118 |                 alpha_y = model.predict([predict_x])
119 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
120 |                 print('alpha_y',real_alpha_y[0])
121 | 
122 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
123 |                 #print(tmp_error)
124 |                 tmp_error_square = tmp_error * tmp_error
125 |                 LOO_list.append(tmp_error_square)
126 |             print(LOO_list)
127 |             error_list.append(np.mean(LOO_list))
128 | 
129 | 
130 |         min_index = np.argmin(np.array(error_list))
131 |         #print(min_index)
132 |         if i>0:
133 |             if error_list[min_index]>curr_error:
134 |                 return [Feature_set,curr_error]
135 |         curr_error = error_list[min_index]
136 |         Feature_set.append(Feature_candidates[min_index])
137 |         Feature_candidates = Feature_candidates.delete(min_index)
138 |         #print(Feature_candidates)
139 |     return [Feature_set,curr_error]
140 | 
141 |     
142 | def Sequential_Forward_Selection_corr_test(Features,labeled_X,labled_Y,random_index,L,R):
143 |     """
144 |     The input should be original Labeled X, y
145 |     """
146 |     
147 |     
148 |     Feature_set = []
149 |     Feature_candidates = copy.deepcopy(Features)
150 |     
151 |     for i in range(R):
152 |         error_list = []
153 |         err_nor_list = []
154 |         for tmp_Feature in Feature_candidates:
155 |             tmp_Feature_set = copy.deepcopy(Feature_set)
156 |             tmp_Feature_set.append(tmp_Feature)
157 |             tmp_X_all = labeled_X[tmp_Feature_set]
158 |             #print(tmp_X)
159 |             #use LOOCV to evaluate model
160 |             LOO_list = []
161 |             LOO_nor_list = []
162 |             for j in range(L):
163 |                 model = LinearRegression(fit_intercept=False)
164 |                 predict_x = tmp_X_all.iloc[j]
165 |                 tmp_X = tmp_X_all.drop(random_index[j])
166 |                 predict_y = labled_Y.iloc[j]
167 |                 tmp_Y = labled_Y.drop(random_index[j])
168 |                 print(tmp_X)
169 |                 mean_labled_x = tmp_X.mean()
170 |                 print(mean_labled_x)
171 |                 std_labled_x = tmp_X.std()
172 |                 mean_labled_y = tmp_Y.mean()
173 |                 std_labled_y = tmp_Y.std()
174 |                 ##Normalize##
175 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
176 |                 print(X_train_tmp)
177 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
178 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
179 |                 predict_y_nor = (predict_y-mean_labled_y)/std_labled_y
180 | 
181 | 
182 |                 #print(tmp_X.to_numpy())
183 |                 #print(tmp_Y.to_numpy())
184 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
185 |                 #print('alpha',alpha)
186 |                 #print('beta',beta)
187 |                 #print(predict_x)
188 |                 alpha_y = model.predict([predict_x])
189 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
190 |                 print('alpha_y',real_alpha_y[0])
191 | 
192 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
193 |                 tmp_error_nor = alpha_y[0]-predict_y_nor.to_numpy()[0]
194 |                 #print(tmp_error)
195 |                 tmp_error_square = tmp_error * tmp_error
196 |                 tmp_err_nor_square = tmp_error_nor * tmp_error_nor
197 |                 LOO_list.append(tmp_error_square)
198 |                 LOO_nor_list.append(tmp_err_nor_square)
199 |             print(LOO_list)
200 |             error_list.append(np.mean(LOO_list))
201 |             err_nor_list.append(np.mean(LOO_nor_list))
202 | 
203 | 
204 |         min_index = np.argmin(np.array(error_list))
205 |         #print(min_index)
206 |         if i>0:
207 |             if error_list[min_index]>curr_error:
208 |                 return [Feature_set,curr_error_nor]
209 |         curr_error = error_list[min_index]
210 |         curr_error_nor = err_nor_list[min_index]
211 |         Feature_set.append(Feature_candidates[min_index])
212 |         Feature_candidates = Feature_candidates.delete(min_index)
213 |         #print(Feature_candidates)
214 |     return [Feature_set,curr_error_nor]
215 | 
216 | if __name__=="__main__":
217 |     data_samples = pd.read_csv('train_20_feature.csv',index_col=FALSE)
218 |     data_shape = data_samples.shape
219 |     data_columnslable_x = data_samples.columns[:-2]
220 |     data_columnslable_y = data_samples.columns[-1:]
221 |     print(data_columnslable_x)
222 |     print(data_columnslable_y)
223 |     ##split the labeled and unlabeled data
224 |     L = 5
225 |     random_index = [32, 27, 29, 7, 20, 39, 16, 18, 24, 23, 11, 33, 10, 40, 5, 37, 2, 25, 34, 6, 36, 1, 21, 14, 9, 19, 13, 0, 12, 22, 35, 17, 3, 31, 4, 38, 28, 26, 30, 8, 15]
226 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
227 | 
228 | 
229 |     data_labled_x = data_labled[data_columnslable_x]
230 |     data_labled_y = data_labled[data_columnslable_y]
231 |     ####
232 |     Partial_Feature = Sequential_Forward_Selection_corr(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
233 | 
234 |     print(Partial_Feature[0],Partial_Feature[1])
235 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Online/SFS.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  3 | from sklearn.linear_model import LinearRegression
  4 | import numpy as np
  5 | from numpy import mean,absolute,sqrt
  6 | import copy
  7 | import math
  8 | import pandas as pd
  9 | import random
 10 | 
 11 | def Sequential_Forward_Selection(Features,labeled_X,labled_Y,R):
 12 |     Feature_set = []
 13 |     Feature_candidates = copy.deepcopy(Features)
 14 | 
 15 |     cv = LeaveOneOut()
 16 |     model = LinearRegression(fit_intercept=False)
 17 |     for i in range(R):
 18 |         error_list = []
 19 |         for tmp_Feature in Feature_candidates:
 20 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 21 |             tmp_Feature_set.append(tmp_Feature)
 22 |             tmp_X = labeled_X[tmp_Feature_set]
 23 |             #print(tmp_X)
 24 |             #use LOOCV to evaluate model
 25 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 26 |                          cv=cv, n_jobs=-1)
 27 |             #print(scores)
 28 |             error_list.append(mean(absolute(scores)))
 29 | 
 30 |         min_index = np.argmin(np.array(error_list))
 31 |         #print(min_index)
 32 |         if i>0:
 33 |             if error_list[min_index]>curr_error:
 34 |                 return [Feature_set,curr_error]
 35 |         curr_error = error_list[min_index]
 36 |         Feature_set.append(Feature_candidates[min_index])
 37 |         Feature_candidates = Feature_candidates.delete(min_index)
 38 |         #print(Feature_candidates)
 39 |     return [Feature_set,curr_error]
 40 | 
 41 | 
 42 | def Sequential_Forward_Selection_dc(Features,labeled_X,labled_Y,R):
 43 |     Feature_set = ['dc']
 44 |     Feature_candidates = copy.deepcopy(Features)
 45 | 
 46 |     cv = LeaveOneOut()
 47 |     model = LinearRegression(fit_intercept=False)
 48 |     for i in range(R):
 49 |         error_list = []
 50 |         for tmp_Feature in Feature_candidates:
 51 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 52 |             tmp_Feature_set.append(tmp_Feature)
 53 |             tmp_X = labeled_X[tmp_Feature_set]
 54 |             #print(tmp_X)
 55 |             #use LOOCV to evaluate model
 56 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 57 |                          cv=cv, n_jobs=-1)
 58 |             #print(scores)
 59 |             error_list.append(mean(absolute(scores)))
 60 | 
 61 |         min_index = np.argmin(np.array(error_list))
 62 |         #print(min_index)
 63 |         if i>0:
 64 |             if error_list[min_index]>curr_error:
 65 |                 return [Feature_set,curr_error]
 66 |         curr_error = error_list[min_index]
 67 |         Feature_set.append(Feature_candidates[min_index])
 68 |         Feature_candidates = Feature_candidates.delete(min_index)
 69 |         #print(Feature_candidates)
 70 |     return [Feature_set,curr_error]
 71 | 
 72 | 
 73 | 
 74 | 
 75 | def Sequential_Forward_Selection_corr(Features,labeled_X,labled_Y,random_index,L,R):
 76 |     """
 77 |     The input should be original Labeled X, y
 78 |     """
 79 |     
 80 |     
 81 |     Feature_set = []
 82 |     Feature_candidates = copy.deepcopy(Features)
 83 |     
 84 |     for i in range(R):
 85 |         error_list = []
 86 |         for tmp_Feature in Feature_candidates:
 87 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 88 |             tmp_Feature_set.append(tmp_Feature)
 89 |             tmp_X_all = labeled_X[tmp_Feature_set]
 90 |             #print(tmp_X)
 91 |             #use LOOCV to evaluate model
 92 |             LOO_list = []
 93 |             for j in range(L):
 94 |                 model = LinearRegression(fit_intercept=False)
 95 |                 predict_x = tmp_X_all.iloc[j]
 96 |                 tmp_X = tmp_X_all.drop(random_index[j])
 97 |                 predict_y = labled_Y.iloc[j]
 98 |                 tmp_Y = labled_Y.drop(random_index[j])
 99 |                 print(tmp_X)
100 |                 mean_labled_x = tmp_X.mean()
101 |                 print(mean_labled_x)
102 |                 std_labled_x = tmp_X.std()
103 |                 mean_labled_y = tmp_Y.mean()
104 |                 std_labled_y = tmp_Y.std()
105 |                 ##Normalize##
106 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
107 |                 print(X_train_tmp)
108 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
109 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
110 | 
111 | 
112 |                 #print(tmp_X.to_numpy())
113 |                 #print(tmp_Y.to_numpy())
114 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
115 |                 #print('alpha',alpha)
116 |                 #print('beta',beta)
117 |                 #print(predict_x)
118 |                 alpha_y = model.predict([predict_x])
119 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
120 |                 print('alpha_y',real_alpha_y[0])
121 | 
122 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
123 |                 #print(tmp_error)
124 |                 tmp_error_square = tmp_error * tmp_error
125 |                 LOO_list.append(tmp_error_square)
126 |             print(LOO_list)
127 |             error_list.append(np.mean(LOO_list))
128 | 
129 | 
130 |         min_index = np.argmin(np.array(error_list))
131 |         #print(min_index)
132 |         if i>0:
133 |             if error_list[min_index]>curr_error:
134 |                 return [Feature_set,curr_error]
135 |         curr_error = error_list[min_index]
136 |         Feature_set.append(Feature_candidates[min_index])
137 |         Feature_candidates = Feature_candidates.delete(min_index)
138 |         #print(Feature_candidates)
139 |     return [Feature_set,curr_error]
140 | 
141 |     
142 | def Sequential_Forward_Selection_corr_test(Features,labeled_X,labled_Y,random_index,L,R):
143 |     """
144 |     The input should be original Labeled X, y
145 |     """
146 |     
147 |     
148 |     Feature_set = []
149 |     Feature_candidates = copy.deepcopy(Features)
150 |     
151 |     for i in range(R):
152 |         error_list = []
153 |         err_nor_list = []
154 |         for tmp_Feature in Feature_candidates:
155 |             tmp_Feature_set = copy.deepcopy(Feature_set)
156 |             tmp_Feature_set.append(tmp_Feature)
157 |             tmp_X_all = labeled_X[tmp_Feature_set]
158 |             #print(tmp_X)
159 |             #use LOOCV to evaluate model
160 |             LOO_list = []
161 |             LOO_nor_list = []
162 |             for j in range(L):
163 |                 model = LinearRegression(fit_intercept=False)
164 |                 predict_x = tmp_X_all.iloc[j]
165 |                 tmp_X = tmp_X_all.drop(random_index[j])
166 |                 predict_y = labled_Y.iloc[j]
167 |                 tmp_Y = labled_Y.drop(random_index[j])
168 |                 print(tmp_X)
169 |                 mean_labled_x = tmp_X.mean()
170 |                 print(mean_labled_x)
171 |                 std_labled_x = tmp_X.std()
172 |                 mean_labled_y = tmp_Y.mean()
173 |                 std_labled_y = tmp_Y.std()
174 |                 ##Normalize##
175 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
176 |                 print(X_train_tmp)
177 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
178 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
179 |                 predict_y_nor = (predict_y-mean_labled_y)/std_labled_y
180 | 
181 | 
182 |                 #print(tmp_X.to_numpy())
183 |                 #print(tmp_Y.to_numpy())
184 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
185 |                 #print('alpha',alpha)
186 |                 #print('beta',beta)
187 |                 #print(predict_x)
188 |                 alpha_y = model.predict([predict_x])
189 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
190 |                 print('alpha_y',real_alpha_y[0])
191 | 
192 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
193 |                 tmp_error_nor = alpha_y[0]-predict_y_nor.to_numpy()[0]
194 |                 #print(tmp_error)
195 |                 tmp_error_square = tmp_error * tmp_error
196 |                 tmp_err_nor_square = tmp_error_nor * tmp_error_nor
197 |                 LOO_list.append(tmp_error_square)
198 |                 LOO_nor_list.append(tmp_err_nor_square)
199 |             print(LOO_list)
200 |             error_list.append(np.mean(LOO_list))
201 |             err_nor_list.append(np.mean(LOO_nor_list))
202 | 
203 | 
204 |         min_index = np.argmin(np.array(error_list))
205 |         #print(min_index)
206 |         if i>0:
207 |             if error_list[min_index]>curr_error:
208 |                 return [Feature_set,curr_error_nor]
209 |         curr_error = error_list[min_index]
210 |         curr_error_nor = err_nor_list[min_index]
211 |         Feature_set.append(Feature_candidates[min_index])
212 |         Feature_candidates = Feature_candidates.delete(min_index)
213 |         #print(Feature_candidates)
214 |     return [Feature_set,curr_error_nor]
215 | 
216 | if __name__=="__main__":
217 |     data_samples = pd.read_csv('train_20_feature.csv',index_col=FALSE)
218 |     data_shape = data_samples.shape
219 |     data_columnslable_x = data_samples.columns[:-2]
220 |     data_columnslable_y = data_samples.columns[-1:]
221 |     print(data_columnslable_x)
222 |     print(data_columnslable_y)
223 |     ##split the labeled and unlabeled data
224 |     L = 5
225 |     random_index = [32, 27, 29, 7, 20, 39, 16, 18, 24, 23, 11, 33, 10, 40, 5, 37, 2, 25, 34, 6, 36, 1, 21, 14, 9, 19, 13, 0, 12, 22, 35, 17, 3, 31, 4, 38, 28, 26, 30, 8, 15]
226 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
227 | 
228 | 
229 |     data_labled_x = data_labled[data_columnslable_x]
230 |     data_labled_y = data_labled[data_columnslable_y]
231 |     ####
232 |     Partial_Feature = Sequential_Forward_Selection_corr(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
233 | 
234 |     print(Partial_Feature[0],Partial_Feature[1])
235 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Offline/SFS.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  3 | from sklearn.linear_model import LinearRegression
  4 | import numpy as np
  5 | from numpy import mean,absolute,sqrt
  6 | import copy
  7 | import math
  8 | import pandas as pd
  9 | import random
 10 | 
 11 | def Sequential_Forward_Selection(Features,labeled_X,labled_Y,R):
 12 |     Feature_set = []
 13 |     Feature_candidates = copy.deepcopy(Features)
 14 | 
 15 |     cv = LeaveOneOut()
 16 |     model = LinearRegression(fit_intercept=False)
 17 |     for i in range(R):
 18 |         error_list = []
 19 |         for tmp_Feature in Feature_candidates:
 20 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 21 |             tmp_Feature_set.append(tmp_Feature)
 22 |             tmp_X = labeled_X[tmp_Feature_set]
 23 |             #print(tmp_X)
 24 |             #use LOOCV to evaluate model
 25 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 26 |                          cv=cv, n_jobs=-1)
 27 |             #print(scores)
 28 |             error_list.append(mean(absolute(scores)))
 29 | 
 30 |         min_index = np.argmin(np.array(error_list))
 31 |         #print(min_index)
 32 |         if i>0:
 33 |             if error_list[min_index]>curr_error:
 34 |                 return [Feature_set,curr_error]
 35 |         curr_error = error_list[min_index]
 36 |         Feature_set.append(Feature_candidates[min_index])
 37 |         Feature_candidates = Feature_candidates.delete(min_index)
 38 |         #print(Feature_candidates)
 39 |     return [Feature_set,curr_error]
 40 | 
 41 | 
 42 | def Sequential_Forward_Selection_dc(Features,labeled_X,labled_Y,R):
 43 |     Feature_set = ['dc']
 44 |     Feature_candidates = copy.deepcopy(Features)
 45 | 
 46 |     cv = LeaveOneOut()
 47 |     model = LinearRegression(fit_intercept=False)
 48 |     for i in range(R):
 49 |         error_list = []
 50 |         for tmp_Feature in Feature_candidates:
 51 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 52 |             tmp_Feature_set.append(tmp_Feature)
 53 |             tmp_X = labeled_X[tmp_Feature_set]
 54 |             #print(tmp_X)
 55 |             #use LOOCV to evaluate model
 56 |             scores = cross_val_score(model, tmp_X, labled_Y, scoring='neg_mean_squared_error',
 57 |                          cv=cv, n_jobs=-1)
 58 |             #print(scores)
 59 |             error_list.append(mean(absolute(scores)))
 60 | 
 61 |         min_index = np.argmin(np.array(error_list))
 62 |         #print(min_index)
 63 |         if i>0:
 64 |             if error_list[min_index]>curr_error:
 65 |                 return [Feature_set,curr_error]
 66 |         curr_error = error_list[min_index]
 67 |         Feature_set.append(Feature_candidates[min_index])
 68 |         Feature_candidates = Feature_candidates.delete(min_index)
 69 |         #print(Feature_candidates)
 70 |     return [Feature_set,curr_error]
 71 | 
 72 | 
 73 | 
 74 | 
 75 | def Sequential_Forward_Selection_corr(Features,labeled_X,labled_Y,random_index,L,R):
 76 |     """
 77 |     The input should be original Labeled X, y
 78 |     """
 79 |     
 80 |     
 81 |     Feature_set = []
 82 |     Feature_candidates = copy.deepcopy(Features)
 83 |     
 84 |     for i in range(R):
 85 |         error_list = []
 86 |         for tmp_Feature in Feature_candidates:
 87 |             tmp_Feature_set = copy.deepcopy(Feature_set)
 88 |             tmp_Feature_set.append(tmp_Feature)
 89 |             tmp_X_all = labeled_X[tmp_Feature_set]
 90 |             #print(tmp_X)
 91 |             #use LOOCV to evaluate model
 92 |             LOO_list = []
 93 |             for j in range(L):
 94 |                 model = LinearRegression(fit_intercept=False)
 95 |                 predict_x = tmp_X_all.iloc[j]
 96 |                 tmp_X = tmp_X_all.drop(random_index[j])
 97 |                 predict_y = labled_Y.iloc[j]
 98 |                 tmp_Y = labled_Y.drop(random_index[j])
 99 |                 print(tmp_X)
100 |                 mean_labled_x = tmp_X.mean()
101 |                 print(mean_labled_x)
102 |                 std_labled_x = tmp_X.std()
103 |                 mean_labled_y = tmp_Y.mean()
104 |                 std_labled_y = tmp_Y.std()
105 |                 ##Normalize##
106 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
107 |                 print(X_train_tmp)
108 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
109 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
110 | 
111 | 
112 |                 #print(tmp_X.to_numpy())
113 |                 #print(tmp_Y.to_numpy())
114 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
115 |                 #print('alpha',alpha)
116 |                 #print('beta',beta)
117 |                 #print(predict_x)
118 |                 alpha_y = model.predict([predict_x])
119 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
120 |                 print('alpha_y',real_alpha_y[0])
121 | 
122 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
123 |                 #print(tmp_error)
124 |                 tmp_error_square = tmp_error * tmp_error
125 |                 LOO_list.append(tmp_error_square)
126 |             print(LOO_list)
127 |             error_list.append(np.mean(LOO_list))
128 | 
129 | 
130 |         min_index = np.argmin(np.array(error_list))
131 |         #print(min_index)
132 |         if i>0:
133 |             if error_list[min_index]>curr_error:
134 |                 return [Feature_set,curr_error]
135 |         curr_error = error_list[min_index]
136 |         Feature_set.append(Feature_candidates[min_index])
137 |         Feature_candidates = Feature_candidates.delete(min_index)
138 |         #print(Feature_candidates)
139 |     return [Feature_set,curr_error]
140 | 
141 |     
142 | def Sequential_Forward_Selection_corr_test(Features,labeled_X,labled_Y,random_index,L,R):
143 |     """
144 |     The input should be original Labeled X, y
145 |     """
146 |     
147 |     
148 |     Feature_set = []
149 |     Feature_candidates = copy.deepcopy(Features)
150 |     
151 |     for i in range(R):
152 |         error_list = []
153 |         err_nor_list = []
154 |         for tmp_Feature in Feature_candidates:
155 |             tmp_Feature_set = copy.deepcopy(Feature_set)
156 |             tmp_Feature_set.append(tmp_Feature)
157 |             tmp_X_all = labeled_X[tmp_Feature_set]
158 |             #print(tmp_X)
159 |             #use LOOCV to evaluate model
160 |             LOO_list = []
161 |             LOO_nor_list = []
162 |             for j in range(L):
163 |                 model = LinearRegression(fit_intercept=False)
164 |                 predict_x = tmp_X_all.iloc[j]
165 |                 tmp_X = tmp_X_all.drop(random_index[j])
166 |                 predict_y = labled_Y.iloc[j]
167 |                 tmp_Y = labled_Y.drop(random_index[j])
168 |                 print(tmp_X)
169 |                 mean_labled_x = tmp_X.mean()
170 |                 print(mean_labled_x)
171 |                 std_labled_x = tmp_X.std()
172 |                 mean_labled_y = tmp_Y.mean()
173 |                 std_labled_y = tmp_Y.std()
174 |                 ##Normalize##
175 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
176 |                 print(X_train_tmp)
177 |                 y_train_tmp = (tmp_Y-mean_labled_y)/std_labled_y
178 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
179 |                 predict_y_nor = (predict_y-mean_labled_y)/std_labled_y
180 | 
181 | 
182 |                 #print(tmp_X.to_numpy())
183 |                 #print(tmp_Y.to_numpy())
184 |                 model.fit(X_train_tmp.to_numpy(),y_train_tmp.to_numpy())
185 |                 #print('alpha',alpha)
186 |                 #print('beta',beta)
187 |                 #print(predict_x)
188 |                 alpha_y = model.predict([predict_x])
189 |                 real_alpha_y = (alpha_y[0]*std_labled_y+mean_labled_y).to_numpy()
190 |                 print('alpha_y',real_alpha_y[0])
191 | 
192 |                 tmp_error = (predict_y.to_numpy()[0] - real_alpha_y[0])
193 |                 tmp_error_nor = alpha_y[0]-predict_y_nor.to_numpy()[0]
194 |                 #print(tmp_error)
195 |                 tmp_error_square = tmp_error * tmp_error
196 |                 tmp_err_nor_square = tmp_error_nor * tmp_error_nor
197 |                 LOO_list.append(tmp_error_square)
198 |                 LOO_nor_list.append(tmp_err_nor_square)
199 |             print(LOO_list)
200 |             error_list.append(np.mean(LOO_list))
201 |             err_nor_list.append(np.mean(LOO_nor_list))
202 | 
203 | 
204 |         min_index = np.argmin(np.array(error_list))
205 |         #print(min_index)
206 |         if i>0:
207 |             if error_list[min_index]>curr_error:
208 |                 return [Feature_set,curr_error_nor]
209 |         curr_error = error_list[min_index]
210 |         curr_error_nor = err_nor_list[min_index]
211 |         Feature_set.append(Feature_candidates[min_index])
212 |         Feature_candidates = Feature_candidates.delete(min_index)
213 |         #print(Feature_candidates)
214 |     return [Feature_set,curr_error_nor]
215 | 
216 | if __name__=="__main__":
217 |     data_samples = pd.read_csv('train_20_feature.csv',index_col=FALSE)
218 |     data_shape = data_samples.shape
219 |     data_columnslable_x = data_samples.columns[:-2]
220 |     data_columnslable_y = data_samples.columns[-1:]
221 |     print(data_columnslable_x)
222 |     print(data_columnslable_y)
223 |     ##split the labeled and unlabeled data
224 |     L = 5
225 |     random_index = [32, 27, 29, 7, 20, 39, 16, 18, 24, 23, 11, 33, 10, 40, 5, 37, 2, 25, 34, 6, 36, 1, 21, 14, 9, 19, 13, 0, 12, 22, 35, 17, 3, 31, 4, 38, 28, 26, 30, 8, 15]
226 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
227 | 
228 | 
229 |     data_labled_x = data_labled[data_columnslable_x]
230 |     data_labled_y = data_labled[data_columnslable_y]
231 |     ####
232 |     Partial_Feature = Sequential_Forward_Selection_corr(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
233 | 
234 |     print(Partial_Feature[0],Partial_Feature[1])
235 | 


--------------------------------------------------------------------------------
/PBCT/Data/pri_20_feature.csv:
--------------------------------------------------------------------------------
 1 | ,C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11,C12,C13,C14,C15,C16,C17,C18,C19,C20,Cyclelife,cycle_log
 2 | 0,-2.072647967,-2.541601611,-2.507213266,-0.274040637,0.129790365,0.000767931,-0.000206807,1.091143732,3.53E-05,1.072424693,1.0706892,0.4683652,1.0759126,13.374894,35.994705,29.012251,3097.042122,0.016742354,0.016443744,-7.52E-05,1852,3.267640982
 3 | 1,-1.764057861,-2.34806965,-2.368282615,0.033501873,-0.45762675,-0.000809314,1.03E-05,1.08484612,-4.42E-05,1.089364321,1.0799223,0.0081312,1.0849404,13.35824233,35.127342,29.269444,3084.890135,0.01686798,0,-1.38E-05,2237,3.349665984
 4 | 2,-1.855176959,-2.240331542,-2.323654574,-0.440634335,0.125100669,-0.000916774,1.90E-05,1.081874821,-2.93E-05,1.085538347,1.0784167,0.0058999,1.0826457,12.04185067,35.651741,29.092649,3081.926451,0.016787428,0,-5.33E-05,1709,3.232742063
 5 | 3,-1.421520794,-1.796829547,-1.884221694,-0.389408127,0.092745233,-0.004688861,-4.81E-06,1.081157026,-6.22E-05,1.085484911,1.0758358,0.0063032,1.0792426,10.076479,36.496124,29.495056,3162.727047,0.017001977,0,-0.000333346,636,2.803457116
 6 | 4,-1.54174789,-1.938902016,-2.029474583,-0.368971416,0.072680249,-0.003251318,1.82E-05,1.086771425,-1.30E-05,1.088946321,1.0829742,0.0059757,1.0876312,11.207956,36.799232,29.999718,3198.856716,0.016978227,0.016611163,-3.37E-05,1054,3.022840611
 7 | 5,-1.548306331,-1.922769556,-2.022817664,-0.549054366,0.118359685,-0.002537903,2.62E-05,1.074764977,-1.95E-05,1.07814312,1.0709661,0.0068777,1.0762016,10.764334,37.818813,29.769632,3241.551649,0.017121186,0.016649306,-6.81E-05,880,2.944482672
 8 | 6,-1.5589859,-1.906445029,-2.049489582,-0.910272068,0.089233166,-0.004475491,2.32E-05,1.085288383,-3.06E-05,1.089363988,1.0811664,0.0074255,1.0863206,10.11310767,37.566532,29.542667,3176.911423,0.01683085,0,-1.48E-05,862,2.935507266
 9 | 7,-1.35523443,-1.683979581,-1.824823017,-1.28333827,0.129215481,-0.008717842,-0.000294542,1.101465004,-0.000105866,1.074975859,1.0661705,1.817914,1.0645274,9.958173667,36.084282,29.688587,3119.430903,0.019886132,0.015845969,-0.003994543,691,2.839478047
10 | 8,-1.19667656,-1.484179347,-1.683401449,-0.616772288,0.030486792,-0.021207678,-0.000139776,1.076969671,-0.000233113,1.084587725,1.07263,0.0030942,1.0612478,9.021115,35.504932,29.662241,3150.86638,0.015740737,0,-0.000580528,534,2.727541257
11 | 9,-1.523552178,-1.87482397,-2.020179566,-0.844134617,0.090118977,-0.005262941,-6.95E-06,1.082815554,-2.04E-05,1.083739446,1.0792934,0.004493,1.0816909,11.44700633,36.165897,29.545927,3135.130054,0.016937815,0.016472535,-9.14E-06,1014,3.006037955
12 | 10,-1.531044892,-1.906361465,-2.013727154,-0.446196105,0.093909737,-0.003627993,5.13E-07,1.078821728,-3.22E-05,1.081288054,1.0752345,0.0046786,1.0780438,12.13012667,38.670872,30.400667,3317.175252,0.016699277,0.016397864,-1.13E-05,854,2.931457871
13 | 11,-1.4457275,-1.809270974,-1.926634344,-0.538323647,0.092308315,-0.005440518,-1.08E-05,1.082584738,-1.33E-05,1.082296433,1.0790461,0.0039534,1.0810226,10.79698533,38.178074,30.495707,3321.71633,0.016174601,0.015953196,3.19E-05,842,2.925312091
14 | 12,-1.433345122,-1.779878218,-1.918923597,-0.861287007,0.106707044,-0.0065266,-5.21E-06,1.08304867,-3.73E-05,1.085559155,1.0794537,0.0043492,1.0818107,11.17953533,36.258759,30.240517,3205.023239,0.016626336,0.016308507,1.78E-05,917,2.962369336
15 | 13,-1.403642586,-1.745123636,-1.888649056,-0.955723216,0.094164493,-0.00787256,-2.62E-05,1.09840466,-4.08E-05,1.099446616,1.0946392,0.0036942,1.0953494,10.11367267,31.658901,29.649641,2976.825513,0.016952254,0.016684072,1.07E-05,876,2.942504106
16 | 14,-1.347736431,-1.664510621,-1.833311543,-1.188209862,0.090872478,-0.010515542,-2.18E-05,1.096604067,-4.61E-05,1.098375564,1.0924908,0.0043354,1.0937657,10.14642867,38.728722,30.119719,3299.917552,0.016591828,0.016214989,-1.72E-05,757,2.87909588
17 | 15,-1.407245667,-1.739371983,-1.886085652,-1.024626695,0.113918038,-0.007187952,3.20E-06,1.074344712,-2.63E-05,1.076614707,1.0707464,0.0050792,1.0739936,11.051195,36.075569,29.54327,3145.599717,0.017059039,0.016647711,3.24E-05,703,2.846955325
18 | 16,-1.351203133,-1.711374684,-1.836752191,-0.626213167,0.101669146,-0.006756777,-9.68E-06,1.078523771,-4.38E-05,1.081177342,1.0748194,0.0044724,1.0768065,11.574392,36.993626,29.988958,3230.101432,0.016607935,0.016318144,6.72E-05,648,2.811575006
19 | 17,-1.274546136,-1.611898061,-1.752049604,-0.816723512,0.106255475,-0.009724309,-3.29E-06,1.085827017,-2.56E-05,1.087359352,1.0817773,0.0046894,1.0847629,10.258443,38.024876,30.181021,3283.667684,0.016743599,0.016519627,9.16E-05,625,2.795880017
20 | 18,-1.54505928,-1.908031829,-2.035539729,-0.635718645,0.094453402,-0.004392038,-1.39E-07,1.082893853,-3.19E-05,1.085361975,1.0789614,0.0049075,1.0821686,12.087368,37.576675,30.021296,3241.202769,0.016856873,0.016552322,-9.89E-07,1051,3.021602716
21 | 19,-1.350607789,-1.717476973,-1.83367228,-0.624787306,0.114815318,-0.006383537,-2.40E-05,1.07174695,-3.97E-05,1.072803769,1.0682389,0.0034321,1.0688359,11.17087433,37.725166,30.034327,3267.260796,0.016111452,0.015904058,0.000127854,651,2.813580989
22 | 20,-1.226187894,-1.539612031,-1.712428862,-0.938555944,0.107343088,-0.015948906,-1.29E-05,1.087818373,-3.90E-05,1.089747546,1.0839558,0.0044825,1.0858277,10.25446533,37.855122,29.696999,3234.117647,0.016685704,0.016382927,0.000150384,599,2.777426822
23 | 21,-0.860038351,-1.109668103,-1.363233208,-0.031051806,-0.292914219,-0.0907911,-0.001092105,1.084408327,-0.001405749,1.109249796,1.0720705,0.0015459,0.96833885,10.32765733,38.543324,27.851921,3176.440781,0.017582141,0.016267318,-0.000832979,148,2.170261715
24 | 22,-0.996792629,-1.246301958,-1.464555834,-0.374624865,0.01478523,-0.044899376,-0.000227374,1.072520538,-0.000355322,1.082344632,1.0668509,0.0020589,1.046734,10.135263,39.808941,29.275244,3298.505686,0.016825944,0.015852956,-0.000333825,335,2.525044807
25 | 23,-1.317856778,-1.653251108,-1.801130253,-1.100566218,0.105057355,-0.00985517,-1.14E-06,1.072032036,-7.46E-05,1.078154133,1.0680153,0.0050053,1.070745,10.16286633,36.829567,29.224894,3141.087363,0.017180175,0.016727364,-0.000308501,480,2.681241237
26 | 24,-1.315854095,-1.628843703,-1.812939444,-0.78113063,0.037838938,-0.013147319,-6.00E-05,1.074592569,-0.000165943,1.083473019,1.0690521,0.0048897,1.0670482,10.114951,39.457458,29.682396,3274.369054,0.018265773,0.017548179,-0.000579358,561,2.748962861
27 | 25,-1.177533343,-1.455802392,-1.65983767,-0.453949117,0.035080705,-0.024080687,-0.000148013,1.076501974,-0.000243721,1.084382516,1.0712759,0.4178432,1.0600308,10.17263867,39.435226,29.859741,3292.733011,0.017133227,0.016133603,-0.000956277,458,2.660865478
28 | 26,-1.282073166,-1.613205991,-1.749158647,-0.947698474,0.121548082,-0.010206932,-3.97E-06,1.082271562,-4.31E-05,1.085222101,1.0780684,0.0048147,1.0809475,10.114209,38.206268,29.854347,3221.053821,0.017164165,0.016895344,-0.000133067,485,2.685741739
29 | 27,-1.256229522,-1.576485457,-1.763610069,-1.001823429,0.004996959,-0.01603237,-8.16E-05,1.06828311,-0.000141642,1.072919504,1.063838,0.0037714,1.0588086,10.18597433,38.70813,29.016958,3229.927635,0.017536523,0.016697574,-0.000435537,487,2.687528961
30 | 28,-1.359308707,-1.679684478,-1.860250972,-1.071780486,0.035815002,-0.01060556,-6.30E-06,1.088277042,-8.80E-05,1.094967578,1.0831043,0.0063896,1.0862604,10.147933,38.40601,29.268984,3199.8853,0.017545482,0.017116761,-9.67E-05,502,2.700703717
31 | 29,-1.295833799,-1.625600205,-1.776956175,-1.271819313,0.103376173,-0.011103328,-8.08E-06,1.084615931,-8.59E-05,1.091102888,1.079723,0.0056468,1.0825431,10.14747167,36.146839,29.35239,3129.147508,0.017338831,0.016888004,-0.000345537,513,2.710117365
32 | 30,-1.35617917,-1.708177397,-1.847683699,-0.851878767,0.070388087,-0.008578796,2.77E-06,1.071938919,-8.55E-05,1.079509,1.0679682,0.0054579,1.0710108,10.058893,36.811321,26.808544,2947.781955,0.017488673,0.016777694,-0.000260558,495,2.694605199
33 | 31,-1.229542591,-1.5404255,-1.703363231,-1.125729639,0.117483669,-0.015056322,-3.70E-05,1.082561314,-0.000123453,1.089652165,1.0766411,0.0058852,1.0773104,10.00823233,36.585075,29.097336,3102.652549,0.018048871,0.017301282,-0.000577019,471,2.673020907
34 | 32,-1.286735986,-1.617675048,-1.760922583,-0.880585497,0.113089,-0.010281161,6.73E-06,1.076352866,-5.91E-05,1.082173513,1.07155,0.0063132,1.0759076,10.13968633,38.591679,29.461449,3240.364394,0.017233955,0.01686197,-8.50E-05,509,2.706717782
35 | 33,-1.325416644,-1.68269549,-1.802179826,-0.700897629,0.110284867,-0.007184448,8.46E-06,1.071719845,-6.42E-05,1.07765363,1.0672802,0.0058776,1.071249,10.09733367,37.101799,29.613438,3175.880694,0.017789029,0.017394017,-0.00031568,481,2.682145076
36 | 34,-1.237979444,-1.616384877,-1.743317803,-0.681143843,0.115776588,-0.008924289,1.78E-05,1.078764532,-3.53E-05,1.083118649,1.0742669,0.0066598,1.0795146,10.13043933,39.249191,29.45435,3258.621233,0.017645668,0.017273866,0.000109414,519,2.715167358
37 | 35,-1.372643592,-1.728728015,-1.851501363,-0.898147393,0.12951776,-0.005705056,2.09E-05,1.073610613,-5.00E-05,1.079649324,1.0688509,0.0068526,1.0746909,10.164115,38.83897,30.105608,3276.273487,0.017662423,0.017337065,-0.00014857,499,2.698100546
38 | 36,-1.309596445,-1.689763433,-1.781809923,-0.482088116,0.120810095,-0.005446508,2.41E-05,1.083945036,-3.12E-05,1.088271479,1.079731,0.0063388,1.0852383,10.14772167,39.087948,29.841801,3274.543878,0.02021559,0.020022187,9.95E-05,535,2.728353782
39 | 37,-1.289183904,-1.607177777,-1.767903376,-1.393010048,0.120361724,-0.011827637,1.65E-05,1.074105116,-4.34E-05,1.078955405,1.0699497,0.0057986,1.074622,10.14849333,37.465702,29.400135,3153.077772,0.017847016,0.017577264,-3.57E-05,465,2.667452953
40 | 38,-1.298509866,-1.621650674,-1.779714086,-1.500458354,0.118415814,-0.011114882,-1.99E-05,1.082268664,-5.40E-05,1.085115201,1.0765519,0.0065683,1.0798434,10.13158333,39.397137,29.524549,3267.607207,0.017582053,0.016943704,-0.000469548,499,2.698100546
41 | 39,-1.301274614,-1.625376932,-1.793430444,-1.115133257,0.094905113,-0.012084104,1.18E-05,1.082518045,-6.92E-05,1.089385525,1.0780239,0.0060867,1.082616,10.13045433,39.339207,29.589365,3247.579941,0.017394457,0.016997622,-9.30E-05,466,2.668385917
42 | 40,-1.244631657,-1.577171966,-1.726073413,-1.389834643,0.111611938,-0.01248278,2.23E-05,1.075213642,-2.26E-05,1.078684715,1.070887,0.4738314,1.0763599,10.14690533,39.444595,29.683577,3236.6924,0.01761589,0.017408777,0.000186326,457,2.6599162
43 | 41,-1.219913247,-1.521692046,-1.684254412,-1.20553435,0.132095028,-0.015151973,2.94E-05,1.077631966,-1.32E-05,1.080845185,1.0726138,0.0073842,1.0795197,10.14691733,37.894932,29.27129,3166.380862,0.017752018,0.017551575,0.000247778,429,2.632457292
44 | 42,-1.528514098,-1.921233625,-2.016748066,-0.566280441,0.083097651,-0.003747603,-9.55E-06,1.049389155,-7.97E-05,1.054948215,1.0421375,0.0081127,1.0470229,10.112717,36.923679,29.348475,3175.861056,0.017923383,0.017025596,-0.000836281,713,2.85308953


--------------------------------------------------------------------------------
/PBCT/Offline/PBCT_offline.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | import pandas as pd
  3 | from SFS import Sequential_Forward_Selection_corr_test
  4 | from sklearn.linear_model import LinearRegression
  5 | from solve_loss import solve_loss
  6 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  7 | import numpy as np
  8 | import math
  9 | import sklearn
 10 | import random
 11 | import matplotlib.pyplot as plt
 12 | 
 13 | 
 14 | def PBCT_log(csv_name,L,U,random_index,repeated_num,coef_file):
 15 |     """
 16 |     csv_name: name of the file of dataset
 17 |     L:number of labeled data
 18 |     U:number of unlabeled data
 19 |     random_index: a random sample of all the index of data
 20 |     repeat_num: random experiment index
 21 |     coef_file: file to store the coef of learned model parameter
 22 | 
 23 |     """
 24 | 
 25 |     data_samples = pd.read_csv(csv_name+'.csv',index_col=FALSE)
 26 |     data_shape = data_samples.shape
 27 |     data_columnslable_x = data_samples.columns[:-2]
 28 |     data_columnslable_y = data_samples.columns[-1:]
 29 | 
 30 |     print('labeled_num',L)
 31 |     data_labled = data_samples.loc[random_index[:L]]  
 32 |     data_unlabled = data_samples.loc[random_index[-U:]]
 33 |     print('unlabled_num',U)
 34 | 
 35 | 
 36 |     data_labled_x = data_labled[data_columnslable_x]
 37 |     data_labled_y = data_labled[data_columnslable_y]
 38 |     data_unlabled_x = data_unlabled[data_columnslable_x]
 39 |     data_unlabled_y = data_unlabled[data_columnslable_y]
 40 |     ####Nomalize####
 41 |     mean_labled_x = data_labled_x.mean()
 42 |     std_labled_x = data_labled_x.std()
 43 | 
 44 |     mean_labled_y = data_labled_y.mean()
 45 |     std_labled_y = data_labled_y.std()
 46 |     #print("std_y",std_labled_y)
 47 | 
 48 |     X_train_labled = (data_labled_x-mean_labled_x)/std_labled_x
 49 |     #print(X_train_labled)
 50 |     X_train_unlabled = (data_unlabled_x-mean_labled_x)/std_labled_x
 51 |     y_train = (data_labled_y-mean_labled_y)/std_labled_y
 52 |     y_test = (data_unlabled_y-mean_labled_y)/std_labled_y
 53 |     #################
 54 | 
 55 |     ####build Partial model####
 56 |     Partial_feature_var2 = Sequential_Forward_Selection_corr_test(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
 57 |     Partial_feature = Partial_feature_var2[0]
 58 |     print('var features for'+str(L)+' '+'repeated_num '+str(repeated_num)+'is', Partial_feature)
 59 |  
 60 | 
 61 |     ZL = data_labled_x[Partial_feature]
 62 |     ZU = data_unlabled_x[Partial_feature]
 63 |     var2 = Partial_feature_var2[1]
 64 |     print('var2 is ',var2)
 65 |     #var2 = max(1e-8,var2)
 66 |     #print('var2 is ',var2)
 67 |     ########################
 68 |     cv = LeaveOneOut()
 69 | 
 70 |     #######this part should be checked#####
 71 |     lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10])
 72 |     Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
 73 |     print('alpha of lasso is',Reg_lasso.alpha_)
 74 | 
 75 |     ####find the var1####
 76 |     V = [0.5,1,2,5,10]
 77 |     print('current V',V)
 78 |     var1_candidate_set = [i*var2 for i in V] ##
 79 |     l5_candidate = [10,100]
 80 |     #V = 5
 81 |     #var1_candidate_set = [math.pow(0.1,V)*0.05*var2 for i in range(V)] 
 82 |     LOO_list = []
 83 | 
 84 |     for i in range(len(V)):
 85 |         for m in range(len(l5_candidate)):
 86 |             tmp_var1 = var1_candidate_set[i]
 87 |             l1 = 1/2/tmp_var1
 88 |             l2 = 1/2/var2
 89 |             l3 = 0
 90 |             l4 = 1/2/(tmp_var1+var2)
 91 |             #l5 = 0
 92 |             l5 = l1*l5_candidate[m]
 93 |             error_list = []
 94 |             for j in range(L):
 95 |                 predict_x = data_labled_x.iloc[j]
 96 |                 tmp_X = data_labled_x.drop(random_index[j])
 97 |                 tmp_ZL = ZL.drop(random_index[j])
 98 |                 predict_y = data_labled_y.iloc[j]
 99 |                 tmp_y = data_labled_y.drop(random_index[j])
100 | 
101 |                 ##Normalize##
102 |                 mean_labled_x = tmp_X.mean()
103 |                 std_labled_x = tmp_X.std()
104 |                 mean_labled_y = tmp_y.mean()
105 |                 std_labled_y = tmp_y.std()
106 |                 mean_labled_z = tmp_ZL.mean()
107 |                 std_labled_z = tmp_ZL.std()
108 | 
109 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
110 |                 y_train_tmp = (tmp_y-mean_labled_y)/std_labled_y
111 |                 X_train_unlabled_tmp = (data_unlabled_x-mean_labled_x)/std_labled_x
112 | 
113 |                 tmp_ZL = (tmp_ZL-mean_labled_z)/std_labled_z
114 |                 tmp_ZU = (ZU-mean_labled_z)/std_labled_z
115 | 
116 | 
117 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
118 | 
119 | 
120 |                 alpha,beta = solve_loss(y_train_tmp.to_numpy().ravel(),X_train_tmp.to_numpy(),tmp_ZL.to_numpy(),
121 |                         X_train_unlabled_tmp.to_numpy(),tmp_ZU.to_numpy(),l1,l2,l3,l4,l5)
122 | 
123 |                 real_predict_y = predict_y.to_numpy()
124 |                 alpha_y = np.matmul(alpha.T,predict_x.to_numpy())
125 |                 real_alpha_y = (alpha_y*std_labled_y+mean_labled_y).to_numpy()
126 |                 #print('real_alpha_y',real_alpha_y[0])
127 | 
128 |                 tmp_error = (real_predict_y[0] - real_alpha_y[0])
129 |                 tmp_error_square = tmp_error * tmp_error
130 |                 error_list.append(tmp_error_square)
131 |             LOO_list.append(np.mean(error_list))
132 |     #print(LOO_list)
133 |     var1_index = np.argmin(np.array(LOO_list))
134 |     print(var1_index)
135 |     l1_index = var1_index // len(l5_candidate)
136 |     print(l1_index)
137 |     l5_index = var1_index % len(l5_candidate)
138 |     print(l5_index) 
139 |     #######################
140 |     print('var1_index',var1_index)
141 |     ####get the optimal alpha and beta####
142 |     l1 = 1/2/var1_candidate_set[l1_index]
143 |     l2 = 1/2/var2
144 |     l3 = 0
145 |     l4 = 1/2/(var1_candidate_set[l1_index]+var2)
146 |     l5 = l1*l5_candidate[l5_index]
147 | 
148 |     ZL_all = X_train_labled[Partial_feature]
149 |     ZU_all = X_train_unlabled[Partial_feature]
150 | 
151 | 
152 | 
153 |     alpha,beta = solve_loss(y_train.to_numpy().ravel(),X_train_labled.to_numpy(),ZL_all.to_numpy(),
154 |                         X_train_unlabled.to_numpy(),ZU_all.to_numpy(),l1,l2,l3,l4,l5)
155 |     print('alpha is ',alpha)
156 |     print('beta is',beta)
157 |     Loss = (l1*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(X_train_labled.to_numpy(),alpha)),2)+
158 |             l2*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(ZL.to_numpy(),beta)),2)+
159 |             l3*math.pow(np.linalg.norm(np.matmul(X_train_labled.to_numpy(),alpha)-np.matmul(ZL.to_numpy(),beta)),2)+
160 |             l4*math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
161 |     #check_loss(y_train,X_train_labled,ZL,
162 |     #                    X_train_unlabled,ZU,l1,l2,l3,l4,alpha,beta,Loss)
163 |     #print('Loss',math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
164 |     #####################################
165 | 
166 | 
167 |     ####start to test######
168 |     test_err_list = []
169 |     err_percent_list = []
170 |     for i in range(y_test.shape[0]):
171 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
172 |         tmp_pre = np.matmul(alpha.T,X_train_unlabled.iloc[i].to_numpy())*std_labled_y+mean_labled_y
173 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
174 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
175 |         tmp_error_square = tmp_error * tmp_error
176 |         test_err_list.append(tmp_error_square)
177 |         err_percent_list.append(tmp_percent_err)
178 | 
179 |     print('PBCT_RMSE',np.sqrt(np.mean(test_err_list)))
180 |     print('PBCT_ERR',np.mean(err_percent_list))
181 |     
182 |     PBCT_RMSE = np.sqrt(np.mean(test_err_list))
183 |     PBCT_ERR = np.mean(err_percent_list)
184 |     #print(LOO_list)
185 |     test0_err_list = []
186 |     err0_percent_list = []
187 |     for i in range(y_test.shape[0]):
188 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
189 |         tmp_pre = np.matmul(beta.T,ZU_all.iloc[i].to_numpy())*std_labled_y+mean_labled_y
190 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
191 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
192 |         tmp_error_square = tmp_error * tmp_error
193 |         test0_err_list.append(tmp_error_square)
194 |         err0_percent_list.append(tmp_percent_err)
195 | 
196 |     print('PBCT_beta_RMSE',np.sqrt(np.mean(test0_err_list)))
197 |     print('PBCT_beta_ERR',np.mean(err0_percent_list))
198 |     PBCT_beta_RMSE = np.sqrt(np.mean(test0_err_list))
199 |     PBCT_beta_ERR = np.mean(err0_percent_list)
200 | 
201 |     ###LinearRegreesion normalized manually####
202 |     model = LinearRegression(fit_intercept=False)
203 |     
204 |     #print('Z_train_shape',ZL_all.to_numpy().shape)
205 |     Reg = model.fit(ZL_all.to_numpy(), y_train.to_numpy())
206 |     test1_err_list = []
207 |     err1_percent_list = []
208 |     for i in range(y_test.shape[0]):
209 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
210 |         tmp_pre = Reg.predict([ZU_all.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
211 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
212 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
213 |         tmp_error_square = tmp_error * tmp_error
214 |         test1_err_list.append(tmp_error_square)
215 |         err1_percent_list.append(tmp_percent_err)
216 |     print('LS_beta_RMSE',np.sqrt(np.mean(test1_err_list)))
217 |     print('LS_beta_ERR',np.mean(err1_percent_list))
218 | 
219 |     LS_beta_RMSE = np.sqrt(np.mean(test1_err_list))
220 |     LS_beta_ERR = np.mean(err1_percent_list)
221 | 
222 | 
223 |     test2_err_list = []
224 |     err2_percent_list = []
225 |     for i in range(y_test.shape[0]):
226 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
227 |         tmp_pre = Reg_lasso.predict([X_train_unlabled.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
228 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
229 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
230 |         tmp_error_square = tmp_error * tmp_error
231 |         test2_err_list.append(tmp_error_square)
232 |         err2_percent_list.append(tmp_percent_err)
233 |     print('LS_lasso_RMSE',np.sqrt(np.mean(test2_err_list)))
234 |     print('LS_lasso_ERR',np.mean(err2_percent_list))
235 |     LS_lasso_RMSE = np.sqrt(np.mean(test2_err_list))
236 |     LS_lasso_ERR = np.mean(err2_percent_list)
237 |     l1_ratio_list = [0.05,0.2,0.4,0.6,0.8,0.95]
238 |     elasticNet_model = sklearn.linear_model.ElasticNetCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10],l1_ratio = l1_ratio_list)
239 |     Reg_elasticnet = elasticNet_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
240 |     print('alpha and l1_ratio of elasticNet is',Reg_elasticnet.alpha_,Reg_elasticnet.l1_ratio_)
241 | 
242 |     test3_err_list = []
243 |     err3_percent_list = []
244 |     for i in range(y_test.shape[0]):
245 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
246 |         tmp_pre = Reg_elasticnet.predict([X_train_unlabled.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
247 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
248 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
249 |         tmp_error_square = tmp_error * tmp_error
250 |         test3_err_list.append(tmp_error_square)
251 |         err3_percent_list.append(tmp_percent_err)
252 |     print('LS_elasnet_RMSE',np.sqrt(np.mean(test3_err_list)))
253 |     print('LS_elasnet_ERR',np.mean(err3_percent_list))
254 |     LS_elasnet_RMSE = np.sqrt(np.mean(test3_err_list))
255 |     LS_elasnet_ERR = np.mean(err3_percent_list)
256 | 
257 | 
258 |     coef_list = []
259 |     coef_list.append(Reg.coef_[0])
260 |     coef_list.append(np.array([v for v in Reg_lasso.coef_]))
261 |     coef_list.append(np.array([v for v in Reg_elasticnet.coef_]))
262 |     coef_list.append(np.array([v for v in alpha.ravel()]))
263 |     coef_list.append(np.array(beta.ravel()))
264 |     tmp_df = pd.DataFrame(data = coef_list)
265 |     tmp_df.to_csv(coef_file+str(L)+'_'+str(repeated_num)+'.csv',index = False, header = False)
266 |     return PBCT_RMSE,  PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE
267 | 
268 | if __name__=="__main__":
269 |     repeated_num = 200
270 |     coef_file = './tmp_coef_file/'
271 |     all_average = {}
272 |     all_median = {}
273 |     csv_name = '../Data/pri_20_feature'
274 |     file_name =   'tmp_file'
275 |     unlabeled_num = 25
276 |     data_num = 43
277 |     random_index = [random.sample(range(data_num),data_num) for i in range(repeated_num)]
278 |     for sweep_num in range(7,16):
279 |         tmp_dict ={}
280 |         all_list  = []
281 |         for i in range(repeated_num):
282 |             print('the ',i+1,'-th result')
283 |             PBCT_RMSE,  PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE = PBCT_log(csv_name,sweep_num,unlabeled_num,random_index[i],i,coef_file)
284 |             tmp_dict[i] = [PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE]
285 |             all_list.append(tmp_dict[i])
286 |         average_array = np.mean(np.array(all_list),axis = 0)
287 |         median_array = np.median(np.array(all_list),axis = 0)
288 |         tmp_dict['average'] = average_array
289 |         tmp_dict['median'] = median_array
290 |         all_average[sweep_num] = average_array
291 |         all_median[sweep_num] = median_array
292 |         df = pd.DataFrame(tmp_dict)
293 |         df.to_csv('./'+file_name+'/'+csv_name+'_result_PBCT_'+str(sweep_num)+'_offline.csv',index=False)
294 |     avg_all = pd.DataFrame(all_average)
295 |     median_all = pd.DataFrame(all_median)
296 |     avg_all.to_csv('./'+file_name+'/offline_avg'+'.csv',index = False)
297 |     median_all.to_csv('./'+file_name+'/offline_median'+'.csv',index = False)
298 | 
299 | 
300 | 
301 | 
302 | 
303 | 
304 | 
305 | 


--------------------------------------------------------------------------------
/PBCT/Online/PBCT_online.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | import pandas as pd
  3 | from SFS import Sequential_Forward_Selection_corr_test
  4 | from sklearn.linear_model import LinearRegression
  5 | from solve_loss import solve_loss
  6 | #from solve_loss import solve_loss
  7 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  8 | import numpy as np
  9 | import math
 10 | import sklearn
 11 | import random
 12 | import matplotlib.pyplot as plt
 13 | 
 14 | def PBCT_log(csv_name,L,U,Upper_var1,train_index,test_index,repeated_num,coef_file):
 15 |     data_samples = pd.read_csv(csv_name+'.csv',index_col=FALSE)
 16 |     data_shape = data_samples.shape
 17 |     data_columnslable_x = data_samples.columns[:-2]
 18 |     data_columnslable_y = data_samples.columns[-1:]
 19 |     print(data_columnslable_x)
 20 |     print(data_columnslable_y)
 21 |     ##split the labeled and unlabeled data
 22 |     #labeled_ratio = 0.10
 23 |     #L = int(data_shape[0]*labeled_ratio)
 24 |     #L = 12
 25 |     #U = 20 
 26 |     #random_index = random.sample(range(120),L+U)
 27 |     print('labeled_num',L)
 28 |     random_index = train_index
 29 | 
 30 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
 31 |     #print(data_labled)
 32 |     data_unlabled = data_samples.loc[random_index[-U:]]
 33 |     data_test = data_samples.loc[test_index]
 34 |     #print(data_unlabled)
 35 |     print('unlabled_num',U)
 36 |     #print(data_labled)
 37 |     #print(data_unlabled)
 38 | 
 39 |     data_labled_x = data_labled[data_columnslable_x]
 40 |     data_labled_y = data_labled[data_columnslable_y]
 41 |     data_unlabled_x = data_unlabled[data_columnslable_x]
 42 |     data_unlabled_y = data_unlabled[data_columnslable_y]
 43 |     data_test_x = data_test[data_columnslable_x]
 44 |     data_test_y = data_test[data_columnslable_y]
 45 |     ####Nomalize####
 46 |     mean_labled_x = data_labled_x.mean()
 47 |     std_labled_x = data_labled_x.std()
 48 | 
 49 |     mean_labled_y = data_labled_y.mean()
 50 |     std_labled_y = data_labled_y.std()
 51 |     print("std_y",std_labled_y)
 52 | 
 53 |     X_train_labled = (data_labled_x-mean_labled_x)/std_labled_x
 54 |     print(X_train_labled)
 55 |     X_train_unlabled = (data_unlabled_x-mean_labled_x)/std_labled_x
 56 |     y_train = (data_labled_y-mean_labled_y)/std_labled_y
 57 |     X_test = (data_test_x-mean_labled_x)/std_labled_x
 58 |     y_test = (data_test_y-mean_labled_y)/std_labled_y
 59 |     #################
 60 | 
 61 |     ####build Partial model####
 62 |     Partial_feature_var2 = Sequential_Forward_Selection_corr_test(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
 63 |     Partial_feature = Partial_feature_var2[0]
 64 |     print(Partial_feature)
 65 | 
 66 | 
 67 |     ZL = data_labled_x[Partial_feature]
 68 |     ZU = data_unlabled_x[Partial_feature]
 69 |     Z_test = X_test[Partial_feature]
 70 |     #var2 = max(Partial_feature_var2[1],1e-3)
 71 |     var2 = Partial_feature_var2[1]
 72 |     print('var2 is ',var2)
 73 |     #var2 = max(1e-8,var2)
 74 |     #print('var2 is ',var2)
 75 |     ########################
 76 |     cv = LeaveOneOut()
 77 | 
 78 |     #######this part should be checked#####
 79 |     lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10])
 80 |     Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
 81 |     print('alpha of lasso is',Reg_lasso.alpha_)
 82 | 
 83 |     ####find the var1####
 84 |     V = [0.5,1,2,5,10]
 85 |     print('current V',V)
 86 |     var1_candidate_set = [Upper_var1*i*var2 for i in V] ##
 87 |     l5_candidate = [10,100]
 88 |     #V = 5
 89 |     #var1_candidate_set = [math.pow(0.1,V)*0.05*var2 for i in range(V)] 
 90 |     LOO_list = []
 91 | 
 92 |     for i in range(len(V)):
 93 |         for m in range(len(l5_candidate)):
 94 |             tmp_var1 = var1_candidate_set[i]
 95 |             l1 = 1/2/tmp_var1
 96 |             l2 = 1/2/var2
 97 |             l3 = 0
 98 |             l4 = 1/2/(tmp_var1+var2)
 99 |             #l5 = 0
100 |             l5 = l1*l5_candidate[m]
101 |             error_list = []
102 |             for j in range(L):
103 |                 predict_x = data_labled_x.iloc[j]
104 |                 tmp_X = data_labled_x.drop(random_index[j])
105 |                 tmp_ZL = ZL.drop(random_index[j])
106 |                 predict_y = data_labled_y.iloc[j]
107 |                 tmp_y = data_labled_y.drop(random_index[j])
108 | 
109 |                 ##Normalize##
110 |                 mean_labled_x = tmp_X.mean()
111 |                 std_labled_x = tmp_X.std()
112 |                 mean_labled_y = tmp_y.mean()
113 |                 std_labled_y = tmp_y.std()
114 |                 mean_labled_z = tmp_ZL.mean()
115 |                 std_labled_z = tmp_ZL.std()
116 | 
117 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
118 |                 y_train_tmp = (tmp_y-mean_labled_y)/std_labled_y
119 |                 X_train_unlabled_tmp = (data_unlabled_x-mean_labled_x)/std_labled_x
120 | 
121 |                 tmp_ZL = (tmp_ZL-mean_labled_z)/std_labled_z
122 |                 tmp_ZU = (ZU-mean_labled_z)/std_labled_z
123 | 
124 | 
125 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
126 | 
127 | 
128 |                 alpha,beta = solve_loss(y_train_tmp.to_numpy().ravel(),X_train_tmp.to_numpy(),tmp_ZL.to_numpy(),
129 |                         X_train_unlabled_tmp.to_numpy(),tmp_ZU.to_numpy(),l1,l2,l3,l4,l5)
130 | 
131 |                 real_predict_y = predict_y.to_numpy()
132 |                 alpha_y = np.matmul(alpha.T,predict_x.to_numpy())
133 |                 real_alpha_y = (alpha_y*std_labled_y+mean_labled_y).to_numpy()
134 | 
135 |                 tmp_error = (real_predict_y[0] - real_alpha_y[0])
136 |                 tmp_error_square = tmp_error * tmp_error
137 |                 error_list.append(tmp_error_square)
138 |             LOO_list.append(np.mean(error_list))
139 |     print(LOO_list)
140 |     var1_index = np.argmin(np.array(LOO_list))
141 |     print(var1_index)
142 |     l1_index = var1_index // len(l5_candidate)
143 |     print(l1_index)
144 |     l5_index = var1_index % len(l5_candidate)
145 |     print(l5_index) 
146 |     #######################
147 |     print('var1_index',var1_index)
148 |     ####get the optimal alpha and beta####
149 |     l1 = 1/2/var1_candidate_set[l1_index]
150 |     l2 = 1/2/var2
151 |     l3 = 0
152 |     l4 = 1/2/(var1_candidate_set[l1_index]+var2)
153 |     l5 = l1*l5_candidate[l5_index]
154 | 
155 |     ZL_all = X_train_labled[Partial_feature]
156 |     ZU_all = X_train_unlabled[Partial_feature]
157 | 
158 | 
159 | 
160 |     alpha,beta = solve_loss(y_train.to_numpy().ravel(),X_train_labled.to_numpy(),ZL_all.to_numpy(),
161 |                         X_train_unlabled.to_numpy(),ZU_all.to_numpy(),l1,l2,l3,l4,l5)
162 |     print('alpha is ',alpha)
163 |     print('beta is',beta)
164 |     Loss = (l1*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(X_train_labled.to_numpy(),alpha)),2)+
165 |             l2*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(ZL.to_numpy(),beta)),2)+
166 |             l3*math.pow(np.linalg.norm(np.matmul(X_train_labled.to_numpy(),alpha)-np.matmul(ZL.to_numpy(),beta)),2)+
167 |             l4*math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
168 |     #check_loss(y_train,X_train_labled,ZL,
169 |     #                    X_train_unlabled,ZU,l1,l2,l3,l4,alpha,beta,Loss)
170 |     print('Loss',math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
171 |     #####################################
172 | 
173 | 
174 |     ####start to test######
175 |     test_err_list = []
176 |     err_percent_list = []
177 |     for i in range(y_test.shape[0]):
178 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
179 |         tmp_pre = np.matmul(alpha.T,X_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
180 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
181 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
182 |         tmp_error_square = tmp_error * tmp_error
183 |         test_err_list.append(tmp_error_square)
184 |         err_percent_list.append(tmp_percent_err)
185 | 
186 |     print('PBCT_RMSE',np.sqrt(np.mean(test_err_list)))
187 |     print('PBCT_ERR',np.mean(err_percent_list))
188 |     
189 |     PBCT_RMSE = np.sqrt(np.mean(test_err_list))
190 |     PBCT_ERR = np.mean(err_percent_list)
191 |     #print(LOO_list)
192 |     test0_err_list = []
193 |     err0_percent_list = []
194 |     for i in range(y_test.shape[0]):
195 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
196 |         tmp_pre = np.matmul(beta.T,Z_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
197 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
198 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
199 |         tmp_error_square = tmp_error * tmp_error
200 |         test0_err_list.append(tmp_error_square)
201 |         err0_percent_list.append(tmp_percent_err)
202 | 
203 |     print('PBCT_beta_RMSE',np.sqrt(np.mean(test0_err_list)))
204 |     print('PBCT_beta_ERR',np.mean(err0_percent_list))
205 |     PBCT_beta_RMSE = np.sqrt(np.mean(test0_err_list))
206 |     PBCT_beta_ERR = np.mean(err0_percent_list)
207 | 
208 |     ###LinearRegreesion normalized manually####
209 |     model = LinearRegression(fit_intercept=False)
210 |     
211 |     print('Z_train_shape',ZL_all.to_numpy().shape)
212 |     Reg = model.fit(ZL_all.to_numpy(), y_train.to_numpy())
213 |     test1_err_list = []
214 |     err1_percent_list = []
215 |     for i in range(y_test.shape[0]):
216 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
217 |         tmp_pre = Reg.predict([Z_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
218 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
219 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
220 |         tmp_error_square = tmp_error * tmp_error
221 |         test1_err_list.append(tmp_error_square)
222 |         err1_percent_list.append(tmp_percent_err)
223 |     print('LS_beta_RMSE',np.sqrt(np.mean(test1_err_list)))
224 |     print('LS_beta_ERR',np.mean(err1_percent_list))
225 | 
226 |     LS_beta_RMSE = np.sqrt(np.mean(test1_err_list))
227 |     LS_beta_ERR = np.mean(err1_percent_list)
228 | 
229 | 
230 |     test2_err_list = []
231 |     err2_percent_list = []
232 |     for i in range(y_test.shape[0]):
233 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
234 |         tmp_pre = Reg_lasso.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
235 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
236 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
237 |         tmp_error_square = tmp_error * tmp_error
238 |         test2_err_list.append(tmp_error_square)
239 |         err2_percent_list.append(tmp_percent_err)
240 |     print('LS_lasso_RMSE',np.sqrt(np.mean(test2_err_list)))
241 |     print('LS_lasso_ERR',np.mean(err2_percent_list))
242 |     LS_lasso_RMSE = np.sqrt(np.mean(test2_err_list))
243 |     LS_lasso_ERR = np.mean(err2_percent_list)
244 |     l1_ratio_list = [0.05,0.2,0.4,0.6,0.8,0.95]
245 |     elasticNet_model = sklearn.linear_model.ElasticNetCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10],l1_ratio = l1_ratio_list)
246 |     Reg_elasticnet = elasticNet_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
247 |     print('alpha and l1_ratio of elasticNet is',Reg_elasticnet.alpha_,Reg_elasticnet.l1_ratio_)
248 | 
249 |     test3_err_list = []
250 |     err3_percent_list = []
251 |     for i in range(y_test.shape[0]):
252 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
253 |         tmp_pre = Reg_elasticnet.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
254 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
255 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
256 |         tmp_error_square = tmp_error * tmp_error
257 |         test3_err_list.append(tmp_error_square)
258 |         err3_percent_list.append(tmp_percent_err)
259 |     print('LS_elasnet_RMSE',np.sqrt(np.mean(test3_err_list)))
260 |     print('LS_elasnet_ERR',np.mean(err3_percent_list))
261 |     LS_elasnet_RMSE = np.sqrt(np.mean(test3_err_list))
262 |     LS_elasnet_ERR = np.mean(err3_percent_list)
263 | 
264 | 
265 |     coef_list = []
266 |     coef_list.append(Reg.coef_[0])
267 |     coef_list.append(np.array([v for v in Reg_lasso.coef_]))
268 |     coef_list.append(np.array([v for v in Reg_elasticnet.coef_]))
269 |     coef_list.append(np.array([v for v in alpha.ravel()]))
270 |     coef_list.append(np.array(beta.ravel()))
271 |     tmp_df = pd.DataFrame(data = coef_list)
272 |     tmp_df.to_csv(coef_file+str(L)+'_'+str(repeated_num)+'.csv',index = False, header = False)
273 |     return PBCT_RMSE,  PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE
274 | 
275 | 
276 | if __name__=="__main__":
277 |     coef_file = './tmp_coef/'
278 |     repeated_num = 450
279 |     all_average = {}
280 |     all_median = {}
281 |     csv_name = '../Data/pri_20_feature'
282 |     file_name =    'tmp_file'
283 |     Upper_var1 = 1
284 |     random_index = [random.sample(range(43),43) for i in range(repeated_num)]
285 |     for sweep_num in range(7,16):
286 |         tmp_dict ={}
287 |         all_list  = []
288 |         for i in range(repeated_num):
289 |             print('the ',i+1,'-th result')
290 |             train_index = random_index[i][:33]
291 |             test_index = random_index[i][33:]
292 |             train_num = len(train_index)
293 |             PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE = PBCT_log(csv_name,sweep_num,train_num-sweep_num,Upper_var1,train_index,test_index,i,coef_file)
294 |             tmp_dict[i] = [PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE]
295 |             all_list.append(tmp_dict[i])
296 |         average_array = np.mean(np.array(all_list),axis = 0)
297 |         median_array = np.median(np.array(all_list),axis = 0)
298 |         tmp_dict['average'] = average_array
299 |         tmp_dict['median'] = median_array
300 |         all_average[sweep_num] = average_array
301 |         all_median[sweep_num] = median_array
302 |         df = pd.DataFrame(tmp_dict)
303 |         df.to_csv('./'+file_name+'/'+csv_name+'_result_PBCT_'+str(sweep_num)+'_'+str(Upper_var1)+'_online.csv',index=False)
304 |     avg_all = pd.DataFrame(all_average)
305 |     median_all = pd.DataFrame(all_median)
306 |     avg_all.to_csv('./'+file_name+'/online_avg_'+str(Upper_var1)+'.csv',index = False)
307 |     median_all.to_csv('./'+file_name+'/online_median_'+str(Upper_var1)+'.csv',index = False)
308 | 
309 | 
310 | 
311 | 
312 | 
313 | 
314 | 
315 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Online/PBCT_online_unlabeled.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | import pandas as pd
  3 | from SFS import Sequential_Forward_Selection_corr_test
  4 | from sklearn.linear_model import LinearRegression
  5 | from solve_loss import solve_loss
  6 | #from solve_loss import solve_loss
  7 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  8 | import numpy as np
  9 | import math
 10 | import sklearn
 11 | import random
 12 | import matplotlib.pyplot as plt
 13 | 
 14 | 
 15 | def PBCT_log(csv_name,L,U,test_num,Upper_var1,random_index,repeated_num,coef_file):
 16 |     data_samples = pd.read_csv(csv_name+'.csv',index_col=FALSE)
 17 |     data_shape = data_samples.shape
 18 |     data_columnslable_x = data_samples.columns[:-2]
 19 |     data_columnslable_y = data_samples.columns[-1:]
 20 |     #print(data_columnslable_x)
 21 |     #print(data_columnslable_y)
 22 |     ##split the labeled and unlabeled data
 23 |     #labeled_ratio = 0.10
 24 |     #L = int(data_shape[0]*labeled_ratio)
 25 |     #L = 12
 26 |     #U = 20 
 27 |     #random_index = random.sample(range(120),L+U)
 28 |     print('labeled_num',L)
 29 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
 30 |     #print(data_labled)
 31 |     data_unlabled = data_samples.loc[random_index[L:L+U]]
 32 |     data_test = data_samples.loc[random_index[-test_num:]]
 33 |     #print(data_unlabled)
 34 |     print('unlabled_num',U)
 35 |     #print(data_labled)
 36 |     #print(data_unlabled)
 37 | 
 38 |     data_labled_x = data_labled[data_columnslable_x]
 39 |     data_labled_y = data_labled[data_columnslable_y]
 40 |     data_unlabled_x = data_unlabled[data_columnslable_x]
 41 |     data_unlabled_y = data_unlabled[data_columnslable_y]
 42 |     data_test_x = data_test[data_columnslable_x]
 43 |     data_test_y = data_test[data_columnslable_y]
 44 |     ####Nomalize####
 45 |     mean_labled_x = data_labled_x.mean()
 46 |     std_labled_x = data_labled_x.std()
 47 | 
 48 |     mean_labled_y = data_labled_y.mean()
 49 |     std_labled_y = data_labled_y.std()
 50 |     #print("std_y",std_labled_y)
 51 | 
 52 |     X_train_labled = (data_labled_x-mean_labled_x)/std_labled_x
 53 |     #print(X_train_labled)
 54 |     X_train_unlabled = (data_unlabled_x-mean_labled_x)/std_labled_x
 55 | 
 56 |     X_test= (data_test_x-mean_labled_x)/std_labled_x
 57 |     y_train = (data_labled_y-mean_labled_y)/std_labled_y
 58 |     y_test = (data_test_y-mean_labled_y)/std_labled_y
 59 |     #################
 60 | 
 61 |     ####build Partial model####
 62 |     Partial_feature_var2 = Sequential_Forward_Selection_corr_test(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
 63 |     Partial_feature = Partial_feature_var2[0]
 64 |     print('var features for'+str(L)+' '+'repeated_num '+str(repeated_num)+'is', Partial_feature)
 65 |  
 66 | 
 67 |     ZL = data_labled_x[Partial_feature]
 68 |     ZU = data_unlabled_x[Partial_feature]
 69 |     var2 = Partial_feature_var2[1]
 70 |     print('var2 is ',var2)
 71 |     #var2 = max(1e-8,var2)
 72 |     #print('var2 is ',var2)
 73 |     ########################
 74 |     cv = LeaveOneOut()
 75 | 
 76 |     #######this part should be checked#####
 77 |     lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10])
 78 |     Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
 79 |     print('alpha of lasso is',Reg_lasso.alpha_)
 80 | 
 81 |     ####find the var1####
 82 |     V = [0.5,1,2,5,10]
 83 |     print('current V',V)
 84 |     var1_candidate_set = [Upper_var1*i*var2 for i in V] ##
 85 |     l5_candidate = [10,100]
 86 |     #V = 5
 87 |     #var1_candidate_set = [math.pow(0.1,V)*0.05*var2 for i in range(V)] 
 88 |     LOO_list = []
 89 | 
 90 |     for i in range(len(V)):
 91 |         for m in range(len(l5_candidate)):
 92 |             tmp_var1 = var1_candidate_set[i]
 93 |             l1 = 1/2/tmp_var1
 94 |             l2 = 1/2/var2
 95 |             l3 = 0
 96 |             l4 = 1/2/(tmp_var1+var2)
 97 |             #l5 = 0
 98 |             l5 = l1*l5_candidate[m]
 99 |             error_list = []
100 |             for j in range(L):
101 |                 predict_x = data_labled_x.iloc[j]
102 |                 tmp_X = data_labled_x.drop(random_index[j])
103 |                 tmp_ZL = ZL.drop(random_index[j])
104 |                 predict_y = data_labled_y.iloc[j]
105 |                 tmp_y = data_labled_y.drop(random_index[j])
106 | 
107 |                 ##Normalize##
108 |                 mean_labled_x = tmp_X.mean()
109 |                 std_labled_x = tmp_X.std()
110 |                 mean_labled_y = tmp_y.mean()
111 |                 std_labled_y = tmp_y.std()
112 |                 mean_labled_z = tmp_ZL.mean()
113 |                 std_labled_z = tmp_ZL.std()
114 | 
115 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
116 |                 y_train_tmp = (tmp_y-mean_labled_y)/std_labled_y
117 |                 X_train_unlabled_tmp = (data_unlabled_x-mean_labled_x)/std_labled_x
118 | 
119 |                 tmp_ZL = (tmp_ZL-mean_labled_z)/std_labled_z
120 |                 tmp_ZU = (ZU-mean_labled_z)/std_labled_z
121 | 
122 | 
123 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
124 | 
125 | 
126 |                 alpha,beta = solve_loss(y_train_tmp.to_numpy().ravel(),X_train_tmp.to_numpy(),tmp_ZL.to_numpy(),
127 |                         X_train_unlabled_tmp.to_numpy(),tmp_ZU.to_numpy(),l1,l2,l3,l4,l5)
128 | 
129 |                 real_predict_y = predict_y.to_numpy()
130 |                 alpha_y = np.matmul(alpha.T,predict_x.to_numpy())
131 |                 real_alpha_y = (alpha_y*std_labled_y+mean_labled_y).to_numpy()
132 |                 #print('real_alpha_y',real_alpha_y[0])
133 | 
134 |                 tmp_error = (real_predict_y[0] - real_alpha_y[0])
135 |                 tmp_error_square = tmp_error * tmp_error
136 |                 error_list.append(tmp_error_square)
137 |             LOO_list.append(np.mean(error_list))
138 |     #print(LOO_list)
139 |     var1_index = np.argmin(np.array(LOO_list))
140 |     print(var1_index)
141 |     l1_index = var1_index // len(l5_candidate)
142 |     print(l1_index)
143 |     l5_index = var1_index % len(l5_candidate)
144 |     print(l5_index) 
145 |     #######################
146 |     print('var1_index',var1_index)
147 |     ####get the optimal alpha and beta####
148 |     l1 = 1/2/var1_candidate_set[l1_index]
149 |     l2 = 1/2/var2
150 |     l3 = 0
151 |     l4 = 1/2/(var1_candidate_set[l1_index]+var2)
152 |     l5 = l1*l5_candidate[l5_index]
153 | 
154 |     ZL_all = X_train_labled[Partial_feature]
155 |     ZU_all = X_train_unlabled[Partial_feature]
156 | 
157 | 
158 | 
159 |     alpha,beta = solve_loss(y_train.to_numpy().ravel(),X_train_labled.to_numpy(),ZL_all.to_numpy(),
160 |                         X_train_unlabled.to_numpy(),ZU_all.to_numpy(),l1,l2,l3,l4,l5)
161 |     print('alpha is ',alpha)
162 |     print('beta is',beta)
163 |     Loss = (l1*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(X_train_labled.to_numpy(),alpha)),2)+
164 |             l2*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(ZL.to_numpy(),beta)),2)+
165 |             l3*math.pow(np.linalg.norm(np.matmul(X_train_labled.to_numpy(),alpha)-np.matmul(ZL.to_numpy(),beta)),2)+
166 |             l4*math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
167 |     #check_loss(y_train,X_train_labled,ZL,
168 |     #                    X_train_unlabled,ZU,l1,l2,l3,l4,alpha,beta,Loss)
169 |     #print('Loss',math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
170 |     #####################################
171 |     z_test_all = X_test[Partial_feature]
172 | 
173 |     ####start to test######
174 |     test_err_list = []
175 |     err_percent_list = []
176 |     for i in range(y_test.shape[0]):
177 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
178 |         tmp_pre = np.matmul(alpha.T,X_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
179 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
180 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
181 |         tmp_error_square = tmp_error * tmp_error
182 |         test_err_list.append(tmp_error_square)
183 |         err_percent_list.append(tmp_percent_err)
184 | 
185 |     print('PBCT_RMSE',np.sqrt(np.mean(test_err_list)))
186 |     print('PBCT_ERR',np.mean(err_percent_list))
187 |     
188 |     PBCT_RMSE = np.sqrt(np.mean(test_err_list))
189 |     PBCT_ERR = np.mean(err_percent_list)
190 |     #print(LOO_list)
191 |     test0_err_list = []
192 |     err0_percent_list = []
193 |     for i in range(y_test.shape[0]):
194 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
195 |         tmp_pre = np.matmul(beta.T,z_test_all.iloc[i].to_numpy())*std_labled_y+mean_labled_y
196 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
197 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
198 |         tmp_error_square = tmp_error * tmp_error
199 |         test0_err_list.append(tmp_error_square)
200 |         err0_percent_list.append(tmp_percent_err)
201 | 
202 |     print('PBCT_beta_RMSE',np.sqrt(np.mean(test0_err_list)))
203 |     print('PBCT_beta_ERR',np.mean(err0_percent_list))
204 |     PBCT_beta_RMSE = np.sqrt(np.mean(test0_err_list))
205 |     PBCT_beta_ERR = np.mean(err0_percent_list)
206 | 
207 |     ###LinearRegreesion normalized manually####
208 |     model = LinearRegression(fit_intercept=False)
209 |     
210 |     #print('Z_train_shape',ZL_all.to_numpy().shape)
211 |     Reg = model.fit(ZL_all.to_numpy(), y_train.to_numpy())
212 |     test1_err_list = []
213 |     err1_percent_list = []
214 |     for i in range(y_test.shape[0]):
215 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
216 |         tmp_pre = Reg.predict([z_test_all.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
217 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
218 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
219 |         tmp_error_square = tmp_error * tmp_error
220 |         test1_err_list.append(tmp_error_square)
221 |         err1_percent_list.append(tmp_percent_err)
222 |     print('LS_beta_RMSE',np.sqrt(np.mean(test1_err_list)))
223 |     print('LS_beta_ERR',np.mean(err1_percent_list))
224 | 
225 |     LS_beta_RMSE = np.sqrt(np.mean(test1_err_list))
226 |     LS_beta_ERR = np.mean(err1_percent_list)
227 | 
228 | 
229 | 
230 | 
231 | 
232 |     #lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,tol=1e-2)
233 | 
234 |     #Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
235 |     #print('alpha of lasso is',Reg_lasso.alpha_)
236 |     test2_err_list = []
237 |     err2_percent_list = []
238 |     for i in range(y_test.shape[0]):
239 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
240 |         tmp_pre = Reg_lasso.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
241 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
242 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
243 |         tmp_error_square = tmp_error * tmp_error
244 |         test2_err_list.append(tmp_error_square)
245 |         err2_percent_list.append(tmp_percent_err)
246 |     print('LS_lasso_RMSE',np.sqrt(np.mean(test2_err_list)))
247 |     print('LS_lasso_ERR',np.mean(err2_percent_list))
248 |     LS_lasso_RMSE = np.sqrt(np.mean(test2_err_list))
249 |     LS_lasso_ERR = np.mean(err2_percent_list)
250 |     l1_ratio_list =[0.05,0.2,0.4,0.6,0.8,0.95]
251 |     elasticNet_model = sklearn.linear_model.ElasticNetCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10],l1_ratio = l1_ratio_list)
252 |     Reg_elasticnet = elasticNet_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
253 |     print('alpha and l1_ratio of elasticNet is',Reg_elasticnet.alpha_,Reg_elasticnet.l1_ratio_)
254 | 
255 |     test3_err_list = []
256 |     err3_percent_list = []
257 |     for i in range(y_test.shape[0]):
258 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
259 |         tmp_pre = Reg_elasticnet.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
260 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
261 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
262 |         tmp_error_square = tmp_error * tmp_error
263 |         test3_err_list.append(tmp_error_square)
264 |         err3_percent_list.append(tmp_percent_err)
265 |     print('LS_elasnet_RMSE',np.sqrt(np.mean(test3_err_list)))
266 |     print('LS_elasnet_ERR',np.mean(err3_percent_list))
267 |     LS_elasnet_RMSE = np.sqrt(np.mean(test3_err_list))
268 |     LS_elasnet_ERR = np.mean(err3_percent_list)
269 | 
270 | 
271 |     coef_list = []
272 |     coef_list.append(Reg.coef_[0])
273 |     coef_list.append(np.array([v for v in Reg_lasso.coef_]))
274 |     coef_list.append(np.array([v for v in Reg_elasticnet.coef_]))
275 |     coef_list.append(np.array([v for v in alpha.ravel()]))
276 |     coef_list.append(np.array(beta.ravel()))
277 |     tmp_df = pd.DataFrame(data = coef_list)
278 |     tmp_df.to_csv(coef_file+str(U)+'_'+str(repeated_num)+'.csv',index = False, header = False)
279 |     return PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE
280 | 
281 | if __name__=="__main__":
282 |     repeated_num = 100
283 |     coef_file = './tmp_coef/'
284 |     all_average = {}
285 |     all_median = {}
286 |     csv_name = '../Data/pri_20_feature'
287 |     file_name =  'tmp_file'
288 |     test_num = 10
289 |     Upper_var1 = 1
290 |     random_index = [random.sample(range(43),43) for i in range(repeated_num)]
291 |     sweep_num = 10
292 |     print(random_index)
293 |     for unlabeled_num in [0,5,10,15,20]:
294 |         tmp_dict ={}
295 |         all_list  = []
296 |         for i in range(repeated_num):
297 |             print('the ',i+1,'-th result')
298 |             PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE = PBCT_log(csv_name,sweep_num,unlabeled_num,test_num,Upper_var1,random_index[i],i,coef_file)
299 |             tmp_dict[i] = [PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE]
300 |             all_list.append(tmp_dict[i])
301 |         average_array = np.mean(np.array(all_list),axis = 0)
302 |         median_array = np.median(np.array(all_list),axis = 0)
303 |         tmp_dict['average'] = average_array
304 |         tmp_dict['median'] = median_array
305 |         all_average[unlabeled_num] = average_array
306 |         all_median[unlabeled_num] = median_array
307 |         df = pd.DataFrame(tmp_dict)
308 |         df.to_csv('./'+file_name+'/'+csv_name+'_result_PBCT_'+str(sweep_num)+'_'+str(unlabeled_num)+'_offline.csv',index=False)
309 |     avg_all = pd.DataFrame(all_average)
310 |     median_all = pd.DataFrame(all_median)
311 |     avg_all.to_csv('./'+file_name+'/offline_avg_'+str(Upper_var1)+'.csv',index = False)
312 |     median_all.to_csv('./'+file_name+'/offline_median_'+str(Upper_var1)+'.csv',index = False)
313 | 
314 | 
315 | 
316 | 
317 | 
318 | 
319 | 
320 | 


--------------------------------------------------------------------------------
/PBCT/Unlabeled_Offline/PBCT_offline_unlabeled.py:
--------------------------------------------------------------------------------
  1 | from tkinter import FALSE
  2 | import pandas as pd
  3 | from SFS import Sequential_Forward_Selection_corr_test
  4 | from sklearn.linear_model import LinearRegression
  5 | from solve_loss import solve_loss
  6 | #from solve_loss import solve_loss
  7 | from sklearn.model_selection import LeaveOneOut,cross_val_score
  8 | import numpy as np
  9 | import math
 10 | import sklearn
 11 | import random
 12 | import matplotlib.pyplot as plt
 13 | 
 14 | 
 15 | def PBCT_log(csv_name,L,U,test_num,Upper_var1,random_index,repeated_num,coef_file):
 16 |     data_samples = pd.read_csv(csv_name+'.csv',index_col=FALSE)
 17 |     data_shape = data_samples.shape
 18 |     data_columnslable_x = data_samples.columns[:-2]
 19 |     data_columnslable_y = data_samples.columns[-1:]
 20 |     #print(data_columnslable_x)
 21 |     #print(data_columnslable_y)
 22 |     ##split the labeled and unlabeled data
 23 |     #labeled_ratio = 0.10
 24 |     #L = int(data_shape[0]*labeled_ratio)
 25 |     #L = 12
 26 |     #U = 20 
 27 |     #random_index = random.sample(range(120),L+U)
 28 |     print('labeled_num',L)
 29 |     data_labled = data_samples.loc[random_index[:L]]  ##check why loc is diff from normal slice checked
 30 |     #print(data_labled)
 31 |     data_unlabled = data_samples.loc[random_index[-test_num:-test_num+U]]
 32 |     data_test = data_samples.loc[random_index[-test_num:]]
 33 |     #print(data_unlabled)
 34 |     print('unlabled_num',U)
 35 |     #print(data_labled)
 36 |     #print(data_unlabled)
 37 | 
 38 |     data_labled_x = data_labled[data_columnslable_x]
 39 |     data_labled_y = data_labled[data_columnslable_y]
 40 |     data_unlabled_x = data_unlabled[data_columnslable_x]
 41 |     data_unlabled_y = data_unlabled[data_columnslable_y]
 42 |     data_test_x = data_test[data_columnslable_x]
 43 |     data_test_y = data_test[data_columnslable_y]
 44 |     ####Nomalize####
 45 |     mean_labled_x = data_labled_x.mean()
 46 |     std_labled_x = data_labled_x.std()
 47 | 
 48 |     mean_labled_y = data_labled_y.mean()
 49 |     std_labled_y = data_labled_y.std()
 50 |     #print("std_y",std_labled_y)
 51 | 
 52 |     X_train_labled = (data_labled_x-mean_labled_x)/std_labled_x
 53 |     #print(X_train_labled)
 54 |     X_train_unlabled = (data_unlabled_x-mean_labled_x)/std_labled_x
 55 | 
 56 |     X_test= (data_test_x-mean_labled_x)/std_labled_x
 57 |     y_train = (data_labled_y-mean_labled_y)/std_labled_y
 58 |     y_test = (data_test_y-mean_labled_y)/std_labled_y
 59 |     #################
 60 | 
 61 |     ####build Partial model####
 62 |     Partial_feature_var2 = Sequential_Forward_Selection_corr_test(data_columnslable_x,data_labled_x,data_labled_y,random_index,L,L-2)
 63 |     Partial_feature = Partial_feature_var2[0]
 64 |     print('var features for'+str(L)+' '+'repeated_num '+str(repeated_num)+'is', Partial_feature)
 65 |  
 66 | 
 67 |     ZL = data_labled_x[Partial_feature]
 68 |     ZU = data_unlabled_x[Partial_feature]
 69 |     var2 = Partial_feature_var2[1]
 70 |     print('var2 is ',var2)
 71 |     #var2 = max(1e-8,var2)
 72 |     #print('var2 is ',var2)
 73 |     ########################
 74 |     cv = LeaveOneOut()
 75 | 
 76 |     #######this part should be checked#####
 77 |     lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10])
 78 |     Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
 79 |     print('alpha of lasso is',Reg_lasso.alpha_)
 80 | 
 81 |     ####find the var1####
 82 |     V = [0.5,1,2,5,10]
 83 |     print('current V',V)
 84 |     var1_candidate_set = [Upper_var1*i*var2 for i in V] ##
 85 |     l5_candidate = [10,100]
 86 |     #V = 5
 87 |     #var1_candidate_set = [math.pow(0.1,V)*0.05*var2 for i in range(V)] 
 88 |     LOO_list = []
 89 | 
 90 |     for i in range(len(V)):
 91 |         for m in range(len(l5_candidate)):
 92 |             tmp_var1 = var1_candidate_set[i]
 93 |             l1 = 1/2/tmp_var1
 94 |             l2 = 1/2/var2
 95 |             l3 = 0
 96 |             l4 = 1/2/(tmp_var1+var2)
 97 |             #l5 = 0
 98 |             l5 = l1*l5_candidate[m]
 99 |             error_list = []
100 |             for j in range(L):
101 |                 predict_x = data_labled_x.iloc[j]
102 |                 tmp_X = data_labled_x.drop(random_index[j])
103 |                 tmp_ZL = ZL.drop(random_index[j])
104 |                 predict_y = data_labled_y.iloc[j]
105 |                 tmp_y = data_labled_y.drop(random_index[j])
106 | 
107 |                 ##Normalize##
108 |                 mean_labled_x = tmp_X.mean()
109 |                 std_labled_x = tmp_X.std()
110 |                 mean_labled_y = tmp_y.mean()
111 |                 std_labled_y = tmp_y.std()
112 |                 mean_labled_z = tmp_ZL.mean()
113 |                 std_labled_z = tmp_ZL.std()
114 | 
115 |                 X_train_tmp = (tmp_X - mean_labled_x)/std_labled_x
116 |                 y_train_tmp = (tmp_y-mean_labled_y)/std_labled_y
117 |                 X_train_unlabled_tmp = (data_unlabled_x-mean_labled_x)/std_labled_x
118 | 
119 |                 tmp_ZL = (tmp_ZL-mean_labled_z)/std_labled_z
120 |                 tmp_ZU = (ZU-mean_labled_z)/std_labled_z
121 | 
122 | 
123 |                 predict_x = (predict_x-mean_labled_x)/std_labled_x
124 | 
125 | 
126 |                 alpha,beta = solve_loss(y_train_tmp.to_numpy().ravel(),X_train_tmp.to_numpy(),tmp_ZL.to_numpy(),
127 |                         X_train_unlabled_tmp.to_numpy(),tmp_ZU.to_numpy(),l1,l2,l3,l4,l5)
128 | 
129 |                 real_predict_y = predict_y.to_numpy()
130 |                 alpha_y = np.matmul(alpha.T,predict_x.to_numpy())
131 |                 real_alpha_y = (alpha_y*std_labled_y+mean_labled_y).to_numpy()
132 |                 #print('real_alpha_y',real_alpha_y[0])
133 | 
134 |                 tmp_error = (real_predict_y[0] - real_alpha_y[0])
135 |                 tmp_error_square = tmp_error * tmp_error
136 |                 error_list.append(tmp_error_square)
137 |             LOO_list.append(np.mean(error_list))
138 |     #print(LOO_list)
139 |     var1_index = np.argmin(np.array(LOO_list))
140 |     print(var1_index)
141 |     l1_index = var1_index // len(l5_candidate)
142 |     print(l1_index)
143 |     l5_index = var1_index % len(l5_candidate)
144 |     print(l5_index) 
145 |     #######################
146 |     print('var1_index',var1_index)
147 |     ####get the optimal alpha and beta####
148 |     l1 = 1/2/var1_candidate_set[l1_index]
149 |     l2 = 1/2/var2
150 |     l3 = 0
151 |     l4 = 1/2/(var1_candidate_set[l1_index]+var2)
152 |     l5 = l1*l5_candidate[l5_index]
153 | 
154 |     ZL_all = X_train_labled[Partial_feature]
155 |     ZU_all = X_train_unlabled[Partial_feature]
156 | 
157 | 
158 | 
159 |     alpha,beta = solve_loss(y_train.to_numpy().ravel(),X_train_labled.to_numpy(),ZL_all.to_numpy(),
160 |                         X_train_unlabled.to_numpy(),ZU_all.to_numpy(),l1,l2,l3,l4,l5)
161 |     print('alpha is ',alpha)
162 |     print('beta is',beta)
163 |     Loss = (l1*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(X_train_labled.to_numpy(),alpha)),2)+
164 |             l2*math.pow(np.linalg.norm(y_train.to_numpy()-np.matmul(ZL.to_numpy(),beta)),2)+
165 |             l3*math.pow(np.linalg.norm(np.matmul(X_train_labled.to_numpy(),alpha)-np.matmul(ZL.to_numpy(),beta)),2)+
166 |             l4*math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
167 |     #check_loss(y_train,X_train_labled,ZL,
168 |     #                    X_train_unlabled,ZU,l1,l2,l3,l4,alpha,beta,Loss)
169 |     #print('Loss',math.pow(np.linalg.norm(np.matmul(X_train_unlabled.to_numpy(),alpha)-np.matmul(ZU.to_numpy(),beta)),2))
170 |     #####################################
171 |     z_test_all = X_test[Partial_feature]
172 | 
173 |     ####start to test######
174 |     test_err_list = []
175 |     err_percent_list = []
176 |     for i in range(y_test.shape[0]):
177 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
178 |         tmp_pre = np.matmul(alpha.T,X_test.iloc[i].to_numpy())*std_labled_y+mean_labled_y
179 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
180 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
181 |         tmp_error_square = tmp_error * tmp_error
182 |         test_err_list.append(tmp_error_square)
183 |         err_percent_list.append(tmp_percent_err)
184 | 
185 |     print('PBCT_RMSE',np.sqrt(np.mean(test_err_list)))
186 |     print('PBCT_ERR',np.mean(err_percent_list))
187 |     
188 |     PBCT_RMSE = np.sqrt(np.mean(test_err_list))
189 |     PBCT_ERR = np.mean(err_percent_list)
190 |     #print(LOO_list)
191 |     test0_err_list = []
192 |     err0_percent_list = []
193 |     for i in range(y_test.shape[0]):
194 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
195 |         tmp_pre = np.matmul(beta.T,z_test_all.iloc[i].to_numpy())*std_labled_y+mean_labled_y
196 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
197 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
198 |         tmp_error_square = tmp_error * tmp_error
199 |         test0_err_list.append(tmp_error_square)
200 |         err0_percent_list.append(tmp_percent_err)
201 | 
202 |     print('PBCT_beta_RMSE',np.sqrt(np.mean(test0_err_list)))
203 |     print('PBCT_beta_ERR',np.mean(err0_percent_list))
204 |     PBCT_beta_RMSE = np.sqrt(np.mean(test0_err_list))
205 |     PBCT_beta_ERR = np.mean(err0_percent_list)
206 | 
207 |     ###LinearRegreesion normalized manually####
208 |     model = LinearRegression(fit_intercept=False)
209 |     
210 |     #print('Z_train_shape',ZL_all.to_numpy().shape)
211 |     Reg = model.fit(ZL_all.to_numpy(), y_train.to_numpy())
212 |     test1_err_list = []
213 |     err1_percent_list = []
214 |     for i in range(y_test.shape[0]):
215 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
216 |         tmp_pre = Reg.predict([z_test_all.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
217 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
218 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
219 |         tmp_error_square = tmp_error * tmp_error
220 |         test1_err_list.append(tmp_error_square)
221 |         err1_percent_list.append(tmp_percent_err)
222 |     print('LS_beta_RMSE',np.sqrt(np.mean(test1_err_list)))
223 |     print('LS_beta_ERR',np.mean(err1_percent_list))
224 | 
225 |     LS_beta_RMSE = np.sqrt(np.mean(test1_err_list))
226 |     LS_beta_ERR = np.mean(err1_percent_list)
227 | 
228 | 
229 | 
230 | 
231 | 
232 |     #lasso_model = sklearn.linear_model.LassoCV(fit_intercept=False,cv=cv,tol=1e-2)
233 | 
234 |     #Reg_lasso = lasso_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
235 |     #print('alpha of lasso is',Reg_lasso.alpha_)
236 |     test2_err_list = []
237 |     err2_percent_list = []
238 |     for i in range(y_test.shape[0]):
239 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
240 |         tmp_pre = Reg_lasso.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
241 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
242 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
243 |         tmp_error_square = tmp_error * tmp_error
244 |         test2_err_list.append(tmp_error_square)
245 |         err2_percent_list.append(tmp_percent_err)
246 |     print('LS_lasso_RMSE',np.sqrt(np.mean(test2_err_list)))
247 |     print('LS_lasso_ERR',np.mean(err2_percent_list))
248 |     LS_lasso_RMSE = np.sqrt(np.mean(test2_err_list))
249 |     LS_lasso_ERR = np.mean(err2_percent_list)
250 |     l1_ratio_list =[0.05,0.2,0.4,0.6,0.8,0.95]
251 |     elasticNet_model = sklearn.linear_model.ElasticNetCV(fit_intercept=False,cv=cv,alphas=[0.01,0.1,1,10],l1_ratio = l1_ratio_list)
252 |     Reg_elasticnet = elasticNet_model.fit(X_train_labled.to_numpy(), y_train.to_numpy().ravel())
253 |     print('alpha and l1_ratio of elasticNet is',Reg_elasticnet.alpha_,Reg_elasticnet.l1_ratio_)
254 | 
255 |     test3_err_list = []
256 |     err3_percent_list = []
257 |     for i in range(y_test.shape[0]):
258 |         tmp_y = y_test.iloc[i].to_numpy()*std_labled_y+mean_labled_y
259 |         tmp_pre = Reg_elasticnet.predict([X_test.iloc[i].to_numpy()])[0]*std_labled_y+mean_labled_y
260 |         tmp_error = (tmp_y.to_numpy()[0] - tmp_pre.to_numpy()[0])
261 |         tmp_percent_err =abs(tmp_error/tmp_y.to_numpy()[0])*100
262 |         tmp_error_square = tmp_error * tmp_error
263 |         test3_err_list.append(tmp_error_square)
264 |         err3_percent_list.append(tmp_percent_err)
265 |     print('LS_elasnet_RMSE',np.sqrt(np.mean(test3_err_list)))
266 |     print('LS_elasnet_ERR',np.mean(err3_percent_list))
267 |     LS_elasnet_RMSE = np.sqrt(np.mean(test3_err_list))
268 |     LS_elasnet_ERR = np.mean(err3_percent_list)
269 | 
270 | 
271 |     coef_list = []
272 |     coef_list.append(Reg.coef_[0])
273 |     coef_list.append(np.array([v for v in Reg_lasso.coef_]))
274 |     coef_list.append(np.array([v for v in Reg_elasticnet.coef_]))
275 |     coef_list.append(np.array([v for v in alpha.ravel()]))
276 |     coef_list.append(np.array(beta.ravel()))
277 |     tmp_df = pd.DataFrame(data = coef_list)
278 |     tmp_df.to_csv(coef_file+str(U)+'_'+str(repeated_num)+'.csv',index = False, header = False)
279 |     return PBCT_RMSE,  PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE
280 | 
281 | if __name__=="__main__":
282 |     repeated_num = 100
283 |     coef_file = './tmp_coef/'
284 |     all_average = {}
285 |     all_median = {}
286 |     csv_name = '../Data/pri_20_feature'
287 |     file_name =  'tmp_file'
288 |     test_num = 25
289 |     Upper_var1 = 1
290 |     random_index = [random.sample(range(43),43) for i in range(repeated_num)]
291 |     np.save('pri_r1_10.npy',random_index)
292 |     sweep_num = 10
293 |     print(random_index)
294 |     for unlabeled_num in [0,5,10,15,20,25]:
295 |         tmp_dict ={}
296 |         all_list  = []
297 |         for i in range(repeated_num):
298 |             print('the ',i+1,'-th result')
299 |             PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE = PBCT_log(csv_name,sweep_num,unlabeled_num,test_num,Upper_var1,random_index[i],i,coef_file)
300 |             tmp_dict[i] = [PBCT_RMSE, PBCT_beta_RMSE,LS_beta_RMSE,LS_lasso_RMSE,LS_elasnet_RMSE]
301 |             all_list.append(tmp_dict[i])
302 |         average_array = np.mean(np.array(all_list),axis = 0)
303 |         median_array = np.median(np.array(all_list),axis = 0)
304 |         tmp_dict['average'] = average_array
305 |         tmp_dict['median'] = median_array
306 |         all_average[unlabeled_num] = average_array
307 |         all_median[unlabeled_num] = median_array
308 |         df = pd.DataFrame(tmp_dict)
309 |         df.to_csv('./'+file_name+'/'+csv_name+'_result_PBCT_'+str(sweep_num)+'_'+str(unlabeled_num)+'_offline.csv',index=False)
310 |     avg_all = pd.DataFrame(all_average)
311 |     median_all = pd.DataFrame(all_median)
312 |     avg_all.to_csv('./'+file_name+'/offline_avg_'+str(Upper_var1)+'.csv',index = False)
313 |     median_all.to_csv('./'+file_name+'/offline_median_'+str(Upper_var1)+'.csv',index = False)
314 | 
315 | 
316 | 
317 | 
318 | 
319 | 
320 | 
321 | 


--------------------------------------------------------------------------------