├── cnn
    ├── script.sh
    ├── lazy_utils.py
    ├── models.py
    ├── extract_kernel.py
    └── train.py
├── README.md
└── shallow-nn
    ├── populationSGD.jl
    ├── test_vs_scale.jl
    ├── illustration.jl
    ├── test_vs_m.jl
    └── lazy.ipynb


/cnn/script.sh:
--------------------------------------------------------------------------------
 1 | # Reproduce experiments to demonstrate an effective linearization as alpha grows
 2 | 
 3 | for LR in 1.0 0.1 0.01 0.001
 4 | do
 5 | for ALPHA in 10000000.0 1000000.0 100000.0 10000.0 1000.0 100.0 10.0 5.0 1.0 0.5 0.1 0.01
 6 | do
 7 | python train.py --scaling_factor $ALPHA  --lr $lr --gain 1.0 --schedule 'b' --loss 'mse' --length 100 --precision 'double'
 8 | done
 9 | done
10 | 
11 | # Obtain the SVD of the tangent kernel for cifar and random features
12 | 
13 | python extract_kernel.py --bs 9 --data 'random' --subset 495
14 | python extract_kernel.py --bs 9 --subset 495
15 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # lazy-training-code
 2 | 
 3 | This code was based on https://github.com/kuangliu/pytorch-cifar . 
 4 | 
 5 | ## Reproducing CNNs experiments
 6 | 
 7 | If you want to obtain CNN experiments accuracies and loss from the paper, simply run:
 8 | 
 9 | ```
10 | cd cnn
11 | sh script.sh
12 | ```
13 | 
14 | The __double__ precision experiments require a Tesla or Volta GPUs for handling this numerical precision at a reasonable speed...
15 | 
16 | ## Reproducing shallow experiments
17 | 
18 | All the codes necessary to reproduce the results from the paper as located in `shallow-nn`
19 | 
20 | ## Contributions
21 | 
22 | All contributions are welcome.
23 | 


--------------------------------------------------------------------------------
/shallow-nn/populationSGD.jl:
--------------------------------------------------------------------------------
 1 | d = 100 # dimension of the supervised learning problem (our d-1)
 2 | m0 = 3 # number of neurons of generating data
 3 | niter = 20000 # put 20000
 4 | @assert niter>1999
 5 | m = 50
 6 | 
 7 | #scales = 10 .^ (-2.5:0.1:1)
 8 | scales = cat([0.01,0.02,0.04],10 .^ (-1.0:0.1:0),[2,4,8],dims=1)
 9 | nscales = length(scales)
10 | ntrials = 10
11 | 
12 | Fs = zeros(ntrials,nscales)
13 | 
14 | batchsize = 200
15 | stepsize = 10
16 | 
17 | p = Progress(ntrials*nscales)
18 | Random.seed!(1)
19 | for i = 1:ntrials
20 |     θ0 = randn(m0,d) # random ground truth
21 |     θ0 = θ0 ./ sqrt.(sum(θ0.^2,dims=2))
22 |     w0  = sign.(randn(m0))
23 | 
24 |     for j=1:nscales
25 |         scale = scales[j]
26 |         stepsize = min(0.25/scale^2,25)
27 |         ws,θs,val = populationSGDfor2NN(m,w0,θ0,stepsize,batchsize,scale,niter)
28 |         Fs[i,j]= sum(val[end-1999:end])
29 |         ProgressMeter.next!(p)
30 |     end
31 | end
32 | 
33 | figure(figsize=[4,4])
34 | mea = sum(Fs,dims=1)'/ntrials
35 | stdr = sqrt.(sum((Fs' .- mea).^2, dims=2)/(ntrials-1))
36 | ss = 1/maximum(mea)
37 | semilogx(scales,ss*mea,"k",linewidth=2)
38 | fill_between(scales,ss*(mea+stdr)[:],ss*(mea-stdr)[:],color=[0.85,0.85,0.85])
39 | ylabel("Population loss at convergence")
40 | xlabel(L"\tau")
41 | 
42 | #vlines([0.15; 0.5],[0 ;0],[4; 4],linestyle=":")
43 | #fill_betweenx([0; 4],[0.15 ;0.15],[0.5; 0.5],hatch="//",facecolor="None",edgecolor="k",linestyle=":",label="not yet converged")
44 | #legend(loc="upper left")
45 | #savefig("lazySGD_tau_sans.pdf",bbox_inches="tight")


--------------------------------------------------------------------------------
/cnn/lazy_utils.py:
--------------------------------------------------------------------------------
 1 | import os
 2 | import sys
 3 | import time
 4 | 
 5 | _, term_width = os.popen('stty size', 'r').read().split()
 6 | term_width = int(term_width)
 7 | 
 8 | TOTAL_BAR_LENGTH = 65.
 9 | last_time = time.time()
10 | begin_time = last_time
11 | def progress_bar(current, total, msg=None):
12 |     global last_time, begin_time
13 |     if current == 0:
14 |         begin_time = time.time()  # Reset for new bar.
15 | 
16 |     cur_len = int(TOTAL_BAR_LENGTH*current/total)
17 |     rest_len = int(TOTAL_BAR_LENGTH - cur_len) - 1
18 | 
19 |     sys.stdout.write(' [')
20 |     for i in range(cur_len):
21 |         sys.stdout.write('=')
22 |     sys.stdout.write('>')
23 |     for i in range(rest_len):
24 |         sys.stdout.write('.')
25 |     sys.stdout.write(']')
26 | 
27 |     cur_time = time.time()
28 |     step_time = cur_time - last_time
29 |     last_time = cur_time
30 |     tot_time = cur_time - begin_time
31 | 
32 |     L = []
33 |     L.append('  Step: %s' % format_time(step_time))
34 |     L.append(' | Tot: %s' % format_time(tot_time))
35 |     if msg:
36 |         L.append(' | ' + msg)
37 | 
38 |     msg = ''.join(L)
39 |     sys.stdout.write(msg)
40 |     for i in range(term_width-int(TOTAL_BAR_LENGTH)-len(msg)-3):
41 |         sys.stdout.write(' ')
42 | 
43 |     # Go back to the center of the bar.
44 |     for i in range(term_width-int(TOTAL_BAR_LENGTH/2)+2):
45 |         sys.stdout.write('\b')
46 |     sys.stdout.write(' %d/%d ' % (current+1, total))
47 | 
48 |     if current < total-1:
49 |         sys.stdout.write('\r')
50 |     else:
51 |         sys.stdout.write('\n')
52 |     sys.stdout.flush()
53 | 
54 | def format_time(seconds):
55 |     days = int(seconds / 3600/24)
56 |     seconds = seconds - days*3600*24
57 |     hours = int(seconds / 3600)
58 |     seconds = seconds - hours*3600
59 |     minutes = int(seconds / 60)
60 |     seconds = seconds - minutes*60
61 |     secondsf = int(seconds)
62 |     seconds = seconds - secondsf
63 |     millis = int(seconds*1000)
64 | 
65 |     f = ''
66 |     i = 1
67 |     if days > 0:
68 |         f += str(days) + 'D'
69 |         i += 1
70 |     if hours > 0 and i <= 2:
71 |         f += str(hours) + 'h'
72 |         i += 1
73 |     if minutes > 0 and i <= 2:
74 |         f += str(minutes) + 'm'
75 |         i += 1
76 |     if secondsf > 0 and i <= 2:
77 |         f += str(secondsf) + 's'
78 |         i += 1
79 |     if millis > 0 and i <= 2:
80 |         f += str(millis) + 'ms'
81 |         i += 1
82 |     if f == '':
83 |         f = '0ms'
84 |     return f


--------------------------------------------------------------------------------
/shallow-nn/test_vs_scale.jl:
--------------------------------------------------------------------------------
 1 | 
 2 | d = 100 # dimension of the supervised learning problem
 3 | n_train  = 1000 # size of train set
 4 | n_test   = 1000 # size of test set
 5 | m0 = 3 # nb of neurons teacher
 6 | m = 50 # nb of neurons student
 7 | 
 8 | 
 9 | scaling = 1 # we change the initialization instead of the scaling (it is equivalent, up to a square)
10 | niter = 10000
11 | scales  = 10 .^ (-2.2:0.1:1) # scales of init
12 | ntrials = 10 # repetition with different random data/teacher/init/
13 | ltrains = zeros(niter,length(scales),ntrials)
14 | ltests = zeros(niter,length(scales),ntrials)
15 | test_err_tangent = zeros(niter,ntrials)
16 | 
17 | p = Progress(length(scales)*ntrials) # progress bar
18 | for k = 1:ntrials
19 |     # random teacher
20 |     w1 = randn(m0,d)
21 |     w1 = w1 ./ sqrt.(sum(w1.^2, dims=2))
22 |     w2  = sign.(randn(m0))
23 |     f(X) = sum( w2 .* max.( w1 * X', 0.0), dims=1)
24 | 
25 |     # data sets
26 |     X_train = randn(n_train, d)
27 |     X_train = X_train  ./ sqrt.(sum(X_train.^2, dims=2))
28 |     Y_train = f(X_train) #randn(1,n_train)
29 |     X_test  = randn(n_test, d)
30 |     X_test  = X_test ./ sqrt.(sum(X_test.^2, dims=2))
31 |     Y_test  = f(X_test);
32 | 
33 |     # initialization
34 |     W_init = randn(m, d+1)
35 |     # symmetrization
36 |     W_init[1:div(m,2),end] = abs.(W_init[1:div(m,2),end])
37 |     W_init[(div(m,2)+1):end,end] = - W_init[1:div(m,2),end]
38 |     W_init[(div(m,2)+1):end,1:end-1] = W_init[1:div(m,2),1:end-1]
39 |     W_init0 = W_init;
40 | 
41 |     for i=1:length(scales)
42 |         W_init = scales[i]*W_init0 # both layers are multiplied so scale ~ alpha^2
43 |         # the linear scaling of the step-size works for large scales only
44 |         stepsize = min(10,0.1/scales[i].^2)
45 |         Ws, loss_train, loss_test = GDfor2NN(X_train, X_test, Y_train, Y_test, W_init, scaling, stepsize, niter)
46 |         ltrains[:,i,k] = loss_train
47 |         ltests[:,i,k] = loss_test
48 |         ProgressMeter.next!(p)
49 |     end
50 | end
51 | 
52 | # Compute mean and std
53 | meana = sum(ltests[end,:,:],dims=2)/ntrials
54 | meanb = sum(minimum(ltests,dims=1),dims=3)[:]/ntrials
55 | stda = sqrt.(sum((ltests[end,:,:] .- meana).^2,dims=2)/(ntrials-1))
56 | stdb = sqrt.(sum((minimum(ltests,dims=1) .- meanb').^2,dims=3)[:]/(ntrials-1))
57 | 
58 | # Plot
59 | figure(figsize=[4,4])
60 | ss = 1000 # for nicer yticks
61 | fill_between(scales, ss*(meana+stda)[:],ss*(meana-stda)'[:],color=[0.85,0.85,0.85])
62 | fill_between(scales, ss*(meanb+stdb)[:],ss*(meanb-stdb)'[:],color=[0.85,0.85,0.85])
63 | semilogx(scales, ss*meana,"k",alpha=1,linewidth=3,label="end of training")
64 | semilogx(scales, ss*sum(minimum(ltests,dims=1),dims=3)[:]/ntrials,":k",alpha=1,linewidth=3,label="best throughout training")
65 | ylabel("Test loss")
66 | xlabel(L"\tau")
67 | legend()
68 | #savefig("test_loss_tau.pdf",bbox_inches="tight")


--------------------------------------------------------------------------------
/shallow-nn/illustration.jl:
--------------------------------------------------------------------------------
 1 | # generate the data
 2 | d = 2 # dimension of input
 3 | 
 4 | # random teacher 2-NN
 5 | m0 = 3 # nb of neurons teacher
 6 | w1 = randn(m0,d)
 7 | w1 = w1 ./ sqrt.(sum(w1.^2, dims=2))
 8 | w2  = sign.(randn(m0))
 9 | f(X) = sum( w2 .* max.( w1 * X', 0.0), dims=1)
10 | 
11 | # data sets
12 | n_train  = 15 # size train set (15)
13 | n_test   = 20  # size test set
14 | X_train = randn(n_train, d)
15 | X_train = X_train  ./ sqrt.(sum(X_train.^2, dims=2))
16 | Y_train = f(X_train)
17 | X_test  = randn(n_test, d)
18 | X_test  = X_test ./ sqrt.(sum(X_test.^2, dims=2))
19 | Y_test  = f(X_test);
20 | 
21 | # initialize and train
22 | m = 16 # nb of neurons student
23 | scaling = 1
24 | niter = 10^5
25 | stepsize = 0.005
26 | 
27 | # initialization
28 | W_init = randn(m, 2)
29 | W_init = W_init  ./ sqrt.(sum(W_init.^2, dims=2))
30 | W_init = cat(W_init, rand(m),dims=2)
31 | 
32 | # symmetrization to set initial output to zero (optional)
33 | W_init[(div(m,2)+1):end,end] = - W_init[1:div(m,2),end]
34 | W_init[(div(m,2)+1):end,1:end-1] = W_init[1:div(m,2),1:end-1] 
35 | 
36 | # choose scale of init (0.1 not lazy / 2 lazy)
37 | W_init = 0.2*W_init
38 | 
39 | @time Ws, loss_train, loss_test = GDfor2NN(X_train, X_test, Y_train, Y_test, W_init, scaling, stepsize, niter);
40 | 
41 | 
42 | figure(figsize=[8,4])
43 | 
44 | subplot(121)
45 | semilogy(loss_train,label="train loss")
46 | semilogy(loss_test,label="test loss")
47 | legend();title("Convergence");
48 | 
49 | 
50 | # things to plot
51 | iters = Int.(floor.(exp.(range(0, stop = log(niter), length = 100))))#cat(1:20,21:4:100,110:15:500,500:100:10000,20000:1000:niter,dims=1) 
52 | mid=div(m,2)
53 | finalsign = sign.(Ws[:,3,end])
54 | pxs = Ws[finalsign.>0,1,iters] .* Ws[finalsign.>0,3,iters]
55 | pys = Ws[finalsign.>0,2,iters] .* Ws[finalsign.>0,3,iters]
56 | pxsm = Ws[finalsign.<0,1,iters] .* abs.(Ws[finalsign.<0,3,iters])
57 | pysm = Ws[finalsign.<0,2,iters] .* abs.(Ws[finalsign.<0,3,iters])
58 | px0 = w1[:,1] #.* w2
59 | py0 = w1[:,2] #.* w2
60 | 
61 | subplot(122)
62 | r = 1
63 | plot(r*cos.(0.0:0.01:2π),r*sin.(0.0:0.01:2π),":",color="k",label="circle of radius $(r)")
64 | 
65 | arrow(0,0,px0[1],py0[1],head_width=0.06,length_includes_head=true,facecolor="C3")
66 | arrow(0,0,px0[2],py0[2],head_width=0.06,length_includes_head=true,facecolor="C0")
67 | arrow(0,0,px0[3],py0[3],head_width=0.06,length_includes_head=true,facecolor="C3",label="teacher")
68 | 
69 | plot(pxs',pys',linewidth=1.0,"C3");
70 | plot(pxs[1,:],pys[1,:],linewidth=0.5,"C3",label="gradient flow (+)")
71 | scatter(pxs[:,end],pys[:,end],30,color="C3")
72 | plot(pxsm',pysm',linewidth=1.0,"C0");
73 | plot(pxsm[1,:],pysm[1,:],linewidth=0.5,"C0",label="gradient flow (-)")
74 | scatter(pxsm[:,end],pysm[:,end],30,color="C0")
75 | 
76 | bx= max(max(maximum(abs.(pxs)), maximum(abs.(pys)))*1.1,1.1)
77 | axis([-bx,bx,-bx,bx]);
78 | axis("off")
79 | 
80 | #legend(loc=3)
81 | #savefig("cover_lazy_leg.pdf",bbox_inches="tight")
82 | #savefig("gf_doubling_1.png")


--------------------------------------------------------------------------------
/shallow-nn/test_vs_m.jl:
--------------------------------------------------------------------------------
 1 | d = 100 # dimension of the supervised learning problem
 2 | n_train  = 1000 # nb of data points
 3 | n_test   = 1000
 4 | m0 = 3 # nb of neurons of ground truth
 5 | 
 6 | scaling = 1
 7 | niter = 25000
 8 | ms = [2,3,4,6,8,12,16,24,32,64,128,256,512]
 9 | ntrials = 10
10 | 
11 | # compute with alpha = 1/sqrt(m)
12 | m_ltrains = zeros(niter,length(ms),ntrials)
13 | m_ltests = zeros(niter,length(ms),ntrials)
14 | 
15 | # compute with alpha = 1/m
16 | m_ltrains2 = zeros(niter,length(ms),ntrials)
17 | m_ltests2 = zeros(niter,length(ms),ntrials)
18 | 
19 | p = Progress(length(ms)*ntrials*2)
20 | for k = 1:ntrials
21 |     # ground thruth
22 |     w1 = randn(m0,d)
23 |     w1 = w1 ./ sqrt.(sum(w1.^2, dims=2))
24 |     w2 = sign.(randn(m0))
25 |     f(X) = sum( w2 .* max.( w1 * X', 0.0), dims=1)*100 # neurons
26 | 
27 |     # data sets
28 |     X_train = randn(n_train, d)
29 |     X_train = X_train  ./ sqrt.(sum(X_train.^2, dims=2))
30 |     Y_train = f(X_train) #randn(1,n_train)
31 |     X_test  = randn(n_test, d)
32 |     X_test  = X_test ./ sqrt.(sum(X_test.^2, dims=2))
33 |     Y_test  = f(X_test)
34 |     
35 |     # compute with alpha = 1/sqrt(m)
36 |     for i=1:length(ms)
37 |         m = ms[i]
38 |         W_init = randn(m, d+1)
39 |         scaling = 1/sqrt(m)
40 |         stepsize = 1/m
41 |         Ws, loss_train, loss_test = GDfor2NN(X_train, X_test, Y_train, Y_test, W_init, scaling, stepsize, niter);
42 |         m_ltrains[:,i,k] = loss_train
43 |         m_ltests[:,i,k] = loss_test
44 |         ProgressMeter.next!(p)
45 |     end
46 |     
47 |     # compute with alpha = 1/m
48 |     for i=1:length(ms)
49 |         m = ms[i]
50 |         W_init = randn(m, d+1)
51 |         scaling = 1/m
52 |         stepsize = 0.05/m
53 |         Ws, loss_train, loss_test = GDfor2NN(X_train, X_test, Y_train, Y_test, W_init, scaling, stepsize, niter)
54 |         m_ltrains2[:,i,k] = loss_train
55 |         m_ltests2[:,i,k] = loss_test
56 |         ProgressMeter.next!(p)
57 |     end
58 | end
59 | 
60 | # Prepare the plots
61 | sa=1
62 | sb=length(ms)
63 | ss = .1
64 | #endtraining = permutedims(minimum(m_ltests[:,sa:sb,:],dims=1),[2 3 1])[:,:,1]
65 | meana = sum(m_ltests[end,sa:sb,:],dims=2)/ntrials
66 | #meanb = sum(minimum(m_ltests[:,sa:sb,:],dims=1),dims=3)[:]/ntrials
67 | meana2 = sum(m_ltests2[end,sa:sb,:],dims=2)/ntrials
68 | #meanb2 = sum(minimum(m_ltests[:,sa:sb,:],dims=1),dims=3)[:]/ntrials
69 | stda = sqrt.(sum((m_ltests[end,sa:sb,:] .- meana).^2,dims=2)/(ntrials-1))
70 | stdb = sqrt.(sum((minimum(m_ltests[:,sa:sb,:],dims=1) .- meanb').^2,dims=3)[:]/(ntrials-1))
71 | confint_low = sort(endtraining,dims=dims=2)[:,1]
72 | confint_up  = sort(endtraining,dims=dims=2)[:,end]
73 | 
74 | 
75 | figure(figsize=[4,4])
76 | 
77 | #fill_between(ms[sa:sb],ss*(meana+stda)[:],ss*(meana-stda)'[:],color=[0.85,0.85,0.85])
78 | #fill_between(ms[sa:sb],ss*(meana2+stdb)[:],ss*(meanb-stdb)'[:],color=[0.85,0.85,0.85])
79 | #fill_between(ms[sa:sb],ss*confint_low[:],ss*confint_up[:],color=[0.85,0.85,0.85])
80 | semilogx(ms[sa:sb],ss*m_ltests[end,:,:],"ok",markersize=1);
81 | semilogx(ms[sa:sb],ss*m_ltests2[end,:,:],"o",color=[0.5,0.5,0.5],markersize=1);
82 | 
83 | semilogx(ms[sa:sb],ss*meana,"k",alpha=1,linewidth=3,label=L"scaling $1/\sqrt{m}$")
84 | semilogx(ms[sa:sb],ss*meana2,color=[0.5,0.5,0.5],linewidth=3,label=L"scaling $1/m$")
85 | 
86 | ylabel("Test loss")
87 | xlabel(L"m")
88 | xticks([1, 10, 100, 1000])
89 | yticks([0,1])
90 | legend()
91 | #savefig("test_mcomp_dots.pdf",bbox_inches="tight")


--------------------------------------------------------------------------------
/cnn/models.py:
--------------------------------------------------------------------------------
  1 | '''VGG11/13/16/19 in Pytorch.'''
  2 | import torch
  3 | import torch.nn as nn
  4 | import torch.nn.functional as F
  5 | 
  6 | cfg = {
  7 |     'VGG11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M','M'],
  8 |     'VGG13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
  9 |     'VGG16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
 10 |     'VGG19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
 11 | }
 12 | 
 13 | 
 14 | class BasicBlock(nn.Module):
 15 |     expansion = 1
 16 | 
 17 |     def __init__(self, in_planes, planes, stride=1):
 18 |         super(BasicBlock, self).__init__()
 19 |         self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1)
 20 |         self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1)
 21 |         self.shortcut = nn.Sequential()
 22 |         if stride != 1 or in_planes != self.expansion*planes:
 23 |             self.shortcut =nn.Sequential(nn.Conv2d(in_planes, self.expansion*planes, kernel_size=1, stride=stride))#, bias=False),
 24 |              #   nn.BatchNorm2d(self.expansion*planes)
 25 | 
 26 |     def forward(self, x):
 27 |         out = F.relu(self.conv1(x))
 28 |         out = self.conv2(out)
 29 |         out += self.shortcut(x)
 30 |         out = F.relu(out)
 31 |         return out
 32 | 
 33 | 
 34 | class ResNet(nn.Module):
 35 |     def __init__(self, block, num_blocks, k, num_classes=10):
 36 |         super(ResNet, self).__init__()
 37 |         self.in_planes = 64*k
 38 |         layers=[]
 39 |         layers+= [nn.Conv2d(3, 64*k, kernel_size=3, stride=1, padding=1),nn.ReLU()]
 40 |         #self.bn1 = nn.BatchNorm2d(64)
 41 |         a = self._make_layer(block, 64 * k, num_blocks[0], stride=1)
 42 |         layers+= [*a]
 43 |         a = self._make_layer(block, 128 * k, num_blocks[1], stride=2)
 44 |         layers+= [*a]
 45 |         a =self._make_layer(block, 256 * k, num_blocks[2], stride=2)
 46 |         layers+= [*a]
 47 |         a = self._make_layer(block, 512 * k, num_blocks[3], stride=2)
 48 |         layers+= [*a]
 49 |         layers += [nn.AvgPool2d(kernel_size=4)]
 50 |         self.features = nn.Sequential(*layers)
 51 |         #self.linear = nn.Linear(512*block.expansion, num_classes)
 52 | 
 53 |     def _make_layer(self, block, planes, num_blocks, stride):
 54 |         strides = [stride] + [1]*(num_blocks-1)
 55 |         layers = []
 56 |         for stride in strides:
 57 |             layers += [block(self.in_planes, planes,   stride)]
 58 |             self.in_planes = planes * block.expansion
 59 |         return layers
 60 | 
 61 |     def forward(self, x):
 62 |         out = self.features(x)#F.relu(self.bn1(self.conv1(x)))
 63 |         #out = self.layer1(out)
 64 |         #out = self.layer2(out)
 65 |         #out = self.layer3(out)
 66 |         #out = self.layer4(out)
 67 |         #out = F.avg_pool2d(out, 4)
 68 |         out = out.view(out.size(0), -1)
 69 |         #out = self.linear(out)
 70 |         return out
 71 | 
 72 | 
 73 | def ResNet18(k):
 74 |     return ResNet(BasicBlock, [2,2,2,2],k)
 75 | 
 76 | 
 77 | class VGG(nn.Module):
 78 |     def __init__(self, vgg_name,k):
 79 |         super(VGG, self).__init__()
 80 |         self.features = self._make_layers(cfg[vgg_name],k)
 81 |         #self.classifier = nn.Linear(512, 10)
 82 | 
 83 |     def forward(self, x):
 84 |         out = self.features(x)
 85 |         out = out.view(out.size(0), -1)
 86 |         #out = self.classifier(out)
 87 |         return out
 88 | 
 89 |     def _make_layers(self, cfg,k):
 90 |         layers = []
 91 |         in_channels = 3
 92 |         for x in cfg:
 93 |             if x == 'M':
 94 |                 layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
 95 |             else:
 96 |                 layers += [nn.Conv2d(in_channels, x*k, kernel_size=3, padding=1),
 97 |                           # nn.BatchNorm2d(x),
 98 |                            nn.ReLU(inplace=False)]
 99 |                 in_channels = x*k
100 |         layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
101 |         return nn.Sequential(*layers)
102 | 


--------------------------------------------------------------------------------
/cnn/extract_kernel.py:
--------------------------------------------------------------------------------
  1 | '''Train CIFAR10 with PyTorch.'''
  2 | from __future__ import print_function
  3 | 
  4 | import torch
  5 | torch.manual_seed(58)
  6 | import numpy as np
  7 | np.random.seed(58)
  8 | torch.backends.cudnn.deterministic = True
  9 | torch.backends.cudnn.benchmark = False
 10 | 
 11 | import copy
 12 | import torch.nn as nn
 13 | import torchvision
 14 | import torchvision.transforms as transforms
 15 | import argparse
 16 | from models import *
 17 | from lazy_utils import progress_bar
 18 | 
 19 | parser = argparse.ArgumentParser(description='PyTorch CIFAR10 Training')
 20 | parser.add_argument('--model', default='vgg', type=str, help='model type')
 21 | parser.add_argument('--widening_factor', default=1, type=int, help='widening factor')
 22 | parser.add_argument('--bs', default=10, type=int, help='batch size')
 23 | parser.add_argument('--gain', default=2.0, type=float, help='gain at init')
 24 | parser.add_argument('--subset', default=500, type=int, help='subset of data')
 25 | parser.add_argument('--precision', default='float', type=str, help='precision...')
 26 | parser.add_argument('--data', default='cifar10', type=str, help='which dataset?...')
 27 | 
 28 | 
 29 | args = parser.parse_args()
 30 | 
 31 | if args.precision=='float':
 32 |     torch.set_default_dtype(torch.float32)
 33 | elif args.precision=='double':
 34 |     torch.set_default_dtype(torch.float64)
 35 | device = 'cuda' if torch.cuda.is_available() else 'cpu'
 36 | best_acc = 0  # best test accuracy
 37 | start_epoch = 0  # start from epoch 0 or last checkpoint epoch
 38 | 
 39 | # Data
 40 | print('==> Preparing data..')
 41 | transform_train = transforms.Compose([
 42 |     transforms.ToTensor(),
 43 |     transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
 44 | ])
 45 | trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
 46 | if args.data == 'random':
 47 |     trainset.train_data=np.random.randint(256,size=(500000, 32,32,3),dtype=np.uint8) # be careful, there was a recent
 48 |     # modification of torch, you might have to switch 'train_data' to 'data'
 49 |     print('randomized')
 50 | trainset = torch.utils.data.Subset(trainset,range(args.subset))
 51 | 
 52 | trainloader = torch.utils.data.DataLoader(trainset, shuffle=False, batch_size=args.bs, num_workers=2)
 53 | trainloader2 = torch.utils.data.DataLoader(trainset,shuffle=False, batch_size=args.bs, num_workers=2)
 54 | 
 55 | 
 56 | 
 57 | k=args.widening_factor
 58 | # Model
 59 | print('==> Building model..')
 60 | net = None
 61 | if args.model=='vgg':
 62 |     net = VGG('VGG11',k)
 63 | elif args.model=='resnet':
 64 |     net = ResNet18(k)
 65 | net = net.to(device)
 66 | net = nn.DataParallel(net.to(device))
 67 | 
 68 | 
 69 | from torch.nn.init import xavier_normal_ as xavier
 70 | def weights_init(m):
 71 |     if isinstance(m, nn.Conv2d):
 72 |         xavier(m.weight.data,gain=args.gain)
 73 |         m.bias.data.zero_()
 74 | 
 75 | net.apply(weights_init)
 76 | 
 77 | net2=copy.deepcopy(net)
 78 | 
 79 | FC1 = nn.Linear(512*k, 10).cuda()
 80 | FC2 = nn.Linear(512*k, 10).cuda()
 81 | 
 82 | xavier(FC1.weight.data, gain=args.gain)
 83 | 
 84 | 
 85 | FC1.bias.data.zero_()
 86 | FC2.weight.data.copy_(FC1.weight.data)
 87 | FC2.bias.data.copy_(FC1.bias.data)
 88 | 
 89 | 
 90 | 
 91 | def linearized_outputs(inputs):
 92 |     net_parameters = list(net.parameters())+list(FC1.parameters())
 93 |     params = sum([torch.numel(p) for p in net_parameters])
 94 | 
 95 |     output_linearized=torch.zeros(inputs.size(0),10,params).cuda()
 96 |     output1 = net(inputs)
 97 |     output2 = net2(inputs)
 98 |     output = FC1(output1)-FC2(output2)
 99 |     for n in range(inputs.size(0)):
100 |         for i in range(10):
101 |             output[n, i].backward(retain_graph=True)
102 |             p_idx=0
103 |             for p in range(len(net_parameters)):
104 |                 output_linearized[n, i,p_idx:p_idx+net_parameters[p].numel()] = net_parameters[p].grad.data.view(-1)
105 |                 p_idx = p_idx + net_parameters[p].numel()
106 |             for p in range(len(net_parameters)):
107 |                 net_parameters[p].grad.data.zero_()
108 | 
109 |     output_linearized = output_linearized.view(inputs.size(0)*10,params)
110 |     return output_linearized
111 | 
112 | 
113 | 
114 | def extract_features(epoch):
115 |     print('\nEpoch: %d' % epoch)
116 |     K = torch.zeros([args.subset*10,args.subset*10],dtype=torch.float64)
117 |     idx = 0
118 |     idx2 = 0
119 |     for batch_idx, (inputs, targets) in enumerate(trainloader):
120 |         inputs, targets = inputs.to(device), targets.to(device)
121 |         if args.precision == 'double':
122 |             inputs = inputs.double()
123 |         out = linearized_outputs(inputs)
124 | 
125 |         progress_bar(batch_idx, len(trainloader), 'bar 1')
126 |         for batch_idx2, (inputs2, targets2) in enumerate(trainloader2):
127 |             if(batch_idx2<batch_idx):
128 |                 idx2 = idx2 + inputs2.size(0)*10
129 |                 continue
130 |             inputs2, targets2 = inputs2.to(device), targets2.to(device)
131 |             if args.precision == 'double':
132 |                 inputs2 = inputs2.double()
133 |             out2 = linearized_outputs(inputs2)
134 | 
135 |             progress_bar(batch_idx2, len(trainloader2), 'bar 2')
136 |             K_sub = torch.mm(out.view(out.size(0),-1), out2.view(out.size(0),-1).t())
137 | 
138 |             K[idx:idx+10*inputs.size(0),idx2:idx2+10*inputs2.size(0)] =K_sub
139 |             K[idx2:idx2 + 10*inputs2.size(0),idx:idx +10*inputs.size(0)] = K_sub.t()
140 |             idx2 = idx2 + 10*inputs2.size(0)
141 |         idx2 =0
142 |         idx = idx+inputs.size(0)*10
143 |     return K
144 | 
145 | K = extract_features(0)
146 | if args.data == 'random':
147 |     torch.save(K, 'kernel_data_.t7')
148 |     print('saved random features')
149 | else:
150 |     torch.save(K,'kernel_cifar_.t7')
151 |     print('saved cifar features')
152 | 
153 | 


--------------------------------------------------------------------------------
/shallow-nn/lazy.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "Synthetic experiments for the paper: \"On Lazy Training in Differentiable Programming\"\n",
  8 |     "--------------------"
  9 |    ]
 10 |   },
 11 |   {
 12 |    "cell_type": "code",
 13 |    "execution_count": null,
 14 |    "metadata": {},
 15 |    "outputs": [],
 16 |    "source": [
 17 |     "using PyPlot, ProgressMeter\n",
 18 |     "using Random, LinearAlgebra"
 19 |    ]
 20 |   },
 21 |   {
 22 |    "cell_type": "markdown",
 23 |    "metadata": {},
 24 |    "source": [
 25 |     "Gradient descent for $2$-layers neural net (fixed training and test sets)."
 26 |    ]
 27 |   },
 28 |   {
 29 |    "cell_type": "code",
 30 |    "execution_count": null,
 31 |    "metadata": {},
 32 |    "outputs": [],
 33 |    "source": [
 34 |     "\"\"\"\n",
 35 |     "Gradient descent to train a 2-layers ReLU neural net for the square loss and with a scaling:\n",
 36 |     "F(w) = MSE(scaling*f(w))/scaling^2\n",
 37 |     "\"\"\"\n",
 38 |     "function GDfor2NN(X_train, X_test, Y_train, Y_test, W_init, scaling, stepsize, niter) \n",
 39 |     "    (n,d) = size(X_train)\n",
 40 |     "    m     = size(W_init, 1)\n",
 41 |     "    W     = copy(W_init)   \n",
 42 |     "    Ws   = zeros(m, d+1, niter)# store optimization path\n",
 43 |     "    loss_train = zeros(niter)\n",
 44 |     "    loss_test = zeros(niter)\n",
 45 |     "    for iter = 1:niter\n",
 46 |     "        Ws[:,:,iter] = W\n",
 47 |     "        # output of the neural net\n",
 48 |     "        temp    =  max.( W[:,1:end-1] * X_train', 0.0) # output hidden layer (size m × n)\n",
 49 |     "        output  = scaling * sum( W[:,end] .* temp , dims=1) # output network (size 1 × n)\n",
 50 |     "        # compute gradient\n",
 51 |     "        gradR   = (output .- Y_train)'/n  # size n\n",
 52 |     "        grad_w1 = (W[:,end] .* float.(temp .> 0) * ( X_train .* gradR )) # (size m × d) \n",
 53 |     "        grad_w2 = temp * gradR # size m\n",
 54 |     "        grad = cat(grad_w1, grad_w2, dims=2) # size (m × d+1)   \n",
 55 |     "        # store train loss\n",
 56 |     "        loss_train[iter] = (1/2)*sum( ( output - Y_train).^2 )/n\n",
 57 |     "        # store test loss  \n",
 58 |     "        output = scaling .* sum( W[:,end] .* max.( W[:,1:end-1] * X_test', 0.0) , dims=1)\n",
 59 |     "        loss_test[iter] = (1/2)*sum( ( output - Y_test).^2 )/length(Y_test)\n",
 60 |     "        # gradient descent\n",
 61 |     "        W = W - (stepsize/scaling) * grad\n",
 62 |     "    end\n",
 63 |     "    Ws, loss_train, loss_test\n",
 64 |     "end"
 65 |    ]
 66 |   },
 67 |   {
 68 |    "cell_type": "markdown",
 69 |    "metadata": {},
 70 |    "source": [
 71 |     "Stochastic gradient descent for $2$-layers neural net (directly minimizes the population loss)"
 72 |    ]
 73 |   },
 74 |   {
 75 |    "cell_type": "code",
 76 |    "execution_count": null,
 77 |    "metadata": {},
 78 |    "outputs": [],
 79 |    "source": [
 80 |     "\"\"\"\n",
 81 |     "SGD to train a 2-layers ReLU neural net of size m for the square loss and with a scaling:\n",
 82 |     "F(w) = MSE(scaling*f(w))/scaling^2\n",
 83 |     "teacher parameters are w0, θ0\n",
 84 |     "\"\"\"\n",
 85 |     "function populationSGDfor2NN(m, w0, θ0, stepsize, batchsize, scale, niter)  \n",
 86 |     "    m0,d = size(θ0)\n",
 87 |     "    θ = scale * randn(m,d) # start gradient flow with normalized data at fixed distance\n",
 88 |     "    w = scale * randn(m,1)\n",
 89 |     "    w[1:div(m,2)] = abs.(w[1:div(m,2)])\n",
 90 |     "    w[(div(m,2)+1):end] = - abs.(w[1:div(m,2)])\n",
 91 |     "    θ[(div(m,2)+1):end,:] = θ[1:div(m,2),:] # symmetrization\n",
 92 |     "\n",
 93 |     "    θs = zeros(m,d,niter) # storing neurons\n",
 94 |     "    ws = zeros(m,niter)   # storing output homogenizers\n",
 95 |     "    val= zeros(niter,1)   # storing loss\n",
 96 |     "    \n",
 97 |     "    σ(x) = max(x,0) # ReLU activation\n",
 98 |     "    σ′(x) = float(x>0)\n",
 99 |     "    sigmaderinc(s) = float(s>0)\n",
100 |     "\n",
101 |     "    # gradient flow\n",
102 |     "    for iter = 1:niter\n",
103 |     "        θs[:,:,iter] = θ\n",
104 |     "        ws[:,iter] = w\n",
105 |     "        # random data points\n",
106 |     "        X = randn(batchsize,d)\n",
107 |     "        X = X ./ sqrt.(sum(X.^2, dims=2))\n",
108 |     "        Y0 = sum( w0 .* σ.(θ0*X'), dims=1)/batchsize  #ground truth output\n",
109 |     "    \n",
110 |     "        # prediction and gradient computation\n",
111 |     "        temp = σ.( θ * X')    \n",
112 |     "        Y = sum( w .* temp, dims=1)/m\n",
113 |     "        val[iter] = (1/2)*sum( ( Y - Y0).^2 )/batchsize;\n",
114 |     "        gradR =  ( Y - Y0 )'/batchsize; # column of size batchsize\n",
115 |     "        gradw = temp * gradR\n",
116 |     "        gradθ = ((w.*sigmaderinc.(temp)) * ( X .* gradR ))#./(1+w)*2000\n",
117 |     "        \n",
118 |     "\n",
119 |     "        θ = θ - stepsize * gradθ*d\n",
120 |     "        w = w - stepsize * gradw\n",
121 |     "    end\n",
122 |     "    ws,θs,val\n",
123 |     "end"
124 |    ]
125 |   },
126 |   {
127 |    "cell_type": "markdown",
128 |    "metadata": {},
129 |    "source": [
130 |     "### Illustration of the GD dynamics in 2-D"
131 |    ]
132 |   },
133 |   {
134 |    "cell_type": "code",
135 |    "execution_count": null,
136 |    "metadata": {},
137 |    "outputs": [],
138 |    "source": [
139 |     "Random.seed!(1);\n",
140 |     "include(\"illustration.jl\")"
141 |    ]
142 |   },
143 |   {
144 |    "cell_type": "markdown",
145 |    "metadata": {},
146 |    "source": [
147 |     "#### Effect of the scale of initialization on generalization (GD)"
148 |    ]
149 |   },
150 |   {
151 |    "cell_type": "code",
152 |    "execution_count": null,
153 |    "metadata": {},
154 |    "outputs": [],
155 |    "source": [
156 |     "Random.seed!(1)\n",
157 |     "include(\"test_vs_scale.jl\");"
158 |    ]
159 |   },
160 |   {
161 |    "cell_type": "markdown",
162 |    "metadata": {},
163 |    "source": [
164 |     "#### Effect of m on generalization, with two scalings (GD)"
165 |    ]
166 |   },
167 |   {
168 |    "cell_type": "code",
169 |    "execution_count": null,
170 |    "metadata": {},
171 |    "outputs": [],
172 |    "source": [
173 |     "Random.seed!(2)\n",
174 |     "include(\"test_vs_m.jl\");"
175 |    ]
176 |   },
177 |   {
178 |    "cell_type": "markdown",
179 |    "metadata": {},
180 |    "source": [
181 |     "#### Effect of scaling with pure SGD"
182 |    ]
183 |   },
184 |   {
185 |    "cell_type": "code",
186 |    "execution_count": null,
187 |    "metadata": {},
188 |    "outputs": [],
189 |    "source": [
190 |     "Random.seed!(2)\n",
191 |     "include(\"populationSGD.jl\");"
192 |    ]
193 |   }
194 |  ],
195 |  "metadata": {
196 |   "kernelspec": {
197 |    "display_name": "Julia 1.1.0",
198 |    "language": "julia",
199 |    "name": "julia-1.1"
200 |   },
201 |   "language_info": {
202 |    "file_extension": ".jl",
203 |    "mimetype": "application/julia",
204 |    "name": "julia",
205 |    "version": "1.1.0"
206 |   }
207 |  },
208 |  "nbformat": 4,
209 |  "nbformat_minor": 2
210 | }
211 | 


--------------------------------------------------------------------------------
/cnn/train.py:
--------------------------------------------------------------------------------
  1 | '''Train CIFAR10 with PyTorch.'''
  2 | from __future__ import print_function
  3 | 
  4 | import torch
  5 | 
  6 | 
  7 | # /!\ THOSE LINES MAKE THE WHOLE PROCESS DETERMINISTIC!
  8 | torch.manual_seed(58)
  9 | import numpy as np
 10 | np.random.seed(58)
 11 | torch.backends.cudnn.deterministic = True
 12 | torch.backends.cudnn.benchmark = False
 13 | 
 14 | import torch.nn as nn
 15 | import torch.optim as optim
 16 | import torch.nn.functional as F
 17 | import torch.backends.cudnn as cudnn
 18 | 
 19 | import torchvision
 20 | import torchvision.transforms as transforms
 21 | import argparse
 22 | import copy
 23 | 
 24 | from models import *
 25 | 
 26 | 
 27 | from torch.utils.data.sampler import SubsetRandomSampler
 28 | 
 29 | 
 30 | 
 31 | parser = argparse.ArgumentParser(description='PyTorch CIFAR10 Training')
 32 | parser.add_argument('--lr', default=0.1, type=float, help='initial learning rate')
 33 | parser.add_argument('--model', default='vgg', type=str, help='model type, vgg or resnet')
 34 | parser.add_argument('--loss', default='ce', type=str, help='loss type, cross entropy (ce) or mean square error (mse)')
 35 | parser.add_argument('--scaling_factor', default=1.0, type=float, help='scaling factor')
 36 | parser.add_argument('--widening_factor', default=1, type=int, help='widening factor')
 37 | parser.add_argument('--length', default=300, type=int, help='number of epochs')
 38 | parser.add_argument('--bs', default=128, type=int, help='batch size at train')
 39 | parser.add_argument('--bs_test', default=100, type=int, help='batch size at test')  # (only for super wide models that consume a lot of memory)
 40 | parser.add_argument('--gain', default=2.0, type=float, help='multiplicative gain at initiallization')
 41 | parser.add_argument('--schedule', default='a', type=str, help='schedule type, a (wide), b (std)')
 42 | parser.add_argument('--subset', default=-1, type=int, help='subset of data, -1: full data') # not used in this paper
 43 | parser.add_argument('--precision', default='float', type=str, help='precision, float or double')
 44 | args = parser.parse_args()
 45 | 
 46 | 
 47 | 
 48 | if args.precision=='float':
 49 |     torch.set_default_dtype(torch.float32)
 50 | elif args.precision=='double':
 51 |     torch.set_default_dtype(torch.float64)
 52 | device = 'cuda' if torch.cuda.is_available() else 'cpu'
 53 | best_acc = 0  # best test accuracy
 54 | start_epoch = 0  # start from epoch 0 or last checkpoint epoch
 55 | 
 56 | # Data
 57 | print('==> Preparing data..')
 58 | transform_train = transforms.Compose([
 59 |     transforms.ToTensor(),
 60 |     transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
 61 | ])
 62 | if args.schedule == 'b':
 63 |     transform_train = transforms.Compose([
 64 |         transforms.RandomCrop(32, padding=4),
 65 |         transforms.RandomHorizontalFlip(),
 66 |         transforms.ToTensor(),
 67 |         transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
 68 |     ])
 69 | 
 70 | transform_test = transforms.Compose([
 71 |     transforms.ToTensor(),
 72 |     transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
 73 | ])
 74 | 
 75 | trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
 76 | trainloader = torch.utils.data.DataLoader(trainset, batch_size=args.bs, shuffle=True, num_workers=2)
 77 | 
 78 | if args.subset>0:
 79 |     transform_train = transforms.Compose([
 80 |         transforms.ToTensor(),
 81 |         transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
 82 |     ])
 83 |     trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
 84 |     trainloader = torch.utils.data.DataLoader(trainset, batch_size=args.bs, num_workers=2,sampler=SubsetRandomSampler(range(args.subset)))
 85 | 
 86 | 
 87 | 
 88 | testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
 89 | testloader = torch.utils.data.DataLoader(testset, batch_size=args.bs_test, shuffle=False, num_workers=2)
 90 | 
 91 | classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
 92 | 
 93 | 
 94 | 
 95 | 
 96 | k=args.widening_factor
 97 | # Model
 98 | print('==> Building model..')
 99 | net = None
100 | if args.model=='vgg':
101 |     net = VGG('VGG11',k)
102 | elif args.model=='resnet':
103 |     net = ResNet18(k)
104 | net = net.cuda()
105 | 
106 | model_parameters = filter(lambda p: p.requires_grad, net.parameters())
107 | params = sum([torch.numel(p) for p in model_parameters])
108 | 
109 | alpha = args.scaling_factor
110 | 
111 | import datetime
112 | from random import randint
113 | 
114 | time_stamp = str(datetime.datetime.now().isoformat())
115 | name_log_txt = time_stamp + str(randint(0, 1000)) + '_lr_'+str(args.lr)+'_alpha_'+str(args.scaling_factor)+'_wideningfactor_'+str(args.widening_factor)
116 | name_log_txt+='_model'+str(args.model)+'_loss_'+str(args.loss)+'_gain_'+str(args.gain)
117 | name_log_txt+='.log'
118 | 
119 | 
120 | with open(name_log_txt, "a") as text_file:
121 |     print(args)
122 |     print(args,file=text_file)
123 | 
124 | 
125 | 
126 | criterion = None
127 | criterion_train = None
128 | if args.loss=='mse':
129 |     criterion_train =  nn.MSELoss()
130 |     criterion = nn.MSELoss()
131 | elif args.loss=='ce':
132 |     criterion = nn.CrossEntropyLoss()
133 |     criterion_train = nn.CrossEntropyLoss()
134 | 
135 | from torch.nn.init import xavier_normal_ as xavier
136 | def weights_init(m):
137 |     if isinstance(m, nn.Conv2d):
138 |         xavier(m.weight.data,gain=args.gain)
139 |         m.bias.data.zero_()
140 | 
141 | net.apply(weights_init)
142 | FC1 = nn.Linear(512*k, 10).cuda()
143 | FC2 = nn.Linear(512*k, 10).cuda()
144 | xavier(FC1.weight.data, gain=args.gain)
145 | FC1.bias.data.zero_()
146 | 
147 | 
148 | net2=copy.deepcopy(net)
149 | 
150 | # Symmetrize!
151 | FC2.weight.data.copy_(FC1.weight.data)
152 | FC2.bias.data.copy_(FC1.bias.data)
153 | 
154 | 
155 | 
156 | par = list(net.parameters())+list(FC1.parameters())
157 | optimizer = optim.SGD(par, lr=args.lr, momentum=0.9, weight_decay=0)
158 | 
159 | net_clone = copy.deepcopy(net)
160 | stack_hook=[]
161 | 
162 | 
163 | pooling_layer = nn.MaxPool2d(kernel_size=2, stride=2,return_indices=True)
164 | unpooling_layer = nn.MaxUnpool2d(kernel_size=2, stride=2)
165 | 
166 | def hook_extract_relu(module, input, out):
167 |     global stack_hook
168 |     p = out > 0
169 |     if args.precision=='float':
170 |         p = p.float()
171 |     else:
172 |         p=p.double()
173 |     stack_hook.append(p)
174 | 
175 | def hook_extract_maxpool(module, inp, outp):
176 |     global stack_hook
177 |     inp = inp[0]
178 | 
179 |     _,idx=pooling_layer(inp)
180 |     out = unpooling_layer(outp,idx)
181 |     p = out > 0
182 | 
183 |     if args.precision == 'float':
184 |         p = p.float()
185 |     else:
186 |         p = p.double()
187 |     stack_hook.append(p)
188 | 
189 | def hook_extract_basicblock(module, inp, outp):
190 |     global stack_hook
191 |     inp = inp[0]
192 |     a = F.relu(module.conv1(inp))
193 |     p = a > 0
194 |     if args.precision == 'float':
195 |         p = p.float()
196 |     else:
197 |         p = p.double()
198 | 
199 |     q = outp>0
200 |     if args.precision == 'float':
201 |         q = q.float()
202 |     else:
203 |         q = q.double()
204 |     stack_hook.append([p,q])
205 | 
206 | for i in range(len(net_clone.features)):
207 |     if net_clone.features[i].__class__.__name__=='ReLU':
208 |         net_clone.features[i].register_forward_hook(hook_extract_relu)
209 |     elif net_clone.features[i].__class__.__name__ == 'MaxPool2d':
210 |         net_clone.features[i].register_forward_hook(hook_extract_maxpool)
211 |     elif net.features[i].__class__.__name__ == 'BasicBlock':
212 |         net_clone.features[i].register_forward_hook(hook_extract_basicblock)
213 | 
214 | def lazy_net(x):
215 |     global stack_hook
216 |     z = x.clone()
217 |     stack_hook = []
218 |     net_clone(x)
219 | 
220 |     j = 0
221 |     for i in range(len(net.features)):
222 |         if net.features[i].__class__.__name__ == 'ReLU':
223 |             p = stack_hook[j]
224 |             z_ = torch.mul(z , p)
225 |             z = z_
226 |             j = j + 1
227 |         elif net.features[i].__class__.__name__ == 'MaxPool2d':
228 |             p = stack_hook[j]
229 |             z = z * p
230 |             z,_ =pooling_layer(z)
231 |             j = j + 1
232 |         elif net.features[i].__class__.__name__ == 'BasicBlock':
233 |             p,q = stack_hook[j]
234 | 
235 |             z_ = net.features[i].conv1(z)
236 |             z_ = z_*p
237 |             z_ = net.features[i].conv2(z_)
238 | 
239 |             z = net.features[i].shortcut(z)+z_
240 |             z = z*q
241 | 
242 |             j = j + 1
243 |         else:
244 |             z = net.features[i](z)
245 |     z = z.view(z.size(0), -1)
246 |     return z
247 | 
248 | stack_hook = []
249 | x=torch.randn(1,3,32,32).cuda()
250 | if args.precision=='double':
251 |     x=x.double()
252 | net_clone(x)
253 | proportion_lazy = [0] * len(stack_hook)
254 | del x
255 | 
256 | def net_activation(x):
257 |     global stack_hook
258 |     global proportion_lazy
259 |     z = x.clone()
260 |     stack_hook = []
261 |     net_clone(x)
262 | 
263 |     j = 0
264 |     for i in range(len(net.features)):
265 |         if net.features[i].__class__.__name__ == 'ReLU':
266 |             p = stack_hook[j]
267 |             z = net.features[i](z)
268 |             p_=z>0
269 |             if args.precision == 'float':
270 |                 p_ = p_.float()
271 |             else:
272 |                 p_ = p_.double()
273 |             proportion_lazy[j]+= float(torch.sum(p_ == p)) / float(p.numel())
274 |             j = j + 1
275 |         elif net.features[i].__class__.__name__ == 'MaxPool2d':
276 |             p = stack_hook[j]
277 |             z_ = z * p
278 |             z_, _ = pooling_layer(z_)
279 |             z = net.features[i](z)
280 |             proportion_lazy[j]+=float(torch.sum(z == z_)) / float(z.numel())
281 |             j = j + 1
282 |         elif net.features[i].__class__.__name__ == 'BasicBlock':
283 |             p, q = stack_hook[j]
284 |             z = net.features[i](z)
285 |             q_ = z>0
286 |             if args.precision == 'float':
287 |                 q_ = q_.float()
288 |             else:
289 |                 q_ = q_.double()
290 |             proportion_lazy[j] += float(torch.sum(q_ == q)) / float(q.numel())
291 |             j = j + 1
292 |         else:
293 |             z = net.features[i](z)
294 |     z = z.view(z.size(0), -1)
295 |     return z
296 | 
297 | 
298 | 
299 | # Training
300 | def train(epoch):
301 |     print('\nEpoch: %d' % epoch)
302 |     train_loss = 0
303 |     correct = 0
304 |     total = 0
305 |     for batch_idx, (inputs, targets) in enumerate(trainloader):
306 |         inputs, targets = inputs.to(device), targets.to(device)
307 |         if args.precision == 'double':
308 |             inputs = inputs.double()
309 |         optimizer.zero_grad()
310 |         outputs_ = net(inputs)
311 |         outputs2_ = net2(inputs)
312 |         outputs = FC1(outputs_)-FC2(outputs2_)
313 |         loss = None
314 |         if args.loss == 'ce':
315 |             loss = criterion_train(alpha*outputs, targets)/alpha**2
316 |         elif args.loss== 'mse':
317 |             targets_=targets.unsqueeze(1)
318 |             targets_embed=torch.zeros(targets_.size(0),10).cuda()
319 |             targets_embed.scatter_(1, targets_, 1)
320 |             loss = criterion_train(outputs, targets_embed/alpha)
321 | 
322 |         loss.backward()
323 |         optimizer.step()
324 | 
325 |         train_loss += loss.item()
326 |         _, predicted = outputs.max(1)
327 |         total += targets.size(0)
328 |         correct += predicted.eq(targets).sum().item()
329 |     return train_loss/(1+len(trainloader)),100.*correct/total
330 | 
331 | def test_lazy():
332 |     global best_acc
333 |     test_loss = 0
334 |     correct = 0
335 |     total = 0
336 |     with torch.no_grad():
337 |         for batch_idx, (inputs, targets) in enumerate(testloader):
338 |             inputs, targets = inputs.to(device), targets.to(device)
339 |             if args.precision == 'double':
340 |                 inputs = inputs.double()
341 |             outputs_ = lazy_net(inputs)
342 |             net_activation(inputs)
343 |             outputs2_ = net2(inputs)
344 |             outputs = FC1(outputs_) - FC2(outputs2_)
345 |             loss = 0
346 |             if args.loss == 'ce':
347 |                 loss = criterion_train(alpha * outputs, targets) / alpha ** 2
348 |             elif args.loss == 'mse':
349 |                 targets_ = targets.unsqueeze(1)
350 |                 targets_embed = torch.zeros(targets_.size(0), 10).cuda()
351 |                 targets_embed.scatter_(1, targets_, 1)
352 |                 loss = criterion_train(outputs, targets_embed / alpha)
353 | 
354 |             test_loss += loss.item()
355 |             _, predicted = outputs.max(1)
356 |             total += targets.size(0)
357 |             correct += predicted.eq(targets).sum().item()
358 | 
359 |     acc = 100.*correct/total
360 |     return test_loss / (1 + len(testloader)), acc
361 | 
362 | 
363 | def test():
364 |     global best_acc
365 |     test_loss = 0
366 |     test_loss_scaled = 0
367 |     correct = 0
368 |     total = 0
369 |     with torch.no_grad():
370 |         for batch_idx, (inputs, targets) in enumerate(testloader):
371 |             inputs, targets = inputs.to(device).float(), targets.to(device)
372 |             if args.precision=='double':
373 |                 inputs=inputs.double()
374 |             outputs_ = net(inputs)
375 |             outputs2_ = net2(inputs)
376 |             outputs = FC1(outputs_) - FC2(outputs2_)
377 | 
378 |             loss = 0
379 |             loss_scaled = 0
380 |             if args.loss == 'ce':
381 |                 loss = criterion(outputs, targets)
382 |                 loss_scaled = criterion(alpha * outputs, targets) / alpha ** 2
383 |             elif args.loss == 'mse':
384 |                 targets_ = targets.unsqueeze(1)
385 |                 targets_embed = torch.zeros(targets_.size(0), 10).cuda()
386 |                 targets_embed.scatter_(1, targets_, 1)
387 |                 loss =criterion(outputs, targets_embed)
388 |                 loss_scaled = criterion(outputs, targets_embed / alpha)
389 | 
390 |             test_loss_scaled += loss_scaled.item()
391 |             test_loss += loss.item()
392 |             _, predicted = outputs.max(1)
393 |             total += targets.size(0)
394 |             correct += predicted.eq(targets).sum().item()
395 |     acc = 100.*correct/total
396 |     return test_loss / (1 + len(testloader)), acc, test_loss_scaled/ (1 + len(testloader))
397 | 
398 | acc_train, acc_test, acc_test_lazy= 0, 0, 0
399 | 
400 | for epoch in range(args.length):
401 |     lr = args.lr /(1.0+100.0*epoch/300.0)
402 |     for param_group in optimizer.param_groups:
403 |         param_group['lr'] = lr
404 | 
405 |     for i in range(len(stack_hook)):
406 |         stack_hook[i]=None
407 | 
408 |     loss_train, acc_train = train(epoch)
409 |     loss_test, acc_test, loss_scaled = test()
410 | 
411 |     proportion_lazy = [0] * len(stack_hook)
412 | 
413 |     loss_test_lazy, acc_test_lazy = test_lazy()
414 |     print(proportion_lazy)
415 |     print(
416 |         "epoch {}, log train loss:{:.5f}, train acc:{}, log test loss:{:.5f}, log test loss scaled:{:.5f} , test acc:{}, log loss lazy: {}, test lazy acc:{};"
417 |         .format(epoch, np.log(loss_train), acc_train, np.log(loss_test), np.log(loss_scaled), acc_test,
418 |                 np.log(loss_test_lazy), acc_test_lazy))
419 |     with open(name_log_txt, "a") as text_file:
420 |         print("epoch {}, log train loss:{:.5f}, train acc:{}, log test loss:{:.5f}, log test loss scaled:{:.5f} , test acc:{}, log loss lazy: {}, test lazy acc:{};"
421 |               .format(epoch, np.log(loss_train), acc_train, np.log(loss_test), np.log(loss_scaled), acc_test, np.log(loss_test_lazy), acc_test_lazy), file=text_file)
422 |         print(proportion_lazy, file=text_file)
423 | 
424 | with open("summary.log", "a") as text_file:
425 |     print("alpha {} ; lr: {} ; train acc: {} ; test acc: {} ; test lazy : {} ; loss-type {}".format(args.scaling_factor, args.lr, acc_train, acc_test, acc_test_lazy, args.loss), file=text_file)
426 | 
427 | 


--------------------------------------------------------------------------------