├── 1.常见深度学习框架
    ├── README.md
    └── 香港浸会大学框架性能比较.pdf
├── 10.对抗蒸馏
    └── README.md
├── 2.基础网络
    ├── README.md
    └── VGG.pdf
├── 3.神经网络的优化
    ├── README.md
    └── opt.png
├── 4.模型之间的转换
    ├── README.md
    └── det1_.png
├── 5.模型的部署
    ├── README.md
    └── 在CPP下使用TVM来部署mxnet模型（以Insightface为例）.md
├── 6.神经网络的设计
    ├── 1.png
    ├── 2.jpg
    ├── 3.jpg
    ├── MTCNN-优化.md
    └── README.md
├── 7.神经网络的适用场景
    └── README.md
├── 8.基础网络的训练
    └── README.md
├── 9.相关面试题
    └── README.md
└── README.md


/1.常见深度学习框架/README.md:
--------------------------------------------------------------------------------
  1 | ### 常用深度学习框架
  2 | 
  3 | #### 2018.09.13
  4 | 
  5 | 深度学习研究的热潮持续高涨，各种开源深度学习框架也层出不穷，其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon等。我们参考开源的测试结果，结合自己整理的数据，针对主流的深度学习框架进行简单对比及介绍。
  6 | 
  7 | | 框架 | 机构 | 支持语言 | Stars | Forks | 
  8 | | --------------------------------------------------------- | ----------- | ------------------- | ---------- | ----- |
  9 | | [Caffe](https://github.com/BVLC/caffe)                    | BVLC        | C++/Python/Matlab   |    25480   | 15560 |
 10 | | [CNTK](https://github.com/Microsoft/CNTK)                 | Microsoft   | C++                 |    15083   | 4020  |
 11 | | [Keras](notebooks/Keras_TF_CNN.ipynb)                     | Fchollet    | Python              |    33332   | 12563 |
 12 | | [Tensorflow](https://github.com/tensorflow/tensorflow)    | Google      | Python/C++/Go...    |    109115  | 67339 |
 13 | | [MXNet](https://github.com/apache/incubator-mxnet)        | DMLC        | Python/C++/R...     |    15162   | 5484  |
 14 | | [PyTorch](https://github.com/pytorch/pytorch)             | Facebook    | Python              |    18517   | 4426  |
 15 | 
 16 | 
 17 | 
 18 | ###  性能对比
 19 | 
 20 | 
 21 | #### 1. 训练时间: Network DenseNet-121 (Multi-GPU)
 22 | 
 23 | **运行于 SSD 硬盘**
 24 | 
 25 | | 框架    | 1xV100/CUDA 9/CuDNN 7 | 4xV100/CUDA 9/CuDNN 7 |
 26 | | --------------- | :------------------:  | :------------------:  |
 27 | | Pytorch         | 27min                 | 10min                 |
 28 | | Keras(TF)       | 38min                 | 18min                 |
 29 | | Tensorflow      | 33min                 | 22min                 |
 30 | | MXNet(Gluon)    | 29min                 | 10min                 |
 31 | 
 32 | **运行于RAM内存中**
 33 | 
 34 | | 框架    | 1xV100/CUDA 9/CuDNN 7 | 4xV100/CUDA 9/CuDNN 7 |
 35 | | -------------- | :------------------:  | :------------------:  |
 36 | | Pytorch        | 25min                 | 8min                  |
 37 | | Keras(TF)      | 36min                 | 15min                 |
 38 | | Tensorflow     | 25min                 | 14min                 |
 39 | | MXNet(Gluon)   | 28min                 | 8min                  |
 40 | 
 41 | 
 42 | 
 43 | #### 2. 1000张图片推理时间(s): Network ResNet-50 
 44 | 
 45 | | 框架      | K80/CUDA 8/CuDNN 6 | P100/CUDA 8/CuDNN 6 |
 46 | | ---------------- | :----------------: | :-----------------: |
 47 | | CNTK             | 8.5                | 1.6                 |
 48 | | Keras(TF)        | 10.2               | 2.9                 |
 49 | | Tensorflow       | 6.5                | 1.8                 |
 50 | | MXNet            | 7.7                | 1.6                 |
 51 | | PyTorch          | 7.7                | 1.9                 |
 52 | 
 53 | 
 54 | #### 3. CPU推理时间(s): E5-2630v4, Network FCN5
 55 | 
 56 | |    框架     |   1 Thread | 2 Threads | 4 Threads | 8 Threads | 16 Threads | 32 Threads |
 57 | | ----------- | :--------: | :-------: |  :-----: | :-----: | :-----: | :------: |
 58 | | Caffe       | 1887.2ms   | 1316.7ms  | 1051.8ms | 952.1ms | 952.3ms | 834.7ms  |
 59 | | CNTK        | 1238.7ms   | 616.3ms   | 352.7ms  | 229.5ms | 155.9ms | 192.4ms  |
 60 | | Tensorflow  | 992.2ms    | 773.6ms   | 419.3ms  | 252.3ms | 149.7ms | 124.7ms  |
 61 | | MXNet       | 1386.8ms   | 915.5ms   | 559.0ms  | 499.1ms | 416.3ms | 413.9ms  |
 62 | 
 63 | 
 64 | ### 框架评价
 65 | 
 66 | | 框架  |安装成本| 代码理解程度 | API丰富程度 | 模型丰富程度 | 文档完整程度 |训练与测过程 | 学习资源
 67 | | ------------------ | :----: | :----: | :----: | :----: | :----: | :----: | :----: |
 68 | | CNTK               | 良好   | 良好    | 良好   | 良好    | 优秀   | 良好   | 良好  |
 69 | | Keras              | 良好   | 良好    | 优秀   | 优秀    | 良好   | 优秀   | 良好  |
 70 | | MXNet              | 良好   | 良好    | 良好   | 良好    | 良好   | 优秀   | 优秀  |
 71 | | Pytorch            | 优秀   | 优秀    | 良好   | 良好    | 优秀   | 良好   | 良好  |
 72 | | Tensorflow         | 良好   | 良好    | 优秀   | 优秀    | 优秀   | 优秀   | 优秀  |
 73 | | Caffe              | 良好   | 优秀    | 良好   | 良好    | 优秀   | 良好   | 优秀  |
 74 | 
 75 | 
 76 | 
 77 | ### 推荐框架
 78 | 
 79 | 
 80 | 目前众多的深度学习框架，使用者只要选择适合自己的框架即可，我们在日常使用中，考虑到训练的快捷程度，部署难度以及对CNN、RNN模型的直接程度，推荐以下几款深度学习框架。
 81 | 
 82 | 
 83 | #### 1.Keras
 84 | 
 85 | Keras 提供了简单易用的 API 接口，入门快，特别适合初学者入门。其后端采用 TensorFlow, CNTK，以及 Theano。另外，Deeplearning4j 的 Python 也是基于 Keras 实现的。Keras 几乎已经成了 Python 神经网络的接口标准。
 86 | 
 87 | #### 2.TensorFlow
 88 | 
 89 | 谷歌出品，追随者众多。代码质量高，支持模型丰富，支持语言多样， TensorBoard 可视化工具使用方便。
 90 | 
 91 | #### 3.MXNet
 92 | 
 93 | 已被亚马逊选为 AWS 上的深度学习框架，支持动态图计算。MXNet 有许多中国开发者，因而有非常良好的中文文档支持。Gluon 接口使得 MXNet 像 Keras 一样简单易用。
 94 | 
 95 | 
 96 | ### 参考资料
 97 | 1. [香港浸会大学深度学习框架Benchmark](http://dlbench.comp.hkbu.edu.hk/?v=v8)
 98 | 2. [DeepLearningFrameworks](https://github.com/ilkarman/DeepLearningFrameworks)
 99 | 3. [博客](http://app.myzaker.com/news/article.php?pk=5a13b55c1bc8e05d71000016)
100 | 4. [开发者如何选择深度学习框架?](https://www.zhihu.com/question/68114194/answer/465874315)
101 | 


--------------------------------------------------------------------------------
/1.常见深度学习框架/香港浸会大学框架性能比较.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/1.常见深度学习框架/香港浸会大学框架性能比较.pdf


--------------------------------------------------------------------------------
/10.对抗蒸馏/README.md:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | 
 4 | 
 5 | # 你的神经网络真的收敛了么？
 6 | 
 7 | ***1、为什么小模型的作为backbone效果会差？***
 8 | 在深度学习目标检测(图像分割)领域，我们发现当我们使用层数越深，并且在imagenet上表现越好的分类网络作为backbone时，它的检测和分割效果越好效果越好。比如我们使用resnet101作为backbone时候，faster_rcnn在coco2017检测数据集上的mAP可以达到40.1，而使用resnet50作为backbone时候，mAP只达到37.1。而ssd使用resnet50作为backbone时候，mAP达到30.6，使用mobilenet作为backbone只达到21.7。参看gluoncv公布的训练结果。https://gluon-cv.mxnet.io/model_zoo/detection.html#faster-rcnn
 9 | 
10 | 那为什么使用mobilenet这种小网络会比resnet101这种大网络效果差这么多呢？主流的想法是小网络的容量小、表现效果差，等等。
11 | 
12 | **那到底是那么原因呢？**我们可以观察gluoncv官网的ssd_mobilenet[[1\]](https://zhuanlan.zhihu.com/p/68563369#ref_83831_1)和ssd_resnet50[[2\]](https://zhuanlan.zhihu.com/p/68563369#ref_83831_2)在coco上的训练log。我们发现ssd_resnet50[[2\]](https://zhuanlan.zhihu.com/p/68563369#ref_83831_2)的CrossEntropy和SmoothL1最终收敛到2.14+，和1.22+左右，而ssdmobilenet 的CrossEntropy和SmoothL1最终收敛到2.84+，和3.29+左右。同样我们可以去观察gluoncv官网的faster_rcnn分别在resnet50和在resnet101上的训练loss，我们可以发现loss收敛的越小模型在coco 2017的验证集上的mAP越高。并且当backbone使用fpn的方法增大了模型的体积，模型的loss会将的更低，相应的mAP也越高。由此我个人认为使用小模型的作为backbone的迁移学习任务(尤其是目标检测任务)效果差的真正原因是模型欠拟合。
13 | 
14 | ***2、你的神经网络真的收敛了么？***
15 | 
16 | 既然知道小网络作为backbone效果差的真正原因是模型欠拟合，那如果我们要提高小网络的效果，最主要的任务就是降低小网络的loss(当然大网络的loss如果被进一步降低效果自然越好，比如可以观看faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点)。
17 | 
18 | **而我们不妨假设如果小网络最终”收敛“的loss如果可以达到大网络收敛的loss，那小网络能否达到大网络的效果呢？**可能由于小网络的容量小，参数少，很难收敛到大网络的最终收敛的loss。当然方法是人想的，不然怎么能发paper。
19 | 
20 | 我个人认为降低小网络的loss主要有两种方式：
21 | 
22 | **1、提高效果的模型体积**，如FPN，DLA，shortcut，concat 等等。不过当模型体积增大到一定程度，他所能得到的收益也越小，比如可以观看gluoncv官网的log。faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点。而faster_rcnn+fpn+resnet50就比faster_rcnn+resnet50的loss低很多,当然效果也就提升也高了很多。
23 | 
24 | **2、改变训练方式**，比如很早提出的知识蒸馏，2018年的cascade rcnn和snip,以及2019年的各种anchor free，都是改变训练方式，虽然他们的动机各不相同，但是我觉得大部分都是进一步降低loss，提高模型的效果。
25 | 
26 | ​        第一种方式对于个人觉得对于做模型压缩的人来说不太可取，而第二种方式才是主要考虑方向。对于改变训练方式的方法，读者可以参看我的上一篇文章[https://zhuanlan.zhihu.com/p/64138476](https://zhuanlan.zhihu.com/p/64138476)对抗蒸馏，使用对抗生成网络和cosine attention的机制，将大网络的知识迁移到小网络，进一步降低小网络最终的收敛loss。目前开放的使用ssd_resnet50作为teacher net ssd_mobilenet作为student net在voc数据集上将**ssd_mobilenet**的**CrossEntropy**和**SmoothL1**最终收敛到1.388+ 0.659+，mAP达到78.2+，而**原始ssd_mobilenet**在voc上的**CrossEntropy**和**SmoothL1**最终收敛到1.962+ 0.944+，**mAP**达到75.4，由于gpu资源限制目前在coco上还没训练完。训练log地址为，[https://github.com/p517332051/GAN-Knowledge-Distillation-SSD/blob/master/ssd_512_mobilenet1_0_resnet50_v1_voc_g_d_new_train.log](https://github.com/p517332051/GAN-Knowledge-Distillation-SSD/blob/master/ssd_512_mobilenet1_0_resnet50_v1_voc_g_d_new_train.log)。
27 | 
28 | ​       通过这种方法，我发现小网络并非不是不可以继续收敛，而是训练方式得到改善自然可以继续降低他的loss，而随之loss降低，网络的效果可以进一步提升。期望我的方法能起到抛砖引玉的效果，能推动学术界和工业界神经网络压缩的工作的进展。
29 | 
30 | 
31 | 
32 | 知乎链接[https://zhuanlan.zhihu.com/p/68563369](https://zhuanlan.zhihu.com/p/68563369)
33 | 
34 | ## 参考
35 | 
36 | 1. [^](https://zhuanlan.zhihu.com/p/68563369#ref_83831_1_0)https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_mobilenet1_0_coco_train.log
37 | 2. ^[a](https://zhuanlan.zhihu.com/p/68563369#ref_83831_2_0)[b](https://zhuanlan.zhihu.com/p/68563369#ref_83831_2_1)https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_resnet50_v1_coco_train.log
38 | 
39 | 
40 | 
41 | 


--------------------------------------------------------------------------------
/2.基础网络/README.md:
--------------------------------------------------------------------------------
 1 | 
 2 | ## 深度学习经典卷积神经网络
 3 | 
 4 | 随着深度学习的发展，研究人员提出了很多模型，这其中一些设计方式，在当时取得了很好的效果，也为其他科研工作者提供了很好的思路。CNN 的经典结构始于1998年的LeNet-5，成于2012年历史性的AlexNet，从此广泛用于图像相关领域，主要包括：
 5 | 
 6 |     1.LeNet-5, 1998年
 7 |     
 8 |     2.AlexNet, 2012年
 9 |     
10 |     3.ZF-Net, 2013年
11 |     
12 |     4.GoogleNet, 2014年
13 |     
14 |     5.VGG, 2014年
15 |     
16 |     6.ResNet, 2015年
17 | 
18 | 经过科研工作者的反复验证及广泛使用，这些模型逐渐成为经典，我们这里收集了一些常用的模型进行介绍。
19 | 
20 | 
21 | ### 1. VGG
22 | 
23 | [论文地址](https://arxiv.org/abs/1409.1556)
24 | 
25 | VGGNet是牛津大学计算机视觉组（Visual Geometry Group）和 Google DeepMind 公司的研究员一起研发的的深度卷积神经网络。VGGNet 探索了卷积神经网络的深度与其性能之间的关系，一共有六种不同的网络结构，但是每种结构都有含有５组卷积，每组卷积都使用３ｘ３的卷积核，每组卷积后进行一个２ｘ２最大池化，接下来是三个全连接层。在训练高级别的网络时，可以先训练低级别的网络，用前者获得的权重初始化高级别的网络，可以加速网络的收敛。VGGNet 相比之前state-of-the-art的网络结构，错误率大幅下降，并取得了ILSVRC 2014比赛分类项目的第2名和定位项目的第1名。同时VGGNet的拓展性很强，迁移到其他图片数据上的泛化性非常好。VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸（3*3）和最大池化尺寸（2*2）。
26 | 到目前为止，VGGNet依然经常被用来提取图像特征。
27 | 
28 | [经典卷积神经网络之VGGNet](https://blog.csdn.net/marsjhao/article/details/72955935)
29 | 
30 | [VGG模型核心拆解](https://blog.csdn.net/qq_40027052/article/details/79015827)
31 | 
32 | ### 2. GoogLeNet
33 | 
34 | [[v1] Going Deeper with Convolutions](http://arxiv.org/abs/1409.4842 )
35 | 
36 | [[v2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift](http://arxiv.org/abs/1502.03167 )
37 | 
38 | [[v3] Rethinking the Inception Architecture for Computer Vision](http://arxiv.org/abs/1512.00567) 
39 | 
40 | [[v4] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning](http://arxiv.org/abs/1602.07261)
41 | 
42 | 
43 | GoogLeNet的最早版本，出现在2014年的" Going deeper with convolutions "。之所以名为 "GoogLeNet" 而非 "GoogleNet" ,文章说是为了向早期的LeNet致敬。GoogleNet提出了一个全新的深度 CNN 架构——Inception，无全连接层，可以节省运算的同时，减少了很多参数，参数数量是AlexNet的1/12，数量只有5 million，而且在ImageNet竞赛中取得了很好的成绩。
44 | 
45 | [GoogleNet系列论文学习](https://blog.csdn.net/cdknight_happy/article/details/79247280)
46 | 
47 | 
48 | ### 3. Resnet 
49 | 
50 | [论文地址](https://arxiv.org/abs/1512.03385)
51 | 
52 | ResNet在2015年被提出，在ImageNet比赛classification任务上获得第一名，因为它 "简单与实用" 并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用ResNet，具有很强的适应性。ResNet的作者[何凯明](http://kaiminghe.com/)也因此摘得CVPR2016最佳论文奖。
53 | 
54 | [ResNet解析](https://blog.csdn.net/lanran2/article/details/79057994)
55 | 
56 | [ResNet学习](https://blog.csdn.net/xxy0118/article/details/78324256)
57 | 
58 | 
59 | ### 4. MobileNet-V1 & MobileNet -V2
60 | 
61 | [V1论文地址](https://arxiv.org/abs/1704.04861)
62 | 
63 | [V2论文地址](https://arxiv.org/abs/1801.04381)
64 | 
65 | MobileNet是Google团队针对移动端提出的高效图像识别网络，深入的研究了Depthwise Separable Convolutions使用方法后设计出MobileNet，Depthwise Separable Convolutions的本质是冗余信息更少的稀疏化表达。在此基础上给出了高效模型设计的两个选择：宽度因子(Width Multiplier)和分辨率因子(Resolution Multiplier)；通过权衡大小、延迟时间以及精度，来构建规模更小、速度更快的MobileNet。
66 | 
67 | MobileNet V2是之前MobileNet V1的改进版。MobileNet V1中主要是引入了Depthwise Separable Convolution代替传统的卷积操作，相当于实现了spatial和channel之间的解耦，达到模型加速的目的，整体网络结构还是延续了VGG网络直上直下的特点。和MobileNet V1相比，MobileNet V2主要的改进有两点：1、Linear Bottlenecks。也就是去掉了小维度输出层后面的非线性激活层，目的是为了保证模型的表达能力。2、Inverted Residual block。该结构和传统residual block中维度先缩减再扩增正好相反，因此shotcut也就变成了连接的是维度缩减后的feature map。
68 | 
69 | [深度解读谷歌MobileNet](https://blog.csdn.net/t800ghb/article/details/78879612)
70 | 
71 | [轻量化网络：MobileNet-V2](https://blog.csdn.net/u011995719/article/details/79135818)
72 | 
73 | ### 5. U-NET
74 | 
75 | [论文地址](http://arxiv.org/abs/1505.04597)
76 | 
77 | [项目地址](https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/)
78 | 
79 | 这是Encoder-Decoder网络的一种，在无监督学习中的框架，利用conv与deconv降维升维来进行学习，分别叫做encoder与decoder编码解码，一般基于卷积网络，encoder后相当于学习到了特征，而decoder后相当于还原了图像，既可以用输入图像进行训练，训练好一层加深一层。再可以利用有监督微调，从而达到分类或者图像转换的目的。
80 | 
81 | ### 6. GAN
82 | 
83 | 总结：利用两个网络对抗生成模型，生成器与辨别器，生成器输入图像，生成所需图像，辨别器辨别所需图像与生成图像，使生成器的生成图像骗过辨别器。
84 | 
85 | 
86 | ### 7.DenseNet
87 | 
88 | CVPR17 的Best Paper，模型体积小，准确率高。我们利用densenet + ctc进行进行OCR文字识别训练，效果不错。比基于resnet、vgg等基础网络的ocr效果好。
89 | 


--------------------------------------------------------------------------------
/2.基础网络/VGG.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/2.基础网络/VGG.pdf


--------------------------------------------------------------------------------
/3.神经网络的优化/README.md:
--------------------------------------------------------------------------------
 1 | ### 神经网络的优化
 2 | 
 3 | 网络的优化分为几个方面：包括网络准确率的优化、网络速度的优化、模型大小的优化，有些时候我们最求其中的某一方面，有些时候我们需要综合考虑
 4 | 各个方面，选取一个适合自己的方案。我们这里引用几个讲解详细的博客，加入我们自己的实际经验，记录一下我们在模型优化方面一些理解。
 5 | 
 6 | ### 参考文献
 7 | 
 8 | [1] https://zhuanlan.zhihu.com/p/55846103
 9 | 
10 | [2] https://github.com/Ewenwan/MVision/blob/master/CNN/Deep_Compression/readme.md
11 | 
12 | #### 1.准确率的优化
13 | 
14 | 主要优化方法有：数据增强(Data Augmentation)，权重初始化(weight initialization)，随机梯度下降法（Stochastic Gradient descent），批规范化（Batch normalization) ，Dropout 等。
15 | 
16 | 简单的思想，我们可以采用高准确率的模型，例如任务准确率在VGG16上不高，那我们可以采用Resnet50，densenet121等。这是一个再简单不过的做法，但是在特定模型下，针对具体任务，同样具有很多的优化方式。
17 | 
18 | 模型合适的初始化参数设置，当我们从0开始训练一个模型的时候，选择合适的初始化参数方式，对后续的准确率具有一定影响，这个可以根据实验、经验测试选择。
19 | 
20 | 加载预训练模型，例如我们在做OCR的时候，直接进行CTC文字识别，很多时候得到的准确率不高，但是如果我们采用imagenet预训练好的模型，进行文字识别的训练，往往效果会得到提升。
21 | 
22 | 合适的学习率，通常训练我们初始学习率较大，然后逐渐降低学习率，防止过拟合，但是在有些模型下，并不完全这样操作。例如在Mnasnet的训练下，初始学习率从0到0.25做一个warming up，然后继续训练降低学习率。
23 | 
24 | 不同框架也具有一定差异，例如resnet50，利用mxnet结合mixup，能够做到79%以上的准确率。所以大家在训练自己的模型的时候，要综合考虑多个方面，进行模型的优化。
25 | 
26 | #### 2.网络速度的优化
27 | 
28 | 模型速度优化，我们这里只讨论前向计算的速度。在模型不变的情况下，需要对前向计算框架进行优化，包括利用SIMD、NEON等指令集加速，特殊的计算方式，如winnograd 卷积计算方式等。
29 | 
30 | 在网络设计上，可以考虑高效的计算模型，如mobilenetv1/v2,shufflenetv1/v2,mnasnet等。这些网络中高效计算的block单元是我们值得参考借鉴的地方。这种网络在设计之初，就考虑了速度与准确率的平衡，这是高效网络设计的很有效的方式。
31 | 
32 | 另外可以考虑采用剪枝，量化等方式，参考链接：
33 | 
34 | #### 3.模型大小的优化
35 | 
36 | 模型压缩的主要分为在设计之初的模型优化，以及针对已有模型的压缩。
37 | 


--------------------------------------------------------------------------------
/3.神经网络的优化/opt.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/3.神经网络的优化/opt.png


--------------------------------------------------------------------------------
/4.模型之间的转换/README.md:
--------------------------------------------------------------------------------
 1 | ### 深度学习模型的转换
 2 | 
 3 | 由于各种深度学习框架的层出不穷，我们在进行算法开发到算法部署的过程中，往往都需要用到不同的框架。例如我们很有可能使用tensorflow,pytorch等进行算法开发和调试，在早期工程inference的时候我们往往使用较为轻量的caffe或者魔改后的caffe。到了移动端部署我们可能会使用feather CNN nihui的NCNN或者小米的mace等框架。facebook ONNX的出现为模型的转换提供了一种思路，但除了pytorch等框架能很好的支持ONNX。其他等框架并未很好的对接ONNX。在[MMdnn](https://github.com/Microsoft/MMdnn)出现之前，大家都把caffemodel作为一个中间体来进行转换。
 4 | 
 5 | 我们会逐步讲一下转换工具，包括MMdnn,keras2onnx,keras2caffe,tf2coreml,coreml2onnx,mxnet2caffe等。我们利用这些工具大多数用来转到onnx或者caffe，利于模型在移动端部署，无论转到ncnn，mace，都是比较方便的中间模型。
 6 | 
 7 | 其实就模型转换而言只是个填参数的过程，把模型结构搭好，把参数填进去就即可，但是实践过的朋友大家一定会知道这其中存在不少坑，但是我们更希望有一种自动化的模型转换方案来进行模型转换。
 8 | 
 9 | ### 1.MMdnn的使用
10 | 
11 | [MMdnn](https://github.com/Microsoft/MMdnn)的出现为模型转换带来了不少的福音，[MMdnn](https://github.com/Microsoft/MMdnn)提供了一种IR(中间表示)来来衔接各个模型之间的转换。他囊括并支持了主流的DNN框架。
12 | 
13 | 下面我就简要讲一下几个的简单模型转换
14 | 
15 | 在此我推荐一个查看模型结构的工具[Netron](https://github.com/lutzroeder/Netron) 支持数种主流深度学习框架(Caffe,Tensorflow,ONNX等)的模型结构查看。
16 | 
17 | 例如下图是MTCNN Pnet的模型结构图
18 | 
19 | ![det1_](./det1_.png)
20 | 
21 | 
22 | 
23 | #### MMdnn的安装
24 | 
25 | [MMdnn](https://github.com/Microsoft/MMdnn)的安装非常简单
26 | 
27 | ```
28 | pip install mmdnn
29 | ```
30 | 
31 | #### 转换中的一些坑
32 | 
33 | ##### 1.并不是所有Layer和所有网络都支持转换
34 | 
35 | 由于各个深度学习框架之间的设计模式不同有的是基于命令式的有的是基于符号形式的。各个框架之间的op的粒度不同，又由于没有一个统一的标准，支持所有框架之间的转换是一件非常难的事情。MMdnn也只是把一些提供的常用的op，如conv,pooling等常规op。
36 | 
37 | ##### 2.Tensorflow与caffe的padding方式并不相同
38 | 
39 | 这个问题会出现在MobileNet在转换的过程中，因为Tensorflow的padding方式和其他框架是不同的。Tensorflow标准的卷积操作通常采用非对称的padding，而caffe等其他框架的卷积操作则是采用对称的padding。
40 | 
41 | 如下图 ，比如当 卷积核的大小为3x3 stride为2的时候。尽管他们的padding方式不同，但卷积之后的尺寸确是一样的。
42 | 
43 | ![img](https://github.com/Microsoft/MMdnn/wiki/image/mobilenet1.png)
44 | 
45 | 
46 | 
47 | #### 转换步骤
48 | 
49 | 例如现在我们想把MTCNN的Keras Pnet转化成caffeodel用于部署。
50 | 
51 | ```
52 | mmtoir -f keras -w pnet.h5 -o pnet
53 | ```
54 | 
55 | 把keras模型转化成MMdnn IR中间表示，在当然目录下会生成一个.npy 的weights文件和一个.pb文件。接着使用
56 | 
57 | ```
58 | mmtomodel -f caffe -in pnet -iw pnet.npy -o pnet
59 | ```
60 | 
61 | ### 2.keras2onnx
62 | 
63 | ### 3.tf2coreml
64 | 
65 | ### 4.mxnet2caffe
66 | 
67 | ### 5.tf2ncnn
68 | 
69 | ncnn作为开源中较为流行的移动端前向计算框架，我们在训练完模型后，需要将对应的模型转换的ncnn支持的模型，ncnn提供了onnx2ncnn，caffe2ncnn，tf2ncnn，等工具，在我们测试用，caffe2ncnn与onnx2ncnn支持较好，绝大多数模型都可以部署，但是很多时候使用者喜欢用keras或者tf作为训练框架，这时我们要做tf到ncnn的转换，特别是一些特殊层的处理，这里我们给出一些参考方式。
70 | 
71 | 如果采用keras训练模型，可以先用keras2onnx将模型转到onnx，然后再利用ncnn提供的onnx2ncnn转化到ncnn的模型。
72 | 
73 | 对于tf训练的模型，可以参考：https://github.com/Tencent/ncnn/issues/5#issuecomment-472258072 ，这种方式同样可以解决模型转换的问题。
74 | 
75 | 模型转换的一些难点主要在dw卷积的转化，relu6的设置等。
76 | 
77 | 
78 | 


--------------------------------------------------------------------------------
/4.模型之间的转换/det1_.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/4.模型之间的转换/det1_.png


--------------------------------------------------------------------------------
/5.模型的部署/README.md:
--------------------------------------------------------------------------------
  1 | ### 一、常用移动端深度学习框架
  2 | 
  3 | 深度学习发展很快，最近又出现了几个新的移动端前向框架，例如[Tengine](https://github.com/OAID/Tengine)和 [TVM](https://github.com/dmlc/tvm).
  4 | 我们还没有对这两个框架进行深入研究，但是在对应的wiki中，可以看到这两个框架的速度对于现有框架都具有一定优势，通过短暂的了解，Tengine还是很不错的，支持op跟模型种类都比较丰富，还支持GPU运算。感兴趣的读者可以多了解一下。
  5 | 
  6 | #### ---------------- 2018.12.07 分割线  ----------------
  7 | 
  8 | 各大公司开源了自己的移动端深度学习框架，其中包括TensorFlow Lite、Caffe2、MACE、paddle-mobile(MDL)、FeatherCNN、NCNN等。我们参考开源的测试结果，结合自己整理的数据，针对主流的移动端深度学习框架进行简单对比及介绍。
  9 | 
 10 | 
 11 | | 框架 | 机构 | 支持平台 | Stars | Forks | 
 12 | | --------------------------------------------------------- | ----------- | -------------- | ---------- | ----- |
 13 | | [Caffe2](https://github.com/caffe2/caffe2)                | Facebook    | ARM            |    8270*   | 2080* |
 14 | | [TF_lite](https://github.com/tensorflow)                  | Google      | ARM            |     *      |   *   |
 15 | | [MACE](https://github.com/XiaoMi/mace)                    | Xiaomi      | ARM/DSP/GPU    |    2442    |  412  |
 16 | | [paddle-mobile](https://github.com/PaddlePaddle/paddle-mobile)      | Baidu       | ARM/GPU        |    4038    |  774  |
 17 | | [FeatherCNN](https://github.com/Tencent/FeatherCNN)       | Tencent     | ARM            |    658     |  170  |
 18 | | [NCNN](https://github.com/Tencent/ncnn)                   | Tencent     | ARM            |    4606    | 1163  |
 19 | 
 20 | 
 21 | ###  二、性能对比 (截至2018.09)
 22 | 
 23 | #### 1. NCNN / FeatherCNN / MACE
 24 | 
 25 | **CPU：kryo&2.15GHz*2  (ms)**  
 26 | 
 27 | | 框架    | SqueezeNet_v1.1 | MobileNet_v1  | ResNet18 
 28 | | --------------- | :------------------:  | :------------------:  | :-----:|
 29 | | NCNN            | 47.64                 | 68.71                 | 142.28 |
 30 | | FeatherCNN      | 36.39                 | 58.92                 | 100.13 |
 31 | | MACE            | 42.37                 | 65.18                 | 160.7  |
 32 | 
 33 | 
 34 | #### 2. paddle-mobile (MDL)
 35 | 
 36 | **CPU：高通835  (ms)**  
 37 | 
 38 | | 框架             | squeezenet | mobilenet_v1 | googlenet_v1
 39 | | ---------------- | :--------: | :----------: | :----------: |
 40 | | 1 Thread         | 82.41      | 105.43       | 341.25       |
 41 | | 2 Threads        | 56.17      | 62.75        | 233.35       |
 42 | | 4 Threads        | 36.45      | 37.13        | 158.55       |
 43 | 
 44 | 
 45 | ### 三、框架评价
 46 | 
 47 | | 框架  |集成成本| 库文件大小 | 模型支持程度 | 文档完整程度 | 速度 |
 48 | | ------------------ | :----: | :-----: | :----: | :-----: | :----: | 
 49 | | caffe2             | 一般   | 良好    | 优秀   | 良好    | 一般   | 
 50 | | TF_Lite            | 一般   | 良好    | 优秀   | 良好    | 优秀   | 
 51 | | MACE               | 良好   | 优秀    | 良好   | 良好    | 优秀   | 
 52 | | MDL                | 优秀   | 优秀    | 良好   | 良好    | 良好   | 
 53 | | FeatherCNN         | 良好   | 优秀    | 良好   | 良好    | 优秀   |
 54 | | NCNN               | 优秀   | 优秀    | 良好   | 优秀    | 优秀   | 
 55 | 
 56 | 
 57 | ### 四、几款移动端深度学习框架分析
 58 | 
 59 | 移动端的框架，基本不支持训练，只支持前向推理。
 60 | 
 61 | 
 62 | #### 1.腾讯的FeatherCNN和ncnn
 63 | 
 64 | 这两个框架都是腾讯出的，FeatherCNN来自腾讯AI平台部，ncnn来自腾讯优图。
 65 | 
 66 | 重点是：都开源，都只支持CPU
 67 | 
 68 | ncnn开源早点，文档、相关代码丰富一些，使用者相对多一些。FeatherCNN开源晚，底子很好，从测试结果看，速度具有微弱优势。
 69 | 
 70 | 
 71 | #### 2.百度的 paddle-mobile(MDL)
 72 |  
 73 | MDL可以支持CPU和GPU，FPGA在开发中。
 74 | 
 75 | #### 3.小米的 MACE
 76 | 
 77 | 它有几个特点：异构加速、汇编级优化、支持各种框架的模型转换。
 78 | 
 79 | 小米支持的GPU不限于高通，这点很通用，很好，比如瑞芯微的RK3299就可以同时发挥出cpu和GPU的好处来。
 80 | 
 81 | #### 4.其它
 82 | 
 83 | 在移动端，caffe2、tensorflow lite都可以考虑，只是可能没有以上的框架效率高。
 84 | 
 85 | 另外据说支付宝有xNN的深度框架，商汤有PPL框架，这两个都是企业自用没有开源。
 86 | 
 87 | 国内杭州九言科技的开源方案，用的人不多，可以参考。
 88 | 
 89 | #### 5.总结
 90 | 
 91 | 上面的大部分框架都是主要面向android的，但是用于arm-Linux也是可以的。
 92 | 
 93 | 现在越来越多的厂商开源移动端的深度学习框架，对于从业者是好事，有更多的选择，不用从头造轮子。
 94 | 
 95 | 相信将来会有更多的技术手段用于移动端部署深度学习网络，包括模型压缩、异构加速、汇编优化等。
 96 | 
 97 | 
 98 | ### 五、推荐框架
 99 | 
100 | 针对目前开源的移动端深度学习前向框架，结合我们使用、测试的结果，我们推荐以下几个框架。
101 | 
102 | #### 1.NCNN
103 | 
104 | 第一个高效使用的移动端开源库，支持模型丰富，更新快，文档逐渐完善，被大家采用较多，遇到坑相对少。
105 | 
106 | #### 2.MACE
107 | 
108 | 性能优秀，支持GPU，但是刚刚开源，可能会遇到一些开发问题。
109 | 
110 | #### 3.MDL
111 | 
112 | 百度出品，一定的品质保证，更新较快。
113 | 
114 | ### 参考资料
115 | 
116 | [移动端深度学习框架小结](https://blog.csdn.net/yuanlulu/article/details/80857211)
117 | 
118 | [NCNN性能分析](https://www.zhihu.com/question/276372408)
119 | 
120 | [NCNN性能对比](https://www.zhihu.com/question/263573053)
121 | 
122 | [MACE、NCNN、FeatherCNN性能对比](https://www.zhihu.com/question/283022477/answer/430168888)
123 | 


--------------------------------------------------------------------------------
/5.模型的部署/在CPP下使用TVM来部署mxnet模型（以Insightface为例）.md:
--------------------------------------------------------------------------------
  1 | ### 在CPP下使用TVM来部署mxnet模型（以Insightface为例）
  2 | 
  3 | 自从AI被炒作以来，各个深度学习框架层出不穷。我们通常来讲，作为AI从业者，我们通常经历着标注-训练-部署的过程。其中部署是较为痛苦的工作，尤其是在跨平台如（移动端需要native对接的时候。）当然用于inference框架同样也是层出不穷。但是大多数框架框架往往性能都一般，或者缺少相关op，或者就是转换模型较为困难。TVM的出现很大程度上为模型部署带来了福音。
  4 | 
  5 | 但是网上将用于TVM部署的教程还比较少，尤其是通过cpp和移动端部署。本文以Insightface Model Zoo中的MobileFaceNet为例，介绍一下如何编译Mxnet模型、在python下inference、在cpp下inference、对比人脸余弦距离、以及在android下的部署。
  6 | 
  7 | ### 安装
  8 | 
  9 | TVM编译环境的安装需要LLVM编译器，可以简要遵循官方的教程。 [official installation tutorial](https://docs.tvm.ai/install/from_source.html#build-the-shared-library).
 10 | 
 11 | LLVM 7.0 可能会导致编译错误，推荐使用LLVM 6.0.1
 12 | 
 13 | #### 编译模型
 14 | 
 15 | TVM使用了一系列的优化措施来优化计算图，当模型编译完之后会生成若干个编译好的文件。在编译前要指定预编译的平台、架构、指令集等参数。
 16 | 
 17 | ```python
 18 | import numpy as np
 19 | import nnvm.compiler
 20 | import nnvm.testing
 21 | import tvm
 22 | from tvm.contrib import graph_runtime
 23 | import mxnet as mx
 24 | from mxnet import ndarray as nd
 25 | 
 26 | prefix,epoch = "emore1",0
 27 | sym, arg_params, aux_params = mx.model.load_checkpoint(prefix, epoch)
 28 | image_size = (112, 112)
 29 | opt_level = 3
 30 | 
 31 | shape_dict = {'data': (1, 3, *image_size)}
 32 | target = tvm.target.create("llvm -mcpu=haswell")
 33 | # "target" means your target platform you want to compile.
 34 | 
 35 | #target = tvm.target.create("llvm -mcpu=broadwell")
 36 | nnvm_sym, nnvm_params = nnvm.frontend.from_mxnet(sym, arg_params, aux_params)
 37 | with nnvm.compiler.build_config(opt_level=opt_level):
 38 |    graph, lib, params = nnvm.compiler.build(nnvm_sym, target, shape_dict, params=nnvm_params)
 39 | lib.export_library("./deploy_lib.so")
 40 | print('lib export succeefully')
 41 | with open("./deploy_graph.json", "w") as fo:
 42 |    fo.write(graph.json())
 43 | with open("./deploy_param.params", "wb") as fo:
 44 |    fo.write(nnvm.compiler.save_param_dict(params))
 45 | ```
 46 | 
 47 | 运行该代码后会生成三个文件分别为deploy_lib.so 、deploy_graph.json 、deploy_param.params 。其中deploy_lib.so 为编译好的动态库，deploy_graph.json为部署使用的计算图、deploy_param.params为模型参数。
 48 | 
 49 | #### 使用TVM Python Runtime 进行简单的测试
 50 | 
 51 | TVM的Runtime(运行时)并不需要任何依赖，直接clone tvm后 make runtime.即可。
 52 | 
 53 | ```python
 54 | import numpy as np
 55 | import nnvm.compiler
 56 | import nnvm.testing
 57 | import tvm
 58 | from tvm.contrib import graph_runtime
 59 | import mxnet as mx
 60 | from mxnet import ndarray as nd
 61 | 
 62 | ctx = tvm.cpu()
 63 | # load the module back.
 64 | loaded_json = open("./deploy_graph.json").read()
 65 | loaded_lib = tvm.module.load("./deploy_lib.so")
 66 | loaded_params = bytearray(open("./deploy_param.params", "rb").read())
 67 | 
 68 | input_data = tvm.nd.array(np.random.uniform(size=data_shape).astype("float32"))
 69 | 
 70 | module = graph_runtime.create(loaded_json, loaded_lib, ctx)
 71 | module.load_params(loaded_params)
 72 | 
 73 | # Tiny benchmark test.
 74 | import time
 75 | for i in range(100):
 76 |    t0 = time.time()
 77 |    module.run(data=input_data)
 78 |    print(time.time() - t0)
 79 | ```
 80 | 
 81 | #### 使用C++来推理MobileFaceNet人脸识别模型
 82 | 
 83 | 在C++下 TVM Runtime（运行时）仅仅需要编译时输出的so文件，包含  “tvm_runtime_pack.cc” 。runtime的体积也比较小，只有几百K。
 84 | 
 85 | 下列的CPP代码包含了通过输入一张对齐后的人脸识别照片，输出归一化的之后的人脸向量。
 86 | 
 87 | ```cpp
 88 | #include <stdio.h>
 89 | #include <opencv2/opencv.hpp>
 90 | #include <tvm/runtime/module.h>
 91 | #include <tvm/runtime/registry.h>
 92 | #include <tvm/runtime/packed_func.h>
 93 | 
 94 | class FR_MFN_Deploy{
 95 |     
 96 |     private:
 97 |         void * handle;
 98 |     
 99 |     public:
100 |         FR_MFN_Deploy(std::string modelFolder)
101 |         {
102 |     
103 |             tvm::runtime::Module mod_syslib = tvm::runtime::Module::LoadFromFile(modelFolder + "/deploy_lib.so");
104 |             //load graph
105 |             std::ifstream json_in(modelFolder + "/deploy_graph.json");
106 |             std::string json_data((std::istreambuf_iterator<char>(json_in)), std::istreambuf_iterator<char>());
107 |             json_in.close();
108 |     
109 |             int device_type = kDLCPU;
110 |             int device_id = 0;
111 |             // get global function module for graph runtime
112 |             tvm::runtime::Module mod = (*tvm::runtime::Registry::Get("tvm.graph_runtime.create"))(json_data, mod_syslib, device_type, device_id);
113 |             this->handle = new tvm::runtime::Module(mod);
114 |     
115 |             //load param
116 |             std::ifstream params_in(modelFolder + "/deploy_param.params", std::ios::binary);
117 |             std::string params_data((std::istreambuf_iterator<char>(params_in)), std::istreambuf_iterator<char>());
118 |             params_in.close();
119 |     
120 |             TVMByteArray params_arr;
121 |             params_arr.data = params_data.c_str();
122 |             params_arr.size = params_data.length();
123 |             tvm::runtime::PackedFunc load_params = mod.GetFunction("load_params");
124 |             load_params(params_arr);
125 |         }
126 |     
127 |         cv::Mat forward(cv::Mat inputImageAligned)
128 |         {
129 |             //mobilefacnet preprocess has been written in graph.
130 |             cv::Mat tensor = cv::dnn::blobFromImage(inputImageAligned,1.0,cv::Size(112,112),cv::Scalar(0,0,0),true);
131 |             //convert uint8 to float32 and convert to RGB via opencv dnn function
132 |             DLTensor* input;
133 |             constexpr int dtype_code = kDLFloat;
134 |             constexpr int dtype_bits = 32;
135 |             constexpr int dtype_lanes = 1;
136 |             constexpr int device_type = kDLCPU;
137 |             constexpr int device_id = 0;
138 |             constexpr int in_ndim = 4;
139 |             const int64_t in_shape[in_ndim] = {1, 3, 112, 112};
140 |             TVMArrayAlloc(in_shape, in_ndim, dtype_code, dtype_bits, dtype_lanes, device_type, device_id, &input);//
141 |             TVMArrayCopyFromBytes(input,tensor.data,112*3*112*4);
142 |             tvm::runtime::Module* mod = (tvm::runtime::Module*)handle;
143 |             tvm::runtime::PackedFunc set_input = mod->GetFunction("set_input");
144 |             set_input("data", input);
145 |             tvm::runtime::PackedFunc run = mod->GetFunction("run");
146 |             run();
147 |             tvm::runtime::PackedFunc get_output = mod->GetFunction("get_output");
148 |             tvm::runtime::NDArray res = get_output(0);
149 |             cv::Mat vector(128,1,CV_32F);
150 |             memcpy(vector.data,res->data,128*4);
151 |             cv::Mat _l2;
152 |             // normlize 
153 |             cv::multiply(vector,vector,_l2);
154 |             float l2 =  cv::sqrt(cv::sum(_l2).val[0]);
155 |             vector = vector / l2;
156 |             TVMArrayFree(input);
157 |             return vector;
158 |     }
159 | 
160 | };
161 | ```
162 | 
163 | 我们可以通过输入两张对齐后的人脸照片来提取人脸向量。
164 | 
165 | ```cpp
166 | cv::Mat A = cv::imread("/Users/yujinke/Desktop/align_id/aligned/20171231115821836_face.jpg");
167 | cv::Mat B = cv::imread("/Users/yujinke/Desktop/align_id/aligned/20171231115821836_idcard.jpg");
168 | FR_MFN_Deploy deploy("./models");
169 | cv::Mat v2 = deploy.forward(B);
170 | cv::Mat v1 = deploy.forward(A);
171 | ```
172 | 
173 | 测量余弦相似度
174 | 
175 | ```cpp
176 | inline float CosineDistance(const cv::Mat &v1,const cv::Mat &v2){
177 |     return static_cast<float>(v1.dot(v2));
178 | }
179 | std::cout<<CosineDistance(v1,v2)<<std::endl;
180 | ```
181 | 
182 | 简单的配置一个cmake文件
183 | 
184 | ```bash
185 | cmake_minimum_required(VERSION 3.6)
186 | project(tvm_mobilefacenet)
187 | set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11 -ldl -lpthread")
188 | SET(CMAKE_RUNTIME_OUTPUT_DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR})
189 | SET(CMAKE_LIBRARY_OUTPUT_DIRECTORY  ${CMAKE_CURRENT_SOURCE_DIR})
190 | SET(HOME_TVM /Users/jackyu/downloads/tvm-0.5)
191 | find_package(OPENCV REQUIRED)
192 | 
193 | INCLUDE_DIRECTORIES(${OpenCV_INCLUDE_DIRS})
194 | INCLUDE_DIRECTORIES(${HOME_TVM}/include)
195 | INCLUDE_DIRECTORIES(${HOME_TVM}/3rdparty/dmlc-core/include)
196 | INCLUDE_DIRECTORIES(${HOME_TVM}/3rdparty/dlpack/include)
197 | 
198 | add_executable(tvm_mobilefacenet  tvm_runtime_pack.cc main.cpp)
199 | target_link_libraries(tvm_mobilefacenet    ${OpenCV_LIBS})
200 | ```
201 | 
202 | #### Todo：如何在在Android下部署整套人脸识别流程
203 | 
204 | 
205 | 
206 | 


--------------------------------------------------------------------------------
/6.神经网络的设计/1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/6.神经网络的设计/1.png


--------------------------------------------------------------------------------
/6.神经网络的设计/2.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/6.神经网络的设计/2.jpg


--------------------------------------------------------------------------------
/6.神经网络的设计/3.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xindongzhang/HyperDL-Tutorial/a2c385a643ed6485371000a8b678941950e540e2/6.神经网络的设计/3.jpg


--------------------------------------------------------------------------------
/6.神经网络的设计/MTCNN-优化.md:
--------------------------------------------------------------------------------
 1 | # MTCNN优化和另类用法
 2 | 
 3 | MTCNN是目前应用十分广泛的基于级联的特定目标检测器，也是少数能在传统硬件上落地的检测器，当然其优势不光光仅仅用于人脸检测这个任务。在人脸这个任务上，在少数人脸<5个人脸的情况下。其效能是第一梯队的水准。而且有着极大的优化空间（加上一些trick可以轻易的优化到极快的速度移动端 minSize60  60fps  1080p mt.）。而且其Alignment的准确率和精度也相对相对比较高，在工业界的人脸识别工作中，往往都采用MTCNN的点位来进行对齐。
 4 | 
 5 | 人脸跟踪是一项很重要的任务，cascade based检测模型，在人脸基数增大的同时，往往速度上容易爆炸，在工程应用中往往需要极致的速度。在有些效率比较低的ARM板子上，一些correlation filter tracker都不能取得很好的时效性。
 6 | 
 7 | MTCNN的多任务特性为我们权衡这个问题提供的特别巧妙的方法。
 8 | 
 9 | ### MTCNN的优化
10 | 
11 | MTCNN (Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks)是Kaipeng Zhang在2016年提出的Face Detector,也是基于Cascade CNN来改进的Face Detector。文章认为人脸检测任务中的 face bounding box regression 和 landmark 任务存在潜在关系，可以提高人脸检测效果。由于其多任务和全卷积的特性其速度要比Cascade CNN要快不少。由于MTCNN训练的Pipeline比较繁琐，需要一定的经验和调试，后继有人又提出了把Cascade pipeline联合起来训练的(Facecraft 和 xxx 两篇文章 都来自于商汤)。后来还有加Anchor 的做法 如 Anchor CNN 本文不再赘述。本文主要是从工程角度在FDDB下降不是特别多的情况下来改进和为了人脸识别而检测人脸的目的来加速MTCNN。
12 | 
13 | #### 基本原理
14 | 
15 | MTCNN基本原理是使用全卷积的P-Net在多尺度的待检图像上生成候选框，接着通过R-Net和O-Net来过滤。
16 | 
17 | #### MTCNN的结构
18 | 
19 | ![20180630104620968](./1.png)
20 | 
21 | 
22 | 
23 | 我们可以看到其网络结构和Cascade CNN基本是一致的。由于文章的发表时间是2016年。一些较为modern的网络设计trick在当时也没有被提出。所以我们改进的空间还是有的。我们做了一些实验，也发现了MTCNN速度的瓶颈在哪。
24 | 
25 | 主要是以下几点
26 | 
27 | + 图片越大Pnet耗时也就越大。
28 | + 人脸越多Onet和Rnet耗时越大。
29 | + 噪点比较多的夜晚图像会导致Pnet误检测增多。
30 | 
31 | 针对第一和第二个问题，我们选择优化网络结构，使之精度下降不太多的情况下，尽可能的减少计算量，第一个我们想到的是Mobilenet系列中的Depthwise卷积。
32 | 
33 | ##### Depthwise卷积
34 | 
35 | ![6014825-cd2480acc62515a0](./2.jpg)
36 | 
37 | Depthwise卷积最初来源于Xception。其思路比较直接，先是对输入图的每个通道进行卷积，然后再由1x1卷积将他们合并起来，大量实验证明的这个操作基本可以等同于普通的Sptial卷积。并且在IO效率和性能不变的情况下，计算量降低9倍。我们可以利用这个思路替换Pnet和Rnet和Onet中的卷积操作使之速度有着大幅度提升。
38 | 
39 | 但是有时候即使加了Depthwise卷积在某些嵌入式环境下，效果仍然不是很好，达不到良好的效果。我们发现Depthwise卷积80-90%的计算量基本都被后面的1x1卷积占据了。这时我们想是否也可以把1x1卷积也用类似于Depthwise的分组卷积来替代，但是一旦把后面1x1卷积分组，组与组之间的信息就无法相互交流了，于是shuffle-channel的出现很好的解决了这个问题。
40 | 
41 | ##### shuffle-channel
42 | 
43 | ![6014825-59f0c95736fa2d9f](./3.jpg)
44 | 
45 | shuffle-channel来源于旷世的ShuffleNet。虽然这篇文章宣称的精度难以复现。但其shuffle-channel的思想是非常值得借鉴的。shuffle-channel的原理将特征的通道平均分到不同组里面。是之每个组卷积的时候能得到其他组的信息。起到了一个组之间通信的作用。
46 | 
47 | 我们做了一些实验来证明了本文论述的结果
48 | 
49 | |               | sets-1 | sets-2 |
50 | | ------------- | ------ | ------ |
51 | | MTCNN         | 21fps  | 11fps  |
52 | | MTCNN-dw      | 131fps | 101fps |
53 | | MTCNN-shuffle | 220fps | 135fps |
54 | 
55 | 其中 sets-1 数据集均为一张人脸，sets-2数据集为2-4张人脸的普通监控场景。测试框架是caffe。环境为Macbook 2015 r15 2.2GHZ 的结果。
56 | 
57 | ##### 在Pnet检测前使用中值滤波
58 | 
59 | 我们注意到在某些监控场景的夜晚图片，会有大量噪点的出现，我们知道由于CNN的不稳定性，所以导致了Pnet产生了大量的误检选区，为了减少这些噪点的出现，我们可以在Pnet检测之前，使用一次中值滤波来做个快速的去噪，总体实验下来有着不错的效果，每次inference时间也会更加的稳定。
60 | 
61 | ##### 框架的加速
62 | 
63 | 我们将caffe版本的MTCNN inference改成opencv dnn，在普通的opencv dnn backend下取得了差不多近四倍的加速。
64 | 
65 | ##### MTCNN的并行
66 | 
67 | 大家都知道Cascade架构都难以并行，使得在某些检测任务上，在GPU上的提升并不大，我们的做法是类似于FaceCraft的来将MTCNN的pipeline写进计算图，并且使用TVM来优化整个计算图。
68 | 
69 | ##### 
70 | 
71 | 


--------------------------------------------------------------------------------
/6.神经网络的设计/README.md:
--------------------------------------------------------------------------------
 1 | # 网络的设计
 2 | 
 3 | 这里我们介绍一些常用的网络模块，包括一些在准确度、速度、参数量具有优势的结构，以及在特定场景下效果显著的巧妙设计。后期会结合我们自己的工程进行实践讲解。
 4 | 
 5 | ### 几种卷积的介绍
 6 | 
 7 | - Spital Convolution
 8 | - Depthwise Convolution
 9 | - Deformable Convolution
10 | - Dilated Convolution
11 | 
12 | #### 网络的几个常用Block
13 | 
14 | - Inception
15 | - Bottleneck
16 | - Residual Connection
17 | - Inverted Residual Block
18 | - Dense  Connection
19 | - SE
20 | - Nasnet系列
21 | 
22 | #### 网络的时效性对比图
23 | 
24 | #### MTCNN的另类用法-移动端实时跟踪网络设计
25 | 
26 | #### 移动端2D human pose网络设计
27 | 
28 | 
29 | 
30 | 
31 | 
32 | 
33 | 
34 | 
35 | 
36 | 


--------------------------------------------------------------------------------
/7.神经网络的适用场景/README.md:
--------------------------------------------------------------------------------
  1 | ### 深度学习在图像领域的应用
  2 | 
  3 | 随着深度学习近几年的火热发展，在计算机视觉，图像理解方向上，应用越来越广泛。我们总结了在视觉领域的一些方向上基于深度学习的优秀算法。包括物体检测、物体识别、人脸世界、分割、跟踪、边缘检测、图像复原（去雨、去雾）、图像编辑等。
  4 |  
  5 | ###  检测
  6 | 
  7 | #### 1. 单一物体检测
  8 | 
  9 | MTCNN: https://github.com/kpzhang93/MTCNN_face_detection_alignment
 10 | 
 11 | Cascade-CNN: https://github.com/anson0910/CNN_face_detection
 12 | 
 13 | #### 2. 通用物体检测
 14 | 
 15 | Faster-RCNN: https://github.com/rbgirshick/py-faster-rcnn
 16 | 
 17 | YOLO: https://github.com/pjreddie/darknet
 18 | 
 19 | SSD: https://github.com/FreeApe/VGG-or-MobileNet-SSD
 20 | 
 21 | RetinaNet: https://github.com/fizyr/keras-retinanet
 22 | 
 23 | ### 分类
 24 | 
 25 | VGG: https://github.com/ry/tensorflow-vgg16
 26 | 
 27 | GoogLenet: https://github.com/n3011/Inception_v3_GoogLeNet
 28 | 
 29 | Resnet: https://github.com/ry/tensorflow-resnet
 30 | 
 31 | Mobilenet: https://github.com/shicai/MobileNet-Caffe
 32 | 
 33 | Shufflenet: https://github.com/anlongstory/ShuffleNet_V2-caffe
 34 | 
 35 | MNasNet: https://github.com/zeusees/Mnasnet-Pretrained-Model
 36 | 
 37 | ### 识别
 38 | 
 39 | #### 1. 人脸识别
 40 | 
 41 | Deepface: https://github.com/RiweiChen/DeepFace 
 42 | 
 43 | Normface: https://github.com/happynear/NormFace
 44 | 
 45 | Insightface: https://github.com/deepinsight/insightface
 46 | 
 47 | #### 2. 文字识别
 48 | 
 49 | CTPN: https://github.com/tianzhi0549/CTPN (文字定位)
 50 | 
 51 | EAST: https://github.com/argman/EAST (文字定位)
 52 | 
 53 | AdvancedEAST: https://github.com/huoyijie/AdvancedEAST (文字定位)
 54 | 
 55 | DeepOCR: https://github.com/JinpengLI/deep_ocr
 56 | 
 57 | DenseNet + CTC: https://github.com/YCG09/chinese_ocr
 58 | 
 59 | YOLOv3 + CRNN : https://github.com/chineseocr/chineseocr 
 60 | 
 61 | ### 跟踪
 62 | 
 63 | #### 1. 
 64 | 
 65 | #### 2. 
 66 | 
 67 | 
 68 | ### 分割
 69 | 
 70 | Unet: https://github.com/zhixuhao/unet
 71 | 
 72 | mask-rcnn: https://github.com/matterport/Mask_RCNN
 73 | 
 74 | ### 边缘检测
 75 | 
 76 | HED: https://github.com/s9xie/hed
 77 | 
 78 | RCF: https://github.com/yun-liu/rcf
 79 | 
 80 | 
 81 | ### 图像复原
 82 | 
 83 | #### 1. 去雨
 84 | 
 85 | DDN: https://github.com/XMU-smartdsp/Removing_Rain
 86 | 
 87 | CGAN: https://github.com/hezhangsprinter/ID-CGAN
 88 | 
 89 | DID-MDN: https://github.com/hezhangsprinter/DID-MDN
 90 | 
 91 | DeRaindrop: https://github.com/rui1996/DeRaindrop
 92 | 
 93 | #### 2. 去雾
 94 | 
 95 | MSCNN: https://github.com/dishank-b/MSCNN-Dehazing-Tensorflow
 96 | 
 97 | DehazeNet: https://github.com/caibolun/DehazeNet
 98 | 
 99 | #### 3. 超分辨率
100 | 
101 | SRCNN: https://github.com/tegg89/SRCNN-Tensorflow
102 | 
103 | EDSR: https://github.com/thstkdgus35/EDSR-PyTorch  (https://blog.csdn.net/xjp_xujiping/article/details/81986020)
104 | 
105 | #### 4.图像单反化
106 | 
107 | DPED: https://github.com/aiff22/DPED
108 | 
109 | ###  总结
110 | 
111 | 目前深度学习技术在计算机视觉算法、图像处理算法运用越来越广泛，这里把我们在工程中常用的一些网络加以整理总结，方便后面的使用者学习。在很多细分领域，深度学习同样发挥了巨大作用，例如医学领域，自然语言处理等，由于这些领域专业性更强，通常是多学科的结合，我们应用不多，没办法为大家提供详细的研究材料，大家见谅。
112 | 
113 | ### 参考资料
114 | 
115 | 


--------------------------------------------------------------------------------
/8.基础网络的训练/README.md:
--------------------------------------------------------------------------------
 1 | #### 基础网络的训练
 2 | 
 3 | 目前我们常用的神经网络，github上基本都具有较为丰富的训练、测试代码，我们这里选择几种常用，高效的网络推荐给大家，包括与之对应的github工程，涉及一些训练的技巧，旨在让大家能够复现出作者原始的精度。
 4 | 
 5 | 我们这里主要介绍以下几个网络的训练与使用:
 6 | 
 7 | ```
 8 | 1.MobileNet(分类网络)
 9 | 
10 | 2.MnasNet(分类网络)
11 | 
12 | 3.MTCNN(单一物体检测网络)
13 | 
14 | 4.MobileNet-SSD(Single Shot 物体检测网络)
15 | 
16 | 5.CTPN(文字定位网络)
17 | 
18 | 6.insightface(人脸识别网络)
19 | 
20 | 7.VanillaCNN(人脸关键点回归网络)
21 | 
22 | 8.YOLO-V3(通用物体检测网络)
23 | 
24 | 9.DeepOCR(文字识别网络)
25 | 
26 | ```
27 | 
28 | 以上这些网络涵盖了日常使用网络设计到的大部分功能，一些相关的应用也可以通过这些网络的变通，修改进行试验。
29 | 
30 | #### 1.MobileNet
31 | 
32 | MobileNet是谷歌发布的第一代专为移动端设计的高效网络，其后续版本MobileNet-v2同样优秀，shicai yang大神已经给出了网络的pretrain model，以及caffe的[训练、测试代码](https://github.com/shicai/MobileNet-Caffe)，利用该网络可以训练其他类似的分类任务，例如我们开源的[鉴黄网络](https://github.com/zeusees/HyperNSFW).
33 | 
34 | #### 2.MnasNet
35 | 
36 | MnasNet同样是谷歌发布的高效移动端分类网络，与Mobilenet不同之处在于网络的设计借助deepmind AI的能力，不是hand craft手动设计的网络，相比于mobilenet，速度快大约1.5倍，准确度提高将近两个点。我们同样复现了该网络，并且提供了该网络再标准ImageNet上的pretrain model，接近了官方的精度。连接地址：https://github.com/zeusees/Mnasnet-Pretrained-Model
37 | 
38 | #### 3.MTCNN
39 | 
40 | MTCNN是一个非常优秀的单一物体检测框架，可以用这个框架进行人脸、车辆、行人等单一物体的检测，该网络的主要问题在于单帧图像中包含多个物体时，检测速度下降严重。mtcnn的复现在github上有多个版本，包括caffe、keras、TensorFlow等，我们测试了不同版本，有一些存在问题，https://github.com/AITTSMD/MTCNN-Tensorflow 这个repo能够基本复现作者的精度，训练过程中，一定要注意正负样本保持1:3的比例。其实，mtcnn框架具有一些优化的方法和空间，包括用卷积替代polling，采用dw卷积等等，相关修改可以参考我们的文章: https://blog.csdn.net/Relocy/article/details/84075570 . 我们的工程师同样提供了一个优化的mtcnn模型：https://github.com/szad670401/Fast-MTCNN ，大家可以参考修改。
41 | 
42 | #### 4.MobileNet-SSD
43 | 
44 | SSD是Single Shot检测网络的代表结构，其速度快，单帧物体数量对检测速度影响不大，具有很好的工程化指导作用。Mobilenet跟SSD的结合，更能够提高网络的速度。Mobilenet-SSD可以参考：https://github.com/chuanqi305/MobileNet-SSD 这里有数据准备代码，以及网络的训练测试代码。我们采用这个网络进行了车牌检测的实验，效果也不错，能够完成单层、双层、蓝牌、黄牌、绿牌的检测，可以参见我们的博客：https://blog.csdn.net/lsy17096535/article/details/78687728 ，我们开源的车牌检测Mobilenet-SSD模型：https://github.com/zeusees/Mobilenet-SSD-License-Plate-Detection
45 | 
46 | #### 5.CTPN
47 | 
48 | #### 6.insightface
49 | 
50 | insightface是一款高精度的开源人脸识别框架，在我们的测试中，insightface针对一般场景效果不错，“历史脸”效果稍差，有可能因为训练数据历史脸数据不足导致的，算法的作者guojia也将论文提交到了CVPR2019，期待他的好消息。大家可以在这里找到作者的实现：https://github.com/deepinsight/insightface 作者的框架基于MXNET，目前git上已经有基于TensorFlow、caffe等其他框架的实现，大家可以参考。大家在部署阶段，可以利用TVM部署该框架，速度快，也可以将模型转换到caffe model，部署到其他平台。TVM部署方法可以参考我们的博客：[insightface模型的TVM框架部署](https://github.com/zeusees/HyperDL-Tutorial/blob/master/5.%E6%A8%A1%E5%9E%8B%E7%9A%84%E9%83%A8%E7%BD%B2/%E5%9C%A8CPP%E4%B8%8B%E4%BD%BF%E7%94%A8TVM%E6%9D%A5%E9%83%A8%E7%BD%B2mxnet%E6%A8%A1%E5%9E%8B%EF%BC%88%E4%BB%A5Insightface%E4%B8%BA%E4%BE%8B%EF%BC%89.md)
51 | 
52 | #### 7.VanillaCNN
53 | 
54 | VanillaCNN是针对香港中文大学人脸关键点定位网络TCDCN的一个复现，大家可以参考 https://github.com/ishay2b/VanillaCNN 。稠密人脸关键点定位(通常关键点50点以上)同样是一个回归问题，让网络能够通过对人脸边缘特征的提取，回归出准确的定位，这篇文章采用了多任务进行定位，取得了很好的效果，后来几年的的很多算法，在准确度上有提升，但是在速度上不具有优势。大家可以利用高效的网络结构提取特征并加速，取得更好的人脸关键点定位准确度和速度。大家在训练关键点定位的网络时，可以结合可视化的技术，将网络后面基层的feature map显示出来，观察网络对输入人脸边缘提取的效果，改进网络结构。
55 | 
56 | #### 8.YOLO-V3
57 | 
58 | 通用物体检测近年来也是研究人员关注的人们领域，从RBG、何凯明大神的RCNN，Fast RCNN，Faster RCNN，MASK RCNN等，Single Shot的Yolo系列、SSD等，以后后来的RetinaNet，我们对这一系列的网络都进行过测试，由于我们算法组在日常使用中主要考虑移动端的部署以及服务器端的效率，推荐了MobileNet-SSD跟YOLO-V
59 | 3。我们对3000张行车记录仪标注图像以及2000张交通监控图片进行标注，分别在以上网络进行了测试，对于我们的图片，YOLO-V3表现最好，速度也是最快的一档。项目主页：https://pjreddie.com/darknet/yolo/ 
60 | 
61 | #### 9.DeepOCR
62 | 
63 | DeepOCR这里我们泛指利用深度学习进行文字识别的方法，目前网上开源的算法较好的有 https://github.com/YCG09/chinese_ocr 以及 https://github.com/chineseocr/chineseocr ， 前一个方法利用CTPN网络作为文字检测网络，然后利用DenseNet + CTC 进行文字识别。后面的方法利用YOLOv3作文文字检测网络，利用CRNN进行文字识别。两个网络都提供了训练代码，直接使用已有的模型对黑白打印文字识别效果还可以，但是对于自然文字场景，文字颜色不为黑色的情况下，识别率较差，使用者可以利用 https://github.com/yanhaiming56/SynthText_Chinese_py3 这个工具生成自己需要的字体及颜色的样本（我们观察了一下，生成的样本质量一般），或者自己标注新的数据，重新训练模型，取得好的效果。
64 | 
65 | 
66 | 
67 | 
68 | 
69 | 
70 | 
71 | 
72 | 
73 | 
74 | 
75 | 
76 | 
77 | 


--------------------------------------------------------------------------------
/9.相关面试题/README.md:
--------------------------------------------------------------------------------
  1 | ### 相关问题
  2 | 
  3 | 说是面试题，并不是为了读者去利用这个去参加面试，只是为了一些图像算法相关问题的深入理解，这里面的一些问题，除了参考网上的解答，也包含了
  4 | 部分我们自己的理解，不当之处欢迎指出。
  5 | 
  6 | 
  7 | ##### 1.CNN的特点以及优势
  8 | 
  9 |    改变全连接为局部连接，这是由于图片的特殊性造成的（图像的一部分的统计特性与其他部分是一样的），通过局部连接和参数共享大范围的减少参数值。可以通过使用多个filter来提取图片的不同特征（多卷积核）。 
 10 |     
 11 |    CNN使用范围是具有局部空间相关性的数据，比如图像，自然语言，语音
 12 | 
 13 |     1.局部连接：可以提取局部特征。
 14 |     2.权值共享：减少参数数量，因此降低训练难度（空间、时间消耗都少了）。 
 15 |     3.可以完全共享，也可以局部共享（比如对人脸，眼睛鼻子嘴由于位置和样式相对固定，可以用和脸部不一样的卷积核）
 16 |     4.降维：通过池化或卷积stride实现。
 17 |     5.多层次结构：将低层次的局部特征组合成为较高层次的特征。不同层级的特征可以对应不同任务。
 18 |     
 19 |     
 20 | ##### 2.deconv的作用
 21 | 
 22 |     1.unsupervised learning： 重构图像
 23 |     2.CNN可视化：将conv中得到的feature map还原到像素空间，来观察特定的feature map对哪些pattern的图片敏感
 24 |     3.Upsampling：上采样。
 25 | 
 26 | 
 27 | ##### 3.dropout作用以及实现机制 (参考:https://blog.csdn.net/nini_coded/article/details/79302800)
 28 | 
 29 |     1.dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，
 30 |       对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。
 31 |     2.dropout是一种CNN训练过程中防止过拟合提高效果的方法
 32 |     3.dropout带来的缺点是可能减慢收敛速度：由于每次迭代只有一部分参数更新，可能导致梯度下降变慢
 33 |     4.测试时，需要每个权值乘以P
 34 | 
 35 | 
 36 | ##### 4.深度学习中有什么加快收敛/降低训练难度的方法： 
 37 | 
 38 |     1.瓶颈结构
 39 |     2.残差
 40 |     3.学习率、步长、动量
 41 |     4.优化方法
 42 |     5.预训练
 43 |  
 44 |  
 45 | ##### 5.什么造成过拟合，如何防止过拟合
 46 | 
 47 |     1.data agumentation
 48 |     2.early stop
 49 |     3.参数规则化
 50 |     4.用更简单模型
 51 |     5.dropout
 52 |     6.加噪声
 53 |     7.预训练网络freeze某几层
 54 |  
 55 |  
 56 | ##### 6.LSTM防止梯度弥散和爆炸 
 57 | 
 58 |     LSTM用加和的方式取代了乘积，使得很难出现梯度弥散。但是相应的更大的几率会出现梯度爆炸，但是可以通过给梯度加门限解决这一问题
 59 |  
 60 | ##### 7.为什么很多做人脸的Paper会最后加入一个Local Connected Conv?
 61 | 
 62 |    在一些研究成果中，作者通过实验表明：人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。
 63 | 
 64 | ##### 8.神经网络权值初始化方式以及不同方式的区别?
 65 | 
 66 |    权值初始化的方法主要有：常量初始化（constant）、高斯分布初始化（gaussian）、positive_unitball初始化、均匀分布初始化（uniform）、xavier初始化、msra初始化、双线性初始化（bilinear）
 67 | 
 68 | ##### 9.Convolution、 pooling、 Normalization是卷积神经网络中十分重要的三个步骤，分别简述Convolution、 pooling和Normalization在卷积神经网络中的作用。
 69 | 
 70 | 
 71 | ##### 10.dilated conv(空洞卷积)优缺点以及应用场景
 72 | 
 73 |     基于FCN的语义分割问题中，需保持输入图像与输出特征图的size相同。
 74 |     若使用池化层，则降低了特征图size,需在高层阶段使用上采样，由于池化会损失信息，所以此方法会影响导致精度降低；
 75 |     若使用较小的卷积核尺寸，虽可以实现输入输出特征图的size相同，但输出特征图的各个节点感受野小；
 76 |     若使用较大的卷积核尺寸，由于需增加特征图通道数，此方法会导致计算量较大；
 77 |     所以，引入空洞卷积(dilatedconvolution),在卷积后的特征图上进行0填充扩大特征图size，这样既因为有卷积核增大感受野，也因为0填充保持计算点不变。
 78 | 
 79 | 
 80 | ##### 11.判别模型和生成模型解释
 81 | 
 82 |    监督学习方法又分生成方法（Generative approach）和判别方法（Discriminative approach），所学到的模型分别称为生成模型（Generative Model）和判别模型（Discriminative Model）。
 83 |    
 84 |     从概率分布的角度考虑，对于一堆样本数据，每个均有特征Xi对应分类标记yi。
 85 | 
 86 |     生成模型：学习得到联合概率分布P(x,y)，即特征x和标记y共同出现的概率，然后求条件概率分布。能够学习到数据生成的机制。
 87 | 
 88 |     判别模型：学习得到条件概率分布P(y|x)，即在特征x出现的情况下标记y出现的概率。
 89 | 
 90 |     数据要求：生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。
 91 | 
 92 | 由生成模型可以得到判别模型，但由判别模型得不到生成模型。
 93 | 
 94 | 
 95 | 
 96 | ##### 12.如何判断是否收敛
 97 | 
 98 | 
 99 | ##### 13.正则化方法以及特点
100 | 
101 | 正则化方法包括： L1 regularization 、 L2 regularization 、 数据集扩增 、 dropout 等，其特点分别为：
102 | 
103 |     1.
104 | 
105 | 
106 | ##### 14.常用的激活函数 (参考:https://blog.csdn.net/Yshihui/article/details/80540070)
107 | 
108 | | 激活函数 | 公式 | 缺点 | 优点 |
109 | | ----------------- | ----------- | ------------------- | ---------- |
110 | | Sigmoid           | σ(x)=1/(1+e−x)       | 1、会有梯度弥散<br>2、不是关于原点对称<br>3、计算exp比较耗时   |   -   |
111 | | Tanh              | tanh(x)=2σ(2x)−1     | 梯度弥散没解决                  |    1、解决了原点对称问题<br>2、比sigmoid更快   |
112 | | ReLU              | f(x)=max(0,x)        | 梯度弥散没完全解决              |    1、解决了部分梯度弥散问题<br>2、收敛速度更快   |
113 | | Leaky ReLU        | f(x)=αx(x<=0) α固定  <br>f(x)=x(x<0)     | -         |    解决了神经死亡问题  |
114 | | pRelu             | f(x)=αx(x<=0) α可学习 <br>f(x)=x(x<0)     |  增加了极少量的参数,<br>降低过拟合风险    |    -    |
115 | | Maxout            | max(wT1x+b1,wT2x+b2) | 参数比较多,本质上是在输出结果上又增加了一层    |   克服了ReLU的缺点，比较提倡使用   |
116 | 
117 | 
118 | 
119 | ##### 15.1x1卷积的作用
120 | 
121 |     1. 实现跨通道的信息交互和整合。1x1卷积核只有一个参数，当它作用在多通道的feature map上时，相当于不同通道上的一个线性组合，
122 |        实际上就是加起来再乘以一个系数，但是这样输出的feature map就是多个通道的整合信息了，能够使网络提取的特征更加丰富。
123 |     2. feature map通道数上的降维。降维这个作用在GoogLeNet和ResNet能够很好的体现。举个例子：假设输入的特征维度为100x100x128，
124 |        卷积核大小为5x5（stride=1，padding=2），通道数为256，则经过卷积后输出的特征维度为100x100x256，卷积参数量为
125 |        128x5x5x256=819200。此时在5x5卷积前使用一个64通道的1x1卷积，最终的输出特征维度依然是100x100x256，但是此时的卷积参数
126 |        量为128x1x1x64 + 64x5x5x256=417792，大约减少一半的参数量。
127 |     3. 增加非线性映射次数。1x1卷积后通常加一个非线性激活函数，使网络提取更加具有判别信息的特征，同时网络也能做的越来越深。
128 | 
129 | ##### 16.无监督学习方法有哪些
130 | 
131 |     强化学习、K-means 聚类、自编码、受限波尔兹曼机
132 |      
133 | ##### 17.增大感受野的方法？
134 | 
135 |     空洞卷积、池化操作、较大卷积核尺寸的卷积操作
136 |      
137 | ##### 18.目标检测领域的常见算法？
138 | 
139 |     1.两阶段检测器：R-CNN、Fast R-CNN、Faster R-CNN
140 |     2.单阶段检测器：YOLO、YOLO9000、SSD、DSSD、RetinaNet
141 |      
142 | ##### 19.回归问题的评价指标
143 | 
144 |     1.平均绝对值误差(MAE)
145 |     2.均方差(MSE)
146 |     
147 | ##### 20.卷积层和全连接层的区别
148 | 
149 |     1.卷积层是局部连接，所以提取的是局部信息；全连接层是全局连接，所以提取的是全局信息；
150 |     2.当卷积层的局部连接是全局连接时，全连接层是卷积层的特例；
151 | 
152 | ##### 21.反卷积的棋盘效应及解决方案
153 | 
154 | 图像生成网络的上采样部分通常用反卷积网络，不合理的卷积核大小和步长会使反卷积操作产生棋盘效应
155 | 
156 | 解决方案:
157 | 
158 | 
159 | ##### 22.分类的预训练模型如何应用到语义分割上
160 | 
161 |     1.参考论文: Fully Convolutional Networks for Semantic Segmentation
162 | 
163 | ##### 23.SSD和YOLO的区别
164 | 
165 | 
166 | ##### 24.交叉熵和softmax，还有它的BP
167 | 
168 | 
169 | #### 实践部分
170 | 
171 | 
172 | 1.python中range和xrange有什么不同
173 | 
174 |     两者的区别是xrange返回的是一个可迭代的对象；range返回的则是一个列表，同时效率更高，更快。
175 |  
176 | 2.python中带类和main函数的程序执行顺序
177 | 
178 |     1)对于  if __name__ == '__main__': 的解释相关博客已经给出了说明，意思就是当此文件当做模块被调用时，不会从这里执行，
179 |       因为此时name属性就成了模块的名字，而不是main。当此文件当做单独执行的程序运行时，就会从main开始执行。
180 |       
181 |     2)对于带有类的程序，会先执行类及类内函数，或者其他类外函数。这里可以总结为，对于没有缩进的程序段，按照顺序执行。然后，才
182 |       到main函数。然后才按照main内函数的执行顺序执行。如果main内对类进行了实例化，那么执行到此处时，只会对类内成员进行初始
183 |       化，然后再返回到main 函数中。 执行其他实例化之后对象的成员函数调用。
184 | 
185 | 3.神经网络的参数量计算
186 | 
187 | 4.计算空洞卷积的感受野
188 | 
189 | 5.mAP的计算
190 | 
191 | 6.Python tuple和list的区别
192 | 
193 | 7.Python的多线程和多进程，Python伪多线程，什么时候应该用它
194 | 
195 | 8.tensorflow while_loop和python for循环的区别，什么情况下for更优？
196 |     
197 |     while loop的循环次数不确定的情况下效率低，因为要不断重新建图
198 | 
199 | #### 参考文献
200 | 
201 | [1] https://blog.csdn.net/u014722627/article/details/77938703
202 | 
203 | [2] https://www.cnblogs.com/houjun/p/8535471.html
204 | 
205 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # HyperDL-Tutorial
 2 | 
 3 | > HyperDL-Tutorial 是一个深度学习相关的系列文章，总结了我们在深度学习实践中的一些经验。
 4 | 
 5 | # 目录
 6 | 
 7 | 1. [常见深度学习框架](1.常见深度学习框架/README.md)
 8 | 2. [基础网络](2.基础网络/README.md)
 9 | 3. [神经网络的优化](3.神经网络的优化/README.md)
10 | 4. [模型之间的转换](4.模型之间的转换/README.md)
11 | 5. [适用于移动端的框架](5.适用于移动端的框架/README.md)
12 | 6. [神经网络的设计](6.神经网络的设计/README.md)
13 | 7. [神经网络的适用场景](7.神经网络的适用场景/README.md)
14 | 8. [基础网络的训练](8.基础网络的训练/README.md)
15 | 9. [相关面试题](9.相关面试题/README.md)
16 | 10. [对抗蒸馏](10.对抗蒸馏/README.md)
17 | 
18 | 
19 | > 教程在逐渐完善中，感兴趣的同学可以给我们提一些意见，如果文中理解有误或者表述不当，也欢迎指出。
20 | 
21 | > 欢迎大家转载，请标明出处，谢谢大家。
22 | 
23 | > 如果你也愿意分享自己的技术心得，欢迎加我们的交流群 QQ:737677707, 备注:HyperDL
24 | 


--------------------------------------------------------------------------------