├── README.md
├── _config.yml
├── 深度学习500问-Tan-00目录.docx
├── 深度学习500问-Tan-00目录.pdf
├── 深度学习500问-Tan-01第一章 数学基础.pdf
├── 深度学习500问-Tan-02第二章 机器学习基础.pdf
├── 深度学习500问-Tan-03第三章 深度学习基础.pdf
├── 深度学习500问-Tan-04第四章 经典网络.pdf
├── 深度学习500问-Tan-05第五章 卷积神经网络（CNN）.pdf
├── 深度学习500问-Tan-06第六章 循环神经网络（RNN）.pdf
├── 深度学习500问-Tan-07第七章 目标检测.pdf
├── 深度学习500问-Tan-08第八章 图像分割.pdf
├── 深度学习500问-Tan-09第九章 强化学习.pdf
├── 深度学习500问-Tan-10第十章 迁移学习.pdf
├── 深度学习500问-Tan-13第十三章 优化算法.pdf
├── 深度学习500问-Tan-14第十四章 超参数调整.pdf
├── 深度学习500问-Tan-15第十五章 正则化.pdf
├── 深度学习500问-Tan-16参考文献.pdf
├── 目录预览
└── 第一章_数学基础.md


/README.md:
--------------------------------------------------------------------------------
  1 | ## Welcome to GitHub Pages
  2 | 
  3 | You can use the [editor on GitHub](https://github.com/scutan90/DeepLearning-500-questions/edit/master/README.md) to maintain and preview the content for your website in Markdown files.
  4 | 
  5 | ##############################################################
  6 | 
  7 | 请尊重作者的知识产权，版权所有，翻版必究。   2018.6.27  Tan 
  8 | 
  9 | ##############################################################
 10 | 
 11 | ## 接下来，将提供MD版本\tex版本，大家一起编辑完善，敬请期待！
 12 | 
 13 | 寻求有愿意继续完善的朋友、编辑、写手，合作出书；
 14 | 
 15 | 如有意合作，完善出书（成为共同作者），
 16 | 
 17 | 请联系scutjy2015@163.com　；　加微信Tan：tan_weixin88
 18 | 
 19 | 微信交流群：《深度学习500问》交流群
 20 | ![《深度学习500问》交流群二维码](WechatIMG3.jpeg)
 21 | 
 22 | 2018.10.23  Tan 
 23 | 
 24 | ##############################################################
 25 | 
 26 | ## 第一章 数学基础	1
 27 | 
 28 | ## 第二章 机器学习基础	14
 29 | 
 30 | 2.1 各种常见算法图示	14
 31 | 
 32 | 2.2监督学习、非监督学习、半监督学习、弱监督学习？	15
 33 | 
 34 | 2.3 监督学习有哪些步骤	16
 35 | 
 36 | 2.4 多实例学习？	17
 37 | 
 38 | 2.5 分类网络和回归的区别？	17
 39 | 
 40 | 2.6 什么是神经网络？	17
 41 | 
 42 | 2.7 常用分类算法的优缺点？	18
 43 | 
 44 | 2.8 正确率能很好的评估分类算法吗？	20
 45 | 
 46 | 2.9 分类算法的评估方法？	20
 47 | 
 48 | 2.10 什么样的分类器是最好的？	22
 49 | 
 50 | 2.11大数据与深度学习的关系	22
 51 | 
 52 | 2.12 理解局部最优与全局最优	23
 53 | 
 54 | 2.13 理解逻辑回归	24
 55 | 
 56 | 2.14 逻辑回归与朴素贝叶斯有什么区别？	24
 57 | 
 58 | 2.15 为什么需要代价函数？	25
 59 | 
 60 | 2.16 代价函数作用原理 	25
 61 | 
 62 | 2.17 为什么代价函数要非负？	26
 63 | 
 64 | 2.18 常见代价函数？	26
 65 | 
 66 | 2.19为什么用交叉熵代替二次代价函数	28
 67 | 
 68 | 2.20 什么是损失函数？	28
 69 | 
 70 | 2.21 常见的损失函数	28
 71 | 
 72 | 2.22 逻辑回归为什么使用对数损失函数？	30
 73 | 
 74 | 0.00 对数损失函数是如何度量损失的？	31
 75 | 
 76 | 2.23 机器学习中为什么需要梯度下降？	32
 77 | 
 78 | 2.24 梯度下降法缺点？	32
 79 | 
 80 | 2.25 梯度下降法直观理解？	32
 81 | 
 82 | 2.23 梯度下降法算法描述？	33
 83 | 
 84 | 2.24 如何对梯度下降法进行调优？	35
 85 | 
 86 | 2.25 随机梯度和批量梯度区别？	35
 87 | 
 88 | 2.26 各种梯度下降法性能比较	37
 89 | 
 90 | 2.27计算图的导数计算图解？	37
 91 | 
 92 | 2.28 线性判别分析（LDA）思想总结	39
 93 | 
 94 | 2.29 图解LDA核心思想	39
 95 | 
 96 | 2.30 二类LDA算法原理？	40
 97 | 
 98 | 2.30 LDA算法流程总结？	41
 99 | 
100 | 2.31 LDA和PCA区别？	41
101 | 
102 | 2.32 LDA优缺点？	41
103 | 
104 | 2.33 主成分分析（PCA）思想总结	42
105 | 
106 | 2.34 图解PCA核心思想	42
107 | 
108 | 2.35 PCA算法推理	43
109 | 
110 | 2.36 PCA算法流程总结	44
111 | 
112 | 2.37 PCA算法主要优缺点	45
113 | 
114 | 2.38 降维的必要性及目的	45
115 | 
116 | 2.39 KPCA与PCA的区别？	46
117 | 
118 | 2.40 模型评估	47
119 | 
120 | 2.40.1模型评估常用方法？	47
121 | 
122 | 2.40.2 经验误差与泛化误差	47
123 | 
124 | 2.40.3 图解欠拟合、过拟合	48
125 | 
126 | 2.40.4 如何解决过拟合与欠拟合？	49
127 | 
128 | 2.40.5 交叉验证的主要作用？	50
129 | 
130 | 2.40.6 k折交叉验证？	50
131 | 
132 | 2.40.7 混淆矩阵	50
133 | 
134 | 2.40.8 错误率及精度	51
135 | 
136 | 2.40.9 查准率与查全率	51
137 | 
138 | 2.40.10 ROC与AUC	52
139 | 
140 | 2.40.11如何画ROC曲线？	53
141 | 
142 | 2.40.12如何计算TPR，FPR？	54
143 | 
144 | 2.40.13如何计算Auc？	56
145 | 
146 | 2.40.14为什么使用Roc和Auc评价分类器？	56
147 | 
148 | 2.40.15 直观理解AUC	56
149 | 
150 | 2.40.16 代价敏感错误率与代价曲线	57
151 | 
152 | 2.40.17 模型有哪些比较检验方法	59
153 | 
154 | 2.40.18 偏差与方差	59
155 | 
156 | 2.40.19为什么使用标准差？	60
157 | 
158 | 2.40.20 点估计思想	61
159 | 
160 | 2.40.21 点估计优良性原则？	61
161 | 
162 | 2.40.22点估计、区间估计、中心极限定理之间的联系？	62
163 | 
164 | 2.40.23 类别不平衡产生原因？	62
165 | 
166 | 2.40.24 常见的类别不平衡问题解决方法	62
167 | 
168 | 2.41 决策树	64
169 | 
170 | 2.41.1 决策树的基本原理	64
171 | 
172 | 2.41.2 决策树的三要素？	64
173 | 
174 | 2.41.3 决策树学习基本算法	65
175 | 
176 | 2.41.4 决策树算法优缺点	65
177 | 
178 | 2.40.5 熵的概念以及理解	66
179 | 
180 | 2.40.6 信息增益的理解	66
181 | 
182 | 2.40.7 剪枝处理的作用及策略？	67
183 | 
184 | 2.41 支持向量机	67
185 | 
186 | 2.41.1 什么是支持向量机	67
187 | 
188 | 2.25.2 支持向量机解决的问题？	68
189 | 
190 | 2.25.2 核函数作用？	69
191 | 
192 | 2.25.3 对偶问题	69
193 | 
194 | 2.25.4 理解支持向量回归	69
195 | 
196 | 2.25.5 理解SVM（核函数）	69
197 | 
198 | 2.25.6 常见的核函数有哪些？	69
199 | 
200 | 2.25.6 软间隔与正则化	73
201 | 
202 | 2.25.7 SVM主要特点及缺点？	73
203 | 
204 | 2.26 贝叶斯	74
205 | 
206 | 2.26.1 图解极大似然估计	74
207 | 
208 | 2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别？	76
209 | 
210 | 2.26.4 朴素与半朴素贝叶斯分类器	76
211 | 
212 | 2.26.5 贝叶斯网三种典型结构	76
213 | 
214 | 2.26.6 什么是贝叶斯错误率	76
215 | 
216 | 2.26.7 什么是贝叶斯最优错误率	76
217 | 
218 | 2.27 EM算法解决问题及实现流程	76
219 | 
220 | 2.28 为什么会产生维数灾难？	78
221 | 
222 | 2.29怎样避免维数灾难	82
223 | 
224 | 2.30聚类和降维有什么区别与联系？	82
225 | 
226 | 2.31 GBDT和随机森林的区别	83
227 | 
228 | 2.32 四种聚类方法之比较	84
229 | 
230 | 
231 | ## 第三章 深度学习基础	88
232 | 3.1基本概念	88
233 | 
234 | 3.1.1神经网络组成？	88
235 | 
236 | 3.1.2神经网络有哪些常用模型结构？	90
237 | 
238 | 3.1.3如何选择深度学习开发平台？	92
239 | 
240 | 3.1.4为什么使用深层表示	92
241 | 
242 | 3.1.5为什么深层神经网络难以训练？	93
243 | 
244 | 3.1.6深度学习和机器学习有什么不同	94
245 | 
246 | 3.2 网络操作与计算	95
247 | 
248 | 3.2.1前向传播与反向传播？	95
249 | 
250 | 3.2.2如何计算神经网络的输出？	97
251 | 
252 | 3.2.3如何计算卷积神经网络输出值？	98
253 | 
254 | 3.2.4如何计算Pooling层输出值输出值？	101
255 | 
256 | 3.2.5实例理解反向传播	102
257 | 
258 | 3.3 超参数	105
259 | 
260 | 3.3.1什么是超参数？	105
261 | 
262 | 3.3.2如何寻找超参数的最优值？	105
263 | 
264 | 3.3.3超参数搜索一般过程？	106
265 | 
266 | 3.4 激活函数	106
267 | 
268 | 3.4.1为什么需要非线性激活函数？	106
269 | 
270 | 3.4.2常见的激活函数及图像	107
271 | 
272 | 3.4.3 常见激活函数的导数计算？	109
273 | 
274 | 3.4.4激活函数有哪些性质？	110
275 | 
276 | 3.4.5 如何选择激活函数？	110
277 | 
278 | 3.4.6使用ReLu激活函数的优点？	111
279 | 
280 | 3.4.7什么时候可以用线性激活函数？	111
281 | 
282 | 3.4.8怎样理解Relu（<0时）是非线性激活函数？	111
283 | 
284 | 3.4.9 Softmax函数如何应用于多分类？	112
285 | 
286 | 3.5 Batch_Size	113
287 | 
288 | 3.5.1为什么需要Batch_Size？	113
289 | 
290 | 3.5.2 Batch_Size值的选择	114
291 | 
292 | 3.5.3在合理范围内，增大 Batch_Size 有何好处？	114
293 | 
294 | 3.5.4盲目增大 Batch_Size 有何坏处？	114
295 | 
296 | 3.5.5调节 Batch_Size 对训练效果影响到底如何？	114
297 | 
298 | 3.6 归一化	115
299 | 
300 | 3.6.1归一化含义？	115
301 | 
302 | 3.6.2为什么要归一化	115
303 | 
304 | 3.6.3为什么归一化能提高求解最优解速度？	115
305 | 
306 | 3.6.4 3D图解未归一化	116
307 | 
308 | 3.6.5归一化有哪些类型？	117
309 | 
310 | 3.6.6局部响应归一化作用	117
311 | 
312 | 3.6.7理解局部响应归一化公式	117
313 | 
314 | 3.6.8什么是批归一化（Batch Normalization）	118
315 | 
316 | 3.6.9批归一化（BN）算法的优点	119
317 | 
318 | 3.6.10批归一化（BN）算法流程	119
319 | 
320 | 3.6.11批归一化和群组归一化	120
321 | 
322 | 3.6.12 Weight Normalization和Batch Normalization	120
323 | 
324 | 3.7 预训练与微调(fine tuning)	121
325 | 
326 | 3.7.1为什么无监督预训练可以帮助深度学习？	121
327 | 
328 | 3.7.2什么是模型微调fine tuning	121
329 | 
330 | 3.7.3微调时候网络参数是否更新？	122
331 | 
332 | 3.7.4 fine-tuning模型的三种状态	122
333 | 
334 | 3.8权重偏差初始化	122
335 | 
336 | 3.8.1 全都初始化为0	122
337 | 
338 | 3.8.2 全都初始化为同样的值	123
339 | 
340 | 3.8.3 初始化为小的随机数	124
341 | 
342 | 3.8.4用1/sqrt(n)校准方差	125
343 | 
344 | 3.8.5稀疏初始化(Sparse Initialazation)	125
345 | 
346 | 3.8.6初始化偏差	125
347 | 
348 | 3.9 Softmax	126
349 | 
350 | 3.9.1 Softmax定义及作用	126
351 | 
352 | 3.9.2 Softmax推导	126
353 | 
354 | 3.10 理解One Hot Encodeing原理及作用？	126
355 | 
356 | 3.11 常用的优化器有哪些	127
357 | 
358 | 3.12 Dropout 系列问题	128
359 | 
360 | 3.12.1 dropout率的选择	128
361 | 
362 | 3.27 Padding 系列问题	128
363 | 
364 | 
365 | ## 第四章 经典网络	129
366 | 
367 | 4.1LetNet5	129
368 | 
369 | 4.1.1模型结构	129
370 | 
371 | 4.1.2模型结构	129
372 | 
373 | 4.1.3 模型特性	131
374 | 
375 | 4.2 AlexNet	131
376 | 
377 | 4.2.1 模型结构	131
378 | 
379 | 4.2.2模型解读	131
380 | 
381 | 4.2.3模型特性	135
382 | 
383 | 4.3 可视化ZFNet-解卷积	135
384 | 
385 | 4.3.1 基本的思想及其过程	135
386 | 
387 | 4.3.2 卷积与解卷积	136
388 | 
389 | 4.3.3卷积可视化	137
390 | 
391 | 4.3.4 ZFNe和AlexNet比较	139
392 | 
393 | 4.4 VGG	140
394 | 
395 | 4.1.1 模型结构	140
396 | 
397 | 4.1.2 模型特点	140
398 | 
399 | 4.5 Network in Network	141
400 | 
401 | 4.5.1 模型结构	141
402 | 
403 | 4.5.2 模型创新点	141
404 | 
405 | 4.6 GoogleNet	143
406 | 
407 | 4.6.1 模型结构	143
408 | 
409 | 4.6.2 Inception 结构	145
410 | 
411 | 4.6.3 模型层次关系	146
412 | 
413 | 4.7 Inception 系列	148
414 | 
415 | 4.7.1 Inception v1	148
416 | 
417 | 4.7.2 Inception v2	150
418 | 
419 | 4.7.3 Inception v3	153
420 | 
421 | 4.7.4 Inception V4	155
422 | 
423 | 4.7.5 Inception-ResNet-v2	157
424 | 
425 | 4.8 ResNet及其变体	158
426 | 
427 | 4.8.1重新审视ResNet	159
428 | 
429 | 4.8.2残差块	160
430 | 
431 | 4.8.3 ResNet架构	162
432 | 
433 | 4.8.4残差块的变体	162
434 | 
435 | 4.8.5 ResNeXt	162
436 | 
437 | 4.8.6 Densely Connected CNN	164
438 | 
439 | 4.8.7 ResNet作为小型网络的组合	165
440 | 
441 | 4.8.8 ResNet中路径的特点	166
442 | 
443 | 4.9为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？	167
444 | 
445 | 
446 | ## 第五章 卷积神经网络(CNN)	170
447 | 
448 | 5.1 卷积神经网络的组成层	170
449 | 
450 | 5.2 卷积如何检测边缘信息？	171
451 | 
452 | 5.2 卷积的几个基本定义？	174
453 | 
454 | 5.2.1卷积核大小	174
455 | 
456 | 5.2.2卷积核的步长	174
457 | 
458 | 5.2.3边缘填充	174
459 | 
460 | 5.2.4输入和输出通道	174
461 | 
462 | 5.3 卷积网络类型分类？	174
463 | 
464 | 5.3.1普通卷积	174
465 | 
466 | 5.3.2扩张卷积	175
467 | 
468 | 5.3.3转置卷积	176  
469 | 
470 | 5.3.4可分离卷积	177
471 | 
472 | 5.3 图解12种不同类型的2D卷积？	178 
473 | 
474 | 5.4 2D卷积与3D卷积有什么区别？	181  
475 | 
476 | 5.4.1 2D 卷积	181  
477 | 
478 | 5.4.2 3D卷积	182  
479 | 
480 | 5.5 有哪些池化方法？	183  
481 | 
482 | 5.5.1一般池化（General Pooling）	183  
483 | 
484 | 5.5.2重叠池化（OverlappingPooling）	184  
485 | 
486 | 5.5.3空金字塔池化（Spatial Pyramid Pooling）	184  
487 | 
488 | 5.6 1x1卷积作用？	186
489 | 
490 | 5.7卷积层和池化层有什么区别？ 	187
491 | 
492 | 5.8卷积核一定越大越好？	189
493 | 
494 | 5.9每层卷积只能用一种尺寸的卷积核？	189
495 | 
496 | 5.10怎样才能减少卷积层参数量？	190
497 | 
498 | 5.11卷积操作时必须同时考虑通道和区域吗？	191
499 | 
500 | 5.12采用宽卷积的好处有什么？ 	192
501 | 
502 | 5.12.1窄卷积和宽卷积	192
503 | 
504 | 5.12.2 为什么采用宽卷积？	192
505 | 
506 | 5.13卷积层输出的深度与哪个部件的个数相同？ 	192
507 | 
508 | 5.14 如何得到卷积层输出的深度？	193
509 | 
510 | 5.15激活函数通常放在卷积神经网络的那个操作之后？ 	194
511 | 
512 | 5.16 如何理解最大池化层有几分缩小？	194
513 | 
514 | 5.17理解图像卷积与反卷积	194
515 | 
516 | 5.17.1图像卷积	194
517 | 
518 | 5.17.2图像反卷积	196
519 | 
520 | 5.18不同卷积后图像大小计算？	198
521 | 
522 | 5.18.1 类型划分	198
523 | 
524 | 5.18.2 计算公式	199
525 | 
526 | 5.19 步长、填充大小与输入输出关系总结？	199
527 | 
528 | 5.19.1没有0填充，单位步长	200
529 | 
530 | 5.19.2零填充，单位步长	200
531 | 
532 | 5.19.3不填充，非单位步长	202
533 | 
534 | 5.19.4零填充，非单位步长	202
535 | 
536 | 5.20 理解反卷积和棋盘效应	204
537 | 
538 | 5.20.1为什么出现棋盘现象？	204
539 | 
540 | 5.20.2 有哪些方法可以避免棋盘效应？	205
541 | 
542 | 5.21 CNN主要的计算瓶颈？	207
543 | 
544 | 5.22 CNN的参数经验设置	207
545 | 
546 | 5.23 提高泛化能力的方法总结	208
547 | 
548 | 5.23.1 主要方法	208
549 | 
550 | 5.23.2 实验证明	208
551 | 
552 | 5.24 CNN在CV与NLP领域运用的联系与区别？	213
553 | 
554 | 5.24.1联系	213
555 | 
556 | 5.24.2区别	213
557 | 
558 | 5.25 CNN凸显共性的手段？	213
559 | 
560 | 5.25.1 局部连接	213
561 | 
562 | 5.25.2 权值共享	214
563 | 
564 | 5.25.3 池化操作	215
565 | 
566 | 5.26 全卷积与Local-Conv的异同点	215
567 | 
568 | 5.27 举例理解Local-Conv的作用	215
569 | 
570 | 5.28 简述卷积神经网络进化史	216
571 | 
572 | 
573 | ## 第六章 循环神经网络(RNN)	218
574 | 
575 | 6.1 RNNs和FNNs有什么区别？	218
576 | 
577 | 6.2 RNNs典型特点？	218
578 | 
579 | 6.3 RNNs能干什么？	219
580 | 
581 | 6.4 RNNs在NLP中典型应用？	220
582 | 
583 | 6.5 RNNs训练和传统ANN训练异同点？	220
584 | 
585 | 6.6常见的RNNs扩展和改进模型	221
586 | 
587 | 6.6.1 Simple RNNs(SRNs)	221
588 | 
589 | 6.6.2 Bidirectional RNNs	221
590 | 
591 | 6.6.3 Deep(Bidirectional) RNNs	222
592 | 
593 | 6.6.4 Echo State Networks（ESNs）	222
594 | 
595 | 6.6.5 Gated Recurrent Unit Recurrent Neural Networks	224
596 | 
597 | 6.6.6 LSTM Netwoorks	224
598 | 
599 | 6.6.7 Clockwork RNNs(CW-RNNs)	225
600 | 
601 | 
602 | ## 第七章 目标检测	228
603 | 
604 | 7.1基于候选区域的目标检测器	228
605 | 
606 | 7.1.1滑动窗口检测器	228
607 | 
608 | 7.1.2选择性搜索	229
609 | 
610 | 7.1.3 R-CNN	230
611 | 
612 | 7.1.4边界框回归器	230
613 | 
614 | 7.1.5 Fast R-CNN	231
615 | 
616 | 7.1.6 ROI 池化	233
617 | 
618 | 7.1.7 Faster R-CNN	233
619 | 
620 | 7.1.8候选区域网络	234
621 | 
622 | 7.1.9 R-CNN 方法的性能	236
623 | 
624 | 7.2 基于区域的全卷积神经网络（R-FCN）	237
625 | 
626 | 7.3 单次目标检测器	240
627 | 
628 | 7.3.1单次检测器	241
629 | 
630 | 7.3.2滑动窗口进行预测	241
631 | 
632 | 7.3.3 SSD	243
633 | 
634 | 7.4 YOLO系列	244
635 | 
636 | 7.4.1 YOLOv1介绍	244
637 | 
638 | 7.4.2 YOLOv1模型优缺点？	252
639 | 
640 | 7.4.3 YOLOv2	253
641 | 
642 | 7.4.4 YOLOv2改进策略	254
643 | 
644 | 7.4.5 YOLOv2的训练	261
645 | 
646 | 7.4.6 YOLO9000	261
647 | 
648 | 7.4.7 YOLOv3	263
649 | 
650 | 7.4.8 YOLOv3改进	264
651 | 
652 | 
653 | ## 第八章 图像分割	269
654 | 
655 | 8.1 传统的基于CNN的分割方法缺点？	269
656 | 
657 | 8.1 FCN	269
658 | 
659 | 8.1.1 FCN改变了什么?	269
660 | 
661 | 8.1.2 FCN网络结构？	270
662 | 
663 | 8.1.3全卷积网络举例？	271
664 | 
665 | 8.1.4为什么CNN对像素级别的分类很难？	271
666 | 
667 | 8.1.5全连接层和卷积层如何相互转化？	272
668 | 
669 | 8.1.6 FCN的输入图片为什么可以是任意大小？	272
670 | 
671 | 8.1.7把全连接层的权重W重塑成卷积层的滤波器有什么好处？	273
672 | 
673 | 8.1.8反卷积层理解	275
674 | 
675 | 8.1.9跳级(skip)结构	276
676 | 
677 | 8.1.10模型训练	277
678 | 
679 | 8.1.11 FCN缺点	280
680 | 
681 | 8.2 U-Net	280
682 | 
683 | 8.3 SegNet	282
684 | 
685 | 8.4空洞卷积(Dilated Convolutions)	283
686 | 
687 | 8.4 RefineNet	285
688 | 
689 | 8.5 PSPNet	286
690 | 
691 | 8.6 DeepLab系列	288
692 | 
693 | 8.6.1 DeepLabv1	288
694 | 
695 | 8.6.2 DeepLabv2	289
696 | 
697 | 8.6.3 DeepLabv3	289
698 | 
699 | 8.6.4 DeepLabv3+	290
700 | 
701 | 8.7 Mask-R-CNN	293
702 | 
703 | 8.7.1 Mask-RCNN 的网络结构示意图	293
704 | 
705 | 8.7.2 RCNN行人检测框架	293
706 | 
707 | 8.7.3 Mask-RCNN 技术要点	294
708 | 
709 | 8.8 CNN在基于弱监督学习的图像分割中的应用	295
710 | 
711 | 8.8.1 Scribble标记	295
712 | 
713 | 8.8.2 图像级别标记	297
714 | 
715 | 8.8.3 DeepLab+bounding box+image-level labels	298
716 | 
717 | 8.8.4统一的框架	299
718 | 
719 | 
720 | ## 第九章 强化学习	301
721 | 
722 | 9.1强化学习的主要特点？	301
723 | 
724 | 9.2强化学习应用实例	302
725 | 
726 | 9.3强化学习和监督式学习、非监督式学习的区别	303
727 | 
728 | 9.4 强化学习主要有哪些算法？	305
729 | 
730 | 9.5深度迁移强化学习算法	305
731 | 
732 | 9.6分层深度强化学习算法	306
733 | 
734 | 9.7深度记忆强化学习算法	306
735 | 
736 | 9.8 多智能体深度强化学习算法	307
737 | 
738 | 9.9深度强化学习算法小结	307
739 | 
740 | 
741 | ## 第十章 迁移学习	309
742 | 
743 | 10.1 什么是迁移学习？	309
744 | 
745 | 10.2 什么是多任务学习？	309
746 | 
747 | 10.3 多任务学习有什么意义？	309
748 | 
749 | 10.4 什么是端到端的深度学习？	311
750 | 
751 | 10.5 端到端的深度学习举例？	311
752 | 
753 | 10.6 端到端的深度学习有什么挑战？	311
754 | 
755 | 10.7 端到端的深度学习优缺点？	312
756 | 
757 | 
758 | ## 第十三章 优化算法	314
759 | 
760 | 13.1 CPU和GPU 的区别？	314
761 | 
762 | 13.2如何解决训练样本少的问题	315
763 | 
764 | 13.3 什么样的样本集不适合用深度学习?	315
765 | 
766 | 13.4 有没有可能找到比已知算法更好的算法?	316
767 | 
768 | 13.5 何为共线性, 跟过拟合有啥关联?	316
769 | 
770 | 13.6 广义线性模型是怎被应用在深度学习中?	316
771 | 
772 | 13.7 造成梯度消失的原因?	317
773 | 
774 | 13.8 权值初始化方法有哪些	317
775 | 
776 | 13.9 启发式优化算法中，如何避免陷入局部最优解？	318
777 | 
778 | 13.10 凸优化中如何改进GD方法以防止陷入局部最优解	319
779 | 
780 | 13.11 常见的损失函数？	319
781 | 
782 | 13.14 如何进行特征选择（feature selection）？	321
783 | 
784 | 13.14.1 如何考虑特征选择	321
785 | 
786 | 13.14.2 特征选择方法分类	321
787 | 
788 | 13.14.3 特征选择目的	322
789 | 
790 | 13.15 梯度消失/梯度爆炸原因，以及解决方法	322
791 | 
792 | 13.15.1 为什么要使用梯度更新规则？	322
793 | 
794 | 13.15.2 梯度消失、爆炸原因？	323
795 | 
796 | 13.15.3 梯度消失、爆炸的解决方案	324
797 | 
798 | 13.16 深度学习为什么不用二阶优化	325
799 | 
800 | 13.17 怎样优化你的深度学习系统？	326
801 | 
802 | 13.18为什么要设置单一数字评估指标？	326
803 | 
804 | 13.19满足和优化指标（Satisficing and optimizing metrics）	327
805 | 
806 | 13.20 怎样划分训练/开发/测试集	328
807 | 
808 | 13.21如何划分开发/测试集大小	329
809 | 
810 | 13.22什么时候该改变开发/测试集和指标？	329
811 | 
812 | 13.23 设置评估指标的意义？	330
813 | 
814 | 13.24 什么是可避免偏差？	331
815 | 
816 | 13.25 什么是TOP5错误率？	331
817 | 
818 | 13.26 什么是人类水平错误率？	332
819 | 
820 | 13.27 可避免偏差、几大错误率之间的关系？	332
821 | 
822 | 13.28 怎样选取可避免偏差及贝叶斯错误率？	332
823 | 
824 | 13.29 怎样减少方差？	333
825 | 
826 | 13.30贝叶斯错误率的最佳估计	333
827 | 
828 | 13.31举机器学习超过单个人类表现几个例子？	334
829 | 
830 | 13.32如何改善你的模型？	334
831 | 
832 | 13.33 理解误差分析	335
833 | 
834 | 13.34 为什么值得花时间查看错误标记数据？	336
835 | 
836 | 13.35 快速搭建初始系统的意义？	336
837 | 
838 | 13.36 为什么要在不同的划分上训练及测试？	337
839 | 
840 | 13.37 如何解决数据不匹配问题？	338
841 | 
842 | 13.38 梯度检验注意事项？	340
843 | 
844 | 13.39什么是随机梯度下降？	341
845 | 
846 | 13.40什么是批量梯度下降？	341
847 | 
848 | 13.41什么是小批量梯度下降？	341
849 | 
850 | 13.42怎么配置mini-batch梯度下降	342
851 | 
852 | 13.43 局部最优的问题	343
853 | 
854 | 13.44提升算法性能思路	346
855 | 
856 | 
857 | ## 第十四章 超参数调整	358
858 | 
859 | 14.1 调试处理	358
860 | 
861 | 14.2 有哪些超参数	359
862 | 
863 | 14.3 如何选择调试值?	359
864 | 
865 | 14.4 为超参数选择合适的范围	359
866 | 
867 | 14.5 如何搜索超参数？	359
868 | 
869 | 
870 | ## 第十五章 正则化	361
871 | 
872 | 15.1 什么是正则化？	361
873 | 
874 | 15.2 正则化原理？	361
875 | 
876 | 15.3 为什么要正则化？	361
877 | 
878 | 15.4 为什么正则化有利于预防过拟合？	361
879 | 
880 | 15.5 为什么正则化可以减少方差？	362
881 | 
882 | 15.6 L2正则化的理解？	362
883 | 
884 | 15.7 理解dropout 正则化	362
885 | 
886 | 15.8 有哪些dropout 正则化方法？	362
887 | 
888 | 15.8 如何实施dropout 正则化	363
889 | 
890 | 15.9 Python 实现dropout 正则化	363
891 | 
892 | 15.10 L2正则化和dropout 有什么不同？	363
893 | 
894 | 15.11 dropout有什么缺点？	363
895 | 
896 | 15.12 其他正则化方法？	364
897 | 
898 | 
899 | ## 参考文献	366
900 | 
901 | 


--------------------------------------------------------------------------------
/_config.yml:
--------------------------------------------------------------------------------
1 | theme: jekyll-theme-time-machine


--------------------------------------------------------------------------------
/深度学习500问-Tan-00目录.docx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-00目录.docx


--------------------------------------------------------------------------------
/深度学习500问-Tan-00目录.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-00目录.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-01第一章 数学基础.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-01第一章 数学基础.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-02第二章 机器学习基础.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-02第二章 机器学习基础.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-03第三章 深度学习基础.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-03第三章 深度学习基础.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-04第四章 经典网络.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-04第四章 经典网络.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-05第五章 卷积神经网络（CNN）.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-05第五章 卷积神经网络（CNN）.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-06第六章 循环神经网络（RNN）.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-06第六章 循环神经网络（RNN）.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-07第七章 目标检测.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-07第七章 目标检测.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-08第八章 图像分割.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-08第八章 图像分割.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-09第九章 强化学习.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-09第九章 强化学习.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-10第十章 迁移学习.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-10第十章 迁移学习.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-13第十三章 优化算法.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-13第十三章 优化算法.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-14第十四章 超参数调整.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-14第十四章 超参数调整.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-15第十五章 正则化.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-15第十五章 正则化.pdf


--------------------------------------------------------------------------------
/深度学习500问-Tan-16参考文献.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-16参考文献.pdf


--------------------------------------------------------------------------------
/目录预览:
--------------------------------------------------------------------------------
  1 | # 目录	2
  2 | ## 第一章 数学基础	1
  3 | - 1.1标量、向量、张量之间的联系	1
  4 | - 1.2张量与矩阵的区别？	1
  5 | 1.3矩阵和向量相乘结果	1
  6 | 1.4向量和矩阵的范数归纳	1
  7 | 1.5如何判断一个矩阵为正定？	2
  8 | 1.6导数偏导计算	3
  9 | 1.7导数和偏导数有什么区别？	3
 10 | 1.8特征值分解与特征向量	3
 11 | 1.9奇异值与特征值有什么关系？	4
 12 | 1.10机器学习为什么要使用概率？	4
 13 | 1.11变量与随机变量有什么区别？	4
 14 | 1.12常见概率分布？	5
 15 | 1.13举例理解条件概率	9
 16 | 1.14联合概率与边缘概率联系区别？	10
 17 | 1.15条件概率的链式法则	10
 18 | 1.16独立性和条件独立性	11
 19 | 1.17期望、方差、协方差、相关系数总结	11
 20 | 第二章 机器学习基础	14
 21 | 2.1 各种常见算法图示	14
 22 | 2.2监督学习、非监督学习、半监督学习、弱监督学习？	15
 23 | 2.3 监督学习有哪些步骤	16
 24 | 2.4 多实例学习？	17
 25 | 2.5 分类网络和回归的区别？	17
 26 | 2.6 什么是神经网络？	17
 27 | 2.7 常用分类算法的优缺点？	18
 28 | 2.8 正确率能很好的评估分类算法吗？	20
 29 | 2.9 分类算法的评估方法？	20
 30 | 2.10 什么样的分类器是最好的？	22
 31 | 2.11大数据与深度学习的关系	22
 32 | 2.12 理解局部最优与全局最优	23
 33 | 2.13 理解逻辑回归	24
 34 | 2.14 逻辑回归与朴素贝叶斯有什么区别？	24
 35 | 2.15 为什么需要代价函数？	25
 36 | 2.16 代价函数作用原理 	25
 37 | 2.17 为什么代价函数要非负？	26
 38 | 2.18 常见代价函数？	26
 39 | 2.19为什么用交叉熵代替二次代价函数	28
 40 | 2.20 什么是损失函数？	28
 41 | 2.21 常见的损失函数	28
 42 | 2.22 逻辑回归为什么使用对数损失函数？	30
 43 | 0.00 对数损失函数是如何度量损失的？	31
 44 | 2.23 机器学习中为什么需要梯度下降？	32
 45 | 2.24 梯度下降法缺点？	32
 46 | 2.25 梯度下降法直观理解？	32
 47 | 2.23 梯度下降法算法描述？	33
 48 | 2.24 如何对梯度下降法进行调优？	35
 49 | 2.25 随机梯度和批量梯度区别？	35
 50 | 2.26 各种梯度下降法性能比较	37
 51 | 2.27计算图的导数计算图解？	37
 52 | 2.28 线性判别分析（LDA）思想总结	39
 53 | 2.29 图解LDA核心思想	39
 54 | 2.30 二类LDA算法原理？	40
 55 | 2.30 LDA算法流程总结？	41
 56 | 2.31 LDA和PCA区别？	41
 57 | 2.32 LDA优缺点？	41
 58 | 2.33 主成分分析（PCA）思想总结	42
 59 | 2.34 图解PCA核心思想	42
 60 | 2.35 PCA算法推理	43
 61 | 2.36 PCA算法流程总结	44
 62 | 2.37 PCA算法主要优缺点	45
 63 | 2.38 降维的必要性及目的	45
 64 | 2.39 KPCA与PCA的区别？	46
 65 | 2.40模型评估	47
 66 | 2.40.1模型评估常用方法？	47
 67 | 2.40.2 经验误差与泛化误差	47
 68 | 2.40.3 图解欠拟合、过拟合	48
 69 | 2.40.4 如何解决过拟合与欠拟合？	49
 70 | 2.40.5 交叉验证的主要作用？	50
 71 | 2.40.6 k折交叉验证？	50
 72 | 2.40.7 混淆矩阵	50
 73 | 2.40.8 错误率及精度	51
 74 | 2.40.9 查准率与查全率	51
 75 | 2.40.10 ROC与AUC	52
 76 | 2.40.11如何画ROC曲线？	53
 77 | 2.40.12如何计算TPR，FPR？	54
 78 | 2.40.13如何计算Auc？	56
 79 | 2.40.14为什么使用Roc和Auc评价分类器？	56
 80 | 2.40.15 直观理解AUC	56
 81 | 2.40.16 代价敏感错误率与代价曲线	57
 82 | 2.40.17 模型有哪些比较检验方法	59
 83 | 2.40.18 偏差与方差	59
 84 | 2.40.19为什么使用标准差？	60
 85 | 2.40.20 点估计思想	61
 86 | 2.40.21 点估计优良性原则？	61
 87 | 2.40.22点估计、区间估计、中心极限定理之间的联系？	62
 88 | 2.40.23 类别不平衡产生原因？	62
 89 | 2.40.24 常见的类别不平衡问题解决方法	62
 90 | 2.41 决策树	64
 91 | 2.41.1 决策树的基本原理	64
 92 | 2.41.2 决策树的三要素？	64
 93 | 2.41.3 决策树学习基本算法	65
 94 | 2.41.4 决策树算法优缺点	65
 95 | 2.40.5熵的概念以及理解	66
 96 | 2.40.6 信息增益的理解	66
 97 | 2.40.7 剪枝处理的作用及策略？	67
 98 | 2.41 支持向量机	67
 99 | 2.41.1 什么是支持向量机	67
100 | 2.25.2 支持向量机解决的问题？	68
101 | 2.25.2 核函数作用？	69
102 | 2.25.3 对偶问题	69
103 | 2.25.4 理解支持向量回归	69
104 | 2.25.5 理解SVM（核函数）	69
105 | 2.25.6 常见的核函数有哪些？	69
106 | 2.25.6 软间隔与正则化	73
107 | 2.25.7 SVM主要特点及缺点？	73
108 | 2.26 贝叶斯	74
109 | 2.26.1 图解极大似然估计	74
110 | 2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别？	76
111 | 2.26.4 朴素与半朴素贝叶斯分类器	76
112 | 2.26.5 贝叶斯网三种典型结构	76
113 | 2.26.6 什么是贝叶斯错误率	76
114 | 2.26.7 什么是贝叶斯最优错误率	76
115 | 2.27 EM算法解决问题及实现流程	76
116 | 2.28 为什么会产生维数灾难？	78
117 | 2.29怎样避免维数灾难	82
118 | 2.30聚类和降维有什么区别与联系？	82
119 | 2.31 GBDT和随机森林的区别	83
120 | 2.32 四种聚类方法之比较	84
121 | 第三章 深度学习基础	88
122 | 3.1基本概念	88
123 | 3.1.1神经网络组成？	88
124 | 3.1.2神经网络有哪些常用模型结构？	90
125 | 3.1.3如何选择深度学习开发平台？	92
126 | 3.1.4为什么使用深层表示	92
127 | 3.1.5为什么深层神经网络难以训练？	93
128 | 3.1.6深度学习和机器学习有什么不同	94
129 | 3.2 网络操作与计算	95
130 | 3.2.1前向传播与反向传播？	95
131 | 3.2.2如何计算神经网络的输出？	97
132 | 3.2.3如何计算卷积神经网络输出值？	98
133 | 3.2.4如何计算Pooling层输出值输出值？	101
134 | 3.2.5实例理解反向传播	102
135 | 3.3超参数	105
136 | 3.3.1什么是超参数？	105
137 | 3.3.2如何寻找超参数的最优值？	105
138 | 3.3.3超参数搜索一般过程？	106
139 | 3.4激活函数	106
140 | 3.4.1为什么需要非线性激活函数？	106
141 | 3.4.2常见的激活函数及图像	107
142 | 3.4.3 常见激活函数的导数计算？	109
143 | 3.4.4激活函数有哪些性质？	110
144 | 3.4.5 如何选择激活函数？	110
145 | 3.4.6使用ReLu激活函数的优点？	111
146 | 3.4.7什么时候可以用线性激活函数？	111
147 | 3.4.8怎样理解Relu（<0时）是非线性激活函数？	111
148 | 3.4.9 Softmax函数如何应用于多分类？	112
149 | 3.5 Batch_Size	113
150 | 3.5.1为什么需要Batch_Size？	113
151 | 3.5.2 Batch_Size值的选择	114
152 | 3.5.3在合理范围内，增大 Batch_Size 有何好处？	114
153 | 3.5.4盲目增大 Batch_Size 有何坏处？	114
154 | 3.5.5调节 Batch_Size 对训练效果影响到底如何？	114
155 | 3.6 归一化	115
156 | 3.6.1归一化含义？	115
157 | 3.6.2为什么要归一化	115
158 | 3.6.3为什么归一化能提高求解最优解速度？	115
159 | 3.6.4 3D图解未归一化	116
160 | 3.6.5归一化有哪些类型？	117
161 | 3.6.6局部响应归一化作用	117
162 | 3.6.7理解局部响应归一化公式	117
163 | 3.6.8什么是批归一化（Batch Normalization）	118
164 | 3.6.9批归一化（BN）算法的优点	119
165 | 3.6.10批归一化（BN）算法流程	119
166 | 3.6.11批归一化和群组归一化	120
167 | 3.6.12 Weight Normalization和Batch Normalization	120
168 | 3.7 预训练与微调(fine tuning)	121
169 | 3.7.1为什么无监督预训练可以帮助深度学习？	121
170 | 3.7.2什么是模型微调fine tuning	121
171 | 3.7.3微调时候网络参数是否更新？	122
172 | 3.7.4 fine-tuning模型的三种状态	122
173 | 3.8权重偏差初始化	122
174 | 3.8.1 全都初始化为0	122
175 | 3.8.2 全都初始化为同样的值	123
176 | 3.8.3 初始化为小的随机数	124
177 | 3.8.4用1/sqrt(n)校准方差	125
178 | 3.8.5稀疏初始化(Sparse Initialazation)	125
179 | 3.8.6初始化偏差	125
180 | 3.9 Softmax	126
181 | 3.9.1 Softmax定义及作用	126
182 | 3.9.2 Softmax推导	126
183 | 3.10 理解One Hot Encodeing原理及作用？	126
184 | 3.11 常用的优化器有哪些	127
185 | 3.12 Dropout 系列问题	128
186 | 3.12.1 dropout率的选择	128
187 | 3.27 Padding 系列问题	128
188 | 第四章 经典网络	129
189 | 4.1LetNet5	129
190 | 4.1.1模型结构	129
191 | 4.1.2模型结构	129
192 | 4.1.3 模型特性	131
193 | 4.2 AlexNet	131
194 | 4.2.1 模型结构	131
195 | 4.2.2模型解读	131
196 | 4.2.3模型特性	135
197 | 4.3 可视化ZFNet-解卷积	135
198 | 4.3.1 基本的思想及其过程	135
199 | 4.3.2 卷积与解卷积	136
200 | 4.3.3卷积可视化	137
201 | 4.3.4 ZFNe和AlexNet比较	139
202 | 4.4 VGG	140
203 | 4.1.1 模型结构	140
204 | 4.1.2 模型特点	140
205 | 4.5 Network in Network	141
206 | 4.5.1 模型结构	141
207 | 4.5.2 模型创新点	141
208 | 4.6 GoogleNet	143
209 | 4.6.1 模型结构	143
210 | 4.6.2 Inception 结构	145
211 | 4.6.3 模型层次关系	146
212 | 4.7 Inception 系列	148
213 | 4.7.1 Inception v1	148
214 | 4.7.2 Inception v2	150
215 | 4.7.3 Inception v3	153
216 | 4.7.4 Inception V4	155
217 | 4.7.5 Inception-ResNet-v2	157
218 | 4.8 ResNet及其变体	158
219 | 4.8.1重新审视ResNet	159
220 | 4.8.2残差块	160
221 | 4.8.3 ResNet架构	162
222 | 4.8.4残差块的变体	162
223 | 4.8.5 ResNeXt	162
224 | 4.8.6 Densely Connected CNN	164
225 | 4.8.7 ResNet作为小型网络的组合	165
226 | 4.8.8 ResNet中路径的特点	166
227 | 4.9为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？	167
228 | 第五章 卷积神经网络(CNN)	170
229 | 5.1 卷积神经网络的组成层	170
230 | 5.2 卷积如何检测边缘信息？	171
231 | 5.2 卷积的几个基本定义？	174
232 | 5.2.1卷积核大小	174
233 | 5.2.2卷积核的步长	174
234 | 5.2.3边缘填充	174
235 | 5.2.4输入和输出通道	174
236 | 5.3 卷积网络类型分类？	174
237 | 5.3.1普通卷积	174
238 | 5.3.2扩张卷积	175
239 | 5.3.3转置卷积	176
240 | 5.3.4可分离卷积	177
241 | 5.3 图解12种不同类型的2D卷积？	178
242 | 5.4 2D卷积与3D卷积有什么区别？	181
243 | 5.4.1 2D 卷积	181
244 | 5.4.2 3D卷积	182
245 | 5.5 有哪些池化方法？	183
246 | 5.5.1一般池化（General Pooling）	183
247 | 5.5.2重叠池化（OverlappingPooling）	184
248 | 5.5.3空金字塔池化（Spatial Pyramid Pooling）	184
249 | 5.6 1x1卷积作用？	186
250 | 5.7卷积层和池化层有什么区别？ 	187
251 | 5.8卷积核一定越大越好？	189
252 | 5.9每层卷积只能用一种尺寸的卷积核？	189
253 | 5.10怎样才能减少卷积层参数量？	190
254 | 5.11卷积操作时必须同时考虑通道和区域吗？	191
255 | 5.12采用宽卷积的好处有什么？ 	192
256 | 5.12.1窄卷积和宽卷积	192
257 | 5.12.2 为什么采用宽卷积？	192
258 | 5.13卷积层输出的深度与哪个部件的个数相同？ 	192
259 | 5.14 如何得到卷积层输出的深度？	193
260 | 5.15激活函数通常放在卷积神经网络的那个操作之后？ 	194
261 | 5.16 如何理解最大池化层有几分缩小？	194
262 | 5.17理解图像卷积与反卷积	194
263 | 5.17.1图像卷积	194
264 | 5.17.2图像反卷积	196
265 | 5.18不同卷积后图像大小计算？	198
266 | 5.18.1 类型划分	198
267 | 5.18.2 计算公式	199
268 | 5.19 步长、填充大小与输入输出关系总结？	199
269 | 5.19.1没有0填充，单位步长	200
270 | 5.19.2零填充，单位步长	200
271 | 5.19.3不填充，非单位步长	202
272 | 5.19.4零填充，非单位步长	202
273 | 5.20 理解反卷积和棋盘效应	204
274 | 5.20.1为什么出现棋盘现象？	204
275 | 5.20.2 有哪些方法可以避免棋盘效应？	205
276 | 5.21 CNN主要的计算瓶颈？	207
277 | 5.22 CNN的参数经验设置	207
278 | 5.23 提高泛化能力的方法总结	208
279 | 5.23.1 主要方法	208
280 | 5.23.2 实验证明	208
281 | 5.24 CNN在CV与NLP领域运用的联系与区别？	213
282 | 5.24.1联系	213
283 | 5.24.2区别	213
284 | 5.25 CNN凸显共性的手段？	213
285 | 5.25.1 局部连接	213
286 | 5.25.2 权值共享	214
287 | 5.25.3 池化操作	215
288 | 5.26 全卷积与Local-Conv的异同点	215
289 | 5.27 举例理解Local-Conv的作用	215
290 | 5.28 简述卷积神经网络进化史	216
291 | 第六章 循环神经网络(RNN)	218
292 | 6.1 RNNs和FNNs有什么区别？	218
293 | 6.2 RNNs典型特点？	218
294 | 6.3 RNNs能干什么？	219
295 | 6.4 RNNs在NLP中典型应用？	220
296 | 6.5 RNNs训练和传统ANN训练异同点？	220
297 | 6.6常见的RNNs扩展和改进模型	221
298 | 6.6.1 Simple RNNs(SRNs)	221
299 | 6.6.2 Bidirectional RNNs	221
300 | 6.6.3 Deep(Bidirectional) RNNs	222
301 | 6.6.4 Echo State Networks（ESNs）	222
302 | 6.6.5 Gated Recurrent Unit Recurrent Neural Networks	224
303 | 6.6.6 LSTM Netwoorks	224
304 | 6.6.7 Clockwork RNNs(CW-RNNs)	225
305 | 第七章 目标检测	228
306 | 7.1基于候选区域的目标检测器	228
307 | 7.1.1滑动窗口检测器	228
308 | 7.1.2选择性搜索	229
309 | 7.1.3 R-CNN	230
310 | 7.1.4边界框回归器	230
311 | 7.1.5 Fast R-CNN	231
312 | 7.1.6 ROI 池化	233
313 | 7.1.7 Faster R-CNN	233
314 | 7.1.8候选区域网络	234
315 | 7.1.9 R-CNN 方法的性能	236
316 | 7.2 基于区域的全卷积神经网络（R-FCN）	237
317 | 7.3 单次目标检测器	240
318 | 7.3.1单次检测器	241
319 | 7.3.2滑动窗口进行预测	241
320 | 7.3.3 SSD	243
321 | 7.4 YOLO系列	244
322 | 7.4.1 YOLOv1介绍	244
323 | 7.4.2 YOLOv1模型优缺点？	252
324 | 7.4.3 YOLOv2	253
325 | 7.4.4 YOLOv2改进策略	254
326 | 7.4.5 YOLOv2的训练	261
327 | 7.4.6 YOLO9000	261
328 | 7.4.7 YOLOv3	263
329 | 7.4.8 YOLOv3改进	264
330 | 第八章 图像分割	269
331 | 8.1 传统的基于CNN的分割方法缺点？	269
332 | 8.1 FCN	269
333 | 8.1.1 FCN改变了什么?	269
334 | 8.1.2 FCN网络结构？	270
335 | 8.1.3全卷积网络举例？	271
336 | 8.1.4为什么CNN对像素级别的分类很难？	271
337 | 8.1.5全连接层和卷积层如何相互转化？	272
338 | 8.1.6 FCN的输入图片为什么可以是任意大小？	272
339 | 8.1.7把全连接层的权重W重塑成卷积层的滤波器有什么好处？	273
340 | 8.1.8反卷积层理解	275
341 | 8.1.9跳级(skip)结构	276
342 | 8.1.10模型训练	277
343 | 8.1.11 FCN缺点	280
344 | 8.2 U-Net	280
345 | 8.3 SegNet	282
346 | 8.4空洞卷积(Dilated Convolutions)	283
347 | 8.4 RefineNet	285
348 | 8.5 PSPNet	286
349 | 8.6 DeepLab系列	288
350 | 8.6.1 DeepLabv1	288
351 | 8.6.2 DeepLabv2	289
352 | 8.6.3 DeepLabv3	289
353 | 8.6.4 DeepLabv3+	290
354 | 8.7 Mask-R-CNN	293
355 | 8.7.1 Mask-RCNN 的网络结构示意图	293
356 | 8.7.2 RCNN行人检测框架	293
357 | 8.7.3 Mask-RCNN 技术要点	294
358 | 8.8 CNN在基于弱监督学习的图像分割中的应用	295
359 | 8.8.1 Scribble标记	295
360 | 8.8.2 图像级别标记	297
361 | 8.8.3 DeepLab+bounding box+image-level labels	298
362 | 8.8.4统一的框架	299
363 | 第九章 强化学习	301
364 | 9.1强化学习的主要特点？	301
365 | 9.2强化学习应用实例	302
366 | 9.3强化学习和监督式学习、非监督式学习的区别	303
367 | 9.4 强化学习主要有哪些算法？	305
368 | 9.5深度迁移强化学习算法	305
369 | 9.6分层深度强化学习算法	306
370 | 9.7深度记忆强化学习算法	306
371 | 9.8 多智能体深度强化学习算法	307
372 | 9.9深度强化学习算法小结	307
373 | 第十章 迁移学习	309
374 | 10.1 什么是迁移学习？	309
375 | 10.2 什么是多任务学习？	309
376 | 10.3 多任务学习有什么意义？	309
377 | 10.4 什么是端到端的深度学习？	311
378 | 10.5 端到端的深度学习举例？	311
379 | 10.6 端到端的深度学习有什么挑战？	311
380 | 10.7 端到端的深度学习优缺点？	312
381 | 第十三章 优化算法	314
382 | 13.1 CPU和GPU 的区别？	314
383 | 13.2如何解决训练样本少的问题	315
384 | 13.3 什么样的样本集不适合用深度学习?	315
385 | 13.4 有没有可能找到比已知算法更好的算法?	316
386 | 13.5 何为共线性, 跟过拟合有啥关联?	316
387 | 13.6 广义线性模型是怎被应用在深度学习中?	316
388 | 13.7 造成梯度消失的原因?	317
389 | 13.8 权值初始化方法有哪些	317
390 | 13.9 启发式优化算法中，如何避免陷入局部最优解？	318
391 | 13.10 凸优化中如何改进GD方法以防止陷入局部最优解	319
392 | 13.11 常见的损失函数？	319
393 | 13.14 如何进行特征选择（feature selection）？	321
394 | 13.14.1 如何考虑特征选择	321
395 | 13.14.2 特征选择方法分类	321
396 | 13.14.3 特征选择目的	322
397 | 13.15 梯度消失/梯度爆炸原因，以及解决方法	322
398 | 13.15.1 为什么要使用梯度更新规则？	322
399 | 13.15.2 梯度消失、爆炸原因？	323
400 | 13.15.3 梯度消失、爆炸的解决方案	324
401 | 13.16 深度学习为什么不用二阶优化	325
402 | 13.17 怎样优化你的深度学习系统？	326
403 | 13.18为什么要设置单一数字评估指标？	326
404 | 13.19满足和优化指标（Satisficing and optimizing metrics）	327
405 | 13.20 怎样划分训练/开发/测试集	328
406 | 13.21如何划分开发/测试集大小	329
407 | 13.22什么时候该改变开发/测试集和指标？	329
408 | 13.23 设置评估指标的意义？	330
409 | 13.24 什么是可避免偏差？	331
410 | 13.25 什么是TOP5错误率？	331
411 | 13.26 什么是人类水平错误率？	332
412 | 13.27 可避免偏差、几大错误率之间的关系？	332
413 | 13.28 怎样选取可避免偏差及贝叶斯错误率？	332
414 | 13.29 怎样减少方差？	333
415 | 13.30贝叶斯错误率的最佳估计	333
416 | 13.31举机器学习超过单个人类表现几个例子？	334
417 | 13.32如何改善你的模型？	334
418 | 13.33 理解误差分析	335
419 | 13.34 为什么值得花时间查看错误标记数据？	336
420 | 13.35 快速搭建初始系统的意义？	336
421 | 13.36 为什么要在不同的划分上训练及测试？	337
422 | 13.37 如何解决数据不匹配问题？	338
423 | 13.38 梯度检验注意事项？	340
424 | 13.39什么是随机梯度下降？	341
425 | 13.40什么是批量梯度下降？	341
426 | 13.41什么是小批量梯度下降？	341
427 | 13.42怎么配置mini-batch梯度下降	342
428 | 13.43 局部最优的问题	343
429 | 13.44提升算法性能思路	346
430 | 第十四章 超参数调整	358
431 | 14.1 调试处理	358
432 | 14.2 有哪些超参数	359
433 | 14.3 如何选择调试值?	359
434 | 14.4 为超参数选择合适的范围	359
435 | 14.5 如何搜索超参数？	359
436 | 第十五章 正则化	361
437 | 15.1 什么是正则化？	361
438 | 15.2 正则化原理？	361
439 | 15.3 为什么要正则化？	361
440 | 15.4 为什么正则化有利于预防过拟合？	361
441 | 15.5 为什么正则化可以减少方差？	362
442 | 15.6 L2正则化的理解？	362
443 | 15.7 理解dropout 正则化	362
444 | 15.8 有哪些dropout 正则化方法？	362
445 | 15.8 如何实施dropout 正则化	363
446 | 15.9 Python 实现dropout 正则化	363
447 | 15.10 L2正则化和dropout 有什么不同？	363
448 | 15.11 dropout有什么缺点？	363
449 | 15.12 其他正则化方法？	364
450 | 参考文献	366
451 | 


--------------------------------------------------------------------------------
/第一章_数学基础.md:
--------------------------------------------------------------------------------
  1 | # 第一章 数学基础  
  2 | ## 1.1 标量、向量、张量之间的联系
  3 | **张量（tensor)**  
  4 | 在某些情况下，我们会讨论坐标超过两维的数组。一般地，一个数组中的元素分布在若干维坐标的规则网格中，我们将其称之为张量。使用**$A$**来表示张量“A”。张量**$A$**中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$。  
  5 | **关系**  
  6 | 标量是0阶张量，向量是一阶张量。举例：  
  7 | 标量就是知道棍子的长度，但是你不会知道棍子指向哪儿。  
  8 | 向量就是不但知道棍子的长度，还知道棍子指向前面还是后面。  
  9 | 张量就是不但知道棍子的长度，也知道棍子指向前面还是后面，还能知道这棍子又向上/下和左/右偏转了多少。  
 10 | ## 1.2 张量与矩阵的区别？  
 11 | 1. 从代数角度讲， 矩阵它是向量的推广。向量可以看成一维的“表格”（即分量按照顺序排成一排）， 矩阵是二维的“表格”（分量按照纵横位置排列）， 那么$n$阶张量就是所谓的$n$维的“表格”。 张量的严格定义是利用线性映射来描述的。
 12 | 2. 从几何角度讲， 矩阵是一个真正的几何量，也就是说，它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
 13 | 3. 张量可以用3×3矩阵形式来表达。 
 14 | 4. 表示标量的数和表示矢量的三维数组也可分别看作1×1，1×3的矩阵。 
 15 | 
 16 | ## 1.3 矩阵和向量相乘结果   
 17 | 一个$m$行$n$列的矩阵和$n$行向量相乘，最后得到就是一个$m$行的向量。运算法则就是矩阵中的每一行的数据与向量中的数据相乘。  
 18 | ## 1.4 向量和矩阵的范数归纳  
 19 | **向量的范数**  
 20 | 定义一个向量为：$\vec{a}=[-5, 6, 8, -10]$。
 21 | 向量的1范数：向量的各个元素的绝对值之和，上述向量$\vec{a}$的1范数结果就是：29。  
 22 | 向量的2范数：向量的每个元素的平方和再开平方根，上述$\vec{a}$的2范数结果就是：15。  
 23 | 向量的负无穷范数：向量的所有元素的绝对值中最小的：上述向量$\vec{a}$的负无穷范数结果就是：5。  
 24 | 向量的正无穷范数：向量的所有元素的绝对值中最大的：上述向量$\vec{a}$的负无穷范数结果就是：10。  
 25 | 
 26 | **矩阵的范数**  
 27 | 定义一个矩阵$A=[-1, 2, -3; 4, -6, 6]$。  
 28 | **矩阵的1范数**：矩阵的每一列上的元素绝对值先求和，再从中取个最大的,（列和最大），上述矩阵$A$的1范数先得到$[5,8,9]$，再取最大的最终结果就是：9。  
 29 | **矩阵的2范数**：矩阵$A^TA$的最大特征值开平方根，上述矩阵$A$的2范数得到的最终结果是：10.0623。  
 30 | **矩阵的无穷范数**：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（行和最大），上述矩阵$A$的1范数先得到$[6；16]$，再取最大的最终结果就是：16。    
 31 | **矩阵的核范数**：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287。  
 32 | **矩阵的L0范数**：矩阵的非0元素的个数，通常用它来表示稀疏，L0范数越小0元素越多，也就越稀疏，上述矩阵$A$最终结果就是：6。  
 33 | **矩阵的L1范数**：矩阵中的每个元素绝对值之和，它是L0范数的最优凸近似，因此它也可以表示稀疏，上述矩阵$A$最终结果就是：22。  
 34 | **矩阵的F范数**：矩阵的各个元素平方之和再开平方根，它通常也叫做矩阵的L2范数，它的有点在它是一个凸函数，可以求导求解，易于计算，上述矩阵A最终结果就是：10.0995。  
 35 | **矩阵的L21范数**：矩阵先以每一列为单位，求每一列的F范数（也可认为是向量的2范数），然后再将得到的结果求L1范数（也可认为是向量的1范数），很容易看出它是介于L1和L2之间的一种范数，上述矩阵$A$最终结果就是：17.1559。  
 36 | ## 1.5 如何判断一个矩阵为正定？  
 37 | 1. 顺序主子式全大于0；  
 38 | 2. 存在可逆矩阵$C$使$C^TC$等于该矩阵；
 39 | 3. 正惯性指数等于$n$；
 40 | 4. 合同于单位矩阵$E$（即：规范形为$E$）
 41 | 5. 标准形中主对角元素全为正；
 42 | 6. 特征值全为正；
 43 | 7. 是某基的度量矩阵
 44 | 
 45 | ## 1.6 导数偏导计算
 46 | ## 1.7 导数和偏导数有什么区别？  
 47 | 导数和偏导没有本质区别，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限（如果极限存在的话）。  
 48 | 一元函数，一个$y$对应一个$x$，导数只有一个。  
 49 | 二元函数，一个$z$对应一个$x$和一个$y$，有两个导数：一个是$z$对$x$的导数，一个是$z$对$y$的导数，称之为偏导。  
 50 | 求偏导时要注意，对一个变量求导，则视另一个变量为常数，只对改变量求导，从而将偏导的求解转化成了一元函数的求导了。
 51 | (http://blog.sina.com.cn/s/blog_5b014d510100axmt.html)  
 52 | ## 1.8 特征值分解与特征向量  
 53 | 特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么。  
 54 | 如果说一个向量$\vec{v}$是方阵$A$的特征向量，将一定可以表示成下面的形式：$$A\nu = \lambda \nu$$  
 55 | $\lambda$为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式： $$A=Q\sum Q^{-1}$$  
 56 |  
 57 | 其中,$Q$是这个矩阵$A$的特征向量组成的矩阵，$\sum$是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。  
 58 | 对于矩阵为高维的情况下，那么这个矩阵就是高维空间下的一个线性变换。可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。
 59 | (http://blog.csdn.net/jinshengtao/article/details/18448355)  
 60 | ## 1.9 奇异值与特征值有什么关系?  
 61 | 那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵$A$的转置乘以$A$，并对$AA^T$求特征值，则有下面的形式：$$(A^TA)V = \lambda V$$   
 62 | 这里$V$就是上面的右奇异向量，另外还有：$$\sigma_i = \sqrt{\lambda\_i}, u\_i=\frac{1}{\sigma\_i}A\mu\_i$$
 63 | 这里的$\sigma$就是奇异值，$u$就是上面说的左奇异向量。【证明那个哥们也没给】
 64 | 奇异值$\sigma$跟特征值类似，在矩阵$\sum$中也是从大到小排列，而且$\sigma$的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前$r$（$r$远小于$m、n$）个的奇异值来近似描述矩阵，即部分奇异值分解：
 65 | $$A\_{m\times n}\thickapprox U_{m \times r}\sum\_{r\times r}V\_{r \times n}^T$$
 66 |  
 67 | 右边的三个矩阵相乘的结果将会是一个接近于$A$的矩阵，在这儿，$r$越接近于$n$，则相乘的结果越接近于$A$。  
 68 | ## 1.10 机器学习为什么要使用概率？  
 69 | 事件的概率是衡量该时间发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。  
 70 | 机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。  
 71 | 概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。  
 72 | >例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。
 73 | 
 74 | ## 1.11 变量与随机变量有什么区别？  
 75 | **随机变量**（random variable）表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。  
 76 | 随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。  
 77 | **变量与随机变量的区别：**  
 78 | 当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量.  
 79 | 比如：  
 80 | 当变量$x$值为100的概率为1的话,那么$x=100$就是确定了的,不会再有变化,除非有进一步运算.
 81 | 当变量$x$的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。  
 82 | ## 1.12 常见概率分布？  
 83 | (https://wenku.baidu.com/view/6418b0206d85ec3a87c24028915f804d2b168707)
 84 | ![常见概率分布](./images/prob_distribution_1.png)  
 85 | ![常见概率分布](./images/prob_distribution_2.png)  
 86 | ![常见概率分布](./images/prob_distribution_3.png)  
 87 | ![常见概率分布](./images/prob_distribution_4.png)  
 88 | ![常见概率分布](./images/prob_distribution_5.png)  
 89 | ![常见概率分布](./images/prob_distribution_6.png)  
 90 | ![常见概率分布](./images/prob_distribution_7.png)  
 91 | 
 92 | ## 1.13 举例理解条件概率  
 93 | 条件概率公式如下：$$P(A/B) = P(A\bigcap B) / P(B)$$  
 94 | 说明：在同一个样本空间$\Omega$中的事件或者子集$A$与$B$，如果随机从$\Omega$中选出的一个元素属于$B$，那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。  
 95 | <div align="center">![条件概率](./images/conditional_probability.jpg)  </div>
 96 | 
 97 | 根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。  
 98 | 举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）  
 99 | **穷举法**：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3;  
100 | **条件概率法**：$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则$P(女女)$为1/4，$P（女）= 1-P(男男)=3/4$,所以最后$1/3$。  
101 | 这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。  
102 | ## 1.14 联合概率与边缘概率联系区别？  
103 | **区别：**  
104 | 联合概率：联合概率指类似于$P(X=a,Y=b)$  这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。  
105 | 边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于$P(X=a)$，$P(Y=b)$这样，仅与单个随机变量有关的概率  
106 | 
107 | **联系：**  
108 | 联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。  
109 | ## 1.15条件概率的链式法则  
110 | 由条件概率的定义，可直接得出下面的乘法公式：  
111 | 乘法公式 设$A, B$是两个事件，并且$P(A) > 0$, 则有 $$P(AB) = P(B|A)P(A)$$  
112 | 推广 $$P(ABC)=P(C|AB)P(B)P(B|A)P(A)$$
113 | 一般地，用归纳法可证：若$P(A\_1A\_2...A\_n)>0$，则有$$P(A\_1A\_2...A\_n)=P(A\_n|A\_1A\_2...A\_{n-1}P(A\_{n-1}|A\_1A\_2...A\_{n-2})...P(A\_2|A\_1)P(A_1)$$   
114 | 任何多维随机变量联合概率分布，都可以分解成只有一个变量的条件概率相乘形式。  
115 | ## 1.16 独立性和条件独立性
116 | **独立性**
117 | 两个随机变量$x$和$y$，概率分布表示成两个因子乘积形式，一个因子只包含$x$，另一个因子只包含$y$，两个随机变量相互独立(independent)。  
118 | 条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。  
119 | 举例：$P(XY)=P(X)P(Y)$, 事件$X$和事件$Y$独立。此时给定$Z$，$$P(X,Y|Z) \not = P(X|Z)P(Y|Z)$$  
120 | 事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。  
121 | 
122 | **条件独立性**  
123 | 给定$Z$的情况下,$X$和$Y$条件独立，当且仅当$$X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$$   
124 | $X$和$Y$的关系依赖于$Z$，而不是直接产生。  
125 | 
126 | **举例**定义如下事件：  
127 | $X$：明天下雨；  
128 | $Y$：今天的地面是湿的；  
129 | $Z$：今天是否下雨；  
130 | $Z$事件的成立，对$X$和$Y$均有影响，然而，在$Z$事件成立的前提下，今天的地面情况对明天是否下雨没有影响。  
131 | ## 1.17期望、方差、协方差、相关系数总结  
132 | (http://www.360doc.com/content/13/1124/03/9482_331690142.shtml)  
133 | 
134 | **期望**  
135 | 在概率论和统计学中，数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。  
136 | 线性运算： $E(ax+by+c) = aE(x)+bE(y)+c$  
137 | 推广形式： $E(\sum\_{k=1}^{n}{a\_ix\_i+c}) = \sum\_{k=1}^{n}{a\_iE(x\_i)x\_i+c}$  
138 | 函数期望：设$f(x)$为$x$的函数，则$f(x)$的期望  
139 | 离散函数： $E(f(x))=\sum\_{k=1}^{n}{f(x\_k)P(x\_k)}$  
140 | 连续函数： $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$  
141 | 注意：函数的期望不等于期望的函数，即$E(f(x))=f(E(x))$  
142 | 一般情况下，乘积的期望不等于期望的乘积。  
143 | 如果$X$和$Y$相互独立，则$E(xy)=E(x)E(y)$。  
144 | 
145 | **方差**  
146 | 概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。  
147 | 方差是一种特殊的期望。定义为：  $$Var(x) = E((x-E(x))^2)$$  
148 | 
149 | 方差性质：  
150 | 1. $Var(x) = E(x^2) -E(x)^2$  
151 | 2. 常数的方差为0;  
152 | 3. 方差不满足线性性质;  
153 | 4. 如果$X$和$Y$相互独立, $Var(ax+by)=Var(x)+Var(y)$   
154 | 
155 | **协方差**   
156 | 协方差是衡量两个变量线性相关性强度及变量尺度。  
157 | 两个随机变量的协方差定义为：$$Cov(x,y)=E((x-E(x))(y-E(y)))$$   
158 | 方差是一种特殊的协方差。当$X=Y$时，$Cov(x,y)=Var(x)=Var(y)$。  
159 | 协方差性质：  
160 | 1) 独立变量的协方差为0。  
161 | 2) 协方差计算公式：$$Cov(\sum\_{i=1}^{m}{a\_ix\_i}, \sum\_{j=1}^{m}{b\_jy\_j}) = \sum\_{i=1}^{m} \sum\_{j=1}^{m}{a\_ib\_jCov(x\_iy\_i)}$$   
162 | 3) 特殊情况: $$Cov(a+bx, c+dy) = bdCov(x, y)$$   
163 | **相关系数**  
164 | 相关系数是研究变量之间线性相关程度的量。
165 | 两个随机变量的相关系数定义为： $$Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$$   
166 | 性质：  
167 | 1) 有界性。相关系数的取值范围是 ，可以看成无量纲的协方差。  
168 | 2) 值越接近1，说明两个变量正相关性（线性）越强。越接近-1，说明负相关性越强，当为0时，表示两个变量没有相关性。  
169 | 
170 | 
171 | 
172 | 
173 | 
174 | 
175 | 
176 | 
177 | 
178 | 
179 | 


--------------------------------------------------------------------------------