├── README.md ├── _config.yml ├── 深度学习500问-Tan-00目录.docx ├── 深度学习500问-Tan-00目录.pdf ├── 深度学习500问-Tan-01第一章 数学基础.pdf ├── 深度学习500问-Tan-02第二章 机器学习基础.pdf ├── 深度学习500问-Tan-03第三章 深度学习基础.pdf ├── 深度学习500问-Tan-04第四章 经典网络.pdf ├── 深度学习500问-Tan-05第五章 卷积神经网络(CNN).pdf ├── 深度学习500问-Tan-06第六章 循环神经网络(RNN).pdf ├── 深度学习500问-Tan-07第七章 目标检测.pdf ├── 深度学习500问-Tan-08第八章 图像分割.pdf ├── 深度学习500问-Tan-09第九章 强化学习.pdf ├── 深度学习500问-Tan-10第十章 迁移学习.pdf ├── 深度学习500问-Tan-13第十三章 优化算法.pdf ├── 深度学习500问-Tan-14第十四章 超参数调整.pdf ├── 深度学习500问-Tan-15第十五章 正则化.pdf ├── 深度学习500问-Tan-16参考文献.pdf ├── 目录预览 └── 第一章_数学基础.md /README.md: -------------------------------------------------------------------------------- 1 | ## Welcome to GitHub Pages 2 | 3 | You can use the [editor on GitHub](https://github.com/scutan90/DeepLearning-500-questions/edit/master/README.md) to maintain and preview the content for your website in Markdown files. 4 | 5 | ############################################################## 6 | 7 | 请尊重作者的知识产权,版权所有,翻版必究。 2018.6.27 Tan 8 | 9 | ############################################################## 10 | 11 | ## 接下来,将提供MD版本\tex版本,大家一起编辑完善,敬请期待! 12 | 13 | 寻求有愿意继续完善的朋友、编辑、写手,合作出书; 14 | 15 | 如有意合作,完善出书(成为共同作者), 16 | 17 | 请联系scutjy2015@163.com ; 加微信Tan:tan_weixin88 18 | 19 | 微信交流群:《深度学习500问》交流群 20 | ![《深度学习500问》交流群二维码](WechatIMG3.jpeg) 21 | 22 | 2018.10.23 Tan 23 | 24 | ############################################################## 25 | 26 | ## 第一章 数学基础 1 27 | 28 | ## 第二章 机器学习基础 14 29 | 30 | 2.1 各种常见算法图示 14 31 | 32 | 2.2监督学习、非监督学习、半监督学习、弱监督学习? 15 33 | 34 | 2.3 监督学习有哪些步骤 16 35 | 36 | 2.4 多实例学习? 17 37 | 38 | 2.5 分类网络和回归的区别? 17 39 | 40 | 2.6 什么是神经网络? 17 41 | 42 | 2.7 常用分类算法的优缺点? 18 43 | 44 | 2.8 正确率能很好的评估分类算法吗? 20 45 | 46 | 2.9 分类算法的评估方法? 20 47 | 48 | 2.10 什么样的分类器是最好的? 22 49 | 50 | 2.11大数据与深度学习的关系 22 51 | 52 | 2.12 理解局部最优与全局最优 23 53 | 54 | 2.13 理解逻辑回归 24 55 | 56 | 2.14 逻辑回归与朴素贝叶斯有什么区别? 24 57 | 58 | 2.15 为什么需要代价函数? 25 59 | 60 | 2.16 代价函数作用原理  25 61 | 62 | 2.17 为什么代价函数要非负? 26 63 | 64 | 2.18 常见代价函数? 26 65 | 66 | 2.19为什么用交叉熵代替二次代价函数 28 67 | 68 | 2.20 什么是损失函数? 28 69 | 70 | 2.21 常见的损失函数 28 71 | 72 | 2.22 逻辑回归为什么使用对数损失函数? 30 73 | 74 | 0.00 对数损失函数是如何度量损失的? 31 75 | 76 | 2.23 机器学习中为什么需要梯度下降? 32 77 | 78 | 2.24 梯度下降法缺点? 32 79 | 80 | 2.25 梯度下降法直观理解? 32 81 | 82 | 2.23 梯度下降法算法描述? 33 83 | 84 | 2.24 如何对梯度下降法进行调优? 35 85 | 86 | 2.25 随机梯度和批量梯度区别? 35 87 | 88 | 2.26 各种梯度下降法性能比较 37 89 | 90 | 2.27计算图的导数计算图解? 37 91 | 92 | 2.28 线性判别分析(LDA)思想总结 39 93 | 94 | 2.29 图解LDA核心思想 39 95 | 96 | 2.30 二类LDA算法原理? 40 97 | 98 | 2.30 LDA算法流程总结? 41 99 | 100 | 2.31 LDA和PCA区别? 41 101 | 102 | 2.32 LDA优缺点? 41 103 | 104 | 2.33 主成分分析(PCA)思想总结 42 105 | 106 | 2.34 图解PCA核心思想 42 107 | 108 | 2.35 PCA算法推理 43 109 | 110 | 2.36 PCA算法流程总结 44 111 | 112 | 2.37 PCA算法主要优缺点 45 113 | 114 | 2.38 降维的必要性及目的 45 115 | 116 | 2.39 KPCA与PCA的区别? 46 117 | 118 | 2.40 模型评估 47 119 | 120 | 2.40.1模型评估常用方法? 47 121 | 122 | 2.40.2 经验误差与泛化误差 47 123 | 124 | 2.40.3 图解欠拟合、过拟合 48 125 | 126 | 2.40.4 如何解决过拟合与欠拟合? 49 127 | 128 | 2.40.5 交叉验证的主要作用? 50 129 | 130 | 2.40.6 k折交叉验证? 50 131 | 132 | 2.40.7 混淆矩阵 50 133 | 134 | 2.40.8 错误率及精度 51 135 | 136 | 2.40.9 查准率与查全率 51 137 | 138 | 2.40.10 ROC与AUC 52 139 | 140 | 2.40.11如何画ROC曲线? 53 141 | 142 | 2.40.12如何计算TPR,FPR? 54 143 | 144 | 2.40.13如何计算Auc? 56 145 | 146 | 2.40.14为什么使用Roc和Auc评价分类器? 56 147 | 148 | 2.40.15 直观理解AUC 56 149 | 150 | 2.40.16 代价敏感错误率与代价曲线 57 151 | 152 | 2.40.17 模型有哪些比较检验方法 59 153 | 154 | 2.40.18 偏差与方差 59 155 | 156 | 2.40.19为什么使用标准差? 60 157 | 158 | 2.40.20 点估计思想 61 159 | 160 | 2.40.21 点估计优良性原则? 61 161 | 162 | 2.40.22点估计、区间估计、中心极限定理之间的联系? 62 163 | 164 | 2.40.23 类别不平衡产生原因? 62 165 | 166 | 2.40.24 常见的类别不平衡问题解决方法 62 167 | 168 | 2.41 决策树 64 169 | 170 | 2.41.1 决策树的基本原理 64 171 | 172 | 2.41.2 决策树的三要素? 64 173 | 174 | 2.41.3 决策树学习基本算法 65 175 | 176 | 2.41.4 决策树算法优缺点 65 177 | 178 | 2.40.5 熵的概念以及理解 66 179 | 180 | 2.40.6 信息增益的理解 66 181 | 182 | 2.40.7 剪枝处理的作用及策略? 67 183 | 184 | 2.41 支持向量机 67 185 | 186 | 2.41.1 什么是支持向量机 67 187 | 188 | 2.25.2 支持向量机解决的问题? 68 189 | 190 | 2.25.2 核函数作用? 69 191 | 192 | 2.25.3 对偶问题 69 193 | 194 | 2.25.4 理解支持向量回归 69 195 | 196 | 2.25.5 理解SVM(核函数) 69 197 | 198 | 2.25.6 常见的核函数有哪些? 69 199 | 200 | 2.25.6 软间隔与正则化 73 201 | 202 | 2.25.7 SVM主要特点及缺点? 73 203 | 204 | 2.26 贝叶斯 74 205 | 206 | 2.26.1 图解极大似然估计 74 207 | 208 | 2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别? 76 209 | 210 | 2.26.4 朴素与半朴素贝叶斯分类器 76 211 | 212 | 2.26.5 贝叶斯网三种典型结构 76 213 | 214 | 2.26.6 什么是贝叶斯错误率 76 215 | 216 | 2.26.7 什么是贝叶斯最优错误率 76 217 | 218 | 2.27 EM算法解决问题及实现流程 76 219 | 220 | 2.28 为什么会产生维数灾难? 78 221 | 222 | 2.29怎样避免维数灾难 82 223 | 224 | 2.30聚类和降维有什么区别与联系? 82 225 | 226 | 2.31 GBDT和随机森林的区别 83 227 | 228 | 2.32 四种聚类方法之比较 84 229 | 230 | 231 | ## 第三章 深度学习基础 88 232 | 3.1基本概念 88 233 | 234 | 3.1.1神经网络组成? 88 235 | 236 | 3.1.2神经网络有哪些常用模型结构? 90 237 | 238 | 3.1.3如何选择深度学习开发平台? 92 239 | 240 | 3.1.4为什么使用深层表示 92 241 | 242 | 3.1.5为什么深层神经网络难以训练? 93 243 | 244 | 3.1.6深度学习和机器学习有什么不同 94 245 | 246 | 3.2 网络操作与计算 95 247 | 248 | 3.2.1前向传播与反向传播? 95 249 | 250 | 3.2.2如何计算神经网络的输出? 97 251 | 252 | 3.2.3如何计算卷积神经网络输出值? 98 253 | 254 | 3.2.4如何计算Pooling层输出值输出值? 101 255 | 256 | 3.2.5实例理解反向传播 102 257 | 258 | 3.3 超参数 105 259 | 260 | 3.3.1什么是超参数? 105 261 | 262 | 3.3.2如何寻找超参数的最优值? 105 263 | 264 | 3.3.3超参数搜索一般过程? 106 265 | 266 | 3.4 激活函数 106 267 | 268 | 3.4.1为什么需要非线性激活函数? 106 269 | 270 | 3.4.2常见的激活函数及图像 107 271 | 272 | 3.4.3 常见激活函数的导数计算? 109 273 | 274 | 3.4.4激活函数有哪些性质? 110 275 | 276 | 3.4.5 如何选择激活函数? 110 277 | 278 | 3.4.6使用ReLu激活函数的优点? 111 279 | 280 | 3.4.7什么时候可以用线性激活函数? 111 281 | 282 | 3.4.8怎样理解Relu(<0时)是非线性激活函数? 111 283 | 284 | 3.4.9 Softmax函数如何应用于多分类? 112 285 | 286 | 3.5 Batch_Size 113 287 | 288 | 3.5.1为什么需要Batch_Size? 113 289 | 290 | 3.5.2 Batch_Size值的选择 114 291 | 292 | 3.5.3在合理范围内,增大 Batch_Size 有何好处? 114 293 | 294 | 3.5.4盲目增大 Batch_Size 有何坏处? 114 295 | 296 | 3.5.5调节 Batch_Size 对训练效果影响到底如何? 114 297 | 298 | 3.6 归一化 115 299 | 300 | 3.6.1归一化含义? 115 301 | 302 | 3.6.2为什么要归一化 115 303 | 304 | 3.6.3为什么归一化能提高求解最优解速度? 115 305 | 306 | 3.6.4 3D图解未归一化 116 307 | 308 | 3.6.5归一化有哪些类型? 117 309 | 310 | 3.6.6局部响应归一化作用 117 311 | 312 | 3.6.7理解局部响应归一化公式 117 313 | 314 | 3.6.8什么是批归一化(Batch Normalization) 118 315 | 316 | 3.6.9批归一化(BN)算法的优点 119 317 | 318 | 3.6.10批归一化(BN)算法流程 119 319 | 320 | 3.6.11批归一化和群组归一化 120 321 | 322 | 3.6.12 Weight Normalization和Batch Normalization 120 323 | 324 | 3.7 预训练与微调(fine tuning) 121 325 | 326 | 3.7.1为什么无监督预训练可以帮助深度学习? 121 327 | 328 | 3.7.2什么是模型微调fine tuning 121 329 | 330 | 3.7.3微调时候网络参数是否更新? 122 331 | 332 | 3.7.4 fine-tuning模型的三种状态 122 333 | 334 | 3.8权重偏差初始化 122 335 | 336 | 3.8.1 全都初始化为0 122 337 | 338 | 3.8.2 全都初始化为同样的值 123 339 | 340 | 3.8.3 初始化为小的随机数 124 341 | 342 | 3.8.4用1/sqrt(n)校准方差 125 343 | 344 | 3.8.5稀疏初始化(Sparse Initialazation) 125 345 | 346 | 3.8.6初始化偏差 125 347 | 348 | 3.9 Softmax 126 349 | 350 | 3.9.1 Softmax定义及作用 126 351 | 352 | 3.9.2 Softmax推导 126 353 | 354 | 3.10 理解One Hot Encodeing原理及作用? 126 355 | 356 | 3.11 常用的优化器有哪些 127 357 | 358 | 3.12 Dropout 系列问题 128 359 | 360 | 3.12.1 dropout率的选择 128 361 | 362 | 3.27 Padding 系列问题 128 363 | 364 | 365 | ## 第四章 经典网络 129 366 | 367 | 4.1LetNet5 129 368 | 369 | 4.1.1模型结构 129 370 | 371 | 4.1.2模型结构 129 372 | 373 | 4.1.3 模型特性 131 374 | 375 | 4.2 AlexNet 131 376 | 377 | 4.2.1 模型结构 131 378 | 379 | 4.2.2模型解读 131 380 | 381 | 4.2.3模型特性 135 382 | 383 | 4.3 可视化ZFNet-解卷积 135 384 | 385 | 4.3.1 基本的思想及其过程 135 386 | 387 | 4.3.2 卷积与解卷积 136 388 | 389 | 4.3.3卷积可视化 137 390 | 391 | 4.3.4 ZFNe和AlexNet比较 139 392 | 393 | 4.4 VGG 140 394 | 395 | 4.1.1 模型结构 140 396 | 397 | 4.1.2 模型特点 140 398 | 399 | 4.5 Network in Network 141 400 | 401 | 4.5.1 模型结构 141 402 | 403 | 4.5.2 模型创新点 141 404 | 405 | 4.6 GoogleNet 143 406 | 407 | 4.6.1 模型结构 143 408 | 409 | 4.6.2 Inception 结构 145 410 | 411 | 4.6.3 模型层次关系 146 412 | 413 | 4.7 Inception 系列 148 414 | 415 | 4.7.1 Inception v1 148 416 | 417 | 4.7.2 Inception v2 150 418 | 419 | 4.7.3 Inception v3 153 420 | 421 | 4.7.4 Inception V4 155 422 | 423 | 4.7.5 Inception-ResNet-v2 157 424 | 425 | 4.8 ResNet及其变体 158 426 | 427 | 4.8.1重新审视ResNet 159 428 | 429 | 4.8.2残差块 160 430 | 431 | 4.8.3 ResNet架构 162 432 | 433 | 4.8.4残差块的变体 162 434 | 435 | 4.8.5 ResNeXt 162 436 | 437 | 4.8.6 Densely Connected CNN 164 438 | 439 | 4.8.7 ResNet作为小型网络的组合 165 440 | 441 | 4.8.8 ResNet中路径的特点 166 442 | 443 | 4.9为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的? 167 444 | 445 | 446 | ## 第五章 卷积神经网络(CNN) 170 447 | 448 | 5.1 卷积神经网络的组成层 170 449 | 450 | 5.2 卷积如何检测边缘信息? 171 451 | 452 | 5.2 卷积的几个基本定义? 174 453 | 454 | 5.2.1卷积核大小 174 455 | 456 | 5.2.2卷积核的步长 174 457 | 458 | 5.2.3边缘填充 174 459 | 460 | 5.2.4输入和输出通道 174 461 | 462 | 5.3 卷积网络类型分类? 174 463 | 464 | 5.3.1普通卷积 174 465 | 466 | 5.3.2扩张卷积 175 467 | 468 | 5.3.3转置卷积 176 469 | 470 | 5.3.4可分离卷积 177 471 | 472 | 5.3 图解12种不同类型的2D卷积? 178 473 | 474 | 5.4 2D卷积与3D卷积有什么区别? 181 475 | 476 | 5.4.1 2D 卷积 181 477 | 478 | 5.4.2 3D卷积 182 479 | 480 | 5.5 有哪些池化方法? 183 481 | 482 | 5.5.1一般池化(General Pooling) 183 483 | 484 | 5.5.2重叠池化(OverlappingPooling) 184 485 | 486 | 5.5.3空金字塔池化(Spatial Pyramid Pooling) 184 487 | 488 | 5.6 1x1卷积作用? 186 489 | 490 | 5.7卷积层和池化层有什么区别?  187 491 | 492 | 5.8卷积核一定越大越好? 189 493 | 494 | 5.9每层卷积只能用一种尺寸的卷积核? 189 495 | 496 | 5.10怎样才能减少卷积层参数量? 190 497 | 498 | 5.11卷积操作时必须同时考虑通道和区域吗? 191 499 | 500 | 5.12采用宽卷积的好处有什么?  192 501 | 502 | 5.12.1窄卷积和宽卷积 192 503 | 504 | 5.12.2 为什么采用宽卷积? 192 505 | 506 | 5.13卷积层输出的深度与哪个部件的个数相同?  192 507 | 508 | 5.14 如何得到卷积层输出的深度? 193 509 | 510 | 5.15激活函数通常放在卷积神经网络的那个操作之后?  194 511 | 512 | 5.16 如何理解最大池化层有几分缩小? 194 513 | 514 | 5.17理解图像卷积与反卷积 194 515 | 516 | 5.17.1图像卷积 194 517 | 518 | 5.17.2图像反卷积 196 519 | 520 | 5.18不同卷积后图像大小计算? 198 521 | 522 | 5.18.1 类型划分 198 523 | 524 | 5.18.2 计算公式 199 525 | 526 | 5.19 步长、填充大小与输入输出关系总结? 199 527 | 528 | 5.19.1没有0填充,单位步长 200 529 | 530 | 5.19.2零填充,单位步长 200 531 | 532 | 5.19.3不填充,非单位步长 202 533 | 534 | 5.19.4零填充,非单位步长 202 535 | 536 | 5.20 理解反卷积和棋盘效应 204 537 | 538 | 5.20.1为什么出现棋盘现象? 204 539 | 540 | 5.20.2 有哪些方法可以避免棋盘效应? 205 541 | 542 | 5.21 CNN主要的计算瓶颈? 207 543 | 544 | 5.22 CNN的参数经验设置 207 545 | 546 | 5.23 提高泛化能力的方法总结 208 547 | 548 | 5.23.1 主要方法 208 549 | 550 | 5.23.2 实验证明 208 551 | 552 | 5.24 CNN在CV与NLP领域运用的联系与区别? 213 553 | 554 | 5.24.1联系 213 555 | 556 | 5.24.2区别 213 557 | 558 | 5.25 CNN凸显共性的手段? 213 559 | 560 | 5.25.1 局部连接 213 561 | 562 | 5.25.2 权值共享 214 563 | 564 | 5.25.3 池化操作 215 565 | 566 | 5.26 全卷积与Local-Conv的异同点 215 567 | 568 | 5.27 举例理解Local-Conv的作用 215 569 | 570 | 5.28 简述卷积神经网络进化史 216 571 | 572 | 573 | ## 第六章 循环神经网络(RNN) 218 574 | 575 | 6.1 RNNs和FNNs有什么区别? 218 576 | 577 | 6.2 RNNs典型特点? 218 578 | 579 | 6.3 RNNs能干什么? 219 580 | 581 | 6.4 RNNs在NLP中典型应用? 220 582 | 583 | 6.5 RNNs训练和传统ANN训练异同点? 220 584 | 585 | 6.6常见的RNNs扩展和改进模型 221 586 | 587 | 6.6.1 Simple RNNs(SRNs) 221 588 | 589 | 6.6.2 Bidirectional RNNs 221 590 | 591 | 6.6.3 Deep(Bidirectional) RNNs 222 592 | 593 | 6.6.4 Echo State Networks(ESNs) 222 594 | 595 | 6.6.5 Gated Recurrent Unit Recurrent Neural Networks 224 596 | 597 | 6.6.6 LSTM Netwoorks 224 598 | 599 | 6.6.7 Clockwork RNNs(CW-RNNs) 225 600 | 601 | 602 | ## 第七章 目标检测 228 603 | 604 | 7.1基于候选区域的目标检测器 228 605 | 606 | 7.1.1滑动窗口检测器 228 607 | 608 | 7.1.2选择性搜索 229 609 | 610 | 7.1.3 R-CNN 230 611 | 612 | 7.1.4边界框回归器 230 613 | 614 | 7.1.5 Fast R-CNN 231 615 | 616 | 7.1.6 ROI 池化 233 617 | 618 | 7.1.7 Faster R-CNN 233 619 | 620 | 7.1.8候选区域网络 234 621 | 622 | 7.1.9 R-CNN 方法的性能 236 623 | 624 | 7.2 基于区域的全卷积神经网络(R-FCN) 237 625 | 626 | 7.3 单次目标检测器 240 627 | 628 | 7.3.1单次检测器 241 629 | 630 | 7.3.2滑动窗口进行预测 241 631 | 632 | 7.3.3 SSD 243 633 | 634 | 7.4 YOLO系列 244 635 | 636 | 7.4.1 YOLOv1介绍 244 637 | 638 | 7.4.2 YOLOv1模型优缺点? 252 639 | 640 | 7.4.3 YOLOv2 253 641 | 642 | 7.4.4 YOLOv2改进策略 254 643 | 644 | 7.4.5 YOLOv2的训练 261 645 | 646 | 7.4.6 YOLO9000 261 647 | 648 | 7.4.7 YOLOv3 263 649 | 650 | 7.4.8 YOLOv3改进 264 651 | 652 | 653 | ## 第八章 图像分割 269 654 | 655 | 8.1 传统的基于CNN的分割方法缺点? 269 656 | 657 | 8.1 FCN 269 658 | 659 | 8.1.1 FCN改变了什么? 269 660 | 661 | 8.1.2 FCN网络结构? 270 662 | 663 | 8.1.3全卷积网络举例? 271 664 | 665 | 8.1.4为什么CNN对像素级别的分类很难? 271 666 | 667 | 8.1.5全连接层和卷积层如何相互转化? 272 668 | 669 | 8.1.6 FCN的输入图片为什么可以是任意大小? 272 670 | 671 | 8.1.7把全连接层的权重W重塑成卷积层的滤波器有什么好处? 273 672 | 673 | 8.1.8反卷积层理解 275 674 | 675 | 8.1.9跳级(skip)结构 276 676 | 677 | 8.1.10模型训练 277 678 | 679 | 8.1.11 FCN缺点 280 680 | 681 | 8.2 U-Net 280 682 | 683 | 8.3 SegNet 282 684 | 685 | 8.4空洞卷积(Dilated Convolutions) 283 686 | 687 | 8.4 RefineNet 285 688 | 689 | 8.5 PSPNet 286 690 | 691 | 8.6 DeepLab系列 288 692 | 693 | 8.6.1 DeepLabv1 288 694 | 695 | 8.6.2 DeepLabv2 289 696 | 697 | 8.6.3 DeepLabv3 289 698 | 699 | 8.6.4 DeepLabv3+ 290 700 | 701 | 8.7 Mask-R-CNN 293 702 | 703 | 8.7.1 Mask-RCNN 的网络结构示意图 293 704 | 705 | 8.7.2 RCNN行人检测框架 293 706 | 707 | 8.7.3 Mask-RCNN 技术要点 294 708 | 709 | 8.8 CNN在基于弱监督学习的图像分割中的应用 295 710 | 711 | 8.8.1 Scribble标记 295 712 | 713 | 8.8.2 图像级别标记 297 714 | 715 | 8.8.3 DeepLab+bounding box+image-level labels 298 716 | 717 | 8.8.4统一的框架 299 718 | 719 | 720 | ## 第九章 强化学习 301 721 | 722 | 9.1强化学习的主要特点? 301 723 | 724 | 9.2强化学习应用实例 302 725 | 726 | 9.3强化学习和监督式学习、非监督式学习的区别 303 727 | 728 | 9.4 强化学习主要有哪些算法? 305 729 | 730 | 9.5深度迁移强化学习算法 305 731 | 732 | 9.6分层深度强化学习算法 306 733 | 734 | 9.7深度记忆强化学习算法 306 735 | 736 | 9.8 多智能体深度强化学习算法 307 737 | 738 | 9.9深度强化学习算法小结 307 739 | 740 | 741 | ## 第十章 迁移学习 309 742 | 743 | 10.1 什么是迁移学习? 309 744 | 745 | 10.2 什么是多任务学习? 309 746 | 747 | 10.3 多任务学习有什么意义? 309 748 | 749 | 10.4 什么是端到端的深度学习? 311 750 | 751 | 10.5 端到端的深度学习举例? 311 752 | 753 | 10.6 端到端的深度学习有什么挑战? 311 754 | 755 | 10.7 端到端的深度学习优缺点? 312 756 | 757 | 758 | ## 第十三章 优化算法 314 759 | 760 | 13.1 CPU和GPU 的区别? 314 761 | 762 | 13.2如何解决训练样本少的问题 315 763 | 764 | 13.3 什么样的样本集不适合用深度学习? 315 765 | 766 | 13.4 有没有可能找到比已知算法更好的算法? 316 767 | 768 | 13.5 何为共线性, 跟过拟合有啥关联? 316 769 | 770 | 13.6 广义线性模型是怎被应用在深度学习中? 316 771 | 772 | 13.7 造成梯度消失的原因? 317 773 | 774 | 13.8 权值初始化方法有哪些 317 775 | 776 | 13.9 启发式优化算法中,如何避免陷入局部最优解? 318 777 | 778 | 13.10 凸优化中如何改进GD方法以防止陷入局部最优解 319 779 | 780 | 13.11 常见的损失函数? 319 781 | 782 | 13.14 如何进行特征选择(feature selection)? 321 783 | 784 | 13.14.1 如何考虑特征选择 321 785 | 786 | 13.14.2 特征选择方法分类 321 787 | 788 | 13.14.3 特征选择目的 322 789 | 790 | 13.15 梯度消失/梯度爆炸原因,以及解决方法 322 791 | 792 | 13.15.1 为什么要使用梯度更新规则? 322 793 | 794 | 13.15.2 梯度消失、爆炸原因? 323 795 | 796 | 13.15.3 梯度消失、爆炸的解决方案 324 797 | 798 | 13.16 深度学习为什么不用二阶优化 325 799 | 800 | 13.17 怎样优化你的深度学习系统? 326 801 | 802 | 13.18为什么要设置单一数字评估指标? 326 803 | 804 | 13.19满足和优化指标(Satisficing and optimizing metrics) 327 805 | 806 | 13.20 怎样划分训练/开发/测试集 328 807 | 808 | 13.21如何划分开发/测试集大小 329 809 | 810 | 13.22什么时候该改变开发/测试集和指标? 329 811 | 812 | 13.23 设置评估指标的意义? 330 813 | 814 | 13.24 什么是可避免偏差? 331 815 | 816 | 13.25 什么是TOP5错误率? 331 817 | 818 | 13.26 什么是人类水平错误率? 332 819 | 820 | 13.27 可避免偏差、几大错误率之间的关系? 332 821 | 822 | 13.28 怎样选取可避免偏差及贝叶斯错误率? 332 823 | 824 | 13.29 怎样减少方差? 333 825 | 826 | 13.30贝叶斯错误率的最佳估计 333 827 | 828 | 13.31举机器学习超过单个人类表现几个例子? 334 829 | 830 | 13.32如何改善你的模型? 334 831 | 832 | 13.33 理解误差分析 335 833 | 834 | 13.34 为什么值得花时间查看错误标记数据? 336 835 | 836 | 13.35 快速搭建初始系统的意义? 336 837 | 838 | 13.36 为什么要在不同的划分上训练及测试? 337 839 | 840 | 13.37 如何解决数据不匹配问题? 338 841 | 842 | 13.38 梯度检验注意事项? 340 843 | 844 | 13.39什么是随机梯度下降? 341 845 | 846 | 13.40什么是批量梯度下降? 341 847 | 848 | 13.41什么是小批量梯度下降? 341 849 | 850 | 13.42怎么配置mini-batch梯度下降 342 851 | 852 | 13.43 局部最优的问题 343 853 | 854 | 13.44提升算法性能思路 346 855 | 856 | 857 | ## 第十四章 超参数调整 358 858 | 859 | 14.1 调试处理 358 860 | 861 | 14.2 有哪些超参数 359 862 | 863 | 14.3 如何选择调试值? 359 864 | 865 | 14.4 为超参数选择合适的范围 359 866 | 867 | 14.5 如何搜索超参数? 359 868 | 869 | 870 | ## 第十五章 正则化 361 871 | 872 | 15.1 什么是正则化? 361 873 | 874 | 15.2 正则化原理? 361 875 | 876 | 15.3 为什么要正则化? 361 877 | 878 | 15.4 为什么正则化有利于预防过拟合? 361 879 | 880 | 15.5 为什么正则化可以减少方差? 362 881 | 882 | 15.6 L2正则化的理解? 362 883 | 884 | 15.7 理解dropout 正则化 362 885 | 886 | 15.8 有哪些dropout 正则化方法? 362 887 | 888 | 15.8 如何实施dropout 正则化 363 889 | 890 | 15.9 Python 实现dropout 正则化 363 891 | 892 | 15.10 L2正则化和dropout 有什么不同? 363 893 | 894 | 15.11 dropout有什么缺点? 363 895 | 896 | 15.12 其他正则化方法? 364 897 | 898 | 899 | ## 参考文献 366 900 | 901 | -------------------------------------------------------------------------------- /_config.yml: -------------------------------------------------------------------------------- 1 | theme: jekyll-theme-time-machine -------------------------------------------------------------------------------- /深度学习500问-Tan-00目录.docx: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-00目录.docx -------------------------------------------------------------------------------- /深度学习500问-Tan-00目录.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-00目录.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-01第一章 数学基础.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-01第一章 数学基础.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-02第二章 机器学习基础.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-02第二章 机器学习基础.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-03第三章 深度学习基础.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-03第三章 深度学习基础.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-04第四章 经典网络.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-04第四章 经典网络.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-05第五章 卷积神经网络(CNN).pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-05第五章 卷积神经网络(CNN).pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-06第六章 循环神经网络(RNN).pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-06第六章 循环神经网络(RNN).pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-07第七章 目标检测.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-07第七章 目标检测.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-08第八章 图像分割.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-08第八章 图像分割.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-09第九章 强化学习.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-09第九章 强化学习.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-10第十章 迁移学习.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-10第十章 迁移学习.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-13第十三章 优化算法.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-13第十三章 优化算法.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-14第十四章 超参数调整.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-14第十四章 超参数调整.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-15第十五章 正则化.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-15第十五章 正则化.pdf -------------------------------------------------------------------------------- /深度学习500问-Tan-16参考文献.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/hhaAndroid/DeepLearning-500-questions/b5ac90de1bc27ec6e086d9a513dc4f4b41dc0cbc/深度学习500问-Tan-16参考文献.pdf -------------------------------------------------------------------------------- /目录预览: -------------------------------------------------------------------------------- 1 | # 目录 2 2 | ## 第一章 数学基础 1 3 | - 1.1标量、向量、张量之间的联系 1 4 | - 1.2张量与矩阵的区别? 1 5 | 1.3矩阵和向量相乘结果 1 6 | 1.4向量和矩阵的范数归纳 1 7 | 1.5如何判断一个矩阵为正定? 2 8 | 1.6导数偏导计算 3 9 | 1.7导数和偏导数有什么区别? 3 10 | 1.8特征值分解与特征向量 3 11 | 1.9奇异值与特征值有什么关系? 4 12 | 1.10机器学习为什么要使用概率? 4 13 | 1.11变量与随机变量有什么区别? 4 14 | 1.12常见概率分布? 5 15 | 1.13举例理解条件概率 9 16 | 1.14联合概率与边缘概率联系区别? 10 17 | 1.15条件概率的链式法则 10 18 | 1.16独立性和条件独立性 11 19 | 1.17期望、方差、协方差、相关系数总结 11 20 | 第二章 机器学习基础 14 21 | 2.1 各种常见算法图示 14 22 | 2.2监督学习、非监督学习、半监督学习、弱监督学习? 15 23 | 2.3 监督学习有哪些步骤 16 24 | 2.4 多实例学习? 17 25 | 2.5 分类网络和回归的区别? 17 26 | 2.6 什么是神经网络? 17 27 | 2.7 常用分类算法的优缺点? 18 28 | 2.8 正确率能很好的评估分类算法吗? 20 29 | 2.9 分类算法的评估方法? 20 30 | 2.10 什么样的分类器是最好的? 22 31 | 2.11大数据与深度学习的关系 22 32 | 2.12 理解局部最优与全局最优 23 33 | 2.13 理解逻辑回归 24 34 | 2.14 逻辑回归与朴素贝叶斯有什么区别? 24 35 | 2.15 为什么需要代价函数? 25 36 | 2.16 代价函数作用原理  25 37 | 2.17 为什么代价函数要非负? 26 38 | 2.18 常见代价函数? 26 39 | 2.19为什么用交叉熵代替二次代价函数 28 40 | 2.20 什么是损失函数? 28 41 | 2.21 常见的损失函数 28 42 | 2.22 逻辑回归为什么使用对数损失函数? 30 43 | 0.00 对数损失函数是如何度量损失的? 31 44 | 2.23 机器学习中为什么需要梯度下降? 32 45 | 2.24 梯度下降法缺点? 32 46 | 2.25 梯度下降法直观理解? 32 47 | 2.23 梯度下降法算法描述? 33 48 | 2.24 如何对梯度下降法进行调优? 35 49 | 2.25 随机梯度和批量梯度区别? 35 50 | 2.26 各种梯度下降法性能比较 37 51 | 2.27计算图的导数计算图解? 37 52 | 2.28 线性判别分析(LDA)思想总结 39 53 | 2.29 图解LDA核心思想 39 54 | 2.30 二类LDA算法原理? 40 55 | 2.30 LDA算法流程总结? 41 56 | 2.31 LDA和PCA区别? 41 57 | 2.32 LDA优缺点? 41 58 | 2.33 主成分分析(PCA)思想总结 42 59 | 2.34 图解PCA核心思想 42 60 | 2.35 PCA算法推理 43 61 | 2.36 PCA算法流程总结 44 62 | 2.37 PCA算法主要优缺点 45 63 | 2.38 降维的必要性及目的 45 64 | 2.39 KPCA与PCA的区别? 46 65 | 2.40模型评估 47 66 | 2.40.1模型评估常用方法? 47 67 | 2.40.2 经验误差与泛化误差 47 68 | 2.40.3 图解欠拟合、过拟合 48 69 | 2.40.4 如何解决过拟合与欠拟合? 49 70 | 2.40.5 交叉验证的主要作用? 50 71 | 2.40.6 k折交叉验证? 50 72 | 2.40.7 混淆矩阵 50 73 | 2.40.8 错误率及精度 51 74 | 2.40.9 查准率与查全率 51 75 | 2.40.10 ROC与AUC 52 76 | 2.40.11如何画ROC曲线? 53 77 | 2.40.12如何计算TPR,FPR? 54 78 | 2.40.13如何计算Auc? 56 79 | 2.40.14为什么使用Roc和Auc评价分类器? 56 80 | 2.40.15 直观理解AUC 56 81 | 2.40.16 代价敏感错误率与代价曲线 57 82 | 2.40.17 模型有哪些比较检验方法 59 83 | 2.40.18 偏差与方差 59 84 | 2.40.19为什么使用标准差? 60 85 | 2.40.20 点估计思想 61 86 | 2.40.21 点估计优良性原则? 61 87 | 2.40.22点估计、区间估计、中心极限定理之间的联系? 62 88 | 2.40.23 类别不平衡产生原因? 62 89 | 2.40.24 常见的类别不平衡问题解决方法 62 90 | 2.41 决策树 64 91 | 2.41.1 决策树的基本原理 64 92 | 2.41.2 决策树的三要素? 64 93 | 2.41.3 决策树学习基本算法 65 94 | 2.41.4 决策树算法优缺点 65 95 | 2.40.5熵的概念以及理解 66 96 | 2.40.6 信息增益的理解 66 97 | 2.40.7 剪枝处理的作用及策略? 67 98 | 2.41 支持向量机 67 99 | 2.41.1 什么是支持向量机 67 100 | 2.25.2 支持向量机解决的问题? 68 101 | 2.25.2 核函数作用? 69 102 | 2.25.3 对偶问题 69 103 | 2.25.4 理解支持向量回归 69 104 | 2.25.5 理解SVM(核函数) 69 105 | 2.25.6 常见的核函数有哪些? 69 106 | 2.25.6 软间隔与正则化 73 107 | 2.25.7 SVM主要特点及缺点? 73 108 | 2.26 贝叶斯 74 109 | 2.26.1 图解极大似然估计 74 110 | 2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别? 76 111 | 2.26.4 朴素与半朴素贝叶斯分类器 76 112 | 2.26.5 贝叶斯网三种典型结构 76 113 | 2.26.6 什么是贝叶斯错误率 76 114 | 2.26.7 什么是贝叶斯最优错误率 76 115 | 2.27 EM算法解决问题及实现流程 76 116 | 2.28 为什么会产生维数灾难? 78 117 | 2.29怎样避免维数灾难 82 118 | 2.30聚类和降维有什么区别与联系? 82 119 | 2.31 GBDT和随机森林的区别 83 120 | 2.32 四种聚类方法之比较 84 121 | 第三章 深度学习基础 88 122 | 3.1基本概念 88 123 | 3.1.1神经网络组成? 88 124 | 3.1.2神经网络有哪些常用模型结构? 90 125 | 3.1.3如何选择深度学习开发平台? 92 126 | 3.1.4为什么使用深层表示 92 127 | 3.1.5为什么深层神经网络难以训练? 93 128 | 3.1.6深度学习和机器学习有什么不同 94 129 | 3.2 网络操作与计算 95 130 | 3.2.1前向传播与反向传播? 95 131 | 3.2.2如何计算神经网络的输出? 97 132 | 3.2.3如何计算卷积神经网络输出值? 98 133 | 3.2.4如何计算Pooling层输出值输出值? 101 134 | 3.2.5实例理解反向传播 102 135 | 3.3超参数 105 136 | 3.3.1什么是超参数? 105 137 | 3.3.2如何寻找超参数的最优值? 105 138 | 3.3.3超参数搜索一般过程? 106 139 | 3.4激活函数 106 140 | 3.4.1为什么需要非线性激活函数? 106 141 | 3.4.2常见的激活函数及图像 107 142 | 3.4.3 常见激活函数的导数计算? 109 143 | 3.4.4激活函数有哪些性质? 110 144 | 3.4.5 如何选择激活函数? 110 145 | 3.4.6使用ReLu激活函数的优点? 111 146 | 3.4.7什么时候可以用线性激活函数? 111 147 | 3.4.8怎样理解Relu(<0时)是非线性激活函数? 111 148 | 3.4.9 Softmax函数如何应用于多分类? 112 149 | 3.5 Batch_Size 113 150 | 3.5.1为什么需要Batch_Size? 113 151 | 3.5.2 Batch_Size值的选择 114 152 | 3.5.3在合理范围内,增大 Batch_Size 有何好处? 114 153 | 3.5.4盲目增大 Batch_Size 有何坏处? 114 154 | 3.5.5调节 Batch_Size 对训练效果影响到底如何? 114 155 | 3.6 归一化 115 156 | 3.6.1归一化含义? 115 157 | 3.6.2为什么要归一化 115 158 | 3.6.3为什么归一化能提高求解最优解速度? 115 159 | 3.6.4 3D图解未归一化 116 160 | 3.6.5归一化有哪些类型? 117 161 | 3.6.6局部响应归一化作用 117 162 | 3.6.7理解局部响应归一化公式 117 163 | 3.6.8什么是批归一化(Batch Normalization) 118 164 | 3.6.9批归一化(BN)算法的优点 119 165 | 3.6.10批归一化(BN)算法流程 119 166 | 3.6.11批归一化和群组归一化 120 167 | 3.6.12 Weight Normalization和Batch Normalization 120 168 | 3.7 预训练与微调(fine tuning) 121 169 | 3.7.1为什么无监督预训练可以帮助深度学习? 121 170 | 3.7.2什么是模型微调fine tuning 121 171 | 3.7.3微调时候网络参数是否更新? 122 172 | 3.7.4 fine-tuning模型的三种状态 122 173 | 3.8权重偏差初始化 122 174 | 3.8.1 全都初始化为0 122 175 | 3.8.2 全都初始化为同样的值 123 176 | 3.8.3 初始化为小的随机数 124 177 | 3.8.4用1/sqrt(n)校准方差 125 178 | 3.8.5稀疏初始化(Sparse Initialazation) 125 179 | 3.8.6初始化偏差 125 180 | 3.9 Softmax 126 181 | 3.9.1 Softmax定义及作用 126 182 | 3.9.2 Softmax推导 126 183 | 3.10 理解One Hot Encodeing原理及作用? 126 184 | 3.11 常用的优化器有哪些 127 185 | 3.12 Dropout 系列问题 128 186 | 3.12.1 dropout率的选择 128 187 | 3.27 Padding 系列问题 128 188 | 第四章 经典网络 129 189 | 4.1LetNet5 129 190 | 4.1.1模型结构 129 191 | 4.1.2模型结构 129 192 | 4.1.3 模型特性 131 193 | 4.2 AlexNet 131 194 | 4.2.1 模型结构 131 195 | 4.2.2模型解读 131 196 | 4.2.3模型特性 135 197 | 4.3 可视化ZFNet-解卷积 135 198 | 4.3.1 基本的思想及其过程 135 199 | 4.3.2 卷积与解卷积 136 200 | 4.3.3卷积可视化 137 201 | 4.3.4 ZFNe和AlexNet比较 139 202 | 4.4 VGG 140 203 | 4.1.1 模型结构 140 204 | 4.1.2 模型特点 140 205 | 4.5 Network in Network 141 206 | 4.5.1 模型结构 141 207 | 4.5.2 模型创新点 141 208 | 4.6 GoogleNet 143 209 | 4.6.1 模型结构 143 210 | 4.6.2 Inception 结构 145 211 | 4.6.3 模型层次关系 146 212 | 4.7 Inception 系列 148 213 | 4.7.1 Inception v1 148 214 | 4.7.2 Inception v2 150 215 | 4.7.3 Inception v3 153 216 | 4.7.4 Inception V4 155 217 | 4.7.5 Inception-ResNet-v2 157 218 | 4.8 ResNet及其变体 158 219 | 4.8.1重新审视ResNet 159 220 | 4.8.2残差块 160 221 | 4.8.3 ResNet架构 162 222 | 4.8.4残差块的变体 162 223 | 4.8.5 ResNeXt 162 224 | 4.8.6 Densely Connected CNN 164 225 | 4.8.7 ResNet作为小型网络的组合 165 226 | 4.8.8 ResNet中路径的特点 166 227 | 4.9为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的? 167 228 | 第五章 卷积神经网络(CNN) 170 229 | 5.1 卷积神经网络的组成层 170 230 | 5.2 卷积如何检测边缘信息? 171 231 | 5.2 卷积的几个基本定义? 174 232 | 5.2.1卷积核大小 174 233 | 5.2.2卷积核的步长 174 234 | 5.2.3边缘填充 174 235 | 5.2.4输入和输出通道 174 236 | 5.3 卷积网络类型分类? 174 237 | 5.3.1普通卷积 174 238 | 5.3.2扩张卷积 175 239 | 5.3.3转置卷积 176 240 | 5.3.4可分离卷积 177 241 | 5.3 图解12种不同类型的2D卷积? 178 242 | 5.4 2D卷积与3D卷积有什么区别? 181 243 | 5.4.1 2D 卷积 181 244 | 5.4.2 3D卷积 182 245 | 5.5 有哪些池化方法? 183 246 | 5.5.1一般池化(General Pooling) 183 247 | 5.5.2重叠池化(OverlappingPooling) 184 248 | 5.5.3空金字塔池化(Spatial Pyramid Pooling) 184 249 | 5.6 1x1卷积作用? 186 250 | 5.7卷积层和池化层有什么区别?  187 251 | 5.8卷积核一定越大越好? 189 252 | 5.9每层卷积只能用一种尺寸的卷积核? 189 253 | 5.10怎样才能减少卷积层参数量? 190 254 | 5.11卷积操作时必须同时考虑通道和区域吗? 191 255 | 5.12采用宽卷积的好处有什么?  192 256 | 5.12.1窄卷积和宽卷积 192 257 | 5.12.2 为什么采用宽卷积? 192 258 | 5.13卷积层输出的深度与哪个部件的个数相同?  192 259 | 5.14 如何得到卷积层输出的深度? 193 260 | 5.15激活函数通常放在卷积神经网络的那个操作之后?  194 261 | 5.16 如何理解最大池化层有几分缩小? 194 262 | 5.17理解图像卷积与反卷积 194 263 | 5.17.1图像卷积 194 264 | 5.17.2图像反卷积 196 265 | 5.18不同卷积后图像大小计算? 198 266 | 5.18.1 类型划分 198 267 | 5.18.2 计算公式 199 268 | 5.19 步长、填充大小与输入输出关系总结? 199 269 | 5.19.1没有0填充,单位步长 200 270 | 5.19.2零填充,单位步长 200 271 | 5.19.3不填充,非单位步长 202 272 | 5.19.4零填充,非单位步长 202 273 | 5.20 理解反卷积和棋盘效应 204 274 | 5.20.1为什么出现棋盘现象? 204 275 | 5.20.2 有哪些方法可以避免棋盘效应? 205 276 | 5.21 CNN主要的计算瓶颈? 207 277 | 5.22 CNN的参数经验设置 207 278 | 5.23 提高泛化能力的方法总结 208 279 | 5.23.1 主要方法 208 280 | 5.23.2 实验证明 208 281 | 5.24 CNN在CV与NLP领域运用的联系与区别? 213 282 | 5.24.1联系 213 283 | 5.24.2区别 213 284 | 5.25 CNN凸显共性的手段? 213 285 | 5.25.1 局部连接 213 286 | 5.25.2 权值共享 214 287 | 5.25.3 池化操作 215 288 | 5.26 全卷积与Local-Conv的异同点 215 289 | 5.27 举例理解Local-Conv的作用 215 290 | 5.28 简述卷积神经网络进化史 216 291 | 第六章 循环神经网络(RNN) 218 292 | 6.1 RNNs和FNNs有什么区别? 218 293 | 6.2 RNNs典型特点? 218 294 | 6.3 RNNs能干什么? 219 295 | 6.4 RNNs在NLP中典型应用? 220 296 | 6.5 RNNs训练和传统ANN训练异同点? 220 297 | 6.6常见的RNNs扩展和改进模型 221 298 | 6.6.1 Simple RNNs(SRNs) 221 299 | 6.6.2 Bidirectional RNNs 221 300 | 6.6.3 Deep(Bidirectional) RNNs 222 301 | 6.6.4 Echo State Networks(ESNs) 222 302 | 6.6.5 Gated Recurrent Unit Recurrent Neural Networks 224 303 | 6.6.6 LSTM Netwoorks 224 304 | 6.6.7 Clockwork RNNs(CW-RNNs) 225 305 | 第七章 目标检测 228 306 | 7.1基于候选区域的目标检测器 228 307 | 7.1.1滑动窗口检测器 228 308 | 7.1.2选择性搜索 229 309 | 7.1.3 R-CNN 230 310 | 7.1.4边界框回归器 230 311 | 7.1.5 Fast R-CNN 231 312 | 7.1.6 ROI 池化 233 313 | 7.1.7 Faster R-CNN 233 314 | 7.1.8候选区域网络 234 315 | 7.1.9 R-CNN 方法的性能 236 316 | 7.2 基于区域的全卷积神经网络(R-FCN) 237 317 | 7.3 单次目标检测器 240 318 | 7.3.1单次检测器 241 319 | 7.3.2滑动窗口进行预测 241 320 | 7.3.3 SSD 243 321 | 7.4 YOLO系列 244 322 | 7.4.1 YOLOv1介绍 244 323 | 7.4.2 YOLOv1模型优缺点? 252 324 | 7.4.3 YOLOv2 253 325 | 7.4.4 YOLOv2改进策略 254 326 | 7.4.5 YOLOv2的训练 261 327 | 7.4.6 YOLO9000 261 328 | 7.4.7 YOLOv3 263 329 | 7.4.8 YOLOv3改进 264 330 | 第八章 图像分割 269 331 | 8.1 传统的基于CNN的分割方法缺点? 269 332 | 8.1 FCN 269 333 | 8.1.1 FCN改变了什么? 269 334 | 8.1.2 FCN网络结构? 270 335 | 8.1.3全卷积网络举例? 271 336 | 8.1.4为什么CNN对像素级别的分类很难? 271 337 | 8.1.5全连接层和卷积层如何相互转化? 272 338 | 8.1.6 FCN的输入图片为什么可以是任意大小? 272 339 | 8.1.7把全连接层的权重W重塑成卷积层的滤波器有什么好处? 273 340 | 8.1.8反卷积层理解 275 341 | 8.1.9跳级(skip)结构 276 342 | 8.1.10模型训练 277 343 | 8.1.11 FCN缺点 280 344 | 8.2 U-Net 280 345 | 8.3 SegNet 282 346 | 8.4空洞卷积(Dilated Convolutions) 283 347 | 8.4 RefineNet 285 348 | 8.5 PSPNet 286 349 | 8.6 DeepLab系列 288 350 | 8.6.1 DeepLabv1 288 351 | 8.6.2 DeepLabv2 289 352 | 8.6.3 DeepLabv3 289 353 | 8.6.4 DeepLabv3+ 290 354 | 8.7 Mask-R-CNN 293 355 | 8.7.1 Mask-RCNN 的网络结构示意图 293 356 | 8.7.2 RCNN行人检测框架 293 357 | 8.7.3 Mask-RCNN 技术要点 294 358 | 8.8 CNN在基于弱监督学习的图像分割中的应用 295 359 | 8.8.1 Scribble标记 295 360 | 8.8.2 图像级别标记 297 361 | 8.8.3 DeepLab+bounding box+image-level labels 298 362 | 8.8.4统一的框架 299 363 | 第九章 强化学习 301 364 | 9.1强化学习的主要特点? 301 365 | 9.2强化学习应用实例 302 366 | 9.3强化学习和监督式学习、非监督式学习的区别 303 367 | 9.4 强化学习主要有哪些算法? 305 368 | 9.5深度迁移强化学习算法 305 369 | 9.6分层深度强化学习算法 306 370 | 9.7深度记忆强化学习算法 306 371 | 9.8 多智能体深度强化学习算法 307 372 | 9.9深度强化学习算法小结 307 373 | 第十章 迁移学习 309 374 | 10.1 什么是迁移学习? 309 375 | 10.2 什么是多任务学习? 309 376 | 10.3 多任务学习有什么意义? 309 377 | 10.4 什么是端到端的深度学习? 311 378 | 10.5 端到端的深度学习举例? 311 379 | 10.6 端到端的深度学习有什么挑战? 311 380 | 10.7 端到端的深度学习优缺点? 312 381 | 第十三章 优化算法 314 382 | 13.1 CPU和GPU 的区别? 314 383 | 13.2如何解决训练样本少的问题 315 384 | 13.3 什么样的样本集不适合用深度学习? 315 385 | 13.4 有没有可能找到比已知算法更好的算法? 316 386 | 13.5 何为共线性, 跟过拟合有啥关联? 316 387 | 13.6 广义线性模型是怎被应用在深度学习中? 316 388 | 13.7 造成梯度消失的原因? 317 389 | 13.8 权值初始化方法有哪些 317 390 | 13.9 启发式优化算法中,如何避免陷入局部最优解? 318 391 | 13.10 凸优化中如何改进GD方法以防止陷入局部最优解 319 392 | 13.11 常见的损失函数? 319 393 | 13.14 如何进行特征选择(feature selection)? 321 394 | 13.14.1 如何考虑特征选择 321 395 | 13.14.2 特征选择方法分类 321 396 | 13.14.3 特征选择目的 322 397 | 13.15 梯度消失/梯度爆炸原因,以及解决方法 322 398 | 13.15.1 为什么要使用梯度更新规则? 322 399 | 13.15.2 梯度消失、爆炸原因? 323 400 | 13.15.3 梯度消失、爆炸的解决方案 324 401 | 13.16 深度学习为什么不用二阶优化 325 402 | 13.17 怎样优化你的深度学习系统? 326 403 | 13.18为什么要设置单一数字评估指标? 326 404 | 13.19满足和优化指标(Satisficing and optimizing metrics) 327 405 | 13.20 怎样划分训练/开发/测试集 328 406 | 13.21如何划分开发/测试集大小 329 407 | 13.22什么时候该改变开发/测试集和指标? 329 408 | 13.23 设置评估指标的意义? 330 409 | 13.24 什么是可避免偏差? 331 410 | 13.25 什么是TOP5错误率? 331 411 | 13.26 什么是人类水平错误率? 332 412 | 13.27 可避免偏差、几大错误率之间的关系? 332 413 | 13.28 怎样选取可避免偏差及贝叶斯错误率? 332 414 | 13.29 怎样减少方差? 333 415 | 13.30贝叶斯错误率的最佳估计 333 416 | 13.31举机器学习超过单个人类表现几个例子? 334 417 | 13.32如何改善你的模型? 334 418 | 13.33 理解误差分析 335 419 | 13.34 为什么值得花时间查看错误标记数据? 336 420 | 13.35 快速搭建初始系统的意义? 336 421 | 13.36 为什么要在不同的划分上训练及测试? 337 422 | 13.37 如何解决数据不匹配问题? 338 423 | 13.38 梯度检验注意事项? 340 424 | 13.39什么是随机梯度下降? 341 425 | 13.40什么是批量梯度下降? 341 426 | 13.41什么是小批量梯度下降? 341 427 | 13.42怎么配置mini-batch梯度下降 342 428 | 13.43 局部最优的问题 343 429 | 13.44提升算法性能思路 346 430 | 第十四章 超参数调整 358 431 | 14.1 调试处理 358 432 | 14.2 有哪些超参数 359 433 | 14.3 如何选择调试值? 359 434 | 14.4 为超参数选择合适的范围 359 435 | 14.5 如何搜索超参数? 359 436 | 第十五章 正则化 361 437 | 15.1 什么是正则化? 361 438 | 15.2 正则化原理? 361 439 | 15.3 为什么要正则化? 361 440 | 15.4 为什么正则化有利于预防过拟合? 361 441 | 15.5 为什么正则化可以减少方差? 362 442 | 15.6 L2正则化的理解? 362 443 | 15.7 理解dropout 正则化 362 444 | 15.8 有哪些dropout 正则化方法? 362 445 | 15.8 如何实施dropout 正则化 363 446 | 15.9 Python 实现dropout 正则化 363 447 | 15.10 L2正则化和dropout 有什么不同? 363 448 | 15.11 dropout有什么缺点? 363 449 | 15.12 其他正则化方法? 364 450 | 参考文献 366 451 | -------------------------------------------------------------------------------- /第一章_数学基础.md: -------------------------------------------------------------------------------- 1 | # 第一章 数学基础 2 | ## 1.1 标量、向量、张量之间的联系 3 | **张量(tensor)** 4 | 在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用**$A$**来表示张量“A”。张量**$A$**中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$。 5 | **关系** 6 | 标量是0阶张量,向量是一阶张量。举例: 7 | 标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。 8 | 向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。 9 | 张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。 10 | ## 1.2 张量与矩阵的区别? 11 | 1. 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么$n$阶张量就是所谓的$n$维的“表格”。 张量的严格定义是利用线性映射来描述的。 12 | 2. 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。 13 | 3. 张量可以用3×3矩阵形式来表达。 14 | 4. 表示标量的数和表示矢量的三维数组也可分别看作1×1,1×3的矩阵。 15 | 16 | ## 1.3 矩阵和向量相乘结果 17 | 一个$m$行$n$列的矩阵和$n$行向量相乘,最后得到就是一个$m$行的向量。运算法则就是矩阵中的每一行的数据与向量中的数据相乘。 18 | ## 1.4 向量和矩阵的范数归纳 19 | **向量的范数** 20 | 定义一个向量为:$\vec{a}=[-5, 6, 8, -10]$。 21 | 向量的1范数:向量的各个元素的绝对值之和,上述向量$\vec{a}$的1范数结果就是:29。 22 | 向量的2范数:向量的每个元素的平方和再开平方根,上述$\vec{a}$的2范数结果就是:15。 23 | 向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量$\vec{a}$的负无穷范数结果就是:5。 24 | 向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量$\vec{a}$的负无穷范数结果就是:10。 25 | 26 | **矩阵的范数** 27 | 定义一个矩阵$A=[-1, 2, -3; 4, -6, 6]$。 28 | **矩阵的1范数**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$,再取最大的最终结果就是:9。 29 | **矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是:10.0623。 30 | **矩阵的无穷范数**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[6;16]$,再取最大的最终结果就是:16。 31 | **矩阵的核范数**:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。 32 | **矩阵的L0范数**:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵$A$最终结果就是:6。 33 | **矩阵的L1范数**:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵$A$最终结果就是:22。 34 | **矩阵的F范数**:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的有点在它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。 35 | **矩阵的L21范数**:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵$A$最终结果就是:17.1559。 36 | ## 1.5 如何判断一个矩阵为正定? 37 | 1. 顺序主子式全大于0; 38 | 2. 存在可逆矩阵$C$使$C^TC$等于该矩阵; 39 | 3. 正惯性指数等于$n$; 40 | 4. 合同于单位矩阵$E$(即:规范形为$E$) 41 | 5. 标准形中主对角元素全为正; 42 | 6. 特征值全为正; 43 | 7. 是某基的度量矩阵 44 | 45 | ## 1.6 导数偏导计算 46 | ## 1.7 导数和偏导数有什么区别? 47 | 导数和偏导没有本质区别,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限(如果极限存在的话)。 48 | 一元函数,一个$y$对应一个$x$,导数只有一个。 49 | 二元函数,一个$z$对应一个$x$和一个$y$,有两个导数:一个是$z$对$x$的导数,一个是$z$对$y$的导数,称之为偏导。 50 | 求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导了。 51 | (http://blog.sina.com.cn/s/blog_5b014d510100axmt.html) 52 | ## 1.8 特征值分解与特征向量 53 | 特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。 54 | 如果说一个向量$\vec{v}$是方阵$A$的特征向量,将一定可以表示成下面的形式:$$A\nu = \lambda \nu$$ 55 | $\lambda$为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式: $$A=Q\sum Q^{-1}$$ 56 | 57 | 其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。 58 | 对于矩阵为高维的情况下,那么这个矩阵就是高维空间下的一个线性变换。可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N个特征向量,那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向,就可以近似这个矩阵(变换)。 59 | (http://blog.csdn.net/jinshengtao/article/details/18448355) 60 | ## 1.9 奇异值与特征值有什么关系? 61 | 那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:$$(A^TA)V = \lambda V$$ 62 | 这里$V$就是上面的右奇异向量,另外还有:$$\sigma_i = \sqrt{\lambda\_i}, u\_i=\frac{1}{\sigma\_i}A\mu\_i$$ 63 | 这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】 64 | 奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解: 65 | $$A\_{m\times n}\thickapprox U_{m \times r}\sum\_{r\times r}V\_{r \times n}^T$$ 66 | 67 | 右边的三个矩阵相乘的结果将会是一个接近于$A$的矩阵,在这儿,$r$越接近于$n$,则相乘的结果越接近于$A$。 68 | ## 1.10 机器学习为什么要使用概率? 69 | 事件的概率是衡量该时间发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。 70 | 机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。 71 | 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。 72 | >例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。 73 | 74 | ## 1.11 变量与随机变量有什么区别? 75 | **随机变量**(random variable)表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。 76 | 随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。 77 | **变量与随机变量的区别:** 78 | 当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量. 79 | 比如: 80 | 当变量$x$值为100的概率为1的话,那么$x=100$就是确定了的,不会再有变化,除非有进一步运算. 81 | 当变量$x$的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。 82 | ## 1.12 常见概率分布? 83 | (https://wenku.baidu.com/view/6418b0206d85ec3a87c24028915f804d2b168707) 84 | ![常见概率分布](./images/prob_distribution_1.png) 85 | ![常见概率分布](./images/prob_distribution_2.png) 86 | ![常见概率分布](./images/prob_distribution_3.png) 87 | ![常见概率分布](./images/prob_distribution_4.png) 88 | ![常见概率分布](./images/prob_distribution_5.png) 89 | ![常见概率分布](./images/prob_distribution_6.png) 90 | ![常见概率分布](./images/prob_distribution_7.png) 91 | 92 | ## 1.13 举例理解条件概率 93 | 条件概率公式如下:$$P(A/B) = P(A\bigcap B) / P(B)$$ 94 | 说明:在同一个样本空间$\Omega$中的事件或者子集$A$与$B$,如果随机从$\Omega$中选出的一个元素属于$B$,那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。 95 |
![条件概率](./images/conditional_probability.jpg)
96 | 97 | 根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。 98 | 举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过) 99 | **穷举法**:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3; 100 | **条件概率法**:$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则$P(女女)$为1/4,$P(女)= 1-P(男男)=3/4$,所以最后$1/3$。 101 | 这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。 102 | ## 1.14 联合概率与边缘概率联系区别? 103 | **区别:** 104 | 联合概率:联合概率指类似于$P(X=a,Y=b)$ 这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。 105 | 边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于$P(X=a)$,$P(Y=b)$这样,仅与单个随机变量有关的概率 106 | 107 | **联系:** 108 | 联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。 109 | ## 1.15条件概率的链式法则 110 | 由条件概率的定义,可直接得出下面的乘法公式: 111 | 乘法公式 设$A, B$是两个事件,并且$P(A) > 0$, 则有 $$P(AB) = P(B|A)P(A)$$ 112 | 推广 $$P(ABC)=P(C|AB)P(B)P(B|A)P(A)$$ 113 | 一般地,用归纳法可证:若$P(A\_1A\_2...A\_n)>0$,则有$$P(A\_1A\_2...A\_n)=P(A\_n|A\_1A\_2...A\_{n-1}P(A\_{n-1}|A\_1A\_2...A\_{n-2})...P(A\_2|A\_1)P(A_1)$$ 114 | 任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。 115 | ## 1.16 独立性和条件独立性 116 | **独立性** 117 | 两个随机变量$x$和$y$,概率分布表示成两个因子乘积形式,一个因子只包含$x$,另一个因子只包含$y$,两个随机变量相互独立(independent)。 118 | 条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。 119 | 举例:$P(XY)=P(X)P(Y)$, 事件$X$和事件$Y$独立。此时给定$Z$,$$P(X,Y|Z) \not = P(X|Z)P(Y|Z)$$ 120 | 事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。 121 | 122 | **条件独立性** 123 | 给定$Z$的情况下,$X$和$Y$条件独立,当且仅当$$X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$$ 124 | $X$和$Y$的关系依赖于$Z$,而不是直接产生。 125 | 126 | **举例**定义如下事件: 127 | $X$:明天下雨; 128 | $Y$:今天的地面是湿的; 129 | $Z$:今天是否下雨; 130 | $Z$事件的成立,对$X$和$Y$均有影响,然而,在$Z$事件成立的前提下,今天的地面情况对明天是否下雨没有影响。 131 | ## 1.17期望、方差、协方差、相关系数总结 132 | (http://www.360doc.com/content/13/1124/03/9482_331690142.shtml) 133 | 134 | **期望** 135 | 在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。 136 | 线性运算: $E(ax+by+c) = aE(x)+bE(y)+c$ 137 | 推广形式: $E(\sum\_{k=1}^{n}{a\_ix\_i+c}) = \sum\_{k=1}^{n}{a\_iE(x\_i)x\_i+c}$ 138 | 函数期望:设$f(x)$为$x$的函数,则$f(x)$的期望 139 | 离散函数: $E(f(x))=\sum\_{k=1}^{n}{f(x\_k)P(x\_k)}$ 140 | 连续函数: $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$ 141 | 注意:函数的期望不等于期望的函数,即$E(f(x))=f(E(x))$ 142 | 一般情况下,乘积的期望不等于期望的乘积。 143 | 如果$X$和$Y$相互独立,则$E(xy)=E(x)E(y)$。 144 | 145 | **方差** 146 | 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。 147 | 方差是一种特殊的期望。定义为: $$Var(x) = E((x-E(x))^2)$$ 148 | 149 | 方差性质: 150 | 1. $Var(x) = E(x^2) -E(x)^2$ 151 | 2. 常数的方差为0; 152 | 3. 方差不满足线性性质; 153 | 4. 如果$X$和$Y$相互独立, $Var(ax+by)=Var(x)+Var(y)$ 154 | 155 | **协方差** 156 | 协方差是衡量两个变量线性相关性强度及变量尺度。 157 | 两个随机变量的协方差定义为:$$Cov(x,y)=E((x-E(x))(y-E(y)))$$ 158 | 方差是一种特殊的协方差。当$X=Y$时,$Cov(x,y)=Var(x)=Var(y)$。 159 | 协方差性质: 160 | 1) 独立变量的协方差为0。 161 | 2) 协方差计算公式:$$Cov(\sum\_{i=1}^{m}{a\_ix\_i}, \sum\_{j=1}^{m}{b\_jy\_j}) = \sum\_{i=1}^{m} \sum\_{j=1}^{m}{a\_ib\_jCov(x\_iy\_i)}$$ 162 | 3) 特殊情况: $$Cov(a+bx, c+dy) = bdCov(x, y)$$ 163 | **相关系数** 164 | 相关系数是研究变量之间线性相关程度的量。 165 | 两个随机变量的相关系数定义为: $$Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}$$ 166 | 性质: 167 | 1) 有界性。相关系数的取值范围是 ,可以看成无量纲的协方差。 168 | 2) 值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。 169 | 170 | 171 | 172 | 173 | 174 | 175 | 176 | 177 | 178 | 179 | --------------------------------------------------------------------------------