├── .gitignore
├── .nojekyll
├── AI算法
    ├── CV
    │   ├── CV基础.md
    │   ├── images
    │   │   ├── 20200314215428236.png
    │   │   ├── 20210126230537122.png
    │   │   ├── 3e1f4862466b01fdfb642f6c1d6da19b.png
    │   │   ├── CZnUSwEcFy84JVL.jpg
    │   │   ├── FPN.png
    │   │   ├── IOU.png
    │   │   ├── KocaU1zbxnXYsyJ.jpg
    │   │   ├── RPN_loss.png
    │   │   ├── RPN网络示意图.png
    │   │   ├── ce.png
    │   │   ├── faster-rcnn原理图.png
    │   │   ├── faster-rcnn结构图示意图.jpg
    │   │   ├── kmeans算法.jpg
    │   │   ├── v2-a08645e392a6a5cb49e271e5310f0dd8_1440w.png
    │   │   ├── 双线性插值.png
    │   │   ├── 检测分类分割.jpg
    │   │   ├── 目标检测模型年限图.png
    │   │   └── 目标检测模型示意图(YOLOv4).png
    │   ├── 目标检测.md
    │   └── 目标检测.pdf
    ├── NLP
    │   ├── 应用场景
    │   │   ├── NLG.md
    │   │   └── Similarity.md
    │   ├── 文本表示
    │   │   ├── Word2Vec详解.assets
    │   │   │   ├── NNLM.png
    │   │   │   └── Word2Vec.png
    │   │   ├── Word2Vec详解.md
    │   │   ├── Word2Vec详解.pdf
    │   │   ├── 文本结构理解.md
    │   │   └── 文本表征方式.md
    │   └── 特征挖掘
    │   │   ├── BERT
    │   │       ├── BERT面试题.md
    │   │       └── img
    │   │       │   ├── 20191017120044663-16497775072026.png
    │   │       │   ├── 20191017120044663.png
    │   │       │   ├── image-20211101145141135-16497775072021.png
    │   │       │   ├── image-20211101145141135.png
    │   │       │   ├── layernorm1-16497775072023.png
    │   │       │   ├── layernorm1.png
    │   │       │   ├── layernorm2-16497775072024.png
    │   │       │   ├── layernorm2.png
    │   │       │   ├── layernorm3-16497775072025.png
    │   │       │   ├── layernorm3.png
    │   │       │   ├── qkv-16497775072022.png
    │   │       │   ├── qkv.png
    │   │       │   ├── v2-fb520ebe418cab927efb64d6a6ae019e_720w-16497775072037.jpg
    │   │       │   └── v2-fb520ebe418cab927efb64d6a6ae019e_720w.jpg
    │   │   └── 基于深度学习的模型.md
    ├── machine-learning
    │   ├── .DS_Store
    │   ├── ABTest.md
    │   ├── Adaboost.md
    │   ├── Apriori.md
    │   ├── CRF.md
    │   ├── Catboost.md
    │   ├── DecisionTree.md
    │   ├── EnsembleLearning.md
    │   ├── FrequentPattern.md
    │   ├── HMM.md
    │   ├── LightGBM.md
    │   ├── NaïveBayes.md
    │   ├── Prophet.md
    │   ├── RandomForest.md
    │   ├── SVM.md
    │   ├── TreeEmbedding.md
    │   ├── XGBoost.md
    │   ├── img
    │   │   ├── Adaboost
    │   │   │   └── Adboost框架图.png
    │   │   ├── CRF
    │   │   │   └── image-20210903204605132.png
    │   │   ├── LightGBM
    │   │   │   ├── LightGBM.jpg
    │   │   │   └── LightGBM.png
    │   │   ├── Metrics
    │   │   │   ├── image-20210616212000816.png
    │   │   │   ├── image-20210616214012974.png
    │   │   │   ├── image-20210616214714505.png
    │   │   │   ├── image-20210616223053609.png
    │   │   │   ├── image-20210713205533305.png
    │   │   │   └── image-20210713205621418.png
    │   │   ├── SVM
    │   │   │   ├── watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863-5645369.png
    │   │   │   ├── watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863.png
    │   │   │   ├── watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095618159.png
    │   │   │   └── watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70.png
    │   │   ├── XGBoost
    │   │   │   └── image-20210921182812155.png
    │   │   ├── kNN
    │   │   │   ├── image-20210903212028347.png
    │   │   │   ├── image-20210903212049572.png
    │   │   │   ├── image-20210903212122156-0675286.png
    │   │   │   └── image-20210903212122156.png
    │   │   ├── 机器学习基础面试题
    │   │   │   ├── image-20210703211855105.png
    │   │   │   └── image-20210703212000568.png
    │   │   └── 过拟合与欠拟合
    │   │   │   ├── 247f6539-1c10-75ac-84f8-02d238699dfd.jpg
    │   │   │   ├── 96b02ee9-c6ab-718f-b358-0a8db26f9cd7.jpg
    │   │   │   ├── DwEp7GHqvo4Q9S1.png
    │   │   │   ├── JrBui5yzA3IGgk7.png
    │   │   │   ├── f4a1eb7a-3ce3-7cea-84a0-d569423b2d01.jpg
    │   │   │   ├── image-20210927150625116.png
    │   │   │   ├── v2-3aaa69f70754c469bca5c8e4c3e161db_720w.jpg
    │   │   │   ├── v2-a026e24156e13a1d14c43df26b9bd2a4_720w.jpg
    │   │   │   └── v2-f6edae58134c5a26687c3883af48d5d5_720w.jpg
    │   ├── kNN.md
    │   ├── kmeans.md
    │   ├── metrics.md
    │   ├── w2v+tf-idf.md
    │   ├── 机器学习基础面试题.md
    │   ├── 梯度下降.md
    │   ├── 线性回归+逻辑回归.md
    │   └── 过拟合与欠拟合.md
    ├── 推荐
    │   ├── FTRL.md
    │   ├── Graph_Embedding.md
    │   ├── collaborative_filtering.md
    │   ├── deepfm.md
    │   ├── gbdt_lr.md
    │   └── 向量化搜索.md
    └── 风控
    │   └── 面试题.md
├── LICENSE
├── README.md
├── _coverpage.md
├── _navbar.md
├── _sidebar.md
├── assert
    ├── apr.png
    ├── auc.png
    ├── big-data1.png
    ├── bigdata2.png
    ├── conf_matrix.png
    ├── d1-1.png
    ├── exm6.png
    ├── filter-1.png
    ├── filter-2.png
    ├── formula-word2vec-1.png
    ├── formula-word2vec-2.png
    ├── fp.png
    ├── fptree.png
    ├── g-1.png
    ├── g-2.png
    ├── gbdt-1.png
    ├── gbdt-2.png
    ├── gbdt-3.png
    ├── gbdt-4.png
    ├── gbdt-lr.png
    ├── mult_gbdt.png
    ├── os1.jpg
    ├── prb10.gif
    ├── r.jpe
    ├── simain.jpg
    └── word2vec-3.PNG
├── content.png
├── index.html
├── 大数据技术
    └── README.md
├── 开发
    ├── Docker+万字教程：从入门到掌握.pdf
    ├── Java后端开发.md
    ├── 前端开发
    │   ├── 【1】javascript.md
    │   ├── 【2】html.md
    │   ├── 【3】css.md
    │   ├── 【4】网络及浏览器.md
    │   ├── 【5】前端框架及打包工具.md
    │   └── 【6】nodejs.md
    └── 大数据
    │   ├── Technology.md
    │   ├── mapreduce.md
    │   └── questions.md
├── 数学
    └── 统计学
    │   ├── logic.md
    │   └── probability.md
├── 数据结构与算法
    ├── Array.md
    ├── binaryTree.md
    ├── dp.md
    ├── graph.md
    ├── greedy.md
    ├── linklist.md
    ├── search.md
    ├── sort.md
    └── string.md
├── 模拟面试
    └── readme.md
└── 计算机基础
    ├── 操作系统.md
    ├── 数据库.md
    └── 计算机网络.md


/.gitignore:
--------------------------------------------------------------------------------
  1 | # Editors
  2 | .vscode/
  3 | .idea/
  4 | 
  5 | # Vagrant
  6 | .vagrant/
  7 | 
  8 | # Mac/OSX
  9 | .DS_Store
 10 | 
 11 | # Windows
 12 | Thumbs.db
 13 | 
 14 | # Source for the following rules: https://raw.githubusercontent.com/github/gitignore/master/Python.gitignore
 15 | # Byte-compiled / optimized / DLL files
 16 | __pycache__/
 17 | *.py[cod]
 18 | *$py.class
 19 | 
 20 | # C extensions
 21 | *.so
 22 | 
 23 | # Distribution / packaging
 24 | .Python
 25 | build/
 26 | develop-eggs/
 27 | dist/
 28 | downloads/
 29 | eggs/
 30 | .eggs/
 31 | lib/
 32 | lib64/
 33 | parts/
 34 | sdist/
 35 | var/
 36 | wheels/
 37 | *.egg-info/
 38 | .installed.cfg
 39 | *.egg
 40 | MANIFEST
 41 | 
 42 | # PyInstaller
 43 | #  Usually these files are written by a python script from a template
 44 | #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 45 | *.manifest
 46 | *.spec
 47 | 
 48 | # Installer logs
 49 | pip-log.txt
 50 | pip-delete-this-directory.txt
 51 | 
 52 | # Unit test / coverage reports
 53 | htmlcov/
 54 | .tox/
 55 | .nox/
 56 | .coverage
 57 | .coverage.*
 58 | .cache
 59 | nosetests.xml
 60 | coverage.xml
 61 | *.cover
 62 | .hypothesis/
 63 | .pytest_cache/
 64 | 
 65 | # Translations
 66 | *.mo
 67 | *.pot
 68 | 
 69 | # Django stuff:
 70 | *.log
 71 | local_settings.py
 72 | db.sqlite3
 73 | 
 74 | # Flask stuff:
 75 | instance/
 76 | .webassets-cache
 77 | 
 78 | # Scrapy stuff:
 79 | .scrapy
 80 | 
 81 | # Sphinx documentation
 82 | docs/_build/
 83 | 
 84 | # PyBuilder
 85 | target/
 86 | 
 87 | # Jupyter Notebook
 88 | .ipynb_checkpoints
 89 | 
 90 | # IPython
 91 | profile_default/
 92 | ipython_config.py
 93 | 
 94 | # pyenv
 95 | .python-version
 96 | 
 97 | # celery beat schedule file
 98 | celerybeat-schedule
 99 | 
100 | # SageMath parsed files
101 | *.sage.py
102 | 
103 | # Environments
104 | .env
105 | .venv
106 | env/
107 | venv/
108 | ENV/
109 | env.bak/
110 | venv.bak/
111 | 
112 | # Spyder project settings
113 | .spyderproject
114 | .spyproject
115 | 
116 | # Rope project settings
117 | .ropeproject
118 | 
119 | # mkdocs documentation
120 | /site
121 | 
122 | # mypy
123 | .mypy_cache/
124 | .dmypy.json
125 | dmypy.json


--------------------------------------------------------------------------------
/.nojekyll:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/.nojekyll


--------------------------------------------------------------------------------
/AI算法/CV/images/20200314215428236.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/20200314215428236.png


--------------------------------------------------------------------------------
/AI算法/CV/images/20210126230537122.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/20210126230537122.png


--------------------------------------------------------------------------------
/AI算法/CV/images/3e1f4862466b01fdfb642f6c1d6da19b.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/3e1f4862466b01fdfb642f6c1d6da19b.png


--------------------------------------------------------------------------------
/AI算法/CV/images/CZnUSwEcFy84JVL.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/CZnUSwEcFy84JVL.jpg


--------------------------------------------------------------------------------
/AI算法/CV/images/FPN.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/FPN.png


--------------------------------------------------------------------------------
/AI算法/CV/images/IOU.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/IOU.png


--------------------------------------------------------------------------------
/AI算法/CV/images/KocaU1zbxnXYsyJ.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/KocaU1zbxnXYsyJ.jpg


--------------------------------------------------------------------------------
/AI算法/CV/images/RPN_loss.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/RPN_loss.png


--------------------------------------------------------------------------------
/AI算法/CV/images/RPN网络示意图.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/RPN网络示意图.png


--------------------------------------------------------------------------------
/AI算法/CV/images/ce.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/ce.png


--------------------------------------------------------------------------------
/AI算法/CV/images/faster-rcnn原理图.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/faster-rcnn原理图.png


--------------------------------------------------------------------------------
/AI算法/CV/images/faster-rcnn结构图示意图.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/faster-rcnn结构图示意图.jpg


--------------------------------------------------------------------------------
/AI算法/CV/images/kmeans算法.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/kmeans算法.jpg


--------------------------------------------------------------------------------
/AI算法/CV/images/v2-a08645e392a6a5cb49e271e5310f0dd8_1440w.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/v2-a08645e392a6a5cb49e271e5310f0dd8_1440w.png


--------------------------------------------------------------------------------
/AI算法/CV/images/双线性插值.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/双线性插值.png


--------------------------------------------------------------------------------
/AI算法/CV/images/检测分类分割.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/检测分类分割.jpg


--------------------------------------------------------------------------------
/AI算法/CV/images/目标检测模型年限图.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/目标检测模型年限图.png


--------------------------------------------------------------------------------
/AI算法/CV/images/目标检测模型示意图(YOLOv4).png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/images/目标检测模型示意图(YOLOv4).png


--------------------------------------------------------------------------------
/AI算法/CV/目标检测.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/CV/目标检测.pdf


--------------------------------------------------------------------------------
/AI算法/NLP/应用场景/NLG.md:
--------------------------------------------------------------------------------
 1 | # NLG
 2 | 
 3 | ## 知识体系
 4 | 
 5 | 主要包括 NLG 相关知识点。
 6 | 
 7 | ## Questions
 8 | 
 9 | ### 文本生成评估指标 BLUE 的缺点？
10 | 
11 | - 过于依赖参考翻译，如果译文质量很好但部分字词在参考翻译中没有的话得分会很低。
12 | - 未考虑语法问题。
13 | 
14 | 
15 | 
16 | 


--------------------------------------------------------------------------------
/AI算法/NLP/应用场景/Similarity.md:
--------------------------------------------------------------------------------
 1 | # 相似度
 2 | 
 3 | ## 知识体系
 4 | 
 5 | 主要分为两大类架构体系：表示型和交互型。
 6 | 
 7 | ## Questions
 8 | 
 9 | ### 表示型
10 | 
11 | #### 孪生网络原理？
12 | 
13 | 孪生网络是指包含两个或多个相同子网络的架构。相同是指配置、参数和权重都一模一样。主要用于评价输入之间的相似度。损失函数主要采用 Triplet Loss 或 Contrastive Loss。
14 | 
15 | 


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/Word2Vec详解.assets/NNLM.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/文本表示/Word2Vec详解.assets/NNLM.png


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/Word2Vec详解.assets/Word2Vec.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/文本表示/Word2Vec详解.assets/Word2Vec.png


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/Word2Vec详解.md:
--------------------------------------------------------------------------------
  1 | # 1 模型介绍
  2 | 
  3 | ## 1.1 模型概述
  4 | 
  5 | Word2Vec是Google在2013年提出的一个NLP工具，它通过一个浅层的双层神经网络，高效率、高质量地将海量单词向量化。训练得到的词向量满足：
  6 | 
  7 | - 相似单词的词向量彼此接近。例如$\text{dis}(\vec V(\text{man}),\vec V(\text{woman})) \ll \text{dis}(\vec V(\text{man}),\vec V(\text{computer}))$
  8 | - 保留单词间的线性规则性。例如$\vec V(\text{king})-\vec V(\text{man})+\vec V(\text{woman})\approx \vec V(\text{queen})$
  9 | 
 10 | Word2Vec模型的灵感来源于Bengio在2003年提出的NNLM模型（Nerual Network Language Model），该模型使用一个三层前馈神经网络$f(w_k,w_{k-1},w_{k-2},...,w_{k-n+1};\theta)$来拟合一个词序列的条件概率$P(w_k|w_{k-1},w_{k-2},...,w_1)$。第一层是映射层，通过一个共享矩阵，将One-Hot向量转化为词向量，第二层是一个激活函数为tanh的隐含层，第三层是Softmax输出层，将向量映射到$[0,1]$概率空间中。根据条件概率公式与大数定律，使用词频$\frac{\text{Count}(w_k,w_{k-1},w_{k-2},...,w_{k-n+1})}{\text{Count}(w_{k-1},w_{k-2},...,w_{k-n+1})}$来近似地估计真实的条件概率。
 11 | 
 12 | <img src="Word2Vec详解.assets/NNLM.png" alt="NNLM" style="zoom: 50%;" />
 13 | 
 14 | Bengio发现，我们可以使用映射层的权值作为词向量表征。但是，由于参数空间非常庞大，NNLM模型的训练速度非常慢，在百万级的数据集上需要耗时数周才能得到相对不错的结果，而在千万级甚至更大的数据集上，几乎无法得到结果。
 15 | 
 16 | Mikolov发现，NNLM模型可以被拆分成两个步骤：
 17 | 
 18 | - 用一个简单的模型训练出一个连续的词向量（映射层）
 19 | - 基于词向量表征，训练出一个N-Gram神经网络模型（隐含层+输出层）
 20 | 
 21 | 而模型的计算瓶颈主要在第二步，特别是输出层的Sigmoid归一化部分。如果我们只是想得到词向量，可以对第二步的神经网络模型进行简化，从而提高模型的训练效率。因此，Mikolov对NNLM模型进行了以下几个部分的修改：
 22 | 
 23 | - 舍弃了隐含层。
 24 | - NNLM在利用上文词预测目标词时，对上文词的词向量进行了拼接，Word2Vec模型对其直接进行了求和，从而降低了隐含元的维度。
 25 | - NNLM在进行Sigmoid归一化时需要遍历整个词汇表，Word2Vec模型提出了Hierarchical Softmax与Negative Sampling两种策略进行优化。
 26 | - 依据分布式假设（上下文环境相似的两个词有着相近的语义），将下文单词也纳入训练环境，并提出了两种训练策略，一种是用上下文预测中心词，称为CBOW，另一种是用中心词预测上下文，称为Skip-Gram。
 27 | 
 28 | <img src="Word2Vec详解.assets/Word2Vec.png" alt="Word2Vec" style="zoom:40%;" />
 29 | 
 30 | ## 1.2 CBOW模型
 31 | 
 32 | 假设我们的语料是**"NLP is so interesting and challenging"**。循环使用每个词作为中心词，来其上下文词来预测中心词。我们通常使用一个指定长度的窗口，根据马尔可夫性质，忽略窗口以外的单词。
 33 | 
 34 | |   中心词    |            上下文            |
 35 | | :---------: | :--------------------------: |
 36 | |     NLP     |            is, so            |
 37 | |     is      |     NLP, so, interesting     |
 38 | |     so      |  NLP, is, interesting, and   |
 39 | | interesting |   is, so, and, challenging   |
 40 | |     and     | so, interesting, challenging |
 41 | | challenging |       interesting, and       |
 42 | 
 43 | 我们的目标是通过上下文来预测中心词，也就是给定上下文词，出现该中心词的概率最大。这和完形填空颇有点异曲同工之妙。也即$\max P(\text{NLP|is, so})*P(\text{is|NLP, so, interesting})*\dots$
 44 | 
 45 | 用公式表示如下：
 46 | $$
 47 | \begin{align}
 48 | \max\limits_{\theta} L(\theta)&=\prod\limits_{w\in D}p(w|C(w)) \\
 49 | &=\sum\limits_{w \in D}\log p(w|C(w))
 50 | \end{align}
 51 | $$
 52 | 
 53 | 其中$w$指中心词，$C(w)$指上下文词集，$D$指语料库，也即所有中心词的词集。
 54 | 
 55 | 问题的核心变成了如何构造$\log p(w|C(w))$。我们知道，NNLM模型的瓶颈在Sigmoid归一化上，Mikolov提出了两种改进思路来绕过Sigmoid归一化这一操作。一种思想是将输出改为一个霍夫曼树，每一个单词的概率用其路径上的权重乘积来表示，从而减少高频词的搜索时间；另一种思想是将预测每一个单词的概率，概率最高的单词是中心词改为预测该单词是不是正样本，通过负采样减少负样本数量，从而减少训练时间。
 56 | 
 57 | ### 1.2.1 Hierarchical Softmax
 58 | 
 59 | ### 1.2.2 Negative Sampling
 60 | 
 61 | 基于Hierachical Softmax的模型使用Huffman树代替了传统的线性神经网络，可以提高模型训练的效率。但是，如果训练样本的中心词是一个很生僻的词，那么在Huffman树中仍旧需要进行很复杂的搜索。负采样方法的核心思想是：设计一个分类器， 对于我们需要预测的样本，设为正样本；而对于不是我们需要的样本，设置成负样本。在CBOW模型中，我们需要预测中心词$w$，因此正样本只有$w$，也即$\text{Pos}(w)=\{w\}$，而负样本为除了$w$之外的所有词。对负样本进行**随机采样**，得到$\text{Neg}(w)$，大大简化了模型的计算。
 62 | 
 63 | 我们首先将$C(w)$输入映射层并求和得到隐含表征$h_w=\sum\limits_{u \in C(w)}\vec v(u)$
 64 | 
 65 | 从而，
 66 | $$
 67 | \begin{align}
 68 | p(u|C(w))&=
 69 | \begin{cases}
 70 | \sigma(h_w^T\theta_u), &\mathcal{D}(w,u)=1 \\
 71 | 1-\sigma(h_w^T\theta_u), &\mathcal{D}(w,u)=0 \\
 72 | \end{cases}\\
 73 | &=[\sigma(h_w^T\theta_u)]^{\mathcal{D}(w,u)} \cdot [1-\sigma(h_w^T\theta_u)]^{1-\mathcal{D}(w,u)}
 74 | \end{align}
 75 | $$
 76 | 
 77 | 从而，
 78 | $$
 79 | \begin{align}
 80 | \max\limits_{\theta} L(\theta)&=\sum\limits_{w \in D}\log p(w|C(w))\\
 81 | &=\sum\limits_{w \in D}\log \prod\limits_{u \in D}p(u|C(w)) \\
 82 | &\approx\sum\limits_{w \in D}\log \prod\limits_{u \in \text{Pos(w)}\cup \text{Neg(w)} }p(u|C(w))\\
 83 | &=\sum\limits_{w \in D}\log\prod\limits_{u \in \text{Pos(w)}\cup \text{Neg(w)}}[\sigma(h_w^T\theta_u)]^{\mathcal{D}(w,u)} \cdot [1-\sigma(h_w^T\theta_u)]^{1-\mathcal{D}(w,u)} \\
 84 | &=\sum\limits_{w \in D}\sum\limits_{u \in \text{Pos}(w)\cup \text{Neg}(w)}\mathcal{D}(w,u)\cdot\log \sigma(h_w^T\theta_u)+[1-\mathcal{D}(w,u)]\cdot \log [1-\sigma(h_w^T\theta_u)]\\
 85 | &=\sum\limits_{w \in D}\left\{\sum\limits_{u \in \text{Pos}(w)}\log \sigma(h_w^T\theta_u)+\sum\limits_{u \in \text{Neg}(w)}\log [1-\sigma(h_w^T\theta_u)]\right\}
 86 | \end{align}
 87 | $$
 88 | 
 89 | 由于上式是一个最大化问题，因此使用随机梯度上升法对问题进行求解。
 90 | 
 91 | 令$L(w,u,\theta)=\mathcal{D}(w,u)\cdot\log \sigma(h_w^T\theta_u)+[1-\mathcal{D}(w,u)]\cdot \log [1-\sigma(h_w^T\theta_u)]$
 92 | 
 93 | 则$\frac{\partial L}{\partial\theta_u}=\mathcal{D}(w,u)\cdot[1-\sigma(h_w^T\theta_u)]h_w+[1-\mathcal{D}(w,u)]\cdot \sigma(h_w^T\theta_u)h_w=[\mathcal{D}(w,u)-\sigma(h_w^T\theta_u)]h_w$
 94 | 
 95 | 因此$\theta_u$的更新公式为：$\theta_u:=\theta_u+\eta[\mathcal{D}(w,u)-\sigma(h_w^T\theta_u)]h_w$
 96 | 
 97 | 同样地，$\frac{\partial L}{\partial h_w}=[\mathcal{D}(w,u)-\sigma(h_w^T\theta_u)]\theta_u$
 98 | 
 99 | 上下文词的更新公式为：$v(\tilde{w}):=v(\tilde{w})+\eta\sum\limits_{u \in \text{Pos}(w)\cup \text{Neg}(w)}[\mathcal{D}(w,u)-\sigma(h_w^T\theta_u)]\theta_u$
100 | 
101 | ## 1.3 Skip-Gram模型
102 | 
103 | 仍旧使用上文的语料库**"NLP is so interesting and challenging"**，这次，我们的目标是通过中心词来预测上下文，也就是给定中心词，出现这些上下文词的概率最大。也即$\max P(is|NLP)*P(so|NLP)*P(NLP|is)*P(so|is)*P(interesting|is)*\dots$
104 | 
105 | 用公式表示如下：
106 | $$
107 | \begin{align}
108 | \max\limits_{\theta} L(\theta)&=\prod\limits_{w\in D}\prod\limits_{c \in C(w)}p(c|w) \\
109 | &=\sum\limits_{w \in D}\sum\limits_{c \in C(w)}\log p(c|w)
110 | \end{align}
111 | $$
112 | 
113 | ### 1.3.1 Hierarchical Softmax
114 | 
115 | ### 1.3.2 Negative Sampling
116 | 
117 | # 2 常见面试问题
118 | 
119 | **Q1：介绍一下Word2Vec模型。**
120 | 
121 | > A：两个模型：CBOW/Skip-Gram
122 | >
123 | > 两种加速方案：Hierarchical Softmax/Negative Sampling
124 | 
125 | **Q2：Word2Vec模型为什么要定义两套词向量？**
126 | 
127 | >  A：因为每个单词承担了两个角色：中心词和上下文词。通过定义两套词向量，可以将两种角色分开。cs224n中提到是为了更方便地求梯度。参考见：https://www.zhihu.com/answer/706466139
128 | 
129 | **Q3：Hierarchial Softmax 和 Negative Sampling对比**
130 | 
131 | > A：基于Huffman树的Hierarchial Softmax 虽然在一定程度上能够提升模型运算效率，但是，如果中心词是生僻词，那么在Huffman树中仍旧需要进行很复杂的搜索$(O(\log N))$。而Negative Sampling通过随机负采样来提升运算效率，其复杂度和设定的负样本数$K$线性相关$(O(K))$，当$K$取较小的常数时，负采样在每⼀步的梯度计算开销都较小。
132 | 
133 | **Q4：HS为什么用霍夫曼树而不用其他二叉树？**
134 | 
135 | > 这是因为Huffman树对于高频词会赋予更短的编码，使得高频词离根节点距离更近，从而使得训练速度加快。
136 | 
137 | **Q5：Word2Vec模型为什么要进行负采样？**
138 | 
139 | >  A：因为负样本的数量很庞大，是$O(|V^2|)$。
140 | 
141 | **Q6：负采样为什么要用词频来做采样概率？**
142 | 
143 | > 为这样可以让频率高的词先学习，然后带动其他词的学习。
144 | 
145 | **Q7：One-hot模型与Word2Vec模型比较？**
146 | 
147 | >  A：One-hot模型的缺点
148 | >
149 | > - 稀疏 Sparsity
150 | > - 只能表示维度数量的单词 Capacity
151 | > - 无法表示单词的语义 Meaning
152 | 
153 | **Q8：Word2Vec模型在NNLM模型上做了哪些改进？**
154 | 
155 | > A：相同点：其本质都可以看作是语言模型；
156 | >
157 | > 不同点：词向量只不过 NNLM 一个产物，Word2vec 虽然其本质也是语言模型，但是其专注于词向量本身，因此做了许多优化来提高计算效率：
158 | >
159 | > - 与 NNLM 相比，词向量直接 sum，不再拼接，并舍弃隐层；
160 | >
161 | > - 考虑到 sofmax 归一化需要遍历整个词汇表，采用 hierarchical softmax 和 negative sampling 进行优化，hierarchical softmax 实质上生成一颗带权路径最小的哈夫曼树，让高频词搜索路劲变小；negative sampling 更为直接，实质上对每一个样本中每一个词都进行负例采样；
162 | 
163 | **Q9：Word2Vec与LSA对比？**
164 | 
165 | > A：LSA是基于共现矩阵构建词向量，本质上是基于全局语料进行SVD矩阵分解，计算效率低；
166 | >
167 | > 而Word2Vec是基于上下文局部语料计算共现概率，计算效率高。
168 | 
169 | **Q10：Word2Vec的缺点？**
170 | 
171 | > 忽略了词语的语序；
172 | >
173 | > 没有考虑一词多义现象
174 | 
175 | **Q11：怎么从语言模型理解词向量？怎么理解分布式假设？**
176 | 
177 | > 词向量是语言模型的一个副产物，可以理解为，在语言模型训练的过程中，势必在一定程度上理解了每个单词的含义。而这在计算机的表示下就是词向量。
178 | >
179 | > 分布式假设指的是相同上下文语境的词有似含义。
180 | 
181 | **参考资料**
182 | 
183 | word2vec 中的数学原理详解 https://blog.csdn.net/itplus/article/details/37969519
184 | 
185 | Word2Vec原理介绍 https://www.cnblogs.com/pinard/p/7160330.html
186 | 
187 | 词向量介绍 https://www.cnblogs.com/sandwichnlp/p/11596848.html
188 | 
189 | 一些关于词向量的问题 https://zhuanlan.zhihu.com/p/56382372
190 | 
191 | 一个在线尝试Word2Vec的小demo https://ronxin.github.io/wevi/
192 | 


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/Word2Vec详解.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/文本表示/Word2Vec详解.pdf


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/文本结构理解.md:
--------------------------------------------------------------------------------
 1 | # 基于词角度
 2 | 
 3 | ## 知识体系
 4 | 
 5 | 基于词角度的文本结构理解主要包括分词、词性标注和命名实体识别。对于文本未切分的语言，分词一般会作为自然语言处理的第一步。即使到了字粒度的 BERT 时代， WWM 效果也要更好一些。从大的方面看有两种不同的分词方式：基于词典和基于序列标注。后者也可用于词性标注和命名实体识别任务。
 6 | 
 7 | 
 8 | ## Questions
 9 | 
10 | ### 常用的分词方法有哪些？
11 | 
12 | 常用分词方法有两种：基于词典的方法和基于序列标注的方法。前者又包括字符串匹配方法和统计语言模型方法；后者包括统计方法和深度学习方法。
13 | 
14 | ### 字符串匹配分词的优缺点是什么？
15 | 
16 | 优点：方法简单可控、速度快；缺点：难以解决歧义及新词问题。
17 | 
18 | ### 结巴分词原理？
19 | 
20 | 基于词典构造有向无环图，计算最大概率路径。新词发现使用 HMM，弥补了 Ngram 难以发现新词的不足。
21 | 
22 | ### HMM 怎么做分词的？
23 | 
24 | HMM 使用序列标注法进行分词，以 BEMS 标签为例，此为隐状态取值空间。模型需要估计隐状态初始概率、隐状态之间的转移概率和隐状态到观测序列的发射概率。可以使用有监督或无监督学习算法，有监督学习根据标注数据利用极大似然法进行估计，无监督学习使用 Baum-Welch 算法。实际使用时使用维特比算法进行解码，得到最可能的隐状态序列。
25 | 
26 | ### MEMM 是什么？
27 | 
28 | HMM 有两个基本假设：齐次一阶马尔科夫和观测独立假设。也就是 t 时刻的状态仅仅与前一个状态有关，同时观测序列仅仅取决于它对应的隐状态。这就和实际不符，因为隐状态往往和上下文信息都有关系。于是在 HMM 的基础上引入了 MEMM，即最大熵马尔科夫模型。它打破了 HMM 的观测独立假设，考虑了整个观测序列。HMM 是一种对隐状态序列和观测状态序列联合概率进行建模的生成式模型；MEMM 是直接对标注后的后验概率进行建模的判别式模型。
29 | 
30 | ### 什么是标注偏置问题？如何解决？
31 | 
32 | 在 MEMM 中需要对局部进行归一化，因此隐状态会倾向于转移到那些后续状态可能更少的状态上（以提高整体的后验概率），这就是标注偏置问题。CRF，条件随机场在 MEMM 的基础上进行了全局归一化，解决了标注偏置问题。这其实已经打破了 HMM 的第一个假设（齐次马尔科夫），将有向变成了无向。
33 | 
34 | ### BILSTM-CRF 原理
35 | 
36 | BiLSTM 是双向 RNN 模型，每一个 Token 对应一个 Label，可以直接用来做序列标注任务。但是 BiLSTM 在 NER 问题上有个问题，因为 NER 的标签之间往往也有关系，比如形容词后面一半会接名词（中文为例），动词后面会接副词，LSTM 没办法获取这部分特征。这时候我们就需要 CRF 层，简单来说，就是加入 Label 之间的关系特征。也就是说，每一个 Label 在预测时都会考虑全局其他的 Label。
37 | 
38 | ### 如何解决序列标注标签不均衡问题？
39 | 
40 | 在 NER 任务中，标签不均衡一般是指要标注的实体较少，大多数标签为 O 的情况，以及部分实体过多，其他实体过少的情况。一般可以有以下几种处理思路：
41 | 
42 | - 数据增强，主要是词替换（包括同类实体词替换、同义词替换、代词替换等）、随机增删实体词以外的词构建新样本、继续增加新样本、半监督方法等
43 | - 损失函数，给 loss 增加权重惩罚、Dice Loss 等
44 | - 迁移学习，借助预训练模型已经学到的丰富知识
45 | 
46 | 
47 | 
48 | 


--------------------------------------------------------------------------------
/AI算法/NLP/文本表示/文本表征方式.md:
--------------------------------------------------------------------------------
  1 | # 静态语义表示方法
  2 | 
  3 | ## 知识体系
  4 | 
  5 | 主要包括词袋模型 BoW、TFIDF、LDA、Word2vec、Golve、Doc2Vec 等。
  6 | 
  7 | 
  8 | ## Questions
  9 | ### 在小数据集中 Skip-Gram 和 CBoW 哪种表现更好？
 10 | 
 11 | Skip-Gram 是用一个 Center Word 预测其 Context 里的 Word；而 CBoW 是用 Context 里的所有 Word 去预测一个 Center Word。显然，前者对训练数据的利用更高效（构造的数据集多），因此，对于较小的语料库，Skip-Gram是更好的选择。
 12 | 
 13 | ### 为什么要使用HS（Hierarchical Softmax ）和负采样（Negative Sampling）？
 14 | 
 15 | 两个模型的原始做法都是做内积，经过 Softmax 后得到概率，因此复杂度很高。假设我们拥有一个百万量级的词典，每一步训练都需要计算上百万次词向量的内积，显然这是无法容忍的。因此人们提出了两种较为实用的训练技巧，即 HS 和 Negative Sampling。
 16 | 
 17 | ### 介绍一下HS（Hierarchical Softmax ）
 18 | 
 19 | HS 是试图用词频建立一棵哈夫曼树，那么经常出现的词路径会比较短。树的叶子节点表示词，共词典大小多个，而非叶子结点是模型的参数，比词典个数少一个。要预测的词，转化成预测从根节点到该词所在叶子节点的路径，是多个二分类问题。本质是把 N 分类问题变成 log(N) 次二分类
 20 | 
 21 | ### 介绍一下负采样（Negative Sampling）
 22 | 
 23 | 把原来的 Softmax 多分类问题，直接转化成一个正例和多个负例的二分类问题。让正例预测 1，负例预测 0，这样子更新局部的参数。.
 24 | 
 25 | ### 负采样为什么要用词频来做采样概率？
 26 | 
 27 | 可以让频率高的词先学习，然后带动其他词的学习。
 28 | 
 29 | ### 负采样有什么作用？
 30 | 
 31 | - 可以大大降低计算量，加快模型训练时间
 32 | - 保证模型训练效果，因为目标词只跟相近的词有关，没有必要使用全部的单词作为负例来更新它们的权重
 33 | 
 34 | ### 对比 Skip-Gram 和 CBOW
 35 | 
 36 | CBOW 会比 Skip-Gram 训练速度更快，因为前者每次会更新 Context(w) 的词向量，而 Skip-Gram 只更新核心词的词向量。
 37 | Skip-Gram 对低频词效果比 CBOW 好，因为 SkipGram 是尝试用当前词去预测上下文，当前词是低频词还是高频词没有区别。但是 CBOW 相当于是完形填空，会选择最常见或者说概率最大的词来补全，因此不太会选择低频词。
 38 | 
 39 | ### 对比字向量和词向量
 40 | 
 41 | 字向量可以解决未登录词的问题，以及可以避免分词；词向量包含的语义空间更大，更加丰富，如果语料足够的情况下，词向量是能够学到更多的语义信息。
 42 | 
 43 | ### 如何衡量 Word2vec 得出的词/字向量的质量？
 44 | 
 45 | 在实际工程中一般以 Word Embedding 对于实际任务的收益为评价标准，包括词汇类比任务（如 king – queen = man - woman）以及 NLP 中常见的应用任务，比如命名实体识别（NER），关系抽取（RE）等。
 46 | 
 47 | ### 神经网络框架里的 Embedding 层和 Word Embedding 有什么关系？
 48 | 
 49 | Embedding 层就是以 One-Hot 为输入（实际一般输入字或词的 id）、中间层节点为字向量维数的全连接层。而这个全连接层的参数，就是一个 “词向量表”，即 Word Embedding。
 50 | ### Word2vec 的缺点？
 51 | 没有考虑词序，因为它假设了词的上下文无关(把概率变为连乘)；没有考虑全局的统计信息。
 52 | 
 53 | ### LDA 的原理？
 54 | 
 55 | LDA 是 pLSA 的贝叶斯版本，pLSA 是使用生成模型建模文章的生成过程，它假定 K 个主题 Z，对于文档集 D 中每个文档 Di 都包含 Ni 个词 W，对每个 Wi，最大化给定文档 Di 生成主题 Zi，再根据 Di 和 Zi 生成 Wi 的概率，最终生成整个文档序列。
 56 | 
 57 | LDA 将每篇文章的主题分布和每个主题对应的词分布看成是一种先验分布，即狄利克雷分布。之所以选择该分布，是因为它是多项式分布的共轭先验概率分布，后验分布依然服从狄利克雷分布，方便计算。
 58 | 
 59 | 具体过程为：首先从超参数为 α 的狄利克雷分布中抽样生成给定文档的主题分布 θ，对于文档中的每一个词，从多项式分布 θ 中抽样生成对应的主题 z，从超参数为 β 的狄利克雷分布中抽样生成给定主题 z 的词分布 φ，从多项式分布 φ 中抽样生成词 w。
 60 | 
 61 | LDA 的主题数为超参数，一般使用验证集评估 ppl 或 HDP-LDA。
 62 | 
 63 | ### Word2vec 和 TF-IDF 在计算相似度时的区别？
 64 | 
 65 | - 前者是稠密向量，后者是稀疏向量
 66 | - 前者维度低很多，计算更快
 67 | - 前者可以表达语义信息，后者不行
 68 | - 前者可以通过计算余弦相似度计算两个向量的相似度，后者不行
 69 | 
 70 | ### 为什么训练得到的字词向量会有如下一些性质，比如向量的夹角余弦、向量的欧氏距离都能在一定程度上反应字词之间的相似性？
 71 | 
 72 | 因为我们在用语言模型无监督训练时，是开了窗口的，通过前 n 个字预测下一个字的概率，这个 n 就是窗口的大小，同一个窗口内的词语，会有相似的更新，这些更新会累积，而具有相似模式的词语就会把这些相似更新累积到可观的程度。
 73 | 
 74 | ### Word2vec 与 Glove的异同？
 75 | 
 76 | 在 Word2vec 中，高频的词共现只是产生了更多的训练数据，并没有携带额外的信息；Glove 加入词的全局共现频率信息。它基于词上下文矩阵的矩阵分解技术，首先构建一个大的单词×上下文共现矩阵，然后学习低维表示，可以视为共现矩阵的重构问题。
 77 | 
 78 | - Word2vec 是局部语料训练，特征提取基于滑动窗口；Glove 的滑动窗口是为了构建共现矩阵，统计全部语料在固定窗口内词的共现频次。
 79 | - Word2vec 损失函数是带权重的交叉熵；Glove 的损失函数是最小平方损失
 80 | - Glove 利用了全局信息，训练时收敛更快
 81 | 
 82 | ### Word2vec 相比之前的 Word Embedding 方法好在什么地方？
 83 | 
 84 | 考虑了上下文。
 85 | 
 86 | ### Doc2vec 原理？
 87 | 
 88 | Doc2vec 是训练文档表征的，在输入层增加了一个 Doc 向量。有两种不同的训练方法：Distributed Memory  是给定上下文和段落向量的情况下预测单词的概率。在一个句子或者段落文档训练过程中，段落 ID 保存不变，共享同一个段落向量。Distributed Bag of Words 则在只给定段落向量的情况下预测段落中一组随机单词的概率。使用时固定词向量，随机初始化 Doc 向量，训练几个步骤后得到最终 Doc 向量。
 89 | 
 90 | ### FastText 相比 Word2vec 有哪些不同？
 91 | 
 92 | - FastText 增加了 Ngram 特征，可以更好地解决未登录词及在小数据集上训练的问题
 93 | - FastText 是一个工具包，除了可以训练词向量还可以训练有监督的文本分类模型
 94 | 
 95 | ## 参考链接
 96 | 
 97 | 1. [https://blog.csdn.net/zhangxb35/article/details/74716245](https://blog.csdn.net/zhangxb35/article/details/74716245)
 98 | 2. [https://spaces.ac.cn/archives/4122](https://spaces.ac.cn/archives/4122)
 99 | 
100 | 


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/20191017120044663-16497775072026.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/20191017120044663-16497775072026.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/20191017120044663.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/20191017120044663.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/image-20211101145141135-16497775072021.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/image-20211101145141135-16497775072021.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/image-20211101145141135.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/image-20211101145141135.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm1-16497775072023.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm1-16497775072023.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm1.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm2-16497775072024.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm2-16497775072024.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm2.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm3-16497775072025.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm3-16497775072025.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/layernorm3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/layernorm3.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/qkv-16497775072022.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/qkv-16497775072022.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/qkv.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/qkv.png


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/v2-fb520ebe418cab927efb64d6a6ae019e_720w-16497775072037.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/v2-fb520ebe418cab927efb64d6a6ae019e_720w-16497775072037.jpg


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/BERT/img/v2-fb520ebe418cab927efb64d6a6ae019e_720w.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/NLP/特征挖掘/BERT/img/v2-fb520ebe418cab927efb64d6a6ae019e_720w.jpg


--------------------------------------------------------------------------------
/AI算法/NLP/特征挖掘/基于深度学习的模型.md:
--------------------------------------------------------------------------------
  1 | # 基于深度学习的模型
  2 | 
  3 | 
  4 | ## 知识体系
  5 | 
  6 | 主要包括深度学习相关的特征抽取模型，包括卷积网络、循环网络、注意力机制、预训练模型等。
  7 | 
  8 | ### CNN
  9 | 
 10 | TextCNN 是 CNN 的 NLP 版本，来自 Kim 的 [[1408.5882] Convolutional Neural Networks for Sentence Classification](https://arxiv.org/abs/1408.5882)
 11 | 
 12 | 结构如下：
 13 | 
 14 | ![](http://qnimg.lovevivian.cn/paper-textcnn-1.jpg)
 15 | 
 16 | 大致原理是使用多个不同大小的 filter（也叫 kernel） 对文本进行特征提取，如上图所示：
 17 | 
 18 | - 首先通过 Embedding 将输入的句子映射为一个 `n_seq * embed_size` 大小的张量（实际中一般还会有 batch_size）
 19 | - 使用 `(filter_size, embed_size)` 大小的 filter 在输入句子序列上平滑移动，这里使用不同的 padding 策略，会得到不同 size 的输出
 20 | - 由于有 `num_filters` 个输出通道，所以上面的输出会有 `num_filters` 个
 21 | - 使用 `Max Pooling` 或 `Average Pooling`，沿着序列方向得到结果，最终每个 filter 的输出 size 为 `num_filters`
 22 | - 将不同 filter 的输出拼接后展开，作为句子的表征
 23 | 
 24 | ### RNN
 25 | 
 26 | RNN 的历史比 CNN 要悠久的多，常见的类型包括：
 27 | 
 28 | - 一对一（单个 Cell）：给定单个 Token 输出单个结果
 29 | - 一对多：给定单个字符，在时间步向前时同时输出结果序列
 30 | - 多对一：给定文本序列，在时间步向前执行完后输出单个结果
 31 | - 多对多1：给定文本序列，在时间步向前时同时输出结果序列
 32 | - 多对多2：给定文本序列，在时间步向前执行完后才开始输出结果序列
 33 | 
 34 | 由于 RNN 在长文本上有梯度消失和梯度爆炸的问题，它的两个变种在实际中使用的更多。当然，它们本身也是有一些变种的，这里我们只介绍主要的模型。
 35 | 
 36 | - LSTM：全称 Long Short-Term Memory，一篇 Sepp Hochreiter 等早在 1997 年的论文[《LONG SHORT-TERM MEMORY》](https://www.bioinf.jku.at/publications/older/2604.pdf)中被提出。主要通过对原始的 RNN 添加三个门（遗忘门、更新门、输出门）和一个记忆层使其在长文本上表现更佳。
 37 | 
 38 |     ![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/93/LSTM_Cell.svg/1280px-LSTM_Cell.svg.png)
 39 | 
 40 | - GRU：全称 Gated Recurrent Units，由 Kyunghyun Cho 等人 2014 年在论文[《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》](https://arxiv.org/pdf/1406.1078v3.pdf) 中首次被提出。主要将 LSTM 的三个门调整为两个门（更新门和重置门），同时将记忆状态和输出状态合二为一，在效果没有明显下降的同时，极大地提升了计算效率。
 41 | 
 42 |     ![](https://upload.wikimedia.org/wikipedia/commons/thumb/3/37/Gated_Recurrent_Unit%2C_base_type.svg/1920px-Gated_Recurrent_Unit%2C_base_type.svg.png)
 43 | 
 44 | ## Questions
 45 | 
 46 | ###  CNN相关
 47 | 
 48 | #### CNN 有什么好处？
 49 | 
 50 | - 稀疏（局部）连接：卷积核尺寸远小于输入特征尺寸，输出层的每个节点都只与部分输入层连接
 51 | - 参数共享：卷积核的滑动窗在不同位置的权值是一样的
 52 | - 等价表示（输入/输出数据的结构化）：输入和输出在结构上保持对应关系（长文本处理容易）
 53 | 
 54 | #### CNN 有什么不足？
 55 | 
 56 | - 只有局部语义，无法从整体获取句子语义
 57 | - 没有位置信息，丢失了前后顺序信息
 58 | 
 59 | #### 卷积层输出 size？
 60 | 
 61 | 给定 n×n 输入，f×f 卷积核，padding p，stride s，输出的尺寸为：
 62 | 
 63 | $$
 64 | \lfloor \frac{n+2p-f}{s} + 1 \rfloor \times \lfloor \frac{n+2p-f}{s} + 1 \rfloor
 65 | $$
 66 | 
 67 | ### RNN
 68 | 
 69 | #### LSTM 网络结构？
 70 | 
 71 | LSTM 即长短时记忆网络，包括三个门：更新门（输入门）、遗忘门和输出门。公式如下：
 72 | 
 73 | $$
 74 | \hat{c}^{<t>} = \tanh (W_c [a^{<t-1}>, x^{<t>}] + b_c) \\
 75 | \Gamma_u = \sigma(W_u [a^{<t-1}>, x^{<t>}] + b_u) \\
 76 | \Gamma_f = \sigma(W_f [a^{<t-1}>, x^{<t>}] + b_f) \\
 77 | \Gamma_o = \sigma(W_o [a^{<t-1}>, x^{<t>}] + b_o) \\
 78 | c^{<t>} = \Gamma_u * \hat{c}^{<t>} + \Gamma_f*c^{<t-1>} \\
 79 | a^{<t>} = \Gamma_o * c^{<t>}
 80 | $$
 81 | 
 82 | #### 如何解决 RNN 中的梯度消失或梯度爆炸问题？
 83 | 
 84 | - 梯度截断
 85 | - ReLU、LeakReLU、Elu 等激活函数
 86 | - Batch Normalization
 87 | - 残差连接
 88 | - LSTM、GRU 等架构
 89 | 
 90 | #### 假设输入维度为 m，输出为 n，求 GRU 参数？
 91 | 
 92 | 输入  W：3nm，隐层 W：3nn，隐层 b：3n，合计共：`3*(nn+nm+n)`。当然，也有的实现会把前一时刻的隐层和当前时刻的输入分开，使用两个 bias，此时需要再增加 3n 个参数。
 93 | 
 94 | #### LSTM 和 GRU 的区别？
 95 | 
 96 | - GRU 将 LSTM 的更新门、遗忘门和输出门替换为更新门和重置门
 97 | - GRU 将记忆状态和输出状态合并为一个状态
 98 | - GRU 参数更少，更容易收敛，但数据量大时，LSTM 效果更好
 99 | 
100 | ### Attention
101 | 
102 | #### Attention 机制
103 | 
104 | Attention 核心是从输入中有选择地聚焦到特定重要信息上的一种机制。有三种不同用法：
105 | 
106 | - 在 encoder-decoder attention 层，query 来自上一个 decoder layer，memory keys 和 values 来自 encoder 的 output
107 | - encoder 包含 self-attention，key value 和 query 来自相同的位置，即前一层的输出。encoder 的每个位置都可以注意到前一层的所有位置
108 | - decoder 与 encoder 类似，通过将所有不合法连接 mask 以防止信息溢出
109 | 
110 | #### 自注意力中为何要缩放？
111 | 
112 | 维度较大时，向量内积容易使得 SoftMax 将概率全部分配给最大值对应的 Label，其他 Label 的概率几乎为 0，反向传播时这些梯度会变得很小甚至为 0，导致无法更新参数。因此，一般会对其进行缩放，缩放值一般使用维度 dk 开根号，是因为点积的方差是 dk，缩放后点积的方差为常数 1，这样就可以避免梯度消失问题。
113 | 
114 | 另外，Hinton 等人的研究发现，在知识蒸馏过程中，学生网络以一种略微不同的方式从教师模型中抽取知识，它使用大模型在现有标记数据上生成软标签，而不是硬的二分类。直觉是软标签捕获了不同类之间的关系，这是大模型所没有的。这里的软标签就是缩放的 SoftMax。
115 | 
116 | 至于为啥最后一层为啥一般不需要缩放，因为最后输出的一般是分类结果，参数更新不需要继续传播，自然也就不会有梯度消失的问题。
117 | 
118 | ### Transformer
119 | 
120 | #### Transformer 中为什么用 Add 而不是 Concat？
121 | 
122 | 在 Embedding 中，Add 等价于 Concat，三个 Embedding 相加与分别 One-Hot Concat 效果相同。
123 | 
124 | ### ELMO
125 | 
126 | #### 简单介绍下ELMO
127 | 
128 | 使用双向语言模型建模，两层 LSTM 分别学习语法和语义特征。首次使用两阶段训练方法，训练后可以在下游任务微调。
129 | 
130 | Feature-Based 微调，预训练模型作为纯粹的表征抽取器，表征依赖微调任务网络结构适配（任务缩放因子 γ）。
131 | 
132 | ### ELMO的缺点
133 | 
134 | ELMO 的缺点主要包括：不完全的双向预训练（Bi 是分开的，仅在 Loss 合并）；需要进行任务相关的网络设计（每种下游任务都要特定的设计）；仅有词向量无句向量（没有句向量任务）。
135 | 
136 | 
137 | ### GPT
138 | 
139 | #### 简单介绍下GPT
140 | 
141 | 使用 Transformer 的 Decoder 替换 LSTM 作为特征提取器。
142 | 
143 | Model-Based 微调，预训练模型作为任务网络的一部分参与任务学习，简化了下游任务架构设计。
144 | 
145 | #### GPT的缺点
146 | 
147 | GPT 的缺点包括：单项预训练模型；仅有词向量无句向量（仅学习语言模型）。
148 | 
149 | ### BERT
150 | 
151 | #### 简单介绍下BERT
152 | 
153 | 使用 Transformer Encoder 作为特征提取器，交互式双向语言建模（MLM），Token 级别+句子级别任务（MLM+NSP），两阶段预训练。
154 | 
155 | Feature-Based 和 Model-Based，实际一般使用 Model-Based。
156 | 
157 | #### BERT缺点
158 | 
159 | BERT 的缺点是：字粒度难以学到词、短语、实体的完整语义。
160 | 
161 | ### ERNIE
162 | 
163 | #### ERNIE对BERT进行了哪些优化？
164 | 
165 | 对 BERT 的缺点进行了优化，Mask 从字粒度的 Token 修改为完整的词或实体。ERNIE2.0 引入更多的预训练任务以捕捉更丰富的语义知识。
166 | 
167 | 
168 | 
169 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/.DS_Store:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/.DS_Store


--------------------------------------------------------------------------------
/AI算法/machine-learning/ABTest.md:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | # AB测试面试题
 4 | 
 5 | ## 1. 介绍一下ABTest的步骤
 6 | 
 7 | ABtest就是为了测试和验证模型/项目的效果，在app/pc端设计出多个版本，在同一时间维度下，分别用组成相同/相似的群组去随机访问这些版本，记录下群组的用户体验数据和业务数据，最后评估出最好的版本给予采用。
 8 | 
 9 | 步骤：
10 | 
11 | ```python
12 | 1. 基于现状和期望，分析并提出假设
13 | 2. 设定目标制定方案
14 | 3. 设计与开发
15 | 4. 分配流量进行测试
16 | 5. 埋点采集数据
17 | 6. 实验后分析数据
18 | 7. 发布新版本/改进设计方案/调整流量继续测试
19 | ```
20 | 
21 | 
22 | 
23 | ## 2. ABtest背后的理论支撑是什么？
24 | 
25 | **中心极限定理**：在样本量足够大的时候，可以认为样本的均值近似服从正态分布。
26 | 
27 | **假设检验**：假设检验是研究如何根据抽样后获得的样本来检查抽样前所作假设是否合理，**A/B Test 从本质上来说是一个基于统计的假设检验过程**，它首先对实验组和对照组的关系提出了某种假设，然后计算这两组数据的差异和确定该差异是否存在统计上的显著性，最后根据上述结果对假设做出判断。
28 | 
29 | 假设检验的核心是**证伪**，所以原假设是统计者想要拒绝的假设，无显著差异我们也可以理解为：实验组和对照组的统计差异是由抽样误差引起的（误差服从正态分布）。
30 | 
31 | ## 3. 如何分组才能更好地避免混淆呢？
32 | 
33 | 1. 利用用户的唯一标识的尾号或者其他标识进行分类，如按照尾号的奇数或者偶数将其分为两组。
34 | 2. 用一个hash函数将用户的唯一标识进行hash取模，分桶。可以将用户均匀地分到若干个桶中，如分到100个或者1000个桶中，这样的好处就是可以进一步将用户打散，提高分组的效果。
35 | 
36 | 当然，如果有多个分组并行进行的情况的话，要考虑独占域和分享域问题。（不同域之间的用户相互独立，交集为空）对于共享域，我们要进行分层。但是在分层中，下一层要将上一层的用户打散，确保下一层用户的随机性。
37 | 
38 | 
39 | 
40 | ## 4. 样本量大小如何？
41 | 
42 | ​	理论上，我们想要样本量越多的越好，因为这样可以避免第二类错误。随着样本量增加，power=1-β也在增大，一般到80%，这里我们可以算出一个最小样本量，但理论上样本量还是越大越好。
43 | 
44 | 实际上，样本量越少越好，这是因为
45 | 
46 | 1. 流量有限：小公司就这么点流量，还要精打细算做各种测试，开发各种产品。在保证样本分组不重叠的基础上，产品开发速度会大大降低。
47 | 
48 | 2. 试错成本大：如果拿50%的用户做实验，一周以后发现总收入下降了20%，这样一周时间的实验给公司造成了10%的损失，这样损失未免有点大。
49 | 
50 | ## 5. 两类错误是什么？
51 | 
52 | 1. **弃真**：实验组和对照组没有显著差异，但我们接受了方案推了全量。减少这种错误的方法就是提高显著性水平，比如 p 值小于 0.05 才算显著，而不是小于 0.1，显著性水平是人为给定的犯一类错误的可以接受的上限（$p$值为犯 I 类错误的概率$\alpha$ ）。
53 | 
54 | 2. **存伪**：实验组和对照组有显著差异，但我们没有接受方案。
55 | 
56 |    II 类错误和**统计功效 (power)** 有关，统计功效可以简单理解为真理能被发现的可能性。统计功效 为:$1-\beta$ ，而$\beta$为犯第二类错误的概率。影响统计功效的因素有很多，主要的有三个：统计量、样本量和 I 类错误的概率$\alpha$  。
57 | 
58 | ## 6. 埋点&暗中观察
59 | 
60 | ​	当我们确定了需要分析的具体指标之后，就需要我们进行埋点设计，把相关的用户行为收集起来，供后续的流程进行数据分析，从而得出实验结论。
61 | 
62 | ​	对于 ABTest我们需要知道当前用户是处于对照组还是实验组，所以埋点中这些参数必须要有。埋点完了就是收集实验数据了（暗中观察），主要看以下两个方面：
63 | 
64 | 1. 观察样本量是否符合预期，比如实验组和对照组分流的流量是否均匀，正常情况下，分流的数据不会相差太大，如果相差太大，就要分析哪里出现了问题。
65 | 
66 | 2. 观察用户的行为埋点是否埋的正确，很多次实验之后，我们发现埋点埋错了。
67 | 
68 | 
69 | 
70 | ## 7. 如果一个人有多个账号，分别做不同用途，abtest的时候怎么分组才最合理呢？
71 | 
72 |  我们对这类人的分类是，看的不是他是谁，而是他做了什么。按照我们对行业的分类，行为不同的话就是两类人，和身份证是不是同一个无关。我们要聚合的是有相同行为特征的账户，而不是人。
73 | 
74 | ## 参考资料
75 | 
76 | https://zhuanlan.zhihu.com/p/165406531


--------------------------------------------------------------------------------
/AI算法/machine-learning/Adaboost.md:
--------------------------------------------------------------------------------
  1 | ![Adboost框架图](img/Adaboost/Adboost框架图.png)
  2 | 
  3 | 
  4 | 
  5 | 
  6 | 
  7 | # Adaboost 算法介绍
  8 | 
  9 | ## 1. 集成学习
 10 | 
 11 | 集成学习（ensemble learning）通过构建并结合多个学习器（learner）来完成学习任务，通常可获得比单一学习器更良好的泛化性能（特别是在集成弱学习器（weak learner）时）。  
 12 | 
 13 | 目前集成学习主要分为2大类：  
 14 | 
 15 | 一类是以bagging、Random Forest等算法为代表的，**各个学习器之间相互独立、可同时生成**的并行化方法；
 16 | 
 17 | 一类是以boosting、Adaboost等算法为代表的，**个体学习器是串行序列化生成的、具有依赖关系**，它试图不断增强单个学习器的学习能力。
 18 | 
 19 | ## 2. Adaboost 算法详解
 20 | 
 21 | ### 2.1 Adaboost 步骤概览
 22 | 
 23 | 1. 初始化训练样本的权值分布，每个训练样本的权值应该相等（如果一共有$N$个样本，则每个样本的权值为$\frac{1}{N}$)
 24 | 
 25 | 2.  依次构造训练集并训练弱分类器。如果一个样本被准确分类，那么它的权值在下一个训练集中就会降低；相反，如果它被分类错误，那么它在下个训练集中的权值就会提高。权值更新过后的训练集会用于训练下一个分类器。
 26 | 
 27 | 3. 将训练好的弱分类器集成为一个强分类器，误差率小的弱分类器会在最终的强分类器里占据更大的权重，否则较小。  
 28 | 
 29 | ### 2.2 Adaboost 算法流程
 30 | 
 31 | 给定一个样本数量为$m$的数据集
 32 | $$
 33 | T= \left \{\left(x_{1}, y_{1}\right), \ldots,\left(x_{m}, y_{m}\right)  \right \}
 34 | $$
 35 | $y_i$ 属于标记集合$\{-1,+1\}$。
 36 | 
 37 | 训练集的在第$k$个弱学习器的输出权重为
 38 | $$
 39 | D(k)=\left(w_{k 1}, w_{k 2}, \ldots w_{k m}\right) ; \quad w_{1 i}=\frac{1}{m} ; i=1,2 \ldots m
 40 | $$
 41 | - 初始化训练样本的权值分布，每个训练样本的权值相同：
 42 | 
 43 | $$
 44 | D(1)=\left(w_{1 1}, w_{1 2}, \ldots w_{1 m}\right) ; \quad w_{1 i}=\frac{1}{m} ; i=1,2 \ldots m
 45 | $$
 46 | - 进行多轮迭代，产生$T$个弱分类器。
 47 |   - 使用权值分布 $D(t) $的训练集进行训练，得到一个弱分类器
 48 | 
 49 | $$
 50 | G_{t}(x) : \quad \chi \rightarrow\{-1,+1\}
 51 | $$
 52 | - 计算 $G_t(x)$ 在训练数据集上的分类误差率（其实就是被 $G_t(x) $误分类样本的权值之和）:  
 53 | 
 54 | $$
 55 | e_{t}=P\left(G_{t}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{m} w_{t i} I\left(G_{t}\left(x_{i}\right) \neq y_{i}\right)
 56 | $$
 57 |   - 计算弱分类器 Gt(x) 在最终分类器中的系数(即所占权重)
 58 | $$
 59 | \alpha_{t}=\frac{1}{2} \ln \frac{1-e_{t}}{e_{t}}
 60 | $$
 61 |   -  更新训练数据集的权值分布，用于下一轮（t+1）迭代
 62 | $$
 63 | D(t+1)=\left(w_{t+1,1} ,w_{t+1,2} ,\cdots w_{t+1, i} \cdots, w_{t+1, m}\right)
 64 | $$
 65 | 
 66 | $$
 67 | w_{t+1,i}=\frac{w_{t,i}}{Z_{t}} \times \left\{\begin{array}{ll}{e^{-\alpha_{t}}} & {\text （{ if } G_{t}\left(x_{i}\right)=y_{i}}） \\ {e^{\alpha_{t}}} & {\text （{ if } G_{t}\left(x_{i}\right) \neq y_{i}}）\end{array}\right.= \frac{w_{t,i}}{Z_{t}} \exp \left(-\alpha_{t} y_{i} G_{t}\left(x_{i}\right)\right)
 68 | $$
 69 | 
 70 |    
 71 | 
 72 | ​		其中 $Z_t$是规范化因子，使得$D(t+1)$成为一个概率分布（和为1）：
 73 | $$
 74 | Z_{t}=\sum_{j=1}^{m} w_{t,i} \exp \left(-\alpha_{t} y_{i} G_{t}\left(x_{i}\right)\right)
 75 | $$
 76 | 
 77 | 
 78 | * 集成$T$个弱分类器为1个最终的强分类器：
 79 | $$
 80 | G(x)=\operatorname{sign}\left(\sum_{t=1}^{T} \alpha_{t} G_{t}(x)\right)
 81 | $$
 82 | 
 83 | 
 84 | ## 3. 算法面试题
 85 | ### 3.1 Adaboost分类模型的学习器的权重系数$\alpha$怎么计算的？
 86 | 
 87 | Adaboost是前向分步加法算法的特例，分类问题的时候认为损失函数指数函数。
 88 | 
 89 | 1. 当基函数是分类器时，Adaboost的最终分类器是：
 90 |    $$
 91 |    f(x)=\sum_{m-1}^{M}{\alpha_mG_m(x)}=f_{m-1}(x)+{\alpha_mG_m(x)}
 92 |    $$
 93 |    
 94 | 2. 目标是使前向分步算法得到的$\alpha$和$G_m(x)$使$f_m(x)$在训练数据集T上的指数损失函数最小，即
 95 |    $$
 96 |    (\alpha, G_m(x))=arg min_{\alpha, G}\sum_{i=1}^{N}exp[-y_i(f_{m-1}(x_i)+\alpha G(x_i))]
 97 |    $$
 98 |    其中，$\hat{w}_{mi}=exp[-y_i f_{m-1}(x_i)].$为了求上式的最小化，首先计算$G_m^*(x)$,对于任意的$\alpha >0$,可以转化为下式：
 99 |    $$
100 |    G_{m}^*=argmin_{G}\sum_{i=1}^{N}\hat{w}_{mi}I(y_i \neq G(x_i))
101 |    $$
102 |    之后求$\alpha_m^*$,将上述式子化简，得到
103 | 
104 | $$
105 | \sum_{i=1}^{N}\hat{w}_{mi}exp[-y_i \alpha G(x_i)]
106 | = \sum_{y_i =G_m(x_i)}\hat{w}_{mi}e^{-\alpha}+\sum_{y_i \neq G_m(x_i)}{\hat{w}_{mi}e^{\alpha}} = (e^{\alpha} - e^{- \alpha})\sum_{i=1}^{N}\hat{w}_{mi}I(y_i \neq G(x_i)) + e^{- \alpha}\sum_{i=1}^{N}\hat{w}_{mi}
107 | $$
108 | 
109 | 将已经求得的$G_m^*(x)$带入上式面，对$\alpha$求导并等于0，得到最优的$\alpha$.
110 | $$
111 | a_m^*=\frac{1}{2} log{\frac{1-e_m}{e_m}}
112 | $$
113 | 其中$e_m$是分类误差率:
114 | $$
115 | e_m=\frac{\sum_{i=1}^{N}\hat{w}_{mi}I(y_i \neq G_m(x_i))}{\sum_{i=1}^{N}\hat{w}_{mi}}=\sum_{i=1}^{N}\hat{w}_{mi}I(y_i \neq G_m(x_i))
116 | $$
117 | 
118 | 
119 | ### 3.2 Adaboost能否做回归问题？
120 | 
121 | Adaboost也能够应用到回归问题，相应的算法如下:
122 | 输入: $T={(x_i, y_1),(x_i, y_1),...,(x_N, y_N)}$, 弱学习器迭代次数$M$。
123 | 输出：强分类器$f(x)$.
124 | 
125 | 1. 初始化权重，
126 |    $$D(1)={w_{11},w_{12},...,w_{1N}}; w_{1i}=\frac{1}{N}; i=1,2,..,N$$
127 | 
128 | 2. 根据$m=1,2,...,M$;
129 | 
130 |    + 学习得到$G_m(x)$
131 | 
132 |    + 计算训练集上最大误差
133 |      $$
134 |      E_m=max|y_i-G_m(x_i)|, i=1,2,..,N
135 |      $$
136 |      
137 |    + 计算样本的相对平方误差:
138 |      $$
139 |      e_{mi}=\frac{(y_i-G_m(x_i))^2}{E_m^2}
140 |      $$
141 |      
142 |    + 计算回归误差率: 
143 |      $$
144 |      e_m=\sum_{i=1}^{N}w_{mi}e_{mi}
145 |      $$
146 |      
147 |    + 计算学习器系数: 
148 |      $$
149 |      \alpha_m=\frac{e_m}{1-e_m}
150 |      $$
151 |      
152 |    + 更新样本权重：
153 |      $$
154 |      w_{m+1,i}=\frac{w_{mi}}{Z_m}{\alpha_{m}^{1-e^{m,i}}}
155 |      $$
156 |      其中$Z_m$是规范化因子，
157 |      $$
158 |      Z_m=\sum_{i=1}^{m}w_{mi}{\alpha_{m}^{1-e^{m,i}}}
159 |      $$
160 |    
161 | 3. 得到强学习器：
162 |    $$
163 |    f(x)=\sum_{m=1}{M}G_{m}^*(x)
164 |    $$
165 | 
166 | **注:** **不管是分类问题还是回归问题，根据误差改变权重就是Adaboost的本质，可以基于这个构建相应的强学习器。**
167 | 
168 | ### 3.3 boosting和bagging之间的区别,从偏差-方差的角度解释Adaboost？
169 | 
170 | 集成学习提高学习精度，降低模型误差，模型的误差来自于方差和偏差，其中bagging方式是降低模型方差，一般选择多个相差较大的模型进行bagging。boosting是主要是通过降低模型的偏差来降低模型的误差。其中Adaboost每一轮通过误差来改变数据的分布，使偏差减小。
171 | 
172 | ### 3.4 为什么Adaboost方式能够提高整体模型的学习精度？
173 | 
174 | 根据前向分布加法模型，Adaboost算法每一次都会降低整体的误差，虽然单个模型误差会有波动，但是整体的误差却在降低，整体模型复杂度在提高。
175 | 
176 | ### 3.5 Adaboost算法如何加入正则项?
177 | 
178 | $$
179 | f_m(x)=f_{m-1}(x)+\eta \alpha_{m}G_{m}(x)
180 | $$
181 | 
182 | 
183 | 
184 | ### 3.6 Adaboost使用m个基学习器和加权平均使用m个学习器之间有什么不同？
185 | 
186 | Adaboost的m个基学习器是有顺序关系的，第k个基学习器根据前k-1个学习器得到的误差更新数据分布，再进行学习，每一次的数据分布都不同，是使用同一个学习器在不同的数据分布上进行学习。加权平均的m个学习器是可以并行处理的，在同一个数据分布上，学习得到m个不同的学习器进行加权。
187 | 
188 | ### 3.7 Adaboost和GBDT之间的区别？
189 | 
190 | 相同点：
191 | 
192 | ​	Adaboost和GBDT都是通过减低偏差提高模型精度，都是前项分布加法模型的一种，
193 | 
194 | 不同点: 
195 | 
196 | ​	Adaboost每一个根据前m-1个模型的误差更新当前数据集的权重，学习第m个学习器；
197 | 
198 | ​	GBDT是根据前m-1个的学习剩下的label的偏差，修改当前数据的label进行学习第m个学习器，一般使用梯度的负方向替代偏差进行计算。
199 | 
200 |  
201 | 
202 | ### 3.8 Adaboost的迭代次数(基学习器的个数)如何控制？
203 | 
204 | 一般使用earlystopping进行控制迭代次数。
205 | 
206 | ### 3.9 Adaboost算法中基学习器是否很重要，应该怎么选择基学习器？
207 | 
208 | sklearn中的adaboost接口给出的是使用决策树作为基分类器，一般认为决策树表现良好，其实可以根据数据的分布选择对应的分类器，比如选择简单的逻辑回归，或者对于回归问题选择线性回归。
209 | 
210 | ### 3.10 MultiBoosting算法将Adaboost作为Bagging的基学习器，Iterative Bagging将Bagging作为Adaboost的基学习器。比较两者的优缺点？
211 | 
212 | 两个模型都是降低方差和偏差。主要的不同的是顺序不同。MultiBosoting先减低模型的偏差再减低模型的方差，这样的方式
213 | MultiBoosting由于集合了Bagging，Wagging，AdaBoost，可以有效的降低误差和方差，特别是误差。但是训练成本和预测成本都会显著增加。
214 | Iterative Bagging相比Bagging会降低误差，但是方差上升。由于Bagging本身就是一种降低方差的算法，所以Iterative Bagging相当于Bagging与单分类器的折中。
215 | 
216 | ### 3.11 训练过程中，每轮训练一直存在分类错误的问题，整个Adaboost却能快速收敛，为何？
217 | 
218 | 每轮训练结束后，AdaBoost 会对样本的权重进行调整，调整的结果是越到后面被错误分类的样本权重会越高。而后面的分类器为了达到较低的带权分类误差，会把样本权重高的样本分类正确。这样造成的结果是，虽然每个弱分类器可能都有分错的样本，然而整个 AdaBoost 却能保证对每个样本进行正确分类，从而实现快速收敛。
219 | 
220 | ### 3.12 Adaboost 的优缺点？
221 | 
222 | ​	优点：能够基于泛化性能相当弱的的学习器构建出很强的集成，不容易发生过拟合。  
223 | 
224 | ​	缺点：对异常样本比较敏感，异常样本在迭代过程中会获得较高的权值，影响最终学习器的性能表现。
225 | 
226 | ## 参考资料：
227 | 
228 | 1. 台湾清华大学李端兴教授2017年秋机器学习概论课程(CS 4602)PPT
229 | 2. 周志华 《机器学习》第8章 集成学习
230 | 3. [July的博客](https://blog.csdn.net/v_JULY_v/article/details/40718799)
231 | 4. http://fornlp.com/%E5%91%A8%E5%BF%97%E5%8D%8E-%E3%80%8A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E3%80%8B-%E7%AD%94%E6%A1%88%E6%95%B4%E7%90%86/


--------------------------------------------------------------------------------
/AI算法/machine-learning/Apriori.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 协同过滤面试题
  4 | 
  5 | ## 1. 协同过滤推荐有哪些类型
  6 | 
  7 | * 基于用户(user-based)的协同过滤
  8 | 
  9 |   基于用户(user-based)的协同过滤主要考虑的是用户和用户之间的相似度，只要找出相似用户喜欢的物品，并预测目标用户对对应物品的评分，就可以找到评分最高的若干个物品推荐给用户。 
 10 | 
 11 | * 基于项目(item-based)的协同过滤
 12 | 
 13 |   基于项目(item-based)的协同过滤和基于用户的协同过滤类似，只不过这时我们转向找到物品和物品之间的相似度，只有找到了目标用户对某些物品的评分，那么我们就可以对相似度高的类似物品进行预测，将评分最高的若干个相似物品推荐给用户 
 14 | 
 15 | * 基于模型(model based)的协同过滤 
 16 | 
 17 |   用机器学习的思想来建模解决，主流的方法可以分为：用关联算法，聚类算法，分类算法，回归算法，矩阵分解，神经网络,图模型以及隐语义模型来解决。
 18 | 
 19 | ## 2. 基于模型的协同过滤
 20 | 
 21 | * 用关联算法做协同过滤
 22 | 
 23 |   做频繁集挖掘，找到满足支持度阈值的关联物品的频繁N项集或者序列。将频繁项集或序列里的其他物品按一定的评分准则推荐给用户，这个评分准则可以包括**支持度**，**置信度**和**提升度**等。 常用的关联推荐算法有**Apriori**，**FP Tree**和**PrefixSpan** 
 24 | 
 25 | * 用聚类算法做协同过滤
 26 | 
 27 |   - 基于用户聚类，则可以将用户按照一定距离度量方式分成不同的目标人群，将**同样目标人群评分高的物品推荐给目标用户**。
 28 | 
 29 |   - 基于物品聚类，则是**将用户评分高物品的相似同类物品推荐给用户**。常用的聚类推荐算法有**K-Means**, **BIRCH**, **DBSCAN**和**谱聚类**
 30 | 
 31 | * 用分类算法做协同过滤
 32 | 
 33 |   设置一份评分阈值，评分高于阈值的就是推荐，评分低于阈值就是不推荐，我们**将问题变成了一个二分类问题**。虽然分类问题的算法多如牛毛，但是目前使用最广泛的是逻辑回归。因为**逻辑回归的解释性比较强**，每个物品是否推荐我们都有一个明确的概率放在这，同时可以对数据的特征做工程化，得到调优的目的。常见的分类推荐算法有逻辑回归和朴素贝叶斯，两者的特点是解释性很强。
 34 | 
 35 | * 用回归算法做协同过滤
 36 | 
 37 |   评分可以是一个连续的值而不是离散的值，**通过回归模型**我们可以得到目标用户对某商品的**预测打分**。常用的回归推荐算法有Ridge回归，回归树和支持向量回归。
 38 | 
 39 | * 用矩阵分解做协同过滤
 40 | 
 41 |   用矩阵分解做协同过滤是目前使用也很广泛的一种方法。由于传统的奇异值分解SVD要求矩阵不能有缺失数据，必须是稠密的，而我们的用户物品评分矩阵是一个很典型的稀疏矩阵，直接使用传统的SVD到协同过滤是比较复杂的。 
 42 | 
 43 | * 用神经网络做协同过滤
 44 | 
 45 |   用神经网络乃至深度学习做协同过滤应该是以后的一个趋势。目前比较主流的用两层神经网络来做推荐算法的是限制玻尔兹曼机(RBM) 
 46 | 
 47 | * 用隐语义模型做协同过滤
 48 | 
 49 |   隐语义模型主要是基于NLP的，涉及到**对用户行为的语义分析来做评分推荐**，主要方法有隐性语义分析LSA和隐含狄利克雷分布LDA，
 50 | 
 51 | * 用图模型做协同过滤
 52 | 
 53 |   用图模型做协同过滤，则将用户之间的相似度放到了一个图模型里面去考虑，常用的算法是SimRank系列算法和马尔科夫模型算法。
 54 | 
 55 | ## 3. 频繁项集的评估标准
 56 | 
 57 | * 支持度: 
 58 | 
 59 |   * 支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重。或者说几个数据关联出现的概率。 
 60 |     $$
 61 |     \text {Support} (X, Y)=P(X Y)=\frac{\text { number }(X Y)}{\text { num (AllSamples) }}
 62 |     $$
 63 |     
 64 | 
 65 | * 置信度:
 66 | 
 67 |   *  一个数据出现后，另一个数据出现的概率，或者说数据的条件概率。 
 68 |     $$
 69 |     \text {Confidence }(X \Leftarrow Y)=P(X | Y)=\frac{P(X Y)}{ P(Y)}
 70 |     $$
 71 | 
 72 | * 提升度 ：
 73 | 
 74 |   *  提升度表示含有Y的条件下，同时含有X的概率，与X总体发生的概率之比 
 75 |     $$
 76 |     \text {Lift }(X \Leftarrow Y)=\frac{P(X | Y)}{ P(X)} = \frac{\text { Confidence }(X \Leftarrow Y) }{ P(X)}
 77 |     $$
 78 | 
 79 | * 注意：
 80 |   *  支持度高的数据不一定构成频繁项集，但是支持度太低的数据肯定不构成频繁项集。 
 81 |   *  提升度体先了$X$和$Y$之间的关联关系, 提升度大于1则$X\Leftarrow Y$是有效的强关联规则， 提升度小于等于1则$X\Leftarrow Y$是无效的强关联规则 。一个特殊的情况，如果$X$和$Y$独立,则$\operatorname{Lift}(X \Leftarrow Y)=1$，因此$P(X | Y)=P(X)$
 82 | 
 83 | ## 4. 使用Aprior算法找出频繁k项集
 84 | 
 85 | 输入：数据集合$D$，支持度阈值$\alpha$
 86 | 
 87 | 输出：最大的频繁$k$项集
 88 | 
 89 | * 扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集。$k=1$，频繁0项集为空集。
 90 | 
 91 | * 挖掘频繁$k$项集
 92 |   * 扫描数据计算候选频繁$k$项集的支持度
 93 |   * 去除候选频繁$k$项集中支持度低于阈值的数据集,得到频繁$k$项集。如果得到的频繁$k$项集为空，则直接返回频繁$k-1$项集的集合作为算法结果，算法结束。如果得到的频繁$k$项集只有一项，则直接返回频繁$k$项集的集合作为算法结果，算法结束。
 94 |   * 基于频繁$k$项集，连接生成候选频繁$k+1$项集。
 95 | 
 96 | * 令$k=k+1$，转入步骤挖掘频繁$k$项集。
 97 | 
 98 | 从算法的步骤可以看出，Aprior算法每轮迭代都要扫描数据集，因此在数据集很大，数据种类很多的时候，算法效率很低。
 99 | 
100 | 具体实现:
101 | 
102 | <img src="https://images2015.cnblogs.com/blog/1042406/201701/1042406-20170117161036255-1753157633.png" style="zoom:50%;" />
103 | 
104 | ## 5. 使用Aprior算法找出强关联规则
105 | 
106 | - 强关联规则:
107 | 
108 |   -  如果规则$R$:$\Rightarrow $满足 :
109 | 
110 |   $$
111 |   \tag{1} { support }(X \Rightarrow Y) \geq \min {sup}
112 |   $$
113 | 
114 |   $$
115 |   \tag{2} confidence (X \Rightarrow Y) \geq \min conf
116 |   $$
117 | 
118 |   称关联规则$X\Rightarrow Y$为强关联规则,否则称关联规则$X\Rightarrow Y$为弱关联规则。在挖掘关联规则时,产生的关联规则要经过$\min sup$和$\min conf$的衡量筛选出来的强关联规则才能用商家的决策 
119 | 
120 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/CRF.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 条件随机场面试题
  4 | 
  5 | Author: 李文乐; Email: cocoleYY@outlook.com
  6 | 
  7 | 
  8 | ## 1. 简单介绍条件随机场 ##
  9 | 
 10 | ------------------------------------------------------------
 11 | 条件随机场（conditional random field，简称 CRF）是给定一组输入随机变量条 件下另一组输出随机变量的条件概率分布模型，其特点是**假设输出随机变量构成马尔可夫随机场**，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。
 12 | 如同马尔可夫随机场，条件随机场为无向图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场当中，随机变量 Y 的分布为条件机率，给定的观察值则为随机变量 X。   
 13 | 原则上，条件随机场的图模型布局是可以任意给定的，一般**常用的布局是链接式**的架构，链接式架构不论在训练（training）、推论（inference）、或是解码（decoding）上，都存在有效率的算法可供演算。
 14 | 条件随机场跟隐马尔可夫模型常被一起提及，条件随机场对于输入和输出的机率分布，没有如隐马尔可夫模型那般强烈的假设存在 [补充：因为HMM模型假设后面状态和前面无关]。 
 15 | 
 16 | ##2. 条件随机场预测的维特比算法求解过程：  
 17 | 
 18 | 输入：模型特征向量F(y,x)和权值向量w，观测序列$x=(x_1,x_2,…,x_n)$;  
 19 | 输出：最优路径$y^*=(y_1^*,y_2^*,…,y_n^*) $
 20 | 
 21 | 初始化：
 22 | $$
 23 | \delta_{1}(j)=w \cdot F_{1}\left(y_{0}=\operatorname{start}, y_{1}=j, x\right), \quad j=1,2, \cdots, m
 24 | $$
 25 | 递推：
 26 | $$
 27 | \delta_{i}(l)=\max _{1<j<m}\left\{\delta_{i-1}(j)+w \cdot F_{i}\left(y_{i-1}=j, y_{i}=l, x\right)\right\}, \quad l=1,2, \cdots, m
 28 | $$
 29 | 
 30 | $$
 31 | \Psi_{i}(l)=\arg \max _{1 \leqslant j \leqslant m}\left\{\delta_{t-1}(j)+w \cdot F_{i}\left(y_{i-1}=j, y_{i}=l, x\right)\right\}, \quad l=1,2, \cdots, m
 32 | $$
 33 | 
 34 | 终止：
 35 | $$
 36 | \max _{y}(w \cdot F(y, x))=\max _{1<j<m} \delta_{n}(j)
 37 | $$
 38 | 
 39 | $$
 40 | y_{n}^{*}=\arg \max _{1 \leqslant j \leqslant m} \delta_{n}(j)
 41 | $$
 42 | 
 43 | 返回路径:
 44 | $$
 45 | y_{i}^{*}=\Psi_{i+1}\left(y_{i+1}^{*}\right), \quad i=n-1, n-2, \cdots, 1
 46 | $$
 47 | 
 48 | ##3. 链式条件随机场[chain-structured CRF]条件概率公式：  
 49 | 
 50 | $$
 51 | P(\mathbf{y} \mid \mathbf{x})=\frac{1}{Z} \exp \left(\sum_{j} \sum_{i=1}^{n-1} \lambda_{j} t_{j}\left(y_{i+1}, y_{i}, \mathbf{x}, i\right)+\sum_{k} \sum_{i=1}^{n} \mu_{k} s_{k}\left(y_{i}, \mathbf{x}, i\right)\right)
 52 | $$
 53 | 
 54 | 
 55 | 
 56 | 
 57 | ## 4. HMM、MEMM和CRF模型的比较  
 58 | 
 59 | * HMM模型是对转移概率（隐藏状态转移到隐藏状态的概率）和表现概率（隐藏状态到观察状态的概率）直接建模，统计共现概率；
 60 | * MEMM模型是对转移概率和表现概率建立联合概率，统计时统计的是条件概率，而非共现概率。MEMM容易陷入局部最优，主要因为是MEMM只在局部做归一化；
 61 | * CRF模型则统计的是全局概率，在归一化时考虑了数据在全局的分布，而不仅仅是局部归一化，这样也就解决了MEMM中的标记偏置问题；
 62 | 
 63 | 
 64 | 
 65 | ## 5. 注意要点  
 66 | 
 67 | ----------
 68 | 
 69 | - 概率图模型的表示  
 70 | 概率图模型结合了概率论和图论的知识，用图模式(节点和边)表达基于概率相关关系的模型的总称。图模型的引入使得人们在处理复杂概率问题时，可以将复杂问题进行适当的分解；表示理论将图模型分为如下两个类别：贝叶斯网络[Bayesian Netword]和马尔科夫随机场[Markov Random Field]，前者采用有向无环图来表达事件的因果关系，后者采用无向图来表达变量间的相互作用；  
 71 | 
 72 | 
 73 | 
 74 | - 贝叶斯网络和马尔科夫随机场的分解计算问题  
 75 | 贝叶斯网络中每个节点都对应一个先验概率分布或者条件概率分布，因此整体联合概率分布可以直接分解为所有单个节点分布的乘积；对于马尔科夫随机场，由于变量间没有明确的因果关系，它的联合概率分布通常会表达为一系列势函数[Potential Function]的乘积，因为乘积之和通常不为1，所以要进行归一化才能成为一个有效的概率分布。  
 76 | 
 77 | 
 78 | 
 79 | - 对于概率图模型，模型学习的精度通常受三方面影响
 80 | 	- 语料库样本集对总体的代表性；  
 81 | 	- 模型算法理论基础及所针对的问题。不同模型的理论不同，所擅长处理的NLP任务也不同，比如：朴素贝叶斯模型处理短文本分类效果很好，最大熵模型在处理中文词性标注表现很好，条件随机场处理中文分词，语义组块等方便精度很好，Semi-CRF在处理命名实体识别精度很好。  
 82 | 	- 模型算法的复杂度。属于工程问题，一般讲，要求模型参数估计的越精确，模型复杂度越高，学习时间越长，推断和预测的精度也越高。  
 83 | 
 84 | 
 85 | 
 86 | 
 87 | - Bi-LSTM-CRF算法解析  
 88 | 	
 89 | 	![image-20210903204605132](img/CRF/image-20210903204605132.png)
 90 | 	
 91 | 	  Bi-LSTM-CRF模型的输入是每个单词的词向量，经过双向LSTM层提取特征并输出为5个label的得分，再将该得分输入进CRF层，得到这句话最终最大可能的识别标签。因为BiLSTM层得到的label并不总是满足实际情况，CRF层能够添加一些约束使得预测标签是有效的。这些约束便是从训练数据的过程中学习得到的。
 92 | 
 93 | 
 94 | 
 95 | 
 96 | - 常见的概率图模型中，哪些是生成模型和哪些是判别模型？
 97 | 
 98 | 
 99 |     - 生成式 模型是对联合概率分布$P(X,Y,Z)$进行建模，在给定观测集合X的条件下，通过计算 边缘分布来得到对变量集合Y的推断，即
100 | 
101 | $$
102 |   P(Y \mid X)=\frac{P(X, Y)}{P(X)}=\frac{\sum_{Z} P(X, Y, Z)}{\sum_{Y . Z} P(X, Y, Z)}
103 | $$
104 | 
105 |   
106 | 
107 | 
108 |     - 判别式模型是直接对条件概率分布$P(Y,Z|X)$进行建模，然后消掉无关变量Z就可以 得到对变量集合Y的预测，即:
109 | 
110 | $$
111 |   P(Y \mid X)=\sum_{Z} P(Y, Z \mid X)
112 | $$
113 | 
114 |   常见的概率图模型有朴素贝叶斯、最大熵模型、贝叶斯网络、隐马尔可夫模 型、条件随机场、pLSA、LDA等。基于前面的问题解答，我们知道朴素贝叶斯、贝叶斯网络、pLSA、LDA等模型都是先对联合概率分布进行建模，然后再通过计算边缘分布得到对变量的预测，所以它们都属于生成式模型；
115 | 
116 |   而最大熵模型是直 接对条件概率分布进行建模，因此属于判别式模型。隐马尔可夫模型和条件随机场模型是对序列数据进行建模的方法，其中隐马尔 可夫模型属于生成式模型，条件随机场属于判别式模型。
117 | 
118 | ## 参考  
119 | 1.条件随机场定义参考维基百科  
120 | 2.Bi-LSTM-CRF算法解析参考: https://createmomo.github.io/  
121 | 3.数学之美 - 吴军  
122 | 4.百面机器学习 - 诸葛越&葫芦娃   
123 | 5.NLP汉语自然语言处理原理与实践 - 郑捷  
124 | 6.http://blog.sina.com.cn/s/blog_6d1875160101gy4e.html


--------------------------------------------------------------------------------
/AI算法/machine-learning/Catboost.md:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | # Catboost面试题
 4 | 
 5 | ## 1. 简单介绍Catboost？
 6 | 
 7 | CatBoost是一种以对称决策树 为基学习器的GBDT框架，主要为例合理地**处理类别型特征**，CatBoost是由Categorical和Boosting组成。CatBoost还解决了**梯度偏差**以及**预测偏移**的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。
 8 | 
 9 | ## 2. 相比于XGBoost、LightGBM，CatBoost的创新点有哪些？
10 | 
11 | - 自动将类别型特征处理为数值型特征。 
12 | - Catboost对**类别特征进行组合**，极大的丰富了特征维度。
13 | - 采用**排序提升**的方法对抗训练集中的噪声点，从而避免梯度估计的偏差，进而解决预测偏移的问题。
14 | - 采用了**完全对称树**作为基模型。
15 | 
16 | ## 3. Catboost是如何处理类别特征的？
17 | 
18 | - 基数比较低的类别型特征
19 | 
20 |   利用One-hot编码方法将特征转为数值型
21 | 
22 | - 基数比较高的类别型特征
23 | 
24 |   - 首先会计算一些数据的statistics。计算某个category出现的频率，加上超参数，生成新的numerical features。这一策略要求同一标签数据不能排列在一起（即先全是之后全是这种方式），训练之前需要打乱数据集。
25 |   - 第二，使用数据的不同排列（实际上是个）。在每一轮建立树之前，先扔一轮骰子，决定使用哪个排列来生成树。
26 |   - 第三，考虑使用categorical features的不同组合。例如颜色和种类组合起来，可以构成类似于blue dog这样的特征。当需要组合的categorical features变多时，CatBoost只考虑一部分combinations。在选择第一个节点时，只考虑选择一个特征，例如A。在生成第二个节点时，考虑A和任意一个categorical feature的组合，选择其中最好的。就这样使用贪心算法生成combinations。
27 |   - 第四，除非向gender这种维数很小的情况，不建议自己生成One-hot编码向量，最好交给算法来处理。
28 | 
29 | ## 4. Catboost如何避免梯度偏差
30 | 
31 | 经典梯度提升算法每个步骤中使用的梯度由当前模型中的相同的数据点(节点)来估计，这导致估计梯度在特征空间的任何域中的分布与该域中梯度的真实分布相比发生了偏移，从而导致过拟合。
32 | 
33 | 对于每一个样本单独训练一个模型，使用模型估计样本的梯度，并用估计的结果对模型进行评分
34 | 
35 | 
36 | 
37 | ## 5. Catboost如何避免预测偏移？
38 | 
39 | 预测偏移是由梯度偏差造成的。在GDBT的每一步迭代中, 损失函数使用相同的数据集求得当前模型的梯度, 然后训练得到基学习器, 但这会导致梯度估计偏差, 进而导致模型产生过拟合的问题。CatBoost通过采用**排序提升** 的方式替换传统算法中梯度估计方法，进而减轻梯度估计的偏差。
40 | 
41 | ## 6. 解释一下排序提升
42 | 
43 | 在传统的GBDT框架当中，构建下一棵树分为两个阶段：选择树结构和在树结构固定后计算叶子节点的值。CatBoost主要在第一阶段进行优化。在建树的阶段，CatBoost有两种提升模式，Ordered和Plain。Plain模式是采用内建的ordered TS对类别型特征进行转化后的标准GBDT算法。Ordered则是对Ordered boosting算法的优化。
44 | 
45 | ## 7. Catboost为什么要使用对称树？
46 | 
47 | - 对称树是平衡的，不容易过拟合
48 | 
49 | - 统一层使用相同的分割准则
50 | 
51 | - 每个叶子节点的索引可以被编码为长度等于树深度的二进制向量
52 | 
53 |   首先将所有浮点特征、统计信息和独热编码特征进行二值化，然后使用二进制特征来计算模型预测值
54 | 
55 | ## 8. CatBoost的优缺点
56 | 
57 | **优点：**
58 | 
59 | - **性能卓越：** 在性能方面可以匹敌任何先进的机器学习算法；
60 | - **鲁棒性/强健性：** 它减少了对很多超参数调优的需求，并降低了过度拟合的机会，这也使得模型变得更加具有通用性；
61 | - **实用：** 可以处理类别型、数值型特征；
62 | - **可扩展：** 支持自定义损失函数；
63 | 
64 | **缺点：**
65 | 
66 | - 对于类别型特征的处理需要大量的内存和时间；
67 | - 不同随机数的设定对于模型预测结果有一定的影响；
68 | 
69 | 
70 | 
71 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/DecisionTree.md:
--------------------------------------------------------------------------------
  1 | # 
  2 | 
  3 | 
  4 | # 决策树面试题
  5 | 
  6 | ## 1. 简单介绍决策树算法
  7 | 
  8 | 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。**本质上决策树是通过一系列规则对数据进行分类的过程。**
  9 | 
 10 | 决策树将算法组织成一颗树的形式。其实这就是将平时所说的**if-then语句**构建成了树的形式。决策树主要包括**三个部分：内部节点、叶节点、边。内部节点是划分的特征，边代表划分的条件，叶节点表示类别。**
 11 | 
 12 | 构建决策树 就是一个递归的选择内部节点，计算划分条件的边，最后到达叶子节点的过程。 决策树在本质上是一组嵌套的if-else判定规则，从数学上看是分段常数函数，对应于用平行于坐标轴的平面对空间的划分。判定规则是人类处理很多问题时的常用方法，这些规则是我们通过经验总结出来的，而决策树的这些规则是通过训练样本自动学习得到的。
 13 | 
 14 | 训练时，通过最大化Gini或者其他指标来寻找最佳分裂。决策树可以输特征向量每个分量的重要性。
 15 | 
 16 | **决策树是一种判别模型，既支持分类问题，也支持回归问题，是一种非线性模型（分段线性函数不是线性的）。它天然的支持多分类问题。**
 17 | 
 18 | ## 2. 决策树和条件概率分布的关系？
 19 | 
 20 | **决策树可以表示成给定条件下类的条件概率分布。** 
 21 | 
 22 | 决策树中的每一条路径对应的都是划分的一个条件概率分布. 每一个叶子节点都是通过多个条件之后的划分空间，在叶子节点中计算每个类的条件概率，必然会倾向于某一个类，即这个类的概率最大。
 23 | 
 24 | ## 3. 信息增益比相对信息增益有什么好处？
 25 | 
 26 | * 使用信息增益时：模型**偏向于选择取值较多**的特征
 27 | * 使用信息增益比时：**对取值多的特征加上的惩罚**，对这个问题进行了校正。
 28 | 
 29 | 
 30 | 
 31 | ## 4. ID3算法—>C4.5算法—> CART算法 
 32 | 
 33 | * $ID3$
 34 |   * $ID3$算法没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。这大大限制了ID3的用途。
 35 |   * $ID3$算法采用信息增益大的特征优先建立决策树的节点，偏向于取值比较多的特征
 36 |   * $ID3$算法对于缺失值的情况没有做考虑
 37 |   * $ID3$算法没有考虑过拟合的问题
 38 | 
 39 | * $C4.5$在$ID3$算法上面的改进
 40 |   * 连续的特征离散化 
 41 |   * 使用信息增益比 
 42 |   * 通过剪枝算法解决过拟合
 43 | 
 44 | * $C4.5$的不足：
 45 |   * $C4.5$生成的是多叉树
 46 |   * $C4.5$只能用于分类，如果能将决策树用于回归的话可以扩大它的使用范围。
 47 |   * $C4.5$由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算
 48 | 
 49 | * $CART$算法 
 50 |   * 可以做回归，也可以做分类， 
 51 |   * 使用基尼系数来代替信息增益比 
 52 |   * $CART$分类树离散值的处理问题，采用的思路是不停的二分离散特征。 
 53 | 
 54 | ## 5. 决策树的缺失值是怎么处理的
 55 | 
 56 | 主要需要解决的是两个问题，一是在样本某些特征缺失的情况下选择划分的属性，二是选定了划分属性，对于在该属性上缺失特征的样本的处理。
 57 | 
 58 | * 如何在特征值缺失的情况下进行划分特征的选择？
 59 | 
 60 |   * 每个样本设置一个权重（初始可以都为1） 
 61 | 
 62 |   *  划分数据，一部分是有特征值$a$的数据，另一部分是没有特征值$a$的数据,记为$\tilde{D}$，
 63 | 
 64 |   *  **对**没有缺失特征值$a$的**数据集$\tilde{D}$，**来和对应的特征$A$的各个特征值一起**计算加权重后的信息增益比**，最后乘上一个系数$\rho$ 。
 65 | 
 66 | $$
 67 | \rho=\frac{\sum_{x \in \tilde{D}} w_{x}}{\sum_{x \in {D}} w_{x}}
 68 | $$
 69 | 
 70 | $$
 71 | \tilde{p}_{k}=\frac{\sum_{x \in \tilde{D}_{k}} w_{x}}{\sum_{x \in \tilde{D}} w_{x}} \quad(1 \leq \mathrm{k} \leq|y|)
 72 | $$
 73 | 
 74 | $$
 75 | \tilde{r}_{v}=\frac{\sum_{x \in \tilde D^{v}} w_{x}}{\sum_{x \in \tilde{D}} w_{x}} \quad(1 \leq v \leq V)
 76 | $$
 77 | 
 78 | ​	假设特征$A$有$v$个取值$\{a_1,a_2 \dots a_v\}$
 79 | 
 80 | ​	$\tilde D$：该特征上没有缺失值的样本
 81 | 
 82 | ​	$\tilde D_k$：$\tilde D$中属于第$k$类的样本子集
 83 | 
 84 | ​	$\tilde D^v$：$\tilde D$中在特征$a$上取值为$a_v$的样本子集
 85 | 
 86 | ​	$\rho$：无特征$A$缺失的样本加权后所占加权总样本的比例。
 87 | 
 88 | ​	$\tilde{p}_{k}$：无缺失值样本第$k$类所占无缺失值样本的比例
 89 | 
 90 | ​	$\tilde{r}_{v}$：无缺失值样本在特征$a$上取值$a^v$的样本所占无缺失值样本的比例
 91 | 
 92 | ​	新的信息增益公式：
 93 | $$
 94 | \begin{aligned}
 95 | &\operatorname{Gain}(D, a)=\rho \times \operatorname{Gain}(\tilde{D}, a)=\rho \times\left(\operatorname{Ent}(\tilde{D})-\sum_{v=1}^{V} \tilde{r}_{v} \operatorname{Ent}\left(\tilde{D}^{v}\right)\right)\\
 96 | &\operatorname{Ent}(\tilde{D})=-\sum_{k=1}^{|y|} \tilde{p}_{k} \log _{2} \tilde{p}_{k}
 97 | \end{aligned}
 98 | $$
 99 | 
100 | * 给定划分特征，若样本在该特征上的值是缺失的，那么该如何对这个样本进行划分？
101 | 
102 |   ```
103 |   （即到底把这个样本划分到哪个结点里？）
104 |   ```
105 | 
106 |   * 让包含缺失值的样本以不同的概率划分到不同的子节点中去。
107 | 
108 |   ```
109 |   比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。
110 |   ```
111 | 
112 | 
113 | 
114 | ## 6. 决策树的目标函数是什么？
115 | 
116 | $$
117 | C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+a|T|
118 | $$
119 | 
120 | $$
121 | H_{t}(T)=-\sum_{k} \frac{N_{t k}}{N_{t}} \log \frac{N_{t k}}{N_{t}}
122 | $$
123 | 
124 | 其中$|T|$代表叶节点个数
125 | 
126 | $N_t$表示具体某个叶节点的样本数
127 | 
128 |  $H_t(T)$ 表示叶节点$t$上的经验熵
129 | 
130 | $\alpha|T|$为正则项，$\alpha \geqslant 0 $ 为参数
131 | 
132 | ## 7. 决策树怎么处理连续性特征？
133 | 
134 | 因为连续特征的可取值数目不再有限，因此不能像前面处理离散特征枚举离散特征取值来对结点进行划分。因此需要连续特征离散化，常用的离散化策略是二分法，这个技术也是$C4.5$中采用的策略。下面来具体介绍下，如何采用二分法对连续特征离散化： 
135 | 
136 | * 训练集D，连续特征$A$，其中A有n个取值
137 | 
138 | * 对$A$的取值进行从小到大排序得到：$\{a_1,a_2\dots a_n\}$
139 | 
140 | * 寻找划分点$t$，$t$将D分为子集$D_{t}^{-}$与$D_{t}^{+}$
141 |   * $D_{t}^{-}$：特征$A$上取值不大于$t$的样本
142 |   * $D_{t}^{+}$：特征$A$上取值大于$t$的样本
143 | 
144 | * 对相邻的特征取值$a_i$与$a_{i+1}$，t再区间$[a_i,a_{i+1})$中取值所产生的划分结果相同，因此对于连续特征$A$,包含有$n-1$个元素的后选划分点集合
145 | 
146 | $$
147 | T_a = \{\frac{a_i + a_{i+1}}{2}|1\leq{i}\leq{n-1} \}
148 | $$
149 | 
150 | * 把区间$[a_i,a_{i+1})$的中位点$\frac{a_i + a_{i+1}}{2}$作为候选划分点
151 | 
152 | * 按照处理离散值那样来选择最优的划分点,使用公式：
153 |   $$
154 |   Gain(D,a) =\underbrace{max}_{t\in T_a}Gain(D,a,t) = \underbrace{max}_{t\in T_a}\ (Ent(D) - \sum_{\lambda \in \{-,+ \}}\frac{|D_t^{\lambda}|}{|D|}Ent(D_t^{\lambda}))
155 |   $$
156 |   其中$Gain(D,a,t)$是样本集$D$基于划分点$t$二分之后的信息增益。划分点时候选择使用$Gain(D,a,t)$最大的划分点。
157 | 
158 | ## 8. 决策树对离散值的处理
159 | 
160 | 思想和$C4.5$相同，都是将连续的特征离散化。唯一区别在选择划分点时，C4.5是信息增益比，CART是基尼系数。
161 | 
162 | CART采用的是不停的二分。会考虑把特征$A$分成${A1}$和${A2,A3}$、${A2}$和${A1,A3}$、${A3}$和${A1,A2}$三种情况，找到基尼系数最小的组合，比如${A2}$和${A1,A3}$，然后建立二叉树节点，一个节点是$A2$对应的样本，另一个节点是${A1,A3}$对应的样本。由于这次没有把特征$A$的取值完全分开，后面还有机会对子节点继续选择特征$A$划分$A1$和$A3$。这和$ID3、C4.5$不同，在$ID3$或$C4.5$的一颗子树中，离散特征只会参与一次节点的建立。
163 | 
164 | ## 9. 决策树怎么防止过拟合？
165 | * 对于决策树进行约束：根据情况来选择或组合
166 | 
167 |   * 设置每个叶子节点的最小样本数，可以避免某个特征类别只适用于极少数的样本。
168 |   * 设置每个节点的最小样本数，从根节点开始避免过度拟合。
169 | 
170 |   * 设置树的最大深度，避免无限往下划分。
171 | 
172 |   * 设置叶子节点的最大数量，避免出现无限多次划分类别。
173 | 
174 |   * 设置评估分割数据是的最大特征数量，避免每次都考虑所有特征为求“最佳”，而采取随机选择的方式避免过度拟合。
175 | 
176 | * 预剪枝(提前停止)：控制**深度、当前的节点数、分裂对测试集的准确度提升大小**
177 |   * 限制树的高度，可以利用交叉验证选择
178 |   * 利用分类指标，如果下一次切分没有降低误差，则停止切分
179 |   * 限制树的节点个数，比如某个节点小于100个样本，停止对该节点切分
180 | 
181 | * 后剪枝(自底而上)：**生成决策树、交叉验证剪枝：子树删除，节点代替子树、测试集准确率判断决定剪枝**
182 |   * 在决策树构建完成之后，根据加上正则项的结构风险最小化自下向上进行的剪枝操作. 剪枝的目的就是防止过拟合，是模型在测试数据上变现良好，更加鲁棒。
183 | 
184 | 
185 | 
186 | ## 10. 如果特征很多，决策树中最后没有用到的特征一定是无用吗？
187 | 
188 | 不是无用的，从两个角度考虑：
189 | 
190 | * **特征替代性**，如果可以已经使用的特征$A$和特征$B$可以提点特征$C$，特征$C$可能就没有被使用，但是如果把特征$C$单独拿出来进行训练，依然有效
191 | 
192 | * 决策树的每一条路径就是**计算条件概率的条件**，前面的条件如果包含了后面的条件，只是这个条件在这棵树中是无用的，如果把这个条件拿出来也是可以帮助分析数据.
193 | 
194 | ## 11.决策树的优缺点？
195 | 
196 | * 优点: 
197 |   * 简单直观，生成的决策树很直观。
198 |   * 基本不需要预处理，不需要提前归一化，处理缺失值。
199 |   * 既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
200 |   * 可以处理多维度输出的分类问题。
201 |   * 相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
202 |   * 可以交叉验证的剪枝来选择模型，从而提高泛化能力。
203 |   * 对于异常点的容错能力好，健壮性高。
204 |   * 用白盒模型，可清洗观察每个步骤，对大数据量的处理性能较好，更贴近人类思维。
205 |   
206 | * 缺点:
207 |   * 决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
208 |   * 决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
209 |   * 寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
210 |   * 有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
211 |   * 如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。
212 | 
213 | ## 12. 树形结构为什么不需要归一化?
214 | 
215 | * 计算信息增益前，按照特征值进行排序，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。
216 | 
217 | * **数值缩放不影响分裂点位置，对树模型的结构不造成影响**。
218 | 
219 |   
220 | 
221 | ## 13. 如果特征很多，决策树中最后没有用到的特征一定是无用吗？       
222 | 
223 | 不是无用的,从两个角度考虑：
224 | 
225 |   * 特征替代性，如果可以已经使用的特征$A$和特征$B$可以提点特征$C$，特征$C$可能就没有被使用，但是如果把特征$C$单独拿出来进行训练，依然有效. 
226 | 
227 |   * 决策树的每一条路径就是计算条件概率的条件，前面的条件如果包含了后面的条件，只是这个条件在这棵树中是无用的，如果把这个条件拿出来也是可以帮助分析数据。
228 | 
229 | 
230 | 
231 | ## 参考资料
232 | 
233 | [c4.5为什么使用信息增益比来选择特征？](https://www.zhihu.com/question/22928442/answer/440836807)
234 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/EnsembleLearning.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 集成学习面试题
  4 | 
  5 | ## 1. 什么是集成学习算法？
  6 | 
  7 | **集成学习算法是一种优化手段或者策略**，将多个较弱的模型集成模型组，一般的弱分类器可以是决策树，SVM，KNN等构成。其中的模型可以单独进行训练，并且它们的预测能以某种方式结合起来去做出一个总体预测。
  8 | 
  9 | ## 2. 集成学习主要有哪几种框架？
 10 | 
 11 | 集成学习从集成思想的架构分为Bagging，Boosting，Stacking三种。
 12 | 
 13 | ## 3. 简单介绍一下bagging，常用bagging算法有哪些？
 14 | 
 15 | * Bagging
 16 |   * **多次采样，训练多个分类器，集体投票，旨在减小方差**，
 17 | * 基于数据**随机重抽样**的分类器构建方法。从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。
 18 |   
 19 | * 算法流程：
 20 |   * 输入为样本集$D={(x_1，y_1)，(x_2，y_2) \dots (x_m，y_m)}$，弱学习器算法，弱分类器迭代次数$T$。
 21 |   * 输出为最终的强分类器$f(x)$
 22 | 
 23 | * 对于$t=1，2 \dots T$
 24 |   * 对训练集进行第t次随机采样，共采集$T$次，得到包含$T$个样本的采样集$D_t$
 25 |   * 用采样集$D_t$训练第$t$个弱学习器$G_t(x)$
 26 | 
 27 | * 如果是分类算法预测，则$T$个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法，$T$个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。
 28 | * 常用bagging算法：随机森林算法
 29 | 
 30 | ## 4. 简单介绍一下boosting，常用boosting算法有哪些？
 31 | 
 32 | * Boosting
 33 |   * **基分类器层层叠加，聚焦分错的样本，旨在减小方差**
 34 | * 训练过程为阶梯状，基模型按次序进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化，每次都是提高前一次分错了的数据集的权值，最后对所有基模型预测的结果进行线性组合产生最终的预测结果。
 35 |   
 36 | * 算法流程：
 37 | 
 38 |   * 给定初始训练数据，由此训练出第一个基学习器；
 39 | 
 40 |   * 根据基学习器的表现对样本进行调整，在之前学习器做错的样本上投入更多关注；
 41 |   * 用调整后的样本，训练下一个基学习器；
 42 |   * 重复上述过程T次，将T个学习器加权结合。
 43 | 
 44 | * 常用boosting算法：
 45 |   * Adaboost
 46 |   * GBDT
 47 |   * XGBoost
 48 | 
 49 | ## 5. boosting思想的数学表达式是什么？
 50 | 
 51 | $$
 52 | f(x)=w_{0}+\sum_{m=1}^{M} w_{m} \phi_{m}(x)
 53 | $$
 54 | 
 55 | 其中$w$是权重，$\phi$是弱分类器的集合，可以看出最终就是基函数的线性组合。
 56 | 
 57 | ## 6. 简单介绍一下stacking
 58 | 
 59 | * Stacking
 60 |   * **多次采样，训练多个分类器，将输出作为最后的输入特征**
 61 | * 将训练好的所有基模型对训练集进行预测，第个$i$基模型对第$i$个训练样本的预测值将作为新的训练集中第$i$个样本的第$i$个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。
 62 |   
 63 | * stacking常见的使用方式：
 64 |   * 由k-NN、随机森林和朴素贝叶斯基础分类器组成，它的预测结果由作为元分类器的逻回归组合。
 65 | 
 66 | ## 7. 你意识到你的模型受到低偏差和高方差问题的困扰，应该使用哪种算法来解决问题呢？为什么？
 67 | 
 68 | 低偏差意味着模型的预测值接近实际值。换句话说，该模型有足够的灵活性，以模仿训练数据的分布。貌似很好，但是别忘了，一个灵活的模型没有泛化能力。这意味着，当这个模型用在对一个未曾见过的数据集进行测试的时候，它会令人很失望。
 69 | 在这种情况下，我们可以使用bagging算法（如随机森林），以解决高方差问题。bagging算法把数据集分成重复随机取样形成的子集。然后，这些样本利用单个学习算法生成一组模型。接着，利用投票（分类）或平均（回归）把模型预测结合在一起。另外，为了应对大方差，我们可以：
 70 | 
 71 | * 使用正则化技术，惩罚更高的模型系数，从而降低了模型的复杂性。
 72 | * 使用可变重要性图表中的前n个特征。
 73 | * 可以用于当一个算法在数据集中的所有变量里很难寻找到有意义信号的时候。
 74 | 
 75 | ## 8. 常用的基分类器是什么？
 76 | 
 77 | 最常用的基分类器是决策树,原因:
 78 | 
 79 | * 决策树可以较为方便地将样本的权重整合到训练过程中，而不需要使用过采样的方法来调整样本权重。
 80 | * 决策树的表达能力和泛化能力，可以通过调节树的层数来做折中。
 81 | * 数据样本的扰动对于决策树的影响较大，因此不同子样本集合生成的决策树基分类器随机性较大，这样的“不稳定学习器”更适合作为基分类器。此外，在决策树节点分裂的时候，随机地选择一个特征子集，从中找出最优分裂属性，**很好地引入了随机性。**
 82 | 
 83 | ## 9. 可否将随机森林中的基分类器，由决策树替换为线性分类器或K-近邻？请解释为什么？
 84 | 不能：
 85 | 
 86 | * Bagging的主要好处是集成后的分类器的方差，比基分类器的方差小。
 87 | * 随机森林属于Bagging类的集成学习，对样本分布较为敏感的分类器更适用于Bagging。
 88 | 
 89 | * 线性分类器或者K-近邻都是较为稳定的分类器，本身方差就不大。
 90 | * 线性分类器或者K-近邻可能会由于Bagging的采样，导致在训练中更难收敛，增大偏差。
 91 | 
 92 | ## 10. GBDT和RF如何计算特征重要性
 93 | 
 94 | * RF有两种方法：
 95 |   - 通过计算Gini系数的减少量VIm=GI−(GIL+GIR)判断特征重要性，越大越重要。
 96 |   - 对于一颗树，先使用**袋外错误率**(OOB)样本计算测试误差a，再随机打乱OOB样本中第i个特征（上下打乱特征矩阵第i列的顺序）后计算测试误差b，a与b差距越大特征i越重要。
 97 | 
 98 | - GBDT计算方法：
 99 |   - 所有回归树中通过特征i分裂后平方损失的减少值的和/回归树数量 得到特征重要性。 在sklearn中，GBDT和RF的特征重要性计算方法是相同的，都是基于单棵树计算每个特征的重要性，探究每个特征在每棵树上做了多少的贡献，再取个平均值。
100 | 
101 | - Xgb主要有三种计算方法：
102 |   - importance_type=weight（默认值），特征重要性使用特征在所有树中作为划分属性的次数。
103 |   - mportance_type=gain，特征重要性使用特征在作为划分属性时loss平均的降低量。
104 |   - importance_type=cover，特征重要性使用特征在作为划分属性时对样本的覆盖度。


--------------------------------------------------------------------------------
/AI算法/machine-learning/FrequentPattern.md:
--------------------------------------------------------------------------------
  1 | # 频繁模式(frequent pattern)
  2 | 频繁模式一般是指频繁地出现在数据集中的模式。这种频繁模式和关联规则是数据挖掘中想要挖掘的知识。我们都知道一个很有趣的故事，就是啤酒和尿布的故事，
  3 | 
  4 | 在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品，会经常出现在同一个购物篮中，且大多出现在年轻的父亲身上。
  5 | 
  6 | 分析背后原因是，在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲去超市买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒。
  7 | 
  8 | 由此，沃尔玛就在卖场尝试将啤酒与尿布摆放在相同区域，让年轻的父亲可以同时找到这两件商品，并很快地完成购物，从而极大提升商品销售收入。
  9 | 
 10 | 数据挖掘就是想要挖掘出这种有趣的模式，可以称做频繁模式和关联规则的挖掘，一般情况下使用支持度(support)和置信度(confidence)来表示关联的程度，领域的专家设置最小支持度和最小置信度阈值，如果某个模式大于最小支持度和最小置信度，就认为是频繁模式。
 11 | 
 12 | 为了挖掘这种模式，一般常用的有两种算法:
 13 | 1. Apriori
 14 | 2. Fp-tree
 15 | 
 16 | 在介绍这两个算法之前需要给出一些定义:   
 17 | 1. A=>B的支持度:
 18 |     $$support(A=>B)=p(A\cup B) \tag{1}$$
 19 | 2. A=>B的置信度:
 20 |     $$confidence(A=>B)=P(B|A)$$
 21 |     $$=\frac{support(A \cup B)}{supoort(A)}=\frac{support_count(A \cup B)}{supoort_count(A)} \tag{2}$$
 22 | 3. 一般关联规则的挖掘有两步过程:    
 23 |    + 找出所有的频繁项集: 每一个频繁出现的次数大于等于最小支持度技术min_sup.
 24 |    + 由频繁相机产生强关联规则: 这些规则必须满足最小支持度和最小置信度.
 25 | ## Apriori
 26 | Apriori通过限制候选产生发现频繁项集,它是为布尔关联规则挖掘频繁项集的原创性算法. 根据先验知识(频繁项集的所有非空子集也一定是频繁的).Apriri算法使用一种称为逐层搜索的迭代过程，其中k项集用于探索(k+1)项集. 
 27 | Apriori主要有两步完成: 连接步和剪枝步。
 28 | 这个算法给出一个例子更容易理解:
 29 | <img src="../assert/exm6.png">
 30 | 解答(详细过程请参考《数据挖掘概念与技术第三版》 p250)
 31 | <img src="../assert/apr.png">
 32 | 
 33 | ## FPTree
 34 | FPTree是基于频繁模式的增长，不产生候选挖掘频繁项集的挖掘方法，
 35 | 使用频繁模式增长方法,我们重新考察例图6.2事务数据库 D 的挖掘。
 36 | 数据库的第一次扫描与 Apriori 相同,它导出频繁项(1-项集)的集合,并得到它们的支持度计数(频繁性)。设最小支持度计数为 2。频繁项的集合按支持度计数的递减序排序。结果集或表记作 L 。这样,我们有：       
 37 | L = [I2:7, I1:6, I3:6, I4:2, I5:2]。
 38 | FP-树构造如下:
 39 | 1. 首先,创建树的根结点,用“null”标记。
 40 | 2. 二次扫描数据库 D。每个事务中的项按 L 中的次序处理(即,根据递减支持度计数排序)并对每个事务创建一个分枝.
 41 | 3. 例如,
 42 | 第一个事务“T100: I1, I2, I5”按 L 的次序包含三个项{ I2, I1, I5},导致构造树的第一个分
 43 | 枝<(I2:1), (I1:1), (I5:1)>。该分枝具有三个结点,其中,I2 作为根的子女链接,I1 链接到 I2,
 44 | I5 链接到 I1。第二个事务 T200 按 L 的次序包含项 I2 和 I4,它导致一个分枝,其中,I2 链接到根,
 45 | I4 链接到 I2。然而,该分枝应当与 T100 已存在的路径共享前缀<I2>。这样,我们将结点 I2 的计
 46 | 数增加 1,并创建一个新结点(I4:1),它作为(I2:2)的子女链接。一般地,当为一个事务考虑增加
 47 | 分枝时,沿共同前缀上的每个结点的计数增加 1,为随在前缀之后的项创建结点并链接。
 48 | 4. 为方便树遍历,创建一个项头表,使得每个项通过一个结点链指向它在树中的出现。扫描所有
 49 | 的事务之后得到的树展示在图 6.8 中,附上相关的结点链。这样,数据库频繁模式的挖掘问题就转换成挖掘 FP-树问题.
 50 | <img src="../assert/fptree.png"> 
 51 | 5. 根据fp tree得到频繁项集，根据支持度计数依次考虑每一个满足的元素，首先考虑计数最小的ID I5. 从根节点遍历所有到I5的路径，记录这个路径作为条件模式基,之后根据最小支持度得到条件Fp-tree，最后产生频繁项集. 具体的操作表格如下:
 52 | <img src="../assert/fp.png">
 53 | 
 54 | **注:** 详细见数据挖掘概念与技术第6章
 55 | 
 56 | # 核心公式
 57 | 1. 如何评估哪些模式是有趣的?
 58 | > 相关规则是A=>B[support, confidence]进一步扩充到相关分析A=>B[support, confidence, correlation]，       
 59 | > 常用的相关性度量:
 60 | > + 提升度(lift),计算公式如下:
 61 | > $$lift(A,b)=\frac{p(A \cup B)}{p(A)p(B)}=\frac{P(B|A)}{p(B)}=\frac{conf(A=>B)}{sup(B)} \tag{3}$$
 62 | > + 使用$\chi^2$进行相关分析
 63 | 
 64 | 2. 常用的模式评估度量
 65 | > + 全置信度(all_confidence)
 66 | > $$all_conf(A,B)=\frac{A \cup B}{max\{sup(A),sup(B)\}}=min\{p(A|B),p(B|A)\} \tag{4}$$
 67 | > + 最大置信度(max_confidence)
 68 | > $$max_conf(A,B)=max\{P(A|B),p(B|A)\} \tag{5}$$
 69 | > + Kulczynski(Kulc)度量
 70 | > $$Kulc(A,B)=\frac{1}{2}(P(A|B)+P(B|A)) \tag{6}$$
 71 | > + 余弦度量
 72 | > $$cosine(A,B)=\frac{P(A\cup B)}{\sqrt{P(A) \times P(B)}}=\frac{sup(A \cup B)}{\sqrt{(sup(A) \times sup(B))}}=\sqrt{P(A|B)\times P(B|A)} \tag{7}$$
 73 | 对于指示有趣的模式联系，全置信度、最大置信度、Kulczynsji和余弦哪个最好? 为了回答这个问题，引进不平衡比(Imbalance Ratio, IR)
 74 | $$IR(A,B)=\frac{|sup(A)-sup(B)|}{sup(A)+sup(B)-sup(A\cup B)} \tag{8}$$
 75 | # 算法十问
 76 | 1. 强规则一定是有趣的吗?
 77 | > 不一定，规则是否有兴趣可能用主观或客观的标准来衡量。最终,只有用户能够确定规则是否是有趣的,并且这种判断是主观的,因不同用户而异。
 78 | 
 79 | 2. 如何提高Apriori算法的效率?
 80 | > + **事务压缩**(压缩进一步迭代扫描的事务数):不包含任何 k-项集的事务不可能包含任何(k+1)-项集。这样,这种事务在其后的考虑时,可以加上标记或删除,因为为产生 j-项集(j > k),扫描数据库时不再需要它们。
 81 | > + **基于散列的技术**(散列项集计数):一种基于散列的技术可以用于压缩候选 k-项集 Ck (k >1)。
 82 | > **划分**(为找候选项集划分数据):可以使用划分技术,它只需要两次数据库扫描,以挖掘频繁项集。
 83 | > + **选样**(在给定数据的一个子集挖掘):选样方法的基本思想是:选取给定数据库 D 的随机样本 S,然后,在 S 而不是在 D 中搜索频繁项集。用这种方法,我们牺牲了一些精度换取了有效性。
 84 | > + **动态项集计数**(在扫描的不同点添加候选项集):动态项集计数技术将数据库划分为标记开始点的块。
 85 | 
 86 | 3. Apriori算法的优缺点?
 87 | > 1. 优点：
 88 | > + 简单、易理解
 89 | > + 数据要求低。
 90 | > 2. 缺点：
 91 | > + 在每一步产生候选项目集时循环产生的组合过多，没有排除不应该参与组合的元素。
 92 | > + 每次计算项集的支持度时，都对数据库中的全部记录进行了一遍扫描比较，如果是一个大型的数据库时，这种扫描会大大增加计算机的I/O开销。
 93 | > 3. 改进:
 94 | > + 利用建立临时数据库的方法来提高Apriori算法的效率。
 95 | > + Fp-tree 算法。以树形的形式来展示、表达数据的形态；可以理解为水在不同河流分支的流动过程。
 96 | > + 垂直数据分布。相当于把原始数据进行行转列的操作，并且记录每个元素的个数。
 97 | 
 98 | 4. FPtree vs Apriori算法
 99 | > FP-tree算法相对于Apriori算法，时间复杂度和空间复杂都有了显著的提高。但是对海量数据集，时空复杂度仍然很高，此时需要用到数据库划分等技术。
100 | 
101 | 
102 | # 面试真题
103 | 1. 简述Apriori算法的思想，谈谈该算法的应用领域并举例?       
104 | 思想：其发现关联规则分两步，第一是通过迭代，检索出数据源中所有烦琐项集，即支持度不低于用户设定的阀值的项即集，第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则，其中，第一步即挖掘出所有频繁项集是该算法的核心，也占整个算法工作量的大部分。在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用，主要采用了Apriori算法.
105 | 2. 简述FPtree的原理和Apriori的不同?
106 | 
107 | 3. 豆瓣电影数据集关联规则挖掘?  
108 | 如果让你分析电影数据集中的导演和演员信息，从而发现两者之间的频繁项集及关联规则，你会怎么做？
109 | 
110 | # 参考
111 | 1. https://saliormoon.github.io/2016/07/01/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%97%AE%E9%A2%981/
112 | 2. 数据挖掘概念与技术第三版
113 | 3. https://baijiahao.baidu.com/s?id=1607039314145277013&wfr=spider&for=pc
114 | 4. 


--------------------------------------------------------------------------------
/AI算法/machine-learning/HMM.md:
--------------------------------------------------------------------------------
 1 | # HMM #
 2 | #### Author: 李文乐; Email: cocoleYY@outlook.com ####
 3 | 
 4 | 
 5 | ## 直观理解 ##
 6 | 
 7 | ------------------------------------------------------------
 8 | 马尔可夫链（英语：Markov chain），又称离散时间马尔可夫链（discrete-time Markov chain，缩写为DTMC），因俄国数学家安德烈·马尔可夫（俄语：Андрей Андреевич Марков）得名，为状态空间中经过从一个状态到另一个状态的转换的随机过程。  
 9 | 隐马尔可夫模型包含5个要素：**初始概率分布，状态转移概率分布，观测概率分布，所有可能状态的集合，所有可能观测的集合**。  
10 | 隐马尔可夫模型HMM是结构最简单的动态贝叶斯网络，是**有向图模型**。  
11 | 
12 | ## 核心公式 ##
13 | 
14 | ----------
15 | 1. 依据马尔可夫性，所有变量的联合概率分布为：  
16 | > ![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/y3zg1TDuIJGhEoCSULdtzszvuKIYGR91GX0V9e6t8mY!/b/dL8AAAAAAAAA&bo=zQE4AAAAAAARB8Q!&rf=viewer_4)  
17 | 
18 | 
19 | ## 注意要点 ##
20 | 
21 | ----------
22 | 
23 | 
24 | - 统计语言模型[Statistical Language Model]
25 | > 是自然语言处理的重要技术，对于要处理的一段文本，我们可以看做是离散的时间序列，并且具有上下文依存关系；该模型可以应用在语音识别和机器翻译等领域，其模型表达式如下：  
26 | > ![](http://m.qpic.cn/psb?/V11thrEZ18EV2M/VCYlXkt5CTD8qCeTNEGGbOzbC0P1ulagomRNpGJVoh8!/b/dLgAAAAAAAAA&bo=lgFMAAAAAAARF*s!&rf=viewer_4)  
27 | > 如果只考虑前n-1个单词的影响，称为n元语法(n-grams),那么语言模型变为：  
28 | > ![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/ruqcInmRICKbhoBQyRGXCVAVhHHU9GoUd7I0PE4uI5U!/b/dDUBAAAAAAAA&bo=0AFHAAAAAAARB6Y!&rf=viewer_4)  
29 | > 注意：很多时候我们无法考量太久以前的词，一是因为距离太远的词与当前词关系不大，二是因为距离越长模型参数越多，并且成指数级增长，因此4元以上几乎没人使用。当n=2的时候，就是只考虑前一个单词的一阶马尔科夫链模型，大家都知道在NLP任务中，上下文信息相关性的跨度可能非常大，马尔科夫模型无法处理这样的问题，需要新的模型可以解决这种长程依赖性(Long Distance Dependency)。  
30 | > 这里可以回忆一下RNN/LSTM网络，通过隐状态传递信息，可以有效解决长程依赖问题，但当处理很长的序列的时候，它们仍然面临着挑战，即梯度消失。
31 |   
32 | 
33 | 
34 | - 两点马尔可夫性质：[可以理解为无记忆性；留意：NLP问题会涉及哦]  
35 | 	
36 | 
37 | > （1）. 下一个状态的概率分布只与当前状态有关  
38 | 			![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/VlLQJYru9cCYXpDnysn3kTOfnC*iVWjZazU*srv20nw!/b/dDYBAAAAAAAA&bo=BAIyAAAAAAARBwQ!&rf=viewer_4)  
39 | 	
40 | 
41 | > （2）. 下一个时刻的观测只与其相对应的状态有关  
42 | 			![](http://m.qpic.cn/psb?/V11thrEZ18EV2M/pHu31gXWQnnUuPqUPF.OGld*1N5VtsQ9YAhwVwegRBI!/b/dAYBAAAAAAAA&bo=CgIvAAAAAAARFwc!&rf=viewer_4)  
43 | 
44 | 
45 | 
46 | - 最大熵马尔可夫模型为什么会产生标注偏置问题？如何解决？
47 |   
48 | 
49 | 
50 | - HMM为什么是生成模型
51 | > 因为HMM直接对联合概率分布建模；相对而言，条件随机场CRF直接对条件概率建模，所以是判别模型。  
52 | 
53 | 
54 | 
55 | - HMM在处理NLP词性标注和实体识别任务中的局限性
56 | > 在序列标注问题中，隐状态（标注）不仅和单个观测状态相关，还 和观察序列的长度、上下文等信息相关。例如词性标注问题中，一个词被标注为 动词还是名词，不仅与它本身以及它前一个词的标注有关，还依赖于上下文中的 其他词  
57 | >  
58 | 
59 | 
60 | 
61 | - 隐马尔可夫模型包括概率计算问题、预测问题、学习问题三个基本问题	  
62 | > （1）概率计算问题：已知模型的所有参数，计算观测序列Y出现的概率，可 使用前向和后向算法求解。  
63 | > （2）预测问题：已知模型所有参数和观测序列Y，计算最可能的隐状态序 列X，可使用经典的动态规划算法——维特比算法来求解最可能的状态序列。   
64 | > （3）学习问题：已知观测序列Y，求解使得该观测序列概率最大的模型参 数，包括隐状态序列、隐状态之间的转移概率分布以及从隐状态到观测状态的概 率分布，可使用Baum-Welch算法进行参数的学习，Baum-Welch算法是最大期望算 法的一个特例。
65 | 
66 | 
67 | 
68 | - 浅谈最大熵模型
69 | >最大熵这个词听起来很玄妙，其实就是保留全部的不确定性，将风险降到最小。  
70 | >应用在词性标注，句法分析，机器翻译等NLP任务中。  
71 | >![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/b7zb1D1Obg8wK8WVUacEg*PGY1f5voNT.CQpcGwNTjQ!/b/dFMBAAAAAAAA&bo=tgFVAgAAAAADB8I!&rf=viewer_4)  
72 | >
73 | 
74 | 
75 | 
76 | ## 面试真题 ##
77 | 
78 | ----------
79 | 1. 如何对中文分词问题用HMM模型进行建模的训练？  
80 | ![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/qrxf7RmpPpOope..bx*jIfLkDAarZNo2vV*eUKu1238!/b/dDQBAAAAAAAA&bo=OQIRAwAAAAADBws!&rf=viewer_4)  
81 | 2. 最大熵HMM模型为什么会产生标注偏置问题，如何解决？  
82 | ![](https://m.qpic.cn/psb?/V11thrEZ18EV2M/xW2pgRjkJbr9ERjCFYtgDV7m0yu5mCJKQiP56pLUFS8!/b/dMQAAAAAAAAA&bo=5QHWBgAAAAADBxY!&rf=viewer_4)  
83 | 
84 | 
85 | 
86 | ## 参考 ##
87 | 1.隐马尔可夫链定义参考维基百科  
88 | 2.统计学 李航  
89 | 3.数学之美  
90 | 4.百面机器学习  
91 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/LightGBM.md:
--------------------------------------------------------------------------------
  1 | ![](img/LightGBM/LightGBM.PNG)
  2 | 
  3 | 
  4 | 
  5 | # LightGBM面试题
  6 | 
  7 | ## 1. 简单介绍一下LightGBM？
  8 | 
  9 | LightGBM是一个梯度 boosting 框架，使用基于学习算法的决策树。 它可以说是分布式的，高效的。
 10 | 
 11 | 从 LightGBM 名字我们可以看出其是轻量级（Light）的梯度提升机（GBM），其相对 XGBoost 具有训练速度快、内存占用低的特点。
 12 | 
 13 | LightGBM 是为解决GBDT训练速度慢，内存占用大的缺点，此外还提出了：
 14 | 
 15 | - 基于Histogram的决策树算法
 16 | 
 17 | - 单边梯度采样 Gradient-based One-Side Sampling(GOSS)
 18 | 
 19 | - 互斥特征捆绑 Exclusive Feature Bundling(EFB)
 20 | 
 21 | - 带深度限制的Leaf-wise的叶子生长策略
 22 | 
 23 | - 直接支持类别特征(Categorical Feature)
 24 | 
 25 | - 支持高效并行
 26 | 
 27 | - Cache命中率优化
 28 | 
 29 | ## 2. 介绍一下直方图算法？
 30 | 
 31 |  直方图算法就是使用直方图统计，将大规模的数据放在了直方图中，分别是每个bin中**样本的梯度之和** 还有就是每个bin中**样本数量**
 32 | 
 33 | - 首先确定对于每一个特征需要多少个箱子并为每一个箱子分配一个整数；
 34 | 
 35 | - 将浮点数的范围均分成若干区间，区间个数与箱子个数相等
 36 | 
 37 | - 将属于该箱子的样本数据更新为箱子的值
 38 | 
 39 | - 最后用直方图表示
 40 | 
 41 | 优点：
 42 | 
 43 | **内存占用更小**：相比xgb不需要额外存储预排序，且只保存特征离散化后的值(整型)
 44 | 
 45 | **计算代价更小**: 相比xgb不需要遍历一个特征值就需要计算一次分裂的增益，只需要计算k次(k为箱子的个数)
 46 | 
 47 | **直方图做差加速**：一个叶子的直方图可以由它的父亲节点的直方图与它兄弟的直方图做差得到，在速度上可以提升一倍
 48 | 
 49 | ## 3. 介绍一下Leaf-wise和 Level-wise？
 50 | 
 51 | XGBoost 采用 Level-wise，策略遍历一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，实际上很多叶子的分裂增益较低，没必要进行搜索和分裂
 52 | 
 53 | LightGBM采用Leaf-wise的增长策略，该策略每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，Leaf-wise的优点是：在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度；Leaf-wise的缺点是：可能会长出比较深的决策树，产生过拟合。因此LightGBM会在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合
 54 | 
 55 | ## 4. 介绍一下单边梯度采样算法(GOSS)？
 56 | 
 57 | GOSS算法从减少样本的角度出发，排除大部分小梯度的样本，仅用剩下的样本计算信息增益，它是一种在减少数据量和保证精度上平衡的算法。与此同时，未了不改变数据的总体分布，GOSS对要进行分裂的特征按照绝对值大小进行排序，选取最大的a个数据，在剩下梯度小的数据中选取b个，这b个数据乘以权重$\frac{1-a}{b}$,最后使用这a+b个数据计算信息增益。
 58 | 
 59 | ## 5. 介绍互斥特征捆绑算法(EFB)？
 60 | 
 61 | 互斥特征捆绑算法（Exclusive Feature Bundling, EFB）指出如果将一些特征进行融合绑定，则可以降低特征数量。
 62 | LightGBM的EFB算法将这个问题转化为图着色的问题来求解，将所有的特征视为图的各个顶点，将不是相互独立的特征用一条边连接起来，边的权重就是两个相连接的特征的总冲突值，这样需要绑定的特征就是在图着色问题中要涂上同一种颜色的那些点（特征）。另外，算法可以允许一小部分的冲突，我们可以得到更少的绑定特征，进一步提高计算效率。
 63 | 
 64 | ## 6. 特征之间如何捆绑？
 65 | 
 66 | 比如，我们在bundle中绑定了两个特征A和B，A特征的原始取值为区间 $[0,10)$，B特征的原始取值为区间$[0,20)$，我们可以在B特征的取值上加一个偏置常量10，将其取值范围变为$[10,30)$，绑定后的特征取值范围为$[0,30)$
 67 | 
 68 | ## 7. LightGBM是怎么支持类别特征？
 69 | 
 70 | * 离散特征建立直方图的过程 
 71 | 
 72 |   统计该特征下每一种离散值出现的次数，并从高到低排序，并过滤掉出现次数较少的特征值, 然后为每一个特征值，建立一个bin容器。
 73 | 
 74 | * 计算分裂阈值的过程 
 75 | 
 76 |   * 先看该特征下划分出的bin容器的个数，如果bin容器的数量小于4，直接使用one vs other方式, 逐个扫描每一个bin容器，找出最佳分裂点;
 77 | 
 78 |   * 对于bin容器较多的情况, 先进行过滤，只让子集合较大的bin容器参加划分阈值计算, 对每一个符合条件的bin容器进行公式计算
 79 |     $$
 80 |     \frac{该bin容器下所有样本的一阶梯度之和 }{ 该bin容器下所有样本的二阶梯度之和} + 正则项 
 81 |     $$
 82 |     
 83 | * **这里为什么不是label的均值呢？其实"label的均值"只是为了便于理解，只针对了学习一棵树且是回归问题的情况， 这时候一阶导数是Y, 二阶导数是1**)，得到一个值，根据该值对bin容器从小到大进行排序，然后分从左到右、从右到左进行搜索，得到最优分裂阈值。但是有一点，没有搜索所有的bin容器，而是设定了一个搜索bin容器数量的上限值，程序中设定是32，即参数max_num_cat。
 84 |   
 85 | * LightGBM中对离散特征实行的是many vs many 策略，这32个bin中最优划分的阈值的左边或者右边所有的bin容器就是一个many集合，而其他的bin容器就是另一个many集合。
 86 |   
 87 | * 对于连续特征，划分阈值只有一个，对于离散值可能会有多个划分阈值，每一个划分阈值对应着一个bin容器编号，当使用离散特征进行分裂时，只要数据样本对应的bin容器编号在这些阈值对应的bin集合之中，这条数据就加入分裂后的左子树，否则加入分裂后的右子树。
 88 | 
 89 | ## 8. LightGBM的优缺点
 90 | 
 91 | 优点：
 92 | 
 93 | - 直方图算法极大的降低了时间复杂度；
 94 | - 单边梯度算法过滤掉梯度小的样本，减少了计算量；
 95 | - 基于 Leaf-wise 算法的增长策略构建树，减少了计算量；
 96 | - 直方图算法将存储特征值转变为存储 bin 值，降低了内存消耗
 97 | - 互斥特征捆绑算法减少了特征数量，降低了内存消耗
 98 | 
 99 | 缺点：
100 | 
101 | - LightGBM在Leaf-wise可能会长出比较深的决策树，产生过拟合
102 | - LightGBM是基于偏差的算法，所以会对噪点较为敏感；
103 | 
104 | 
105 | 
106 | ## 9. GBDT是如何做回归和分类的
107 | 
108 | - **回归**
109 | 
110 |   生成每一棵树的时候，第一棵树的一个叶子节点内所有样本的label的均值就是这个棵树的预测值，后面根据残差再预测，最后根据将第一棵树的预测值+权重*(其它树的预测结果)
111 | 
112 |   ![image-20210629173116854](../../../../../Library/Application Support/typora-user-images/image-20210629173116854.png)
113 | 
114 | * **分类**
115 | 
116 |   分类时针对样本有三类的情况，
117 | 
118 |   * 首先同时训练三颗树。
119 |     - 第一棵树针对样本 x 的第一类，输入为（x, 0）。
120 |     - 第二棵树输入针对样本 x 的第二类，假设 x 属于第二类，输入为（x, 1）。
121 |     - 第三棵树针对样本 x 的第三类，输入为（x, 0）。
122 |     - 参照 CART 的生成过程。输出三棵树对 x 类别的预测值 f1(x), f2(x), f3(x)。
123 |   * 在后面的训练中，我们仿照多分类的逻辑回归，使用 softmax 来产生概率。
124 |     - 针对类别 1 求出残差 f11(x) = 0 − f1(x)；
125 |     - 类别 2 求出残差 f22(x) = 1 − f2(x)；
126 |     - 类别 3 求出残差 f33(x) = 0 − f3(x)。
127 |   * 然后第二轮训练，
128 |     - 第一类输入为(x, f11(x))
129 |     - 第二类输入为(x, f22(x))
130 |     - 第三类输入为(x, f33(x))。
131 |   * 继续训练出三棵树，一直迭代 M 轮，每轮构建 3 棵树。当训练完毕以后，新来一个样本 x1，我们需要预测该样本的类别的时候，便可使用 softmax 计算每个类别的概率。
132 | 
133 |   
134 | 
135 | ## 参考资料
136 | 
137 | 深入理解LightGBM https://mp.weixin.qq.com/s/zejkifZnYXAfgTRrkMaEww
138 | 
139 | 决策树（下）——XGBoost、LightGBM（非常详细） - 阿泽的文章 - 知乎 https://zhuanlan.zhihu.com/p/87885678
140 | 
141 | Lightgbm如何处理类别特征： https://blog.csdn.net/anshuai_aw1/article/details/83275299
142 | 
143 | LightGBM 直方图优化算法：https://blog.csdn.net/jasonwang_/article/details/80833001
144 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/NaïveBayes.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 贝叶斯面试题
  4 | 
  5 | ## 1.简述朴素贝叶斯算法原理和工作流程
  6 | 
  7 | **工作原理**：
  8 | 
  9 | * 假设现在有样本$x=(x_1, x_2, x_3, \dots x_n)$待分类项
 10 | * 假设样本有$m$个特征$(a_1,a_2,a_3,\dots a_m)$(特征独立)
 11 | * 再假设现在有分类目标$Y=\{ y_1，y_2，y_3，\dots ,y_n\}$
 12 | * 那么就$\max ({P}({y}_1 | {x}), {P}({y}_2 | {x}), {P}({y}_3 | {x}) ,{P}({y_n} | {x}))$是最终的分类类别。
 13 | * 而$P(y_i | x)=\frac{P(x | y_i) * P(y_i)}{ P(x)} $，因为$x$对于每个分类目标来说都一样，所以就是求$\max({P}({x}|{y_i})*{P}({y_i}))$
 14 | * $P(x | y _i) * P(y_i)=P(y_i) * \prod(P(a_j| y_i))$，而具体的$P(a_j|y_i)$和$P(y_i)$都是能从训练样本中统计出来
 15 | * ${P}({a_j} | {y_i})$表示该类别下该特征$a_j$出现的概率$P(y_i)$表示全部类别中这个这个类别出现的概率,这样就能找到应该属于的类别了
 16 | 
 17 | 
 18 | 
 19 | ## 2. 条件概率、先验概率、后验概率、联合概率、贝叶斯公式的概念
 20 | 
 21 | * 条件概率：
 22 |   
 23 |   * $P(X|Y)$含义： 表示$Y$发生的条件下$X$发生的概率。
 24 | * 先验概率
 25 |   
 26 |   * **表示事件发生前的预判概率。**这个可以是基于历史数据统计，也可以由背景常识得出，也可以是主观观点得出。一般都是单独事件发生的概率，如 $P(X)$
 27 | * 后验概率
 28 |   
 29 |   * 基于先验概率求得的**反向条件概率**，形式上与条件概率相同(若$P(X|Y)$ 为正向，则$P(Y|X)$ 为反向)
 30 | * 联合概率：
 31 |   
 32 | * 事件$X$与事件$Y$同时发生的概率。
 33 |   
 34 | * 贝叶斯公式
 35 | 
 36 |   * 
 37 |     $$
 38 |     P(Y|X) = \frac{P(X|Y) P(Y)}{P(X)}  \\
 39 |     $$
 40 | 
 41 |   * $P(Y)$ 叫做**先验概率**：事件$X$发生之前，我们根据以往经验和分析对事件$Y$发生的一个概率的判断
 42 | 
 43 |   * $P(Y|X)$ 叫做**后验概率**：事件$X$发生之后，我们对事件$Y$发生的一个概率的重新评估
 44 | 
 45 |   * $P(Y,X)$叫做**联合概率**：事件$X$与事件$Y$同时发生的概率。
 46 |   
 47 |   * 先验概率和后验概率是相对的。如果以后还有新的信息引入，更新了现在所谓的后验概率，得到了新的概率值，那么这个新的概率值被称为后验概率。
 48 | 
 49 | 
 50 | 
 51 | ## 3.为什么朴素贝叶斯如此“朴素”？
 52 | 
 53 | 因为它**假定所有的特征在数据集中的作用是同样重要和独立的**。正如我们所知，这个假设在现实世界中是很不真实的，因此，说朴素贝叶斯真的很“朴素”。用贝叶斯公式表达如下：
 54 | $$
 55 | P(Y|X_1, X_2) = \frac{P(X_1|Y) P(X_2|Y) P(Y)}{P(X_1)P(X_2)}
 56 | $$
 57 | **而在很多情况下，所有变量几乎不可能满足两两之间的条件。**
 58 | 
 59 | 朴素贝叶斯模型(Naive Bayesian Model)的朴素(Naive)的含义是**“很简单很天真”**地假设样本特征彼此独立.这个假设现实中基本上不存在，但特征相关性很小的实际情况还是很多的，所以这个模型仍然能够工作得很好。
 60 | 
 61 | ## 4.什么是贝叶斯决策理论？
 62 | 
 63 | 贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策(选择概率最大的类别)。
 64 | 贝叶斯决策理论方法是统计模型决策中的一个基本方法，其**基本思想**是：
 65 | 
 66 | * 已知类条件概率密度参数表达式和先验概率
 67 | * 利用贝叶斯公式转换成后验概率
 68 | * 根据后验概率大小进行决策分类
 69 | 
 70 | ## 5.朴素贝叶斯算法的前提假设是什么？
 71 | 
 72 | * 特征之间相互独立
 73 | * 每个特征同等重要
 74 | 
 75 | ## 6.为什么属性独立性假设在实际情况中很难成立，但朴素贝叶斯仍能取得较好的效果?
 76 | 
 77 | * 对于分类任务来说，只要各类别的条件概率排序正确、无需精准概率值即可导致正确分类；
 78 | * 如果属性间依赖对所有类别影响相同，或依赖关系的影响能相互抵消，则属性条件独立性假设在降低计算开销的同时不会对性能产生负面影响。
 79 | 
 80 | ## 7.什么是朴素贝叶斯中的零概率问题？如何解决？
 81 | 
 82 | **零概率问题**：在计算实例的概率时，如果某个量$x$，在观察样本库(训练集)中没有出现过，会导致整个实例的概率结果是0。
 83 | 
 84 | **解决办法**：若$P(x)$为零则无法计算。为了解决零概率的问题，法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率，所以加法平滑也叫做**拉普拉斯平滑**。
 85 | 
 86 | **举个栗子**：假设在文本分类中，有3个类，$C1、C2、C3$，在指定的训练样本中，某个词语$K1$，在各个类中观测计数分别为0，990，10，$K1$的概率为0，0.99，0.01，对这三个量使用拉普拉斯平滑的计算方法如下：
 87 | 
 88 | ```
 89 | 1/1003=0.001，
 90 | 991/1003=0.988，
 91 | 11/1003=0.011
 92 | 在实际的使用中也经常使用加 lambda(1≥lambda≥0)来代替简单加1。如果对N个计数都加上lambda，这时分母也要记得加上N*lambda。
 93 | ```
 94 | 
 95 | 将朴素贝叶斯中的所有概率计算**应用拉普拉斯平滑即可以解决零概率问题**。
 96 | 
 97 | ## 8.朴素贝叶斯中概率计算的下溢问题如何解决？
 98 | 
 99 | **下溢问题**：在朴素贝叶斯的计算过程中，需要对特定分类中各个特征出现的**概率进行连乘，小数相乘，越乘越小，这样就造成了下溢出**。
100 | 为了解决这个问题，对乘积结果取自然对数。通过求对数可以避免下溢出或者浮点数舍入导致的错误。
101 | $$
102 | \prod_{i=x}^{n} p\left(x_{i} | y_{j}\right)
103 | $$
104 | **解决办法**：对其**取对数**：
105 | $$
106 | \log \prod_{i=1}^{n} p\left(x_{i} | y_{j}\right)
107 | $$
108 | 
109 | $$
110 | =\sum_{i=1}^{n} \log p\left(x_{i} | y_{j}\right)
111 | $$
112 | 
113 | 将小数的乘法操作转化为取对数后的加法操作，规避了变为零的风险同时并不影响分类结果。
114 | 
115 | ## 9.当数据的属性是连续型变量时，朴素贝叶斯算法如何处理？
116 | 
117 | 当朴素贝叶斯算法数据的属性为连续型变量时，有两种方法可以计算属性的类条件概率。
118 | 
119 | * 第一种方法：把一个连续的属性离散化，然后用相应的离散区间替换连续属性值。但这种方法不好控制离散区间划分的粒度。如果粒度太细，就会因为每个区间内训练记录太少而不能对$P(X|Y)$
120 |   做出可靠的估计，如果粒度太粗，那么有些区间就会有来自不同类的记录，因此失去了正确的决策边界。
121 | * 第二种方法：假设连续变量服从某种概率分布，然后使用训练数据估计分布的参数，例如可以使用高斯分布来表示连续属性的类条件概率分布。
122 |   * 高斯分布有两个参数，均值$\mu$和方差$\sigma 2$，对于每个类$y_i$，属性$X_i$的类条件概率等于：
123 | 
124 | $$
125 | P\left(X_{i}=x_{i} | Y=y_{j}\right)=\frac{1}{\sqrt{2 \Pi} \sigma_{i j}^{2}} e^{\frac{\left(x_{i}-\mu_{j}\right)^{2}}{2 \sigma_{i}^{2}}}
126 | $$
127 | 
128 | $\mu_{i j}$：类$y_j$的所有训练记录关于$X_i$的样本均值估计
129 | 
130 | $\sigma_{i j}^{2}$：类$y_j$的所有训练记录关于$X$的样本方差
131 | 
132 | 通过高斯分布估计出类条件概率。
133 | 
134 | ## 10.朴素贝叶斯有哪几种常用的分类模型？
135 | 
136 | 朴素贝叶斯的三个常用模型：高斯、多项式、伯努利
137 | 
138 | * 高斯模型：
139 | 
140 |   * 处理包含连续型变量的数据，使用高斯分布概率密度来计算类的条件概率密度
141 | 
142 | * 多项式模型：
143 | 
144 |   * 其中$\alpha$为拉普拉斯平滑，加和的是属性出现的总次数，比如文本分类问题里面，不光看词语是否在文本中出现，也得看出现的次数。如果总词数为$n$，出现词数为$m$的话，说起来有点像掷骰子$n$次出现$m$次这个词的场景。
145 |     $$
146 |     P\left(x_{i} | y_{k}\right)=\frac{N_{y k_{1}}+\alpha}{N_{y_{k}}+\alpha n}
147 |     $$
148 |     
149 |   * 多项式模型适用于离散特征情况，在文本领域应用广泛， 其基本思想是：**我们将重复的词语视为其出现多次**。
150 |   
151 | * 伯努利模型：
152 | 
153 |   * 伯努利模型特征的取值为布尔型，即出现为true没有出现为false，在文本分类中，就是一个单词有没有在一个文档中出现。
154 | 
155 |   * 伯努利模型适用于离散特征情况，它将重复的词语都视为只出现一次。
156 |     $$
157 |     P( '代开'， '发票'， '发票'， '我' | S) = P('代开' | S)   P( '发票' | S) P('我' | S)
158 |     $$
159 |     我们看到，”发票“出现了两次，但是我们只将其算作一次。我们看到，”发票“出现了两次，但是我们只将其算作一次。
160 | 
161 | ## 11.为什么说朴素贝叶斯是高偏差低方差？
162 | 
163 | 在统计学习框架下，大家刻画模型复杂度的时候，有这么个观点，认为$Error=Bias +Variance$。
164 | 
165 | * $Error$反映的是整个模型的准确度，
166 | * $Bias$反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，
167 | * $Variance$反映的是模型每一次输出结果与模型输出期望(平均值)之间的误差，即模型的稳定性，数据是否集中。
168 | * 对于复杂模型，充分拟合了部分数据，使得他们的偏差较小，而由于对部分数据的过度拟合，对于部分数据预测效果不好，整体来看可能引起方差较大。
169 | * 对于朴素贝叶斯了。它简单的假设了各个数据之间是无关的，是一个被严重简化了的模型，简单模型与复杂模型相反，大部分场合偏差部分大于方差部分，也就是说高偏差而低方差。
170 | 
171 | ## 12.朴素贝叶斯为什么适合增量计算？
172 | 
173 | 因为朴素贝叶斯在训练过程中实际只需要计算出各个类别的概率和各个特征的类条件概率，这些概率值可以快速的根据增量数据进行更新，无需重新全量训练，所以其十分适合增量计算，该特性可以使用在超出内存的大量数据计算和按小时级等获取的数据计算中。
174 | 
175 | ## 13.高度相关的特征对朴素贝叶斯有什么影响？
176 | 
177 | 假设有两个特征高度相关，相当于该特征在模型中发挥了两次作用(计算两次条件概率)，使得朴素贝叶斯获得的结果向该特征所希望的方向进行了偏移，影响了最终结果的准确性，所以朴素贝叶斯算法应先处理特征，把相关特征去掉。
178 | 
179 | ## 14.朴素贝叶斯的应用场景有哪些？
180 | 
181 | * **文本分类/垃圾文本过滤/情感判别**：
182 |   这大概是朴素贝叶斯应用最多的地方了，即使在现在这种分类器层出不穷的年代，在文本分类场景中，朴素贝叶斯依旧坚挺地占据着一席之地。因为多分类很简单，同时在文本数据中，分布独立这个假设基本是成立的。而垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。
183 | * **多分类实时预测**：
184 |   对于文本相关的多分类实时预测，它因为上面提到的优点，被广泛应用，简单又高效。
185 | * **推荐系统**：
186 |   朴素贝叶斯和协同过滤是一对好搭档，协同过滤是强相关性，但是泛化能力略弱，朴素贝叶斯和协同过滤一起，能增强推荐的覆盖度和效果。
187 | 
188 | ## 15.朴素贝叶斯有什么优缺点？
189 | 
190 | * 优点：
191 |   * 对数据的训练快，分类也快
192 |   * 对缺失数据不太敏感，算法也比较简单
193 |   * 对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，可以一批批的去增量训练
194 | * 缺点：
195 |   * 对输入数据的表达形式很敏感
196 |   * 由于朴素贝叶斯的“朴素”特点，所以会带来一些准确率上的损失。
197 |   * 需要计算先验概率，分类决策存在错误率。
198 | 
199 | ## 16.朴素贝叶斯与 LR 区别？
200 | 
201 | - **朴素贝叶斯是生成模型**，根据已有样本进行贝叶斯估计学习出先验概率 $P(Y)$ 和条件概率 $P(X|Y)$，进而求出联合分布概率 $P(X,Y)$，最后利用贝叶斯定理求解$P(Y|X)$， 而**LR是判别模型**，根据极大化对数似然函数直接求出条件概率 $P(Y|X)$
202 | - 朴素贝叶斯是基于很强的**条件独立假设**(在已知分类Y的条件下，各个特征变量取值是相互独立的)，而 LR 则对此没有要求
203 | - 朴素贝叶斯适用于数据集少的情景，而LR适用于大规模数据集。
204 | 
205 | ## 17. 贝叶斯优化算法(参数调优)
206 | 
207 | * 网格搜索和随机搜索：在测试一个新点时，会忽略前一个点的信息；
208 | 
209 | * 贝叶斯优化算法：充分利用了之前的信息。贝叶斯优化算法通过对目标函数形式进行学习，找到使目标函数向全局最优值提升的参数。
210 | 
211 | * 学习目标函数形式的方法：
212 |   * 首先根据先验分布，假设一个搜集函数；
213 |   * 每一次使用新的采样点来测试目标函数时，利用这个信息来更新目标函数的先验分布
214 |   * 算法测试由后验分布给出的全局最值最可能出现的位置的点。
215 | 
216 | 对于贝叶斯优化算法，有一个需要注意的地方，一旦找到了一个局部最优值，它会在该区域不断采样，所以很容易陷入局部最优值。为了弥补这个缺陷，贝叶斯优化算法会在探索和利用之间找到一个平衡点，“探索”就是在还未取样的区域获取采样点；而“利用”则是根据后验分布在最可能出现全局最值的区域进行采样。
217 | 
218 | ## 18.朴素贝叶斯分类器对异常值敏感吗?
219 | 
220 | 朴素贝叶斯是一种**对异常值不敏感**的分类器，保留数据中的异常值，常常可以保持贝叶斯算法的整体精度，如果对原始数据进行降噪训练，分类器可能会因为失去部分异常值的信息而导致泛化能力下降。
221 | 
222 | ## 19.朴素贝叶斯算法对缺失值敏感吗？
223 | 
224 | 朴素贝叶斯是一种**对缺失值不敏感**的分类器，朴素贝叶斯算法能够处理缺失的数据，在算法的建模时和预测时数据的属性都是单独处理的。因此**如果一个数据实例缺失了一个属性的数值，在建模时将被忽略**，不影响类条件概率的计算，在预测时，计算数据实例是否属于某类的概率时也将忽略缺失属性，不影响最终结果。
225 | 
226 | ## 20. 一句话总结贝叶斯算法
227 | 
228 | **贝叶斯分类器直接用贝叶斯公式解决分类问题**。假设样本的特征向量为$x$，类别标签为$y$，根据贝叶斯公式，样本属于每个类的条件概率（后验概率）为： 
229 | $$
230 | p(y | \mathbf{x})=\frac{p(\mathbf{x} | y) p(y)}{p(\mathbf{x})}
231 | $$
232 |  分母$p(x)$对所有类都是相同的，**分类的规则是将样本归到后验概率最大的那个类**，不需要计算准确的概率值，只需要知道属于哪个类的概率最大即可，这样可以忽略掉分母。分类器的判别函数为： 
233 | $$
234 | \arg \max _{y} p(\mathrm{x} | y) p(y)
235 | $$
236 | 在实现贝叶斯分类器时，**需要知道每个类的条件概率分布$p(x|y)$即先验概率**。一般假设样本服从正态分布。训练时确定先验概率分布的参数，一般用最大似然估计，即最大化对数似然函数。
237 | 
238 | **贝叶斯分类器是一种生成模型，可以处理多分类问题，是一种非线性模型。**
239 | 
240 | ## 21.朴素贝叶斯与LR的区别？（经典问题）
241 | 
242 | 朴素贝叶斯是生成模型，而LR为判别模型.朴素贝叶斯：已知样本求出先验概率与条件概率，进而计算后验概率。**优点：样本容量增加时，收敛更快；隐变量存在时也可适用。缺点：时间长；需要样本多；浪费计算资源**.     **Logistic回归**：不关心样本中类别的比例及类别下出现特征的概率，它直接给出预测模型的式子。设每个特征都有一个权重，训练样本数据更新权重w，得出最终表达式。**优点：直接预测往往准确率更高；简化问题；可以反应数据的分布情况，类别的差异特征；适用于较多类别的识别。缺点：收敛慢；不适用于有隐变量的情况。**    > + 朴素贝叶斯是基于很强的条件独立假设（在已知分类Y的条件下，各个特征变量取值是相互独立的），而LR则对此没有要求。    > + 朴素贝叶斯适用于数据集少的情景，而LR适用于大规模数据集。
243 | 
244 | 
245 | 
246 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/Prophet.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | ## Prophet面试题
  4 | 
  5 | ## 1. 简要介绍Prophet
  6 | 
  7 | 常见的时间序列分解方法：
  8 | 
  9 | 将时间序列分成季节项$S_t$，趋势项$T_t$，剩余项$R_t$，即对所有的$t≥0$
 10 | $$
 11 | y_{t}=S_{t}+T_{t}+R_{t}	
 12 | $$
 13 | 
 14 | $$
 15 | y_{t}=S_{t} \times T_{t} \times R_{t}
 16 | $$
 17 | 
 18 | $$
 19 | \ln y_{t}=\ln S_{t}+\ln T_{t}+\ln R_{t}
 20 | $$
 21 | 
 22 | fbprophet 的在此基础上，添加了节日项。
 23 | $$
 24 | y(t)=g(t)+s(t)+h(t)+\epsilon_{t}
 25 | $$
 26 | 
 27 | ## 2. 趋势项模型
 28 | 
 29 | * **基于逻辑回归**
 30 | 
 31 |    sigmoid 函数为
 32 |   $$
 33 |   \sigma(x)=1 /\left(1+e^{-x}\right)
 34 |   $$
 35 |   prophet在逻辑回归的基础上添加了随时间变化的参数，那么逻辑回归就可以改写成：
 36 |   $$
 37 |   f(x)=\frac{C(t)}{\left(1+e^{-k(t)(x-m(t))}\right)}
 38 |   $$
 39 |   这里的 $C$ 称为曲线的最大渐近值， $k$ 表示曲线的增长率，$m$  表示曲线的中点。当 $$
 40 |   C=1, k=1, m=0
 41 |   $$时，恰好就是大家常见的 sigmoid 函数的形式。
 42 | 
 43 | * **基于分段线性函数**
 44 |   $$
 45 |   g(t)=\frac{C(t)}{1+\exp \left(-\left(k+\boldsymbol{a}(t)^{t} \boldsymbol{\delta}\right) \cdot\left(t-\left(m+\boldsymbol{a}(t)^{T} \boldsymbol{\gamma}\right)\right.\right.}
 46 |   $$
 47 |   $k$表示变化量
 48 | 
 49 |   $a_{j}(t)$表示指示函数：
 50 |   $$
 51 |   a_{j}(t)=\left\{\begin{array}{l}1, \text { if } t \geq s_{j} \\ 0, \text { otherwise }\end{array}\right.
 52 |   $$
 53 |   $\delta_{j}$表示在时间戳$s_{j}$上的增长率的变化量
 54 | 
 55 |   $\gamma_{j}$确定线段边界
 56 |   $$
 57 |   \gamma_{j}=\left(s_{j}-m-\sum_{\ell<j} \gamma_{\ell}\right) \cdot\left(1-\frac{k+\sum_{\ell<j} \delta_{\ell}}{k+\sum_{\ell \leq j} \delta_{\ell}}\right)
 58 |   $$
 59 |   其中：
 60 |   $$
 61 |   \boldsymbol{a}(t)=\left(a_{1}(t), \cdots, a_{S}(t)\right)^{T}, \boldsymbol{\delta}=\left(\delta_{1}, \cdots, \delta_{S}\right)^{T}, \boldsymbol{\gamma}=\left({\gamma}_{1}, \cdots, \gamma_{S}\right)^{T}
 62 |   $$
 63 | 
 64 | ## 3. 变点的选择
 65 | 
 66 | 在 Prophet 算法中，需要给出变点的位置，个数，以及增长的变化率：
 67 | 
 68 | - changepoint_range
 69 | 
 70 |   changepoint_range 指的是百分比，需要在前 changepoint_range 那么长的时间序列中设置变点
 71 | 
 72 | - n_changepoint
 73 | 
 74 |   n_changepoint 表示变点的个数，在默认的函数中是 n_changepoint = 25
 75 | 
 76 | - changepoint_prior_scale。
 77 | 
 78 |   changepoint_prior_scale 表示变点增长率的分布情况
 79 |   $$
 80 |   \delta_{j} \sim \operatorname{Laplace}(0, \tau)
 81 |   $$
 82 |   $\mathcal{T}$就是 change_point_scale
 83 | 
 84 | ## 4. 对未来的预估
 85 | 
 86 | 对于已知的时间序列，可以手动设置s个变点
 87 | 
 88 | 对于预测的数据模型使用Poisson分布找到新增的变点，然后与已知的变点进行拼接
 89 | 
 90 | ## 5. 季节性趋势
 91 | 
 92 | 时间序列通常会随着天，周，月，年等季节性的变化而呈现季节性的变化，也称为周期性的变化
 93 | 
 94 | prophet算法使用傅立叶级数来模拟时间序列的周期性
 95 | 
 96 | $P$表示时间序列的周期， $P = 365.25$表示以年为周期，$P = 7$表示以周为周期。它的傅立叶级数的形式都是：
 97 | $$
 98 | s(t)=\sum_{n=1}^{N}\left(a_{n} \cos \left(\frac{2 \pi n t}{P}\right)+b_{n} \sin \left(\frac{2 \pi n t}{P}\right)\right)
 99 | $$
100 | 
101 | ## 6. 节假日效应（holidays and events）
102 | 
103 | 除了周末，同样有很多节假日，而且不同的国家有着不同的假期，不同的节假日可以看成相互独立的模型，并且可以为不同的节假日设置不同的前后窗口值，表示该节假日会影响前后一段时间的时间序列。
104 | $$
105 | h(t)=Z(t) \boldsymbol{\kappa}=\sum_{i=1}^{L} \kappa_{i} \cdot 1_{\left\{t \in D_{i}\right\}}
106 | $$
107 | 其中：$Z(t)=\left(1_{\left\{t \in D_{1}\right\}}, \cdots, 1_{\left\{t \in D_{L}\right\}}\right), \boldsymbol{\kappa}=\left(\kappa_{1}, \cdots, \kappa_{L}\right)^{T}$，$\boldsymbol{\kappa} \sim \operatorname{Normal}\left(0, v^{2}\right)$
108 | 
109 | 并且该正态分布是受到$v$ = holidays_prior_scale 这个指标影响的。默认值是 10，当值越大时，表示节假日对模型的影响越大；当值越小时，表示节假日对模型的效果越小
110 | 
111 | 
112 | 
113 | ## 7. 参数
114 | 
115 | 在 Prophet 中，用户一般可以设置以下四种参数：
116 | 
117 | 1. Capacity：在增量函数是逻辑回归函数的时候，需要设置的容量值。
118 | 
119 | 2. Change Points：可以通过 n_changepoints 和 changepoint_range 来进行等距的变点设置，也可以通过人工设置的方式来指定时间序列的变点。
120 | 
121 | 3. 季节性和节假日：可以根据实际的业务需求来指定相应的节假日。
122 | 
123 | 4. 光滑参数：
124 | 
125 |     $\tau$ = changepoint_prior_scale 可以用来控制趋势的灵活度
126 | 
127 |     $\sigma$ = seasonality_prior_scale 用来控制季节项的灵活度，
128 | 
129 |    $v$ =  holidays prior scale 用来控制节假日的灵活度。
130 | 
131 | 
132 | 
133 | 
134 | 
135 | ## 参考资料
136 | 
137 | https://zhuanlan.zhihu.com/p/52330017
138 | 
139 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/RandomForest.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 随机森林面试题
  4 | 
  5 | ## 1. 简单介绍随机森林
  6 | 
  7 | 一种基于树模型的Bagging的优化版本，一棵树的生成肯定还是不如多棵树，因此就有了随机森林，解决决策树泛化能力弱的特点。
  8 | 
  9 | **多次随机取样，多次随机取属性，选取最优分割点，构建多个(CART)分类器，投票表决**
 10 | 
 11 | **算法流程：**
 12 | 
 13 | * 输入为样本集$D=\{(x，y_1)，(x_2，y_2) \dots (x_m，y_m)\}$，弱分类器迭代次数$T$。
 14 | * 输出为最终的强分类器$f(x)$
 15 | 
 16 | * 对于$t=1，2 \dots T$
 17 |   * 对训练集进行第$t$次随机采样，共采集$m$次，得到包含$m$个样本的采样集Dt
 18 |   * 用采样集$D_t$训练第$t$个决策树模型$G_t(x)$，在训练决策树模型的节点的时候，在节点上所有的样本特征中选择一部分样本特征，在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分
 19 | * 如果是分类算法预测，则$T$个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法，$T$个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。
 20 | 
 21 | ## 2. 随机森林的随机性体现在哪里？
 22 | 
 23 | **多次有放回的随机取样，多次随机选择特征**
 24 | 
 25 | ## 3. 随机森林为什么不容易过拟合？
 26 | 
 27 | * 随机森林中的每一颗树都是过拟合的，拟合到非常小的细节上
 28 | 
 29 | * 随机森林通过引入随机性，使每一颗树拟合的细节不同
 30 | 
 31 | * 所有树组合在一起，过拟合的部分就会自动被消除掉。
 32 | 
 33 | 因此随机森林出现过拟合的概率相对低。
 34 | 
 35 | ## 4. 为什么不用全样本训练？
 36 | 
 37 | 全样本训练忽视了局部样本的规律（各个决策树趋于相同），对于模型的泛化能力是有害的，使随机森林算法在样本层面失去了随机性。
 38 | 
 39 | ## 5. 为什么要随机特征？
 40 | 
 41 | 随机特征保证基分类器的多样性（差异性），最终集成的泛化性能可通过个体学习器之间的差异度而进一步提升，从而提高泛化能力和抗噪能力。
 42 | 
 43 | ## 6. RF与 GBDT 的区别？
 44 | 
 45 | * 随机森林将多棵决策树的结果进行投票后得到最终的结果，对不同的树的训练结果也没有做进一步的优化提升，将其称为**Bagging算法。**
 46 | * GBDT用到的是**Boosting算法**，在迭代的每一步构建弱学习器弥补原有模型的不足。GBDT中的Gradient Boost就是通过每次迭代的时候构建一个沿梯度下降最快的方向的学习器。
 47 | 
 48 | ## 7. RF为什么比Bagging效率高？
 49 | 
 50 | 因为在个体决策树的构建过程中，Bagging使用的是“确定型”决策树，bagging在选择划分属性时要对每棵树是对所有特征进行考察；而随机森林仅仅考虑一个特征子集。
 51 | 
 52 | ## 8. 你已经建了一个有10000棵树的随机森林模型。在得到0.00的训练误差后，你非常高兴。但是，验证错误是34.23。到底是怎么回事？你还没有训练好你的模型吗？
 53 | - 模型过拟合十分严重
 54 | - 新的测试集与训练集的数据分布不一致
 55 | 
 56 | ## 9. 如何使用随机森林对特征重要性进行评估？
 57 | 
 58 | **袋外数据(OOB)**： 大约有1/3的训练实例没有参与第k棵树的生成，它们称为第$k$棵树的袋外数据样本。 
 59 | 
 60 | 在随机森林中某个特征$X$的重要性的计算方法如下：
 61 | 
 62 | * 对于随机森林中的每一颗决策树，使用相应的OOB(袋外数据)来计算它的袋外数据误差，记为$err_{OOB1}$。
 63 | * 随机地对袋外数据OOB所有样本的特征$X$加入噪声干扰(就可以随机的改变样本在特征X处的值)，再次计算它的袋外数据误差，记为$err_{OOB2}$。
 64 | * 假设随机森林中有$N$棵树，那么对于特征$X$的重要性为$(err_{OOB2}-err_{OOB1}/N)$，之所以可以用这个表达式来作为相应特征的重要性的度量值是因为：若给某个特征随机加入噪声之后，袋外的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大，也就是说它的重要程度比较高。
 65 | 
 66 | ## 10. 随机森林算法训练时主要需要调整哪些参数？
 67 | 
 68 | * **n_estimators:**随机森林建立子树的数量。
 69 |   较多的子树一般可以让模型有更好的性能，但同时让你的代码变慢。需要选择最佳的随机森林子树数量
 70 | 
 71 | * **max_features：**随机森林允许单个决策树使用特征的最大数量。
 72 |   增加max_features一般能提高模型的性能，因为在每个节点上，我们有更多的选择可以考虑。然而，这未必完全是对的，因为它降低了单个树的多样性，而这正是随机森林独特的优点。但是，可以肯定，你通过增加max_features会降低算法的速度。因此，你需要适当的平衡和选择最佳max_features。
 73 | 
 74 | * **max_depth：** 决策树最大深度
 75 | 
 76 |   默认决策树在建立子树的时候不会限制子树的深度
 77 | 
 78 | * **min_samples_split：**内部节点再划分所需最小样本数
 79 |   内部节点再划分所需最小样本数，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。
 80 | 
 81 | * **min_samples_leaf：** 叶子节点最少样本
 82 | 
 83 |   这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
 84 | 
 85 | * **max_leaf_nodes：** 最大叶子节点数
 86 | 
 87 |   通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。
 88 | 
 89 | * **min_impurity_split：** 节点划分最小不纯度
 90 |   这个值限制了决策树的增长，如果某节点的不纯度（基于基尼系数，均方差）小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。
 91 | 
 92 | ## 11. 随机森林的优缺点
 93 | 
 94 | - 优点
 95 |   - 训练可以高度并行化，对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。
 96 |   - 由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。
 97 |   - 在训练后，可以给出各个特征对于输出的重要性
 98 |   - 由于采用了随机采样，训练出的模型的方差小，泛化能力强。
 99 |   - 相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。
100 |   - 对部分特征缺失不敏感，如果有很大一部分的特征遗失，仍可以维持准确度。
101 | - 缺点
102 | 
103 |   - 在某些噪音比较大的样本集上，RF模型容易陷入过拟合。
104 |   - 取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。
105 | 
106 | ## 12. 简述一下Adaboost原理
107 | 
108 | Adaboost算法利用同一种基分类器（弱分类器），基于分类器的错误率分配不同的权重参数，最后累加加权的预测结果作为输出。
109 | 
110 | * Adaboost算法流程：
111 |   * 样本赋予权重，得到第一个分类器。
112 |   * 计算该分类器的错误率，根据错误率赋予分类器权重（注意这里是**分类器的权重**）。
113 |   * 增加分错样本的权重，减小分对样本的权重（注意这里是**样本的权重**）。
114 |   * 然后再用**新的样本权重**训练数据，得到新的分类器。
115 |   * 多次迭代，直到分类器错误率为0或者整体弱分类器错误为0，或者到达迭代次数。
116 |   * 将所有弱分类器的结果加权求和，得到一个较为准确的分类结果。错误率低的分类器获得更高的决定系数，从而在对数据进行预测时起关键作用。
117 | 
118 | ## 13. AdaBoost的优点和缺点
119 | 
120 | * 优点
121 |   * Adaboost提供一种框架，在框架内可以使用各种方法构建子分类器。可以使用简单的弱分类器，不用对特征进行筛选，也不存在过拟合的现象。
122 |   * Adaboost算法不需要弱分类器的先验知识，最后得到的强分类器的分类精度依赖于所有弱分类器。无论是应用于人造数据还是真实数据，Adaboost都能显著的提高学习精度。
123 |   * Adaboost算法不需要预先知道弱分类器的错误率上限，且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度，可以深挖分类器的能力。
124 |   * Adaboost可以根据弱分类器的反馈，自适应地调整假定的错误率，执行的效率高。
125 |   * Adaboost对同一个训练样本集训练不同的弱分类器，按照一定的方法把这些弱分类器集合起来，构造一个分类能力很强的强分类器，即“三个臭皮匠赛过一个诸葛亮"”。
126 | * 缺点
127 |   * 在Adaboost训练过程中，Adaboost会使得难于分类样本的权值呈指数增长，训练将会过于偏向这类困难的样本，导致Adaboost算法易受噪声干扰。
128 |   * Adaboost依赖于弱分类器，而弱分类器的训练时间往往很长。
129 | 
130 | ## 14. Adaboost对噪声敏感吗？
131 | 
132 | 在Adaboost训练过程中，Adaboost会使得难于分类样本的权值呈指数增长，训练将会过于偏向这类困难的样本，导致Adaboost算法易受噪声干扰。
133 | 
134 | ## 15. Adaboost和随机森林算法的异同点
135 | 
136 | 随机森林和Adaboost算法都可以用来分类，它们都是优秀的基于决策树的组合算法。
137 | 
138 | * 相同之处
139 |   * 二者都是Bootstrap自助法选取样本。
140 |   * 二者都是要训练很多棵决策树。
141 | * 不同之处
142 |   * Adaboost是基于Boosting的算法，随机森林是基于Bagging的算法。
143 |   * Adaboost后面树的训练，其在变量抽样选取的时候，对于上一棵树分错的样本，抽中的概率会加大。
144 |   * 随机森林在训练每一棵树的时候，随机挑选了部分特征作为拆分特征，而不是所有的特征都去作为拆分特征。
145 |   * 在预测新数据时，Adaboost中所有的树加权投票来决定因变量的预测值，每棵树的权重和错误率有关；随机森林按照所有树中少数服从多数树的分类值来决定因变量的预测值（或者求取树预测的平均值）。
146 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Adaboost/Adboost框架图.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Adaboost/Adboost框架图.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/CRF/image-20210903204605132.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/CRF/image-20210903204605132.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/LightGBM/LightGBM.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/LightGBM/LightGBM.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/LightGBM/LightGBM.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/LightGBM/LightGBM.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210616212000816.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210616212000816.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210616214012974.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210616214012974.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210616214714505.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210616214714505.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210616223053609.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210616223053609.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210713205533305.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210713205533305.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/Metrics/image-20210713205621418.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/Metrics/image-20210713205621418.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863-5645369.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863-5645369.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095607863.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095618159.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70-20211031095618159.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/SVM/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM1NTQ3Mjgx,size_16,color_FFFFFF,t_70.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/XGBoost/image-20210921182812155.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/XGBoost/image-20210921182812155.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/kNN/image-20210903212028347.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/kNN/image-20210903212028347.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/kNN/image-20210903212049572.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/kNN/image-20210903212049572.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/kNN/image-20210903212122156-0675286.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/kNN/image-20210903212122156-0675286.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/kNN/image-20210903212122156.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/kNN/image-20210903212122156.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/机器学习基础面试题/image-20210703211855105.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/机器学习基础面试题/image-20210703211855105.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/机器学习基础面试题/image-20210703212000568.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/机器学习基础面试题/image-20210703212000568.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/247f6539-1c10-75ac-84f8-02d238699dfd.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/247f6539-1c10-75ac-84f8-02d238699dfd.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/96b02ee9-c6ab-718f-b358-0a8db26f9cd7.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/96b02ee9-c6ab-718f-b358-0a8db26f9cd7.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/DwEp7GHqvo4Q9S1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/DwEp7GHqvo4Q9S1.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/JrBui5yzA3IGgk7.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/JrBui5yzA3IGgk7.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/f4a1eb7a-3ce3-7cea-84a0-d569423b2d01.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/f4a1eb7a-3ce3-7cea-84a0-d569423b2d01.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/image-20210927150625116.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/image-20210927150625116.png


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/v2-3aaa69f70754c469bca5c8e4c3e161db_720w.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/v2-3aaa69f70754c469bca5c8e4c3e161db_720w.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/v2-a026e24156e13a1d14c43df26b9bd2a4_720w.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/v2-a026e24156e13a1d14c43df26b9bd2a4_720w.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/img/过拟合与欠拟合/v2-f6edae58134c5a26687c3883af48d5d5_720w.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/AI算法/machine-learning/img/过拟合与欠拟合/v2-f6edae58134c5a26687c3883af48d5d5_720w.jpg


--------------------------------------------------------------------------------
/AI算法/machine-learning/kNN.md:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | # KNN面试题
 4 | 
 5 | ## 1.简述一下KNN算法的原理
 6 | 
 7 | KNN算法利用训练数据集对特征向量空间进行划分。KNN算法的核心思想是在一个含未知样本的空间，可以根据样本最近的k个样本的数据类型来确定未知样本的数据类型。
 8 | 该算法涉及的3个主要因素是：**k值选择，距离度量，分类决策**。
 9 | 
10 | ## 2. 如何理解kNN中的k的取值？
11 | 
12 | 在应用中，k值一般取比较小的值，并采用交叉验证法进行调优。
13 | 
14 | ## 3. 在kNN的样本搜索中，如何进行高效的匹配查找？
15 | 
16 | 线性扫描(数据多时，效率低)
17 | 构建数据索引——Clipping和Overlapping两种。前者划分的空间没有重叠，如k-d树；后者划分的空间相互交叠，如R树。（对R树了解很少，可以之后再去了解）
18 | 
19 | ## 4. KNN算法有哪些优点和缺点？
20 | 
21 | - 优点：
22 | 
23 |   ​	算法思想较简单，既可以做分类也可以做回归；可以用于非线性分类/回归；训练时间复杂度为O(n)；准确率高，对数据没有假设，对离群点不敏感。     
24 | 
25 | - 缺点：
26 | 
27 |   ​	计算量大；存在类别不平衡问题；需要大量的内存，空间复杂度高。
28 | 
29 | ## 5. 不平衡的样本可以给KNN的预测结果造成哪些问题，有没有什么好的解决方式？
30 | 输入实例的K邻近点中，大数量类别的点会比较多，但其实可能都离实例较远，这样会影响最后的分类。 可以使用权值来改进，距实例较近的点赋予较高的权值，较远的赋予较低的权值。
31 | 
32 | ## 6. 为了解决KNN算法计算量过大的问题，可以使用分组的方式进行计算，简述一下该方式的原理。
33 | 先将样本按距离分解成组，获得质心，然后计算未知样本到各质心的距离，选出距离最近的一组或几组，再在这些组内引用KNN。     本质上就是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本，该方法比较适用于样本容量比较大时的情况。
34 | 
35 | 
36 | 
37 | ##7. K-Means与KNN有什么区别
38 | - KNN
39 | 	+ KNN是分类算法 
40 | 	+ 监督学习 
41 | 	+ 喂给它的数据集是带label的数据，已经是完全正确的数据
42 | 	+ 没有明显的前期训练过程，属于memory-based learning	
43 | 	+ K的含义：来了一个样本x，要给它分类，即求出它的y，就从数据集中，在x附近找离它最近的K个数据点，这K个数据点，类别c占的个数最多，就把x的label设为c
44 | 
45 | - K-Means
46 | 	+ 1.K-Means是聚类算法 
47 | 	+ 2.非监督学习 
48 | 	+ 3.喂给它的数据集是无label的数据，是杂乱无章的，经过聚类后才变得有点顺序，先无序，后有序
49 | 	+ 有明显的前期训练过程
50 | 	+ K的含义：K是人工固定好的数字，假设数据集合可以分为K个簇，由于是依靠人工定好，需要一点先验知识
51 | 
52 | - 相似点
53 | 	- 都包含这样的过程，给定一个点，在数据集中找离它最近的点。即二者都用到了NN(Nears Neighbor)算法，一般用KD树来实现NN。
54 | 
55 | ##9. KD树改进   
56 | - Kd-tree在维度较小时（例如：K≤30），算法的查找效率很高，然而当Kd-tree用于对高维数据（例如：K≥100）进行索引和查找时，就面临着维数灾难（curse of dimension）问题，查找效率会随着维度的增加而迅速下降。通常，实际应用中，我们常常处理的数据都具有高维的特点，例如在图像检索和识别中，每张图像通常用一个几百维的向量来表示，每个特征点的局部特征用一个高维向量来表征（例如：128维的SIFT特征）。因此，为了能够让Kd-tree满足对高维数据的索引，Jeffrey S. Beis和David G. Lowe提出了一种改进算法——Kd-tree with BBF（Best Bin First），该算法能够实现近似K近邻的快速搜索，在保证一定查找精度的前提下使得查找速度较快。
57 | 
58 | - 在介绍BBF算法前，我们先来看一下原始Kd-tree是为什么在低维空间中有效而到了高维空间后查找效率就会下降。在原始kd-tree的最近邻查找算法中（第一节中介绍的算法），为了能够找到查询点Q在数据集合中的最近邻点，有一个重要的操作步骤：**回溯**，该步骤是在未被访问过的且与Q的超球面相交的子树分支中查找可能存在的最近邻点。随着维度K的增大，与Q的超球面相交的超矩形（子树分支所在的区域）就会增加，这就意味着需要回溯判断的树分支就会更多，从而算法的查找效率便会下降很大。 
59 | 
60 | - 从上述标准的kd树查询过程可以看出其搜索过程中的“回溯”是由“查询路径”决定的，并没有考虑查询路径上一些数据点本身的一些性质。一个简单的改进思路就是将“查询路径”上的结点进行排序，如按各自分割超平面（也称bin）与查询点的距离排序，也就是说，回溯检查总是从优先级最高（Best Bin）的树结点开始。
61 | 
62 |   **bbf的算法**:      
63 |   输入：kd树，查找点x.     
64 |   输出：kd树种距离查找点最近的点以及最近的距离
65 | 
66 |   1. 若kd树为空，则设定两者距离为无穷大，返回；如果kd树非空，则将kd树的根节点加入到优先级队列中；
67 | 
68 |   2. 从优先级队列中出队当前优先级最大的结点，计算当前的该点到查找点的距离是否比最近邻距离小，如果是则更新最近邻点和最近邻距离。如果查找点在切分维坐标小于当前点的切分维坐标，则把他的右孩子加入到队列中，同时检索它的左孩子，否则就把他的左孩子加入到队列中，同时检索它的右孩子。这样一直重复检索，并加入队列，直到检索到叶子节点。然后在从优先级队列中出队优先级最大的结点；
69 |   3. 重复1和1中的操作，直到优先级队列为空，或者超出规定的时间，返回当前的最近邻结点和距离。
70 | 
71 | ## 参考
72 | 1. https://blog.csdn.net/weixin_44915167/article/details/89315734 
73 | 2. https://www.cnblogs.com/nucdy/p/6349172.html
74 | 3. https://blog.csdn.net/v_july_v/article/details/8203674 
75 | 4. https://blog.csdn.net/junshen1314/article/details/51121582
76 | 5. https://blog.csdn.net/lhanchao/article/details/52535694 
77 | 6. https://blog.csdn.net/fool_ran/article/details/85246432
78 | 7. 李航 统计学习方法
79 | 
80 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/kmeans.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | 
  4 | 
  5 | Author:Yvette  明明就;Email:yvette.tsai22@gmail.com
  6 | 
  7 | # K-means面试题
  8 | 
  9 | ## 1. 聚类算法（clustering Algorithms）介绍
 10 | 
 11 | 聚类是一种无监督学习—对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。
 12 | 
 13 | 聚类算法可以分为原型聚类（k均值算法（K-means）、学习向量量化、（Learning Vector Quantization -LVQ）、高斯混合聚类（Mixture-of-Gaussian），密度聚类（DBSCAN），层次聚类（AGNES）等。
 14 | 
 15 | ## 2. kmeans原理详解
 16 | 
 17 | K-means是一种常见的聚类算法，也叫k均值或k平均。通过迭代的方式，每次迭代都将数据集中的各个点划分到距离它最近的簇内，这里的距离即数据点到簇中心的距离。
 18 | 
 19 | kmean步骤：
 20 | 
 21 | 1. 随机初始化k个簇中心坐标
 22 | 2. 计算数据集内所有点到k个簇中心的距离，并将数据点划分近最近的簇
 23 | 3. 更新簇中心坐标为当前簇内节点的坐标平均值
 24 | 4. 重复2、3步骤直到簇中心坐标不再改变（收敛了）
 25 | 
 26 | ## 3.  优缺点及改进算法
 27 | 
 28 | 优点：效率高、适用于大规模数据集
 29 | 
 30 | | 缺点           | 改进      | 描述                                                         |
 31 | | -------------- | --------- | ------------------------------------------------------------ |
 32 | | k值的确定      | ISODATA   | 当属于某个簇的样本数过少时把这个簇去除，<br>当属于某个簇的样本数过多、分散程度较大时把这个簇分为两个子簇|
 33 | | 对奇异点敏感   | k-median  | 中位数代替平均值作为簇中心                                   |
 34 | | 只能找到球状群 | GMM       | 以高斯分布考虑簇内数据点的分布                               |
 35 | | 分群结果不稳定 | K-means++ | 初始的聚类中心之间的相互距离要尽可能的远                     |
 36 | 
 37 | ## 4. k值的选取
 38 | 
 39 | 
 40 | K-means算法要求事先知道数据集能分为几群，主要有两种方法定义k。
 41 | 
 42 | - 手肘法：通过绘制k和损失函数的关系图，选拐点处的k值。
 43 | 
 44 | - 经验选取人工据经验先定几个k，多次随机初始化中心选经验上最适合的。
 45 | 
 46 | 通常都是以经验选取，因为实际操作中拐点不明显，且手肘法效率不高。
 47 | 
 48 | 
 49 | ## 5. K-means算法中初始点的选择对最终结果的影响
 50 | 
 51 | 
 52 | K-means选择的初始点不同获得的最终分类结果也可能不同，随机选择的中心会导致K-means陷入局部最优解。
 53 | 
 54 | 
 55 | ## 6. 为什么在计算K-means之前要将数据点在各维度上归一化
 56 | 
 57 | 因为数据点各维度的量级不同。
 58 | 举个例子，最近正好做完基于RFM模型的会员分群，每个会员分别有R（最近一次购买距今的时长）、F（来店消费的频率）和M（购买金额）。如果这是一家奢侈品商店，你会发现M的量级（可能几万元）远大于F（可能平均10次以下），如果不归一化就算K-means，相当于F这个特征完全无效。如果我希望能把常客与其他顾客区别开来，不归一化就做不到。
 59 | 
 60 | 
 61 | 
 62 | ## 7.  K-means不适用哪些数据
 63 | 
 64 | 
 65 | 1. 数据特征极强相关的数据集，因为会很难收敛（损失函数是非凸函数），一般要用kernal K-means，将数据点映射到更高维度再分群。
 66 | 2. 数据集可分出来的簇密度不一，或有很多离群值（outliers），这时候考虑使用密度聚类。
 67 | 
 68 | 
 69 | ## 8.  K-means 中常用的距离度量
 70 | 
 71 | 
 72 | K-means中比较常用的距离度量是欧几里得距离和余弦相似度。
 73 | 
 74 | 
 75 | ## 9. K-means是否会一直陷入选择质心的循环停不下来（为什么迭代次数后会收敛）？
 76 | 
 77 | 
 78 | 从K-means的第三步我们可以看出，每回迭代都会用簇内点的**平均值**去更新簇中心，所以最终簇内的平方误差和（SSE, sum of squared error）一定最小。 平方误差和的公式如下：
 79 | $$
 80 | L(X) = \sum_{i=1}^{k}{\sum_{j\in C_i}{(x_{ij}-\bar{x_i})^2}}
 81 | $$
 82 | 
 83 | ## 10. 聚类和分类区别
 84 | 
 85 | 
 86 | 1. 产生的结果相同（将数据进行分类）
 87 | 2. 聚类事先没有给出标签（无监督学习）
 88 | 
 89 | 
 90 | ## 11. 如何对K-means聚类效果进行评估
 91 | 
 92 | 
 93 | 回到聚类的定义，我们希望得到**簇内数据相似度尽可能地大，而簇间相似度尽可能地小**。常见的评估方式：
 94 | 
 95 | |                   名称               |                            公式                           |  含义  |  如何比较   |
 96 | |:-------------------------------------| :------------------------------------------------------: | :----- | :----------- |
 97 | | sum of squares within clusters(SSW)  | $\sum_{i=1}^{K}{ \parallel x_i-c_{l_i} \parallel ^2}$    |所有簇内差异之和|越小越好|
 98 | | sum of squares between clusters(SSB) | $\sum_{i=1}^{K}{n_i \parallel c_i-\bar{x} \parallel ^2}$ |簇心与簇内均值差异的加权和|越大越好|
 99 | |Calinski-Harabasz                     | $\frac{\frac{SSB}{K-1}}{\frac{SSW}{N-K}}$                       |簇间距离和簇内距离之比（除数是惩罚项，因为SSW下降地比较快）|越大越好 |
100 | |Ball&Hall                             |$\frac{SSW}{K}$                                           | 几乎同SSW|越小越好|
101 | |Dunn’s index                          | $\frac{\min_{i=1}^M{\min_{j=i+1}^M{d(c_i, c_j)}}}{\max_{k=1}^M{diam(c_k)}}$ <br/>$where d(c_i, c_j)=\min_{x \in c_i, x' \in c_j}{\parallel x-x' \parallel}^2 and$ <br/> $diam(c_k)=\max_{x, x' \in c_k}{\parallel x-x' \parallel}^2$ |本质上也是簇间距离和簇内距离之比|越大越好|
102 | 
103 | 
104 | 另一个常见的方法是画图，将不同簇的数据点用不同颜色表示。这么做的好处是最直观，缺点是无法处理高维的数据，它最多能展示三维的数据集。
105 | 如果维数不多也可以做一定的降维处理（PCA）后再画图，但会损失一定的信息量。 
106 | 
107 | 聚类算法几乎没有统一的评估指标，可能还需要根据聚类目标想评估方式，如对会员作分群以后，我想检查分得的群体之间是否确实有差异，这时候可以用MANOVA计算，当p值小于0.01说明分群合理。
108 | 
109 | ## 12. K-means中空聚类的处理
110 | 
111 | 
112 | 如果所有的点在指派步骤都未分配到某个簇，就会得到空簇。如果这种情况发生，则需要某种策略来选择一个替补质心，否则的话，平方误差将会偏大。一种方法是选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。另一种方法是从具有最大SEE的簇中选择一个替补的质心。这将分裂簇并降低聚类的总SEE。如果有多个空簇，则该过程重复多次。另外编程实现时，要注意空簇可能导致的程序bug。
113 | 
114 | 
115 | ## 参考资料
116 | 
117 | 1. Mann A K, Kaur N. Review paper on clustering techniques[J]. Global Journal of Computer Science and Technology, 2013.
118 | 2. https://blog.csdn.net/hua111hua/article/details/86556322
119 | 3. REZAEI M. Clustering validation[J].
120 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/metrics.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 评测指标面试题
  4 | 
  5 | metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标,分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是分类问题也不应该唯评价函数论,不同问题不同分析.
  6 | 
  7 | ## 回归(Regression)
  8 | ### 平均绝对误差(MAE)
  9 | 
 10 | 平均绝对误差MAE（Mean Absolute Error）又被称为 L1范数损失。
 11 | $$
 12 | MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i| \tag{1}
 13 | $$
 14 | MAE虽能较好衡量回归模型的好坏，但是绝对值的存在导致函数不光滑，在某些点上不能求导，可以考虑将绝对值改为残差的平方，这就是均方误差。
 15 | 
 16 | ### 均方误差(MSE)
 17 | 
 18 | 均方误差MSE（Mean Squared Error）又被称为 L2范数损失 。
 19 | $$
 20 | MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2 \tag{2}
 21 | $$
 22 | 由于MSE与我们的目标变量的量纲不一致，为了保证量纲一致性，我们需要对MSE进行开方 。
 23 | 
 24 | ### 均方根误差(RMSE)
 25 | $$
 26 | RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2} \tag{3}
 27 | $$
 28 | 
 29 | 
 30 | 
 31 | ### R2_score
 32 | 
 33 | $$
 34 | R2_score =1-\frac{\sum^n_{i}\left(y_{i}-\hat{y}\right)^{2} / n}{\sum^n_{i}\left(y_{i}-\bar{y}\right)^{2} / n}=1-\frac{M S E}{\operatorname{Var}}	\tag{4}
 35 | $$
 36 | 
 37 | 
 38 | $R2{_score}$又称决定系数，表示反应因变量的全部变异能通过数学模型被自变量解释的比例, $R2\_{score}$越大，模型准确率越好。
 39 | 
 40 | $y$表示实际值,$\hat{y}$表示预测值,$\bar{y}$表示实际值的均值,$n$表示样本数,$i$表示第$i$个样本。$Var$表示实际值的方差，也就是值的变异情况。
 41 | 
 42 | $MSE$表示均方误差，为残差平方和的均值,该部分不能能被数学模型解释的部分,属于不可解释性变异。
 43 | 
 44 | 因此：
 45 | $$
 46 | 可解释性变异占比 = 1-\frac{不可解释性变异}{整体变异}= 1-\frac{M S E}{\operatorname{Var}} = R2\_score	\tag{5}
 47 | $$
 48 | 
 49 | 
 50 | ## 分类(Classification)
 51 | ### 准确率和错误率
 52 | 
 53 | 
 54 | $$
 55 | Acc(y,\hat{y})=\frac{1}{n}\sum_{i=1}^{n}y_i=\hat{y_i} \tag{6}
 56 | $$
 57 | 
 58 | $$
 59 | Error(y, \hat{y})=1-acc(y,\hat{y}) \tag{7}
 60 | $$
 61 | Acc与Error平等对待每个类别，即每一个样本判对 (0) 和判错 (1) 的代价都是一样的。使用Acc与Error作为衡量指标时，需要考虑样本不均衡问题以及实际业务中好样本与坏样本的重要程度。
 62 | 
 63 | ### 混淆矩阵
 64 | 对于二分类问题,可将样例根据其真是类别与学习器预测类别的组合划分为：
 65 | 
 66 | ```
 67 | 真正例(true positive, TP):预测为 1，预测正确，即实际 1
 68 | 假正例(false positive, FP):预测为 1，预测错误，即实际 0
 69 | 真反例(ture negative, TN):预测为 0，预测正确，即实际 0
 70 | 假反例(false negative, FN):预测为 0，预测错误，即实际 1
 71 | ```
 72 | 
 73 | 则有:TP+FP+TN+FN=样例总数. 分类结果的混淆矩阵(confusion matrix)如下:
 74 | 
 75 | ![image-20210616223053609](img/Metrics/image-20210616223053609.png)
 76 | 
 77 | ###  精确率（查准率） Precision
 78 | 
 79 | Precision 是分类器预测的正样本中预测正确的比例，取值范围为[0,1]，取值越大，模型预测能力越好。
 80 | $$
 81 | P=\frac{TP}{TP+FP} \tag{8}
 82 | $$
 83 | 
 84 | ### 召回率（查全率）Recall
 85 | 
 86 | Recall 是分类器所预测正确的正样本占所有正样本的比例，取值范围为[0,1]，取值越大，模型预测能力越好。
 87 | $$
 88 | R=\frac{TP}{TP+FN} \tag{9}
 89 | $$
 90 | 
 91 | 
 92 | ### F1 Score
 93 | 
 94 | Precision和Recall 是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下Precision高、Recall 就低， Recall 高、Precision就低。为了均衡两个指标，我们可以采用Precision和Recall的加权调和平均（weighted harmonic mean）来衡量，即F1 Score
 95 | $$
 96 | \frac{1}{F_1}=\frac{1}{2} \cdot (\frac{1}{P}+\frac{1}{R}) \tag{10}
 97 | $$
 98 | 
 99 | $$
100 | F_1=\frac{2*P*R}{P+R}  \tag{11}
101 | $$
102 | 
103 | 
104 | ### ROC         
105 | ROC全称是"受试者工作特征"(Receiver Operating Characteristic)曲线. ROC曲线为 FPR 与 TPR 之间的关系曲线，这个组合以 FPR 对 TPR，即是以代价 (costs) 对收益 (benefits)，显然收益越高，代价越低，模型的性能就越好。 其中ROC曲线的横轴是"假正例率"(False Positive Rate, **FPR**), 纵轴是"真正例率"(True Positive Rate, **TPR**), **注意这里不是上文提高的P和R**. 
106 | 
107 | - y 轴为真阳性率（TPR）：在所有的正样本中，分类器预测正确的比例（等于Recall）
108 | 
109 | $$
110 | TPR=\frac{TP}{TP+FN} \tag{12}
111 | $$
112 | 
113 | - x 轴为假阳性率（FPR）：在所有的负样本中，**分类器预测错误的比例**
114 | 
115 | 
116 | $$
117 | FPR=\frac{FP}{TN+FP} \tag{13}
118 | $$
119 | 
120 | 
121 | 现实使用中,一般使用有限个测试样例绘制ROC曲线,此时需要有有限个(真正例率,假正例率)坐标对. 绘图过程如下:
122 | 1. 给定$m^+$个正例和$m^-$个反例,根据学习器预测结果对样例进行排序,然后将分类阈值设为最大,此时真正例率和假正例率都为0,坐标在(0,0)处,标记一个点.
123 | 2. 将分类阈值依次设为每个样本的预测值,即依次将每个样本划分为正例.
124 | 3. 假设前一个坐标点是(x,y),若当前为真正例,则对应坐标为$(x,y+\frac{1}{m^+})$, 若是假正例,则对应坐标为$(x+\frac{1}{m^-}, y)$
125 | 4. 线段连接相邻的点.
126 | 
127 | ROC曲线如下图(其中对角线对应于"随机猜测"模型):
128 | 
129 | ![image-20210616214012974](img/Metrics/image-20210616214012974.png)
130 | 
131 | ### AUC
132 | 
133 | 对于二分类问题，预测模型会对每一个样本预测一个得分s或者一个概率p。 然后，可以选取一个阈值t，让得分s>t的样本预测为正，而得分s<t的样本预测为负。 这样一来，根据预测的结果和实际的标签可以把样本分为4类,则有混淆矩阵：
134 | 
135 | |          | 实际为正 | 实际为负 |
136 | | -------- | -------- | -------- |
137 | | 预测为正 | TP       | FP       |
138 | | 预测为负 | FN       | TN       |
139 | 
140 | 随着阈值t选取的不同，这四类样本的比例各不相同。定义真正例率TPR和假正例率FPR为：
141 | $$
142 | \begin{array}{l}
143 | \mathrm{TPR}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \\
144 | \mathrm{FPR}=\frac{\mathrm{FP}}{\mathrm{FP}+\mathrm{TN}}
145 | \end{array} \tag{14}
146 | $$
147 | 随着阈值t的变化，TPR和FPR在坐标图上形成一条曲线，这条曲线就是ROC曲线。 显然，如果模型是随机的，模型得分对正负样本没有区分性，那么得分大于t的样本中，正负样本比例和总体的正负样本比例应该基本一致。
148 | 
149 | 实际的模型的ROC曲线则是一条上凸的曲线，介于随机和理想的ROC曲线之间。而ROC曲线下的面积，即为AUC！
150 | 
151 | ![image-20210713205533305](img/metrics/image-20210713205533305.png)
152 | 
153 | 这里的x和y分别对应TPR和FPR，也是ROC曲线的横纵坐标。
154 | $$
155 | \mathrm{AUC}=\int_{t=\infty}^{-\infty} y(t) d x(t) \tag{15}
156 | $$
157 | 
158 | 
159 | 参考：https://tracholar.github.io/machine-learning/2018/01/26/auc.html
160 | 
161 | ### KS Kolmogorov-Smirnov
162 | 
163 | KS值是在模型中用于**区分预测正负样本分隔程度**的评价指标，一般应用于金融风控领域。与ROC曲线相似，ROC是以FPR作为横坐标，TPR作为纵坐标，通过改变不同阈值，从而得到ROC曲线。ks曲线为TPR-FPR，ks曲线的最大值通常为ks值。可以理解TPR是收益，FPR是代价，ks值是收益最大。图中绿色线是TPR、蓝色线是FPR。
164 | 
165 | ![image-20210616214714505](img/Metrics/image-20210616214714505.png)
166 | 
167 | KS的计算步骤如下：
168 | 
169 | 1. 按照模型的结果对每个样本进行打分
170 | 2. 所有样本按照评分排序，从小到大分为10组（或20组）
171 | 3. 计算每个评分区间的好坏样本数。
172 | 4. 计算每个评分区间的累计好样本数占总好账户数比率(good%)和累计坏样本数占总坏样本数比率(bad%)。
173 | 5. 计算每个评分区间累计坏样本占比与累计好样本占比差的绝对值（累计bad%-累计good%），然后对这些绝对值取最大值即得此评分模型的K-S值。
174 | 
175 | ### CTR（Click-Through-Rate）
176 | 
177 | CTR即点击通过率,是互联网广告常用的术语,指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率,即该广告的实际点击次数（严格的来说,可以是到达目标页面的数量）除以广告的展现量(Show content).
178 | $$
179 | ctr=\frac{点击次数}{展示量}　\tag{16}
180 | $$
181 | 
182 | 
183 | ### CVR    (Conversion Rate)
184 | 
185 | CVR即转化率。是一个衡量CPA广告效果的指标，简言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率.
186 | $$
187 | cvr=\frac{点击量}{转化量}　\tag{17}
188 | $$
189 | 
190 | 
191 | ## 参考
192 | 1. 周志华 西瓜书
193 | 2. 李航 统计学习方法
194 | 3. https://baike.baidu.com/item/CVR/20215345
195 | 4. https://baike.baidu.com/item/CTR/10653699?fr=aladdin
196 | 5. https://www.cnblogs.com/shenxiaolin/p/9309749.html
197 | 


--------------------------------------------------------------------------------
/AI算法/machine-learning/w2v+tf-idf.md:
--------------------------------------------------------------------------------
  1 | ## Word2Vector
  2 | 
  3 | ### 1.什么是词嵌入模型？
  4 | 
  5 | 把词映射为实数域向量的技术也叫词嵌⼊
  6 | 
  7 | ### 2.介绍一下Word2Vec
  8 | 
  9 | 谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种**浅层的神经网络模型**，它有两种网络结构，分别是**连续词袋**（CBOW）和**跳字**(Skip-Gram)模型。
 10 | 
 11 | ### 3.介绍CBOW
 12 | 
 13 | CBOW，全称Continuous Bag-of-Word，中文叫做连续词袋模型：**以上下文来预测当前词** $w_t$ 。CBOW模型的目的是预测 $P(w_t| w_{t-k}, \cdots, w_{t-1}, w_{t+1}, \cdots, w_{t+k}) $
 14 | 
 15 | ![img](https://pic4.zhimg.com/v2-27f3e577618f84c0026968d273d823ef_b.jpg)
 16 | 
 17 | 
 18 | 
 19 | #### 前向传播过程
 20 | 
 21 | - 输入层: 输入C个单词$x$： $x_{1k}, \cdots, x_{Ck} $，并且每个 $x$ 都是用 **One-hot** 编码表示，每一个 $x$ 的维度为 V（词表长度）。
 22 | 
 23 | - 输入层到隐层
 24 |   
 25 |   - 首先，共享矩阵为 $W_{V \times N}$ ，**V表示词表长度**，W的每一行表示的就是一个N维的向量（训练结束后，W的每一行就表示一个词的词向量）。
 26 |   - 然后，我们把所有**输入的词转$x$化为对应词向量**，然后**取平均值**，这样我们就得到了隐层输出值 ( 注意，隐层中无激活函数，也就是说这里是线性组合)。 其中，隐层输出 $h$ 是一个N维的向量 。
 27 | 
 28 |   $$
 29 |   h = \frac{1}{C} W^T(x_1 + x_2 + \cdots + x_c)
 30 |   $$
 31 |   
 32 | - 隐层到输出层：隐层的输出为N维向量 $h$ ， 隐层到输出层的权重矩阵为  $W'_{N \times V}$ 。然后，通过矩阵运算我们得到一个 $V \times 1 $ 维向量
 33 |   $$
 34 |   u = W'^{T} * h
 35 |   $$
 36 | 
 37 | 
 38 | 其中，向量 $u$  的第 $i$  行表示词汇表中第 $i$  个词的可能性，然后我们的目的就是取可能性最高的那个词。因此，在最后的输出层是一个softmax 层获取分数最高的词，那么就有我们的最终输出：
 39 | $$
 40 | P(w_j| context)  =y_i =  \frac{exp({u_j})}{\sum_{k \in V} exp({u_k})}
 41 | $$
 42 | 
 43 | #### 损失函数
 44 | 
 45 | 我们假定 $j^*$ 是真实单词在词汇表中的下标，那么根据极大似然法，则目标函数定义如下：
 46 | $$
 47 | E = -log \, p(W_O |W_I) = -log \, \frac{exp({u_j})}{\sum_{k \in V} exp({u_k})} =  log  \sum_{k \in V} exp(u_{k})  -u_j
 48 | $$
 49 | 
 50 | ### 4.Skip-gram模型
 51 | 
 52 | Skip-Gram的基本思想是：**通过当前词 $w_t$ 预测其上下文 $w_{t-i}, \cdots , w_{t+i}$** ，模型如下图所示：
 53 | 
 54 | ![img](https://pic2.zhimg.com/v2-42ef75691c18a03cfda4fa85a8409e19_b.jpg)
 55 | 
 56 | #### 前向传播过程
 57 | 
 58 | - 输入层：   输入的是一个单词，其表示形式为 **One-hot** ，我们将其表示为V维向量 $x_k$ ，其中 $V$ 为词表大小。然后，通过词向量矩阵 $W_{V \times N}$ 我们得到一个N维向量  
 59 |   $$
 60 |   h = W^T * x_k = v^{T}_{w_I}
 61 |   $$
 62 | 
 63 | 
 64 | - 隐层： 而隐层中没有激活函数，也就是说输入=输出，因此隐藏的输出也是 $h$ 。
 65 | 
 66 | - 隐层到输出层：
 67 | 
 68 |   - 首先，因为要输出C个单词，因此我们此时的输出有C个分布： $y_1, \cdots y_C $，且每个分布都是独立的，我们需要单独计算， 其中 $y_i$  表示窗口的第 $i$  个单词的分布。 
 69 |   
 70 |   - 其次， 因为矩阵 $W'_{N \times V}$ 是共享的，因此我们得到的 $V \times 1$ 维向量 $u$ 其实是相同的，也就是有 $u_{c,j} = u_j$ ，这里 $u$ 的每一行同 CBOW 中一样，表示的也是评分。
 71 | 
 72 |   - 最后，每个分布都经过一个 softmax 层，不同于 CBOW，我们此处产生的是第 $i$ 个单词的分布（共有C个单词），如下：
 73 |   
 74 |   $$
 75 |   P(w_{i,j}| context)  =y_i =  \frac{exp({u_j})}{\sum_{k \in V} exp({u_k})}
 76 |   $$
 77 | 
 78 | 
 79 | ####  损失函数
 80 | 
 81 | 假设 $j^*$ 是真实单词在词汇表中的下标，那么根据极大似然法，则目标函数定义如下：
 82 | $$
 83 | \begin{split} E &= - log \, p(w_1, w_2, \cdots, w_C | w_I)   \\ &= - log \prod_{c=1}^C P(w_c|w_i) \\ &= - log  \prod_{c=1}^{C} \frac{exp(u_{c, j})}{\sum_{k=1}^{V} exp(u_{c,k}) } \\ &= - \sum_{c=1}^C u_{j^*_c} + C \cdot log \sum_{k=1}^{V} exp(u_k) \end{split}
 84 | $$
 85 | 
 86 | 
 87 | 
 88 | ### 5.Word2Vec与LDA的区别
 89 | 
 90 | - LDA
 91 | 
 92 |   LDA是利用文档中**单词的共现关系**来对单词按**主题聚类**，也可以理解为对“**文档-单词**”矩阵进行**分解**，得到“**文档-主题**”和“**主题-单词**”两个**概率分布**。
 93 | 
 94 | - Word2Vec
 95 | 
 96 |   Word2Vec是利用**上下文-单词**“矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的word2vec向量相似度较高，那么它们很可能经常在同样的上下文中出现。
 97 | 
 98 | - LDA模型是一种基于**概率图模型**的**生成式模型**，其似然函数可以写成若干条件概率连乘的形式，其中包括需要推测的隐含变量（即主题）；
 99 | 
100 | - 而Word2Vec模型一般表达为**神经网络**的形式，似然函数定义在网络的输出之上，需要通过学习网络的权重以得到单词的稠密向量表示。
101 | 
102 | ### 6.Word2Vec存在的问题是什么？
103 | 
104 | - 对每个local context window单独训练，没有利用包 含在global co-currence矩阵中的统计信息。
105 | - 对多义词无法很好的表示和处理，因为使用了唯一的词向量
106 | 
107 | ## Tf-idf
108 | 
109 | ### 1.介绍一下Tf-idf
110 | 
111 | **一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章.**
112 | 
113 | - **TF:** Term Frequency, 表示词频。 一个给定的词在该文章中出现的次数。
114 |   $$
115 |   TF = \frac{\text{某个词在文章中的出现次数}}{\text{文章的总词数}}  \\
116 |   $$
117 | 
118 | - **IDF:** Inverse Document Frequency, 表示逆文档频率。如果包含词条 t 的文档越少, IDF越大，则说明词条具有很好的类别区分能力。
119 | 
120 | $$
121 | IDF = log(\frac{语料库的文档总数}{包含该词的文档数+1})  \\
122 | $$
123 | 
124 | - **TF-IDF：**某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，**TF-IDF倾向于过滤掉常见的词语**，保留重要的词语
125 |   $$
126 |   \text{TF-IDF} = TF \times IDF
127 |   $$
128 | 
129 | **举例说明**
130 | 
131 | 假设现在有一篇文章， 文章中包含 10000 个词组， 其中，"贵州" 出现100次，"的" 出现500次，那么我们可以计算得到这几个词的 TF(词频) 值：
132 | $$
133 | TF(贵州) = 100 / 10000 = 0.01 \\
134 | TF(的) = 500 / 10000 = 0.05
135 | $$
136 | 现在语料库中有 1000 篇文章， 其中，包含 "贵州" 的有 99 篇， 包含 "的" 的有 899 篇， 则它们的 IDF 值计算为：
137 | $$
138 | IDF(贵州) = log(1000 / (99+1)) = 1.000 \\
139 | IDF(的) = log(1000 / (899+1)) = 0.046
140 | $$
141 | 
142 | ### 2. Tf-idf的优缺点
143 | 
144 | - 优点：简单快速，而且容易理解。
145 | - 缺点：有时候用词频来衡量文章中的一个词的重要性**不够全面**，有时候重要的词出现的可能不够多，而且这种计算无法体现位置信息，**无法体现词在上下文的重要性**。
146 | 
147 | ## 参考资料
148 | 
149 | 白面机器学习
150 | 
151 | https://github.com/scutan90/DeepLearning-500-questions
152 | 
153 | https://github.com/NLP-LOVE/ML-NLP
154 | 
155 | https://github.com/songyingxin/NLPer-Interview


--------------------------------------------------------------------------------
/AI算法/machine-learning/过拟合与欠拟合.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 过拟合欠拟合面试题
  4 | 
  5 | ## 1. 如何理解高方差与低偏差?
  6 | 
  7 | 模型的预测误差可以分解为三个部分: 偏差(bias)， 方差(variance) 和噪声(noise).
  8 | 
  9 | **偏差**
 10 | 
 11 | - 偏差度量了模型的期望预测与真实结果的偏离程度， 即刻画了学习算法本身的拟合能力。偏差则表现为在特定分布上的适应能力，偏差越大越偏离真实值。
 12 | 
 13 | **方差**
 14 | 
 15 | - 方差度量了同样大小的训练集的变动所导致的学习性能的变化， 即刻画了数据扰动所造成的影响。方差越大，说明数据分布越分散。
 16 | 
 17 | **噪声**
 18 | 
 19 | - 噪声表达了在当前任务上任何模型所能达到的期望泛化误差的下界， 即刻画了学习问题本身的难度 。
 20 | 
 21 |   下图为**偏差和方差示意图**。
 22 | 
 23 | ![image-20210927150625116](img/过拟合与欠拟合/image-20210927150625116.png)
 24 | 
 25 | ​                                                                                               
 26 | 
 27 | **泛化误差、偏差、方差和模型复杂度的关系**（图片来源百面机器学习）
 28 | 
 29 | <img src="img/过拟合与欠拟合/JrBui5yzA3IGgk7.png" alt="image-20210423092851506"  />
 30 | 
 31 | 参考资料：https://blog.csdn.net/simple_the_best/article/details/71167786
 32 | 
 33 | ## 2. 什么是过拟合和欠拟合，为什么会出现这个现象
 34 | 
 35 | 过拟合指的是在训练数据集上表现良好，而在未知数据上表现差。如图所示：
 36 | 
 37 | ![img](img/过拟合与欠拟合/247f6539-1c10-75ac-84f8-02d238699dfd.jpg)
 38 | 
 39 | 欠拟合指的是模型没有很好地学习到数据特征，不能够很好地拟合数据，在训练数据和未知数据上表现都很差。
 40 | 
 41 | 过拟合的原因在于：
 42 | 
 43 | - 参数太多，模型复杂度过高；
 44 | 
 45 | - 建模样本选取有误，导致选取的样本数据不足以代表预定的分类规则；
 46 | 
 47 | - 样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；
 48 | 
 49 | - 假设的模型无法合理存在，或者说是假设成立的条件实际并不成立。
 50 | 
 51 | 欠拟合的原因在于：
 52 | 
 53 | - 特征量过少；
 54 | 
 55 | - 模型复杂度过低。
 56 | 
 57 | 
 58 | 
 59 | ## 3. 怎么解决欠拟合
 60 | 
 61 | - 增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间；
 62 | 
 63 | - 添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强；
 64 | 
 65 | - 减少正则化参数，正则化的目的是用来防止过拟合的，但是模型出现了欠拟合，则需要减少正则化参数；
 66 | - 使用非线性模型，比如核SVM 、决策树、深度学习等模型；
 67 | - 调整模型的容量(capacity)，通俗地，模型的容量是指其拟合各种函数的能力；
 68 | - 容量低的模型可能很难拟合训练集。
 69 | 
 70 | ## 4. 怎么解决过拟合（重点）
 71 | 
 72 | - 获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法 
 73 | 
 74 | - 特征降维:人工选择保留特征的方法对特征进行降维
 75 | 
 76 | - 加入正则化，控制模型的复杂度
 77 | 
 78 | - Dropout
 79 | 
 80 | - Early stopping
 81 | 
 82 | - 交叉验证
 83 | - 增加噪声
 84 | 
 85 | ## 5. 为什么参数越小代表模型越简单？
 86 | 
 87 | 因为参数的稀疏，在一定程度上实现了特征的选择。
 88 | 
 89 | 越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。 因此参数越少代表模型越简单。
 90 | 
 91 | ## 6. 为什么L1比L2更容易获得稀疏解？（重点）
 92 | 
 93 | 
 94 | 
 95 | ![img](img/过拟合与欠拟合/v2-a026e24156e13a1d14c43df26b9bd2a4_720w.jpg)
 96 | 
 97 | ![img](img/过拟合与欠拟合/v2-f6edae58134c5a26687c3883af48d5d5_720w.jpg)
 98 | 
 99 | ![img](img/过拟合与欠拟合/v2-3aaa69f70754c469bca5c8e4c3e161db_720w.jpg)
100 | 
101 | 参考链接： https://www.zhihu.com/question/37096933/answer/475278057
102 | 
103 | ## 7. Dropout为什么有助于防止过拟合？（重点）
104 | 
105 | * 取平均的作用
106 | 
107 |   先回到标准的模型即没有dropout，我们用相同的训练数据去训练5个不同的神经网络，一般会得到5个不同的结果，此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。例如3个网络判断结果为数字9，那么很有可能真正的结果就是数字9，其它两个网络给出了错误结果。这种“综合起来取平均”的策略通常可以有效防止过拟合问题。因为不同的网络可能产生不同的过拟合，取平均则有可能让一些“相反的”拟合互相抵消。dropout掉不同的隐藏神经元就类似在训练不同的网络，随机删掉一半隐藏神经元导致网络结构已经不同，整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。
108 | 
109 | * 减少神经元之间复杂的共适应关系
110 | 
111 |   因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况 。迫使网络去学习更加鲁棒的特征 ，这些特征在其它的神经元的随机子集中也存在。换句话说假如我们的神经网络是在做出某种预测，它不应该对一些特定的线索片段太过敏感，即使丢失特定的线索，它也应该可以从众多其它线索中学习一些共同的特征。从这个角度看dropout就有点像L1，L2正则，减少权重使得网络对丢失特定神经元连接的鲁棒性提高。
112 | 
113 | * Dropout类似于性别在生物进化中的角色
114 | 
115 |   物种为了生存往往会倾向于适应这种环境，环境突变则会导致物种难以做出及时反应，性别的出现可以繁衍出适应新环境的变种，有效的阻止过拟合，即避免环境改变时物种可能面临的灭绝。
116 | 
117 |  参考链接：https://zhuanlan.zhihu.com/p/38200980
118 | 
119 | ## 8. Dropout在训练和测试时都需要吗？
120 | 
121 | Dropout在训练时采用，是为了减少神经元对部分上层神经元的依赖，类似将多个不同网络结构的模型集成起来，减少过拟合的风险。而在测试时，应该用整个训练好的模型，因此不需要dropout。
122 | 
123 | ## 9. Dropout如何平衡训练和测试时的差异呢？
124 | 
125 | Dropout 在训练时以一定的概率使神经元失活，实际上就是让对应神经元的输出为0。假设失活概率为 p ，就是这一层中的每个神经元都有p的概率失活。
126 | 
127 | 例如在三层网络结构中，如果失活概率为0.5，则平均每一次训练有3个神经元失活，所以输出层每个神经元只有3个输入，而实际测试时是不会有dropout的，输出层每个神经元都有6个输入。
128 | 
129 | **因此在训练时还要对第二层的输出数据除以（1-p）之后再传给输出层神经元，作为神经元失活的补偿，以使得在训练时和测试时每一层输入有大致相同的期望。**
130 | 
131 | ## 10. BN和Dropout共同使用时会出现的问题
132 | 
133 | BN和Dropout单独使用都能减少过拟合并加速训练速度，但如果一起使用的话并不会产生1+1>2的效果，相反可能会得到比单独使用更差的效果。
134 | 
135 | 参考链接：https://www.zhihu.com/tardis/sogou/art/61725100
136 | 
137 | ## 11. L1 和 L2 正则先验分别服从什么分布
138 | 
139 | 先验就是优化的起跑线， 有先验的好处就是可以在较小的数据集中有良好的泛化性能，当然这是在先验分布是接近真实分布的情况下得到的了，从信息论的角度看，向系统加入了正确先验这个信息，肯定会提高系统的性能。
140 | 
141 | L1 正则先验分布是 Laplace 分布，L2 正则先验分布是 Gaussian 分布。
142 | 
143 | Laplace 分布公式为:
144 | $$
145 | f(x)=\frac{1}{2 \lambda} e^{-\frac{|x-\mu|}{\lambda}}
146 | $$
147 | 
148 | 
149 | Gaussian 分布公式为:
150 | $$
151 | f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
152 | $$
153 | 
154 | 
155 | 对参数引入高斯正态先验分布相当于L2正则化：
156 | 
157 | 
158 | 
159 | ![img](img/过拟合与欠拟合/96b02ee9-c6ab-718f-b358-0a8db26f9cd7.jpg)
160 | 
161 | 
162 | 
163 | 对参数引入拉普拉斯先验等价于 L1正则化： 
164 | 
165 | 
166 | 
167 | ![img](img/过拟合与欠拟合/f4a1eb7a-3ce3-7cea-84a0-d569423b2d01.jpg)
168 | 
169 | 
170 | 
171 | 从上面两图可以看出， L2先验趋向零周围， L1先验趋向零本身。
172 | 
173 | 参考链接：https://blog.csdn.net/akenseren/article/details/80427471
174 | 


--------------------------------------------------------------------------------
/AI算法/推荐/FTRL.md:
--------------------------------------------------------------------------------
 1 | # FTRL
 2 | FTRL(Follow the Regularized Leader) 由Google的H. Berendan McMahan 等人于2010年提出【4】,FTRL是一种在线最优化求解算法,结合L1-FOBOS和L1-RDA算法,用于解决在线学习中,权重参数不能产生较好的稀疏性的问题。
 3 | 由于在线学习涉及内容较多，本文从提升模型稀疏性的角度入手，简单介绍经典的TG, L1-FOBOS, L1-RDA 和 FTRL 算法的原理。
 4 | 
 5 | ## 模型稀疏性
 6 | 众所周知，Lasso对权重参数(W)引入L1正则项使得模型的训练结果具有稀疏性,稀疏的模型不仅有变量选择的功能，同时在模型线上进行预测时，可以大大减小运算量。但是在在线学习的场景下,利用SGD的方式进行权重参数(W)的更新,每次只使用一个样本，权重参数的更新具有很大的随机性,无法将权重参数准确地更新为0。为解决这一问题，TG, L1-FOBOS, L1-RDA，FTRL 等一系列算法被提出。
 7 | 
 8 | ## TG(Truncated Gradient)
 9 | 为了得到具有稀疏性的权重参数(W)，最简单的方法就是引入一个阈值，当某个权重参数的值小于该阈值就将其置0。TG方法就是在这个想法的基础上，稍加改进，使用如下式的梯度更新方式。
10 | $$W^{(t+1)}=T_{1}\left(W^{(t)}-\eta^{(t)} G^{(t)}, \eta^{(t)} \lambda^{(t)}, \theta\right)$$
11 | $$T_{1}\left(v_{i}, \alpha, \theta\right)=\left\{\begin{array}{ll}
12 | \max \left(0, v_{i}-\alpha\right) & \text { if } v_{i} \in[0, \theta] \\
13 | \min \left(0, v_{i}+\alpha\right) & \text { if } v_{i} \in[-\theta, 0] \\
14 | v_{i} & \text { otherwise }
15 | \end{array}\right.$$
16 | 其中$G^{(t)}$是当前参数的梯度，$\eta^{(t)}$是学习率，$\lambda^{(t)}$控制梯度阶段发生的频次，每k次进行一次梯度截断。$\theta$为梯度截断时设置的阈值。通过调节$\lambda,\theta$可以权重参数的稀疏性。
17 | 
18 | $$
19 | \lambda^{(t)}=\left\{
20 | \begin{aligned}
21 | k\lambda & , & t\ mod\ k = 0 \\
22 | 0 & , & otherwise
23 | \end{aligned}
24 | \right.
25 | $$
26 | 
27 | ## L1-FOBOS
28 | FOBOS(Forward-Backward Splitting)分两步更新权重。
29 | $$W^{\left(t+\frac{1}{2}\right)}=W^{(t)}-\eta^{(t)} G^{(t)}$$
30 | $$W^{(t+1)}=\arg \min _{W}\left\{\frac{1}{2}\left\|W-W^{\left(t+\frac{1}{2}\right)}\right\|^{2}+\eta^{\left(t+\frac{1}{2}\right)} \Psi(W)\right\}$$
31 | 
32 | FOBOS的第一步就是正常的梯度下降算法，第二部对W进行调整，引入正则项使得参数具有稀疏性。将以上两部转换为一步，可以有如下表达。
33 | $$W^{(t+1)}=\operatorname{argmin}_{W}\left\{\frac{1}{2}\left\|W-W^{(t)}+\eta^{(t)} G^{(t)}\right\|^{2}+\eta^{\left(t+\frac{1}{2}\right)} \Psi(W)\right\}$$
34 | 
35 | 
36 | 实际使用中，将FOBOS中的正则算子$\Psi(W)$替换成$\lambda\Vert W\Vert_{1}$,通过数学推导，最终可以获得如下的梯度新公式。
37 | $$w_i^{(t)}=sgnw_{i}^{(t)}-\eta^{(t)}g_i^{(t)})\max(0, \vert w_{i}^{(t)}-\eta^{(t)}g_i^{(t)}\vert - \eta^{(t+\frac{1}{2})}\lambda)$$
38 | 从公式中可以发现，一旦权重参数更新后的值$\vert w_{i}^{(t)}-\eta^{(t)}g_i^{(t)}\vert$小于$\eta^{(t+\frac{1}{2})}\lambda$就将改权重参数置0。
39 | 
40 | ## L1-RDA
41 | RDA(Regularized Dual Average)是牺牲一定精度，进一步提升权重参数稀疏性的方法，如下是L1-RDA使用的权重参数更新公式。
42 | $$
43 | W^{(t+1)}=\underset{W}{\arg\min}\{\frac{1}{t}\Sigma_{r=1}^t G^{(r)}\cdot W+\lambda\Vert W\Vert_1 + \frac{\gamma}{2\sqrt t}\Vert W\Vert_{2}^2\}
44 | $$
45 | 其中$\Sigma_{r=1}^t G^{(r)}$是历史的梯度的平均值。
46 | 通过数学推导L1-RDA有如下等价的参数更新公式。
47 | $$
48 | w_i^{(t+1)}=\left\{
49 | \begin{matrix}
50 | 0 \ & , & if \vert \bar{g}_i^{(t)} < \lambda \\
51 | -\frac{\sqrt{t}}{\gamma}(\bar g _i ^{(t)}-\lambda sgn(\bar g_i^{(t)})) & , & otherwise
52 | \end{matrix}
53 | \right.
54 | $$
55 | 从公式中可以发现，一旦权重参数的历史平均梯度小于阈值$\lambda$就将该权重参数置0。
56 | ## FTRL
57 | 通常情况下，L1-FOBOS在计算最优解的精度上较高,而L1-RDA在损失一定精度的前提下可以获得更加稀疏的权重参数(W)。FTRL结合L1-FOBOS和L1-RDA的优点而产生的算法。
58 | 通过数学推导，L1-FOBOS可以写为：
59 | $$W^{(t+1)}=\arg \min _{W}\left\{G^{(t)} \cdot W+\lambda\|W\|_{1}+\frac{1}{2 \eta^{(t)}}\left\|W-W^{(t)}\right\|_{2}^{2}\right\}$$
60 | L1-RDA可以写为：
61 | $$W^{(t+1)}=\arg \min _{W}\left\{G^{(1: t)} \cdot W+t \lambda\|W\|_{1}+\frac{1}{2 \eta^{(t)}}\|W-0\|_{2}^{2}\right\}$$
62 | $$其中G^{(1: t)}=\Sigma_i^t G^{(i)}$$
63 | 
64 | FTRL结合上两时，可以写作：
65 | $$W^{(t+1)}=\arg \min _{W}\left\{G^{(1: t)} \cdot W+\lambda_{1}\|W\|_{1}+\lambda_{2} \frac{1}{2}\|W\|_{2}^{2}+\frac{1}{2} \sum_{\mathrm{s}=1} \sigma^{(s)}\left\|W-W^{(s)}\right\|_{2}^{2}\right\}$$
66 | $其中引入\Vert W\Vert_2^2不会影响稀疏性，同时会使解更加“光滑”。$
67 | 
68 | 通过数学推导，FTRL有如下表达形式：
69 | $$w_{i}^{(t+1)}=\left\{\begin{array}{ll}
70 | 0 & \text { if }\left|z_{i}^{(t)}\right|<\lambda_{1} \\
71 | -\left(\lambda_{2}+\sum_{s=1}^{t} \sigma^{(s)}\right)^{-1}\left(z_{i}^{(t)}-\lambda_{1} \operatorname{sgn}\left(z_{i}^{(t)}\right)\right) & \text { otherwise }
72 | \end{array}\right.$$
73 | $$Z^{(t)}=G^{(1: t)}-\sum_{s=1}^{t} \sigma^{(s)} W^{(s)}$$
74 | 
75 | ##总结
76 | 本文简单梳理了在线学习中提升权重参数稀疏性的算法的思想，公式较为繁多。对其中的基础知识和公式推导感兴趣的小伙伴可以参考冯扬的《在线最优化求解》【1】，对于FTRL的工程实现感兴趣的小伙伴可以参阅H. Brendan McMahan 等人于2013发表的论文【2】 ，【3】是2011年发表的一篇关于FTRL和FOBOS, RDA比较的论文。
77 | 
78 | ##参考文献
79 | 【1】[冯扬————在线最优化解法](https://wenku.baidu.com/view/a76c760c4b7302768e9951e79b89680203d86bcc.html)
80 | 【2】[Ad Click Prediction: a View from the Trenches](https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf)
81 | 【3】[Follow-the-Regularized-Leader and Mirror Descent: Equivalence Theorems and Implicit Updates](https://arxiv.org/abs/1009.3240v1)
82 | 【4】[Adaptive Bound Optimization for Online Convex Optimization](https://arxiv.org/abs/1002.4908)


--------------------------------------------------------------------------------
/AI算法/推荐/Graph_Embedding.md:
--------------------------------------------------------------------------------
 1 | # Graph Embedding
 2 | 在许多推荐场景下，可以用网络结构数据来刻画对象（用户、商品等）之间的关系。例如：可以将用户和商品作为网络中的结点，用户和商品之间的边代表购买关系。
 3 | 
 4 | Graph Embedding 是一种将网络中对象之间的关系转换为每个对象的（向量）特征的一种技术。其主要想法是输入网络后，为每个对象生成一个（向量）特征，满足在网络中越相似的对象，其向量特征之间距离越接近。
 5 | 
 6 | 下面主要介绍DeepWalk和Node2Vec两种Graph Embedding 算法。这两种算法利用网络生成对象序列后，采用word2vec算法生成对象的Graph Embedding。
 7 | 
 8 | ## 1. Deep Walk
 9 | DeepWalk 主要由RandomWalk 和 Word2Vec 两部分组成。RandomWalk 用于生成结点（对象）序列，Word2Vec利用结点序列生成对象的Embedding。
10 | 
11 | 在RandomWalk中，给定网络中以任意一点为起点，每次在当前结点的邻居中等概率选择一个节点放入已生成的序列中，并把该结点作为下一个结点重复上述采样过程，直到获得的序列长度达到预设的要求。
12 | 
13 | 在获得足够多的结点序列后，使用Word2Vec算法生成每个对象的Embedding。在论文中使用Word2Vec中的SkipGram算法。
14 | 
15 | 具体算法如下所示。
16 | 
17 | <div align=center>
18 | <img src="https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/alg1.png" width='600' height='500'>
19 | </div>
20 | 
21 | 在DeepWalk中使用深度优先的方式生成对象序列，为了丰富对网络中相似结点的含义，也可以尝试用广度优先的方式生成对象序列。Node2Vec 就是一种在生成对象序列时结合深度优先和广度优先的算法。
22 | 
23 | ## 2. Node2Vec
24 | ### 2.1 序列生成算法
25 | Node2Vec 在RandomWalk的基础上引入search bias $\alpha$，通过调节超参数$\alpha$，控制对象序列生成过程中广度优先和深度优先的强度。
26 | 
27 | RandomWalk的搜索方法比较朴素。在相邻结点之间根据边的权重或者其他业务理解定义转移概率。特别地，DeepWalk 采用等概率的方式搜索下一个结点。转移概率可以有如下的表达形式。
28 | 
29 | <div align=center>
30 | <img src="https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/transition.png" height='100'>
31 | </div>
32 | 
33 | 进一步，Node2Vec在未归一化的转移概率$\pi_{vx}$之前乘以偏置项$\alpha$，来反映序列生成算法对于深度优先和广度优先的偏好。以下是偏置项$\alpha$的具体表达形式。
34 | 
35 | <div align=center>
36 | <img src="https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/prob.png">
37 | </div>
38 | 
39 | 其中$d_{tx}$为顶点$t$和顶点$x$之间的最短路径长度，$p, q$控制深度优先和广度优先的强度。
40 | 
41 | 假设当前随机游走经过边$(t,x)$后达到顶点$v$，以$\pi_{vx}=\alpha_{pq}(t,x)\omega_{vx}$的未归一化概率搜索下一个结点。
42 | 
43 | <div align=center>
44 | <img src="https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/graph.png" width='500'>
45 | </div>
46 | 
47 | 偏置项$\alpha$受到超参数p和q的控制，具体来说p, q的大小会对搜索策略产生如下影响。
48 | 
49 | Return parameter p的影响：
50 | 1. 超参数p影响回到之前结点t的概率大小。如果p越小,则回到之前结点t的概率越大，搜索策略越倾向于在初始结点的附近进行搜索。
51 | 
52 | In-out parameter q的影响：
53 | 1. 超参数q控制着搜索算法对于广度优先和深度优先的偏好。从示意图中，我们可以看到q越小，越倾向于搜索远离初始结点t，与倾向于深度优先的方式。
54 | 
55 | ### 2.2 Embedding学习
56 | Node2vec 采用和SkipGram类似的想法，学习从节点到embedding的函数$f$，使得给定结点$u$，其近邻结点$N_S(u)$的出现的概率最大。近邻结点的是由序列生成算法获得的一系列点。具体数学表达如下。
57 | 
58 | <div align=center>
59 | <img src='https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/opt.png' width=250, height=50>
60 | </div>
61 | 
62 | 在原文中使用了条件独立性假设和特征空间独立行假设，并使用softmax函数来表示概率，将上述优化问题化简为容易求解的优化问题。采用SGD算法获得生成Embedding的函数$f$。具体的化简过程可以参考原文。
63 | 
64 | 如下是Node2Vec的整个算法过程，其中采用了时间复杂度为O(1)的alias采样方法，具体可以参考[2]。
65 | 
66 | <div align=center>
67 | <img src="https://raw.githubusercontent.com/Yzmshjd/picBed/main/interview/graph_embedding/alg2.png", width='600', height='500'>
68 | </div>
69 | 
70 | ## 面试真题
71 | 1. 请结合业务谈一下怎样在推荐场景中建立网络。
72 | 2. 在Node2Vec建立对象序列的过程中，怎样实现深度优先和广度优先的？
73 | 
74 | ## 参考文献
75 | 1. [浅梦的学习笔记——DeepWalk](https://blog.csdn.net/u012151283/article/details/86806922)
76 | 2. [浅梦的学习笔记——Node2Vec](https://blog.csdn.net/u012151283/article/details/87081272)
77 | 3. [《深度学习推荐系统》——王喆著](https://zhuanlan.zhihu.com/p/119248677?utm_source=zhihu&utm_medium=social&utm_oi=26827615633408)
78 | 4. [DeepWalk: Online Learning of Social Representations](http://www.perozzi.net/publications/14_kdd_deepwalk.pdf)
79 | 5. [node2vec: Scalable Feature Learning for Networks](https://arxiv.org/abs/1607.00653)
80 | 


--------------------------------------------------------------------------------
/AI算法/推荐/collaborative_filtering.md:
--------------------------------------------------------------------------------
  1 | Author: Summer;     Email: huangmeihong11@sina.com
  2 | # 协同过滤(collaborative filtering)
  3 | ## 直观解释
  4 | 协同过滤是推荐算法中最常用的算法之一，它根据user与item的交互，发现item之间的相关性，或者发现user之间的相关性，进行推荐。比如你有位朋友看电影的爱好跟你类似，然后最近新上了《调音师》，他觉得不错，就会推荐给你，这是最简单的基于user的协同过滤算法（user-based collaboratIve filtering），还有一种是基于item的协同过滤算法（item-based collaborative filtering），比如你非常喜欢电影《当幸福来敲门的时候》，那么观影系统可能会推荐一些类似的励志片给你，比如《风雨哈佛路》等。如下主要分析user-based，item-based同理。
  5 | 
  6 | ## 导图
  7 | ![图片](https://uploader.shimo.im/f/8mslGdORa5YzVRXW!thumbnail)
  8 | ## 核心公式
  9 | * 符号定义
 10 | $r_{u,i}$：user $u$ 对 item $i$ 的评分
 11 | $\bar{r}_{u}$：user $u$ 的平均评分
 12 | $P_{a,b}$：用户$a,b$都有评价的items集合
 13 | 
 14 | * 核心公式
 15 | 1. item-based CF 邻域方法预测公式
 16 | $$\operatorname{Pred}(u, i)=\overline{r}_{u}+\frac{\sum_{j \in S_{i}}\left(\operatorname{sim}(i, j) \times r_{u, j}\right)}{\sum_{j \in S_{i}} \operatorname{sim}(i, j)}$$
 17 | 
 18 | 1. 偏差优化目标
 19 | $$\min _{b} \sum_{(u, i) \in K}\left(r_{(u, i)}-\mu-b_{u}-b_{i}\right)^{2}$$
 20 | 其中$(u，i) \in K$表示所有的评分，$\mu$总评分均值，$b_u$为user $u$的偏差，$b_i$为item $i$ 的偏差。
 21 | 
 22 | 1. - 加入正则项后的Funk SVD 优化公式
 23 | $$\min _{u v} \sum_{(u, i) \in k n o w n}\left(r_{u,i}-u_{u} v_{i}\right)+\lambda\left(|u|^{2}+|v|^{2}\right)$$
 24 | 其中$u_u$为user $u$的偏好，即为user特征矩阵$U$的第$u$行，$v_i$为item $i$的特征，即为特征矩阵$V$的第$i$列
 25 | ## 注意要点
 26 | * 相似度与距离之间的关系
 27 | 	距离越大，相似度越小；距离越小，相似度越高。即在求解最大相似度的时候可以转为求解最小距离。
 28 | 
 29 | * 在协同过滤中，常用的相似度函数有哪些，简要说明
 30 |   * 杰卡德相似度（Jaccard similarity）
 31 |   公式：
 32 |   $$sim_{jaccard}(u_{1}, u_{2})=\frac{ \text {items} \text { bought by } u_{1}\  and\  u_{2}}{ \text { items  bought by  } u_{1}\  or\  u_{2}}$$
 33 |   适用于二元情况，即定性情况，比如买或者没买，喜欢或者不喜欢，在数据稀疏的情况，可以转为二元应用。
 34 |     * 余弦相似度
 35 |    公式：$$\operatorname{sim}(u_{1}, u_{2})=\frac{r_{u_{1}} \cdot r_{u_{2}}}{\left|r_{u_{1}}\right|_{2}|r_{u_{2}}|_{2}}=\frac{\sum_{i \in P_{u_1,u_2}} r_{u_{1}, i} r_{u_{2}, i}}{\sqrt{\sum_{i \in P_{u_1}} r_{u_{1},i}^{2}} \sqrt{\sum_{i \in P_{u_2}}r_{u_{2},i}^{2}}}$$
 36 |    考虑不同用户的评价范围不一样，比如乐天派一般评分范围一般会高于悲观的人，会将评分进行去中心化再进行计算，即
 37 |     * 修正余弦相似度，公式变为
 38 | $$\operatorname{sim}(u_{1}, u_{2})=\frac{r_{u_{1}} \cdot r_{u_{2}}}{\left|r_{u_{1}}\right|_{2}|r_{u_{2}}|_{2}}=\frac{\sum_{i \in P_{u_1,u_2}} (r_{u_{1}, i}-{\bar{r}_{u_{1}}}) (r_{u_{2}, i}-\bar{r}_{u_2})}{\sqrt{\sum_{i \in P_{u_1}} (r_{u_{1},i}-\bar{r}_{u_{1}})^{2}} \sqrt{\sum_{i \in P_{u_2}}(r_{u_{2},i}-\bar{r}_{u_{2}})^{2}}}$$
 39 |     适用于定量情况，比如评分场景，要求数据具有一定的稠密度。注意如果计算一个评价很少电影的用户与一个评价很多电影的用户会导致相似度为0.
 40 |     * 皮尔森相关系数
 41 |    公式：
 42 |    $$\operatorname{sim}(u_1, u_2)=\frac{\sum_{i \in P_{u_1.u_2}}\left(r_{u_1, i}-\overline{r}_{u_1}\right)\left(r_{u_2, i}-\overline{r}_{u_2}\right)}{\sqrt{\sum_{i \in P_{u_1.u_2}}\left(r_{u_1, i}-\overline{r}_{u_1}\right)^{2}} \sqrt{\sum_{i \in P_{u_1.u_2}}\left(r_{u_2, i}-\overline{r}_{u_2}\right)^{2}}}$$
 43 |    皮尔森系数跟修正的余弦相似度几乎一致，两者的区别在于分母上，皮尔逊系数的分母采用的评分集是两个用户的共同评分集（就是两个用户都对这个物品有评价），而修正的余弦系数则采用两个用户各自的评分集。
 44 |     * $L_{p}-norms$
 45 |    公式：$$sim(u_1,u_2) =\frac{1}{ \sqrt[p]{| r_{u_1}-r_{u_2} |^p}+1}$$
 46 |    $p$取不同的值对应不同的距离公式，空间距离公式存在的不足这边也存在。对数值比较敏感。
 47 | * 有了相似度测量后，那么基于邻域的推荐思路是怎样的呢？
 48 | 过滤掉被评论较少的items以及较少评价的users，然后计算完users之间的相似度后，寻找跟目标user偏好既有大量相同的items，又存在不同的items的近邻几个users(可采用K-top、阈值法、聚类等方式)，然后进行推荐。步骤如下：
 49 | (1) 选择：选出最相似几个用户，将这些用户所喜欢的物品提取出来并过滤掉目标用户已经喜欢的物品
 50 | (2) 评估：对余下的物品进行评分与相似度加权
 51 | (3) 排序：根据加权之后的值进行排序
 52 | (4) 推荐：由排序结果对目标用户进行推荐
 53 | 
 54 | * 协同过滤算法具有特征学习的特点，试解释原理以及如何学习
 55 | 1. 特征学习：把users做为行，items作为列，即得评分矩阵$R_{m,n}=[r_{i,j}]$，通过矩阵分解的方式进行特征学习，即将评分矩阵分解为$R=U_{m,d}V_{d,n}$，其中$U_{m,d}$为用户特征矩阵，$V_{d,n}$表示items特征矩阵，其中$d$表示对items进行$d$个主题划分。举个简单例子，比如看电影的评分矩阵划分后，$U$中每一列表示电影的一种主题成分，比如搞笑、动作等，$V$中每一行表示一个用户的偏好，比如喜欢搞笑的程度，喜欢动作的程度，值越大说明越喜欢。这样，相当于，把电影进行了主题划分，把人物偏好也进行主题划分，主题是评分矩阵潜在特征。
 56 | 2. 学习方式
 57 | 3. - SVD，分解式为 $$R_{m,n}=U_{m,m}\Sigma_{m,n}V_{n,n}^T$$
 58 | 	   其中$U$为user特征矩阵，$\Sigma$为权重矩阵体现对应特征提供的信息量，$V$为item特征矩阵。同时可通过SVD进行降维处理，如下
 59 | 	 ![图片](https://uploader.shimo.im/f/dk4h20R8bkQUajmh!thumbnail)
 60 |  奇异值分解的方式，便于处理要目标user（直接添加到用户特征矩阵的尾部即可），然而要求评分矩阵元素不能为空，因此需要事先进行填充处理，同时由于user和item的数量都比较多，矩阵分解的方式计算量大，且矩阵为静态的需要随时更新，因此实际中比较少用。   
 61 | 4. - Funk SVD， Funk SVD 是去掉SVD的$\Sigma$成分，优化如下目标函数，可通过梯度下降法，得到的$U,V$矩阵
 62 | 	  $$J=\min _{u v} \sum_{(u, i) \in k n o w n}\left(r_{u,i}-u_{u} v_{i}\right)+\lambda\left(|u|^{2}+|v|^{2}\right)$$
 63 | 	  Funk SVD 只要利用全部有评价的信息，不需要就空置进行处理，同时可以采用梯度下降法，优化较为方便，较为常用。
 64 | 	  
 65 | 	  有了user特征信息和item特征信息，就可用$u_{u} v_{i}$对目标用户进行评分预测，如果目标用户包含在所计算的特征矩阵里面的话。针对于新user、新item，协同过滤失效。
 66 | 
 67 | * 如何简单计算user偏差以及item偏差？
 68 |   $$b_u=\frac{1}{|I_u|}\sum_{i \in I_u}(r_{u,i}-\mu) \
 69 |   b_i=\frac{1}{|U_i|}\sum_{u \in U_i}(r_{u,i}-b_u-\mu)
 70 |   $$
 71 | 
 72 | * 如何选择协同过滤算法是基于user还是基于item
 73 | 一般，谁的量多就不选谁。然而基于user的会给推荐目标带来惊喜，选择的范围更为宽阔，而不是基于推荐目标当前的相似item。因此如果要给推荐目标意想不到的推荐，就选择基于user的方式。可以两者结合。
 74 | 
 75 |   
 76 | * 协同过滤的优缺点
 77 |   1. 缺点：
 78 |    (1)稀疏性—— 这是协同过滤中最大的问题，大部分数据不足只能推荐比较流行的items，因为很多人只有对少量items进行评价，而且一般items的量非常多，很难找到近邻。导致大量的user木有数据可推荐（一般推荐比较流行的items），大量的item不会被推荐
 79 |    (2)孤独用户——孤独user具有非一般的品味，难以找到近邻，所以推荐不准确
 80 |    (3) 冷启动——只有大量的评分之后，才能协同出较多信息，所以前期数据比较少，推荐相对不准确；而如果没有人进行评分，将无法被推荐
 81 |   (4)相似性——协同过滤是与内容无关的推荐，只根据用户行为，所以倾向于推荐较为流行的items。
 82 | 
 83 | * 优点：
 84 |   	(1)不需要领域知识，存在users和items的互动，便能进行推荐
 85 |  	(2)简单易于理解
 86 |   	(3)相似度计算可预计算，预测效率高
 87 | 
 88 | * 协同过滤与关联规则的异同
 89 | 关联规则是不考虑tems或者使用它们的users情况下分析内容之间的关系，而协同过滤是不考虑内容直接分析items之间的关系或者users之间的关系。两者殊途同归均能用于推荐系统，但是计算方式不同。
 90 | 
 91 | * 实践中的一些注意点
 92 |   (1) 过滤掉被评价较少的items
 93 |   (2) 过滤掉评价较少的users
 94 |   (3) 可用聚类方式缩小搜索空间，但是面临找不到相同偏好的用户（如果用户在分界点，被误分的情况），这种方式通过缩小搜索空间的方式优化协同过滤算法
 95 |   (4) 使用的时候，可以考虑时间范围，偏好随着时间的改变会改变
 96 | 
 97 | ## 面试真题
 98 | 使用协同过滤算法之前，数据应该如何进行预处理？
 99 | 协同过滤的方式有哪些？
100 | 如何通过相似度计算设计协同过滤推荐系统？
101 | 请谈谈你对协同过滤中特征学习的理解？
102 | 如何将协同过滤用于推荐系统？
103 | FUNK SVD相对于SVD有哪些优势？
104 | 如何求解FUNK SVD？
105 | 请描述下协同过滤的优缺点？
106 | 


--------------------------------------------------------------------------------
/AI算法/推荐/deepfm.md:
--------------------------------------------------------------------------------
 1 | # DeepFM
 2 | 
 3 | 
 4 | 
 5 | 
 6 | 
 7 | DeepFM模型是2017年由哈工大与华为联合提出的模型，是对Wide&Deep模型的改进。与DCN不同的是，DeepFM模型是将Wide部分替换为了FM模型，增强了模型的低阶特征交互的能力。关于低阶特征交互，文章的Introduction中也提到了其重要性，例如：
 8 | 
 9 | 1、用户经常在饭点下载送餐APP，故存在一个2阶交互：app种类与时间戳；
10 | 
11 | 2、青少年喜欢射击游戏和RPG游戏，存在一个3阶交互：app种类、用户性别和年龄；
12 | 
13 | 用户背后的特征交互非常的复杂，低阶和高阶的特征交互都是很重要的，这也证明了Wide&Deep这种模型架构的有效性。DeepFM是一种**端到端的模型**，强调了包括低阶和高阶的特征交互接下来直接对DeepFM模型架构进行介绍，并与其他之前提到过的模型进行简单的对比。
14 | 
15 | 
16 | 
17 | ## 模型结构
18 | 
19 | DeepFM的模型结构非常简单，由Wide部分与Deep部分共同组成，如下图所示：
20 | 
21 | <img src="http://gzy-gallery.oss-cn-shanghai.aliyuncs.com/work_img/21.png" style="zoom: 50%;" />
22 | 
23 | 在论文中模型的目标是**共同学习低阶和高阶特征交互**，应用场景依旧是CTR预估，因此是一个二分类任务（$y=1$表示用户点击物品，$y=0$则表示用户未点击物品）
24 | 
25 | ### Input与Embedding层
26 | 
27 | 关于输入，包括离散的分类特征域（如性别、地区等）和连续的数值特征域（如年龄等）。分类特征域一般通过one-hot或者multi-hot（如用户的浏览历史）进行处理后作为输入特征；数值特征域可以直接作为输入特征，也可以进行离散化进行one-hot编码后作为输入特征。
28 | 
29 | 对于每一个特征域，需要单独的进行Embedding操作，因为每个特征域几乎没有任何的关联，如性别和地区。而数值特征无需进行Embedding。
30 | 
31 | Embedding结构如下：
32 | 
33 | <img src="http://gzy-gallery.oss-cn-shanghai.aliyuncs.com/work_img/22.png" style="zoom: 50%;" />
34 | 
35 | 
36 | 
37 | 文章中指出每个特征域使用的Embedding维度$k$都是相同的。
38 | 
39 | 【注】与Wide&Deep不同的是，DeepFM中的**Wide部分与Deep部分共享了输入特征**，即Embedding向量。
40 | 
41 | 
42 | 
43 | #### Wide部分---FM
44 | 
45 | <img src="http://gzy-gallery.oss-cn-shanghai.aliyuncs.com/work_img/23.png" style="zoom:67%;" />
46 | 
47 | 
48 | 
49 | FM模型[^4]是2010年Rendle提出的一个强大的**非线性分类模型**，除了特征间的线性(1阶)相互作用外，FM还将特征间的(2阶)相互作用作为各自特征潜向量的内积进行j建模。通过隐向量的引入使得FM模型更好的去处理数据稀疏行的问题，想具体了解的可以看一下原文。DeepFM模型的Wide部分就直接使用了FM，Embedding向量作为FM的输入。
50 | 
51 | $$
52 | y_{F M}=\langle w, x\rangle+\sum_{j_{1}=1}^{d} \sum_{j_{2}=j_{1}+1}^{d}\left\langle V_{i}, V_{j}\right\rangle x_{j_{1}} \cdot x_{j_{2}}
53 | $$
54 | 其中$w \in \mathbf{R}^d$，$\langle w, x\rangle$表示1阶特征，$V_i \in \mathbf{R}^k$表示第$i$个隐向量，$k$表示隐向量的维度，$$\displaystyle\sum_{j_{1}=1}^{d} \sum_{j_{2}=j_{1}+1}^{d}\left\langle V_{i}, V_{j}\right\rangle x_{j_{1}} \cdot x_{j_{2}}$$表示2阶特征。
55 | 
56 | 具体的对于2阶特征，FM论文中有下述计算（采取原文的描述形式），为线性复杂复杂度$O(kn)$：
57 | $$
58 | \begin{aligned} & \sum_{i=1}^{n} \sum_{j=i+1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle x_{i} x_{j} \\=& \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{j}\right\rangle x_{i} x_{j}-\frac{1}{2} \sum_{i=1}^{n}\left\langle\mathbf{v}_{i}, \mathbf{v}_{i}\right\rangle x_{i} x_{i} \\=& \frac{1}{2}\left(\sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{f=1}^{k} v_{i, f} v_{j, f} x_{i} x_{j}-\sum_{i=1}^{n} \sum_{f=1}^{n} v_{i, f} v_{i, f} x_{i} x_{i}\right) \\=& \frac{1}{2} \sum_{f=1}^{k}\left(\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right)\left(\sum_{j=1}^{n} v_{j, f} x_{j}\right)-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right) \\=& \frac{1}{2} \sum_{f=1}^{k}\left(\left(\sum_{i=1}^{n} v_{i, f} x_{i}\right)^{2}-\sum_{i=1}^{n} v_{i, f}^{2} x_{i}^{2}\right) \end{aligned}
59 | $$
60 | 
61 | #### Deep部分
62 | 
63 | <img src="http://gzy-gallery.oss-cn-shanghai.aliyuncs.com/work_img/24.png" style="zoom:67%;" />
64 | 
65 | Deep部分是一个前向传播的神经网络，用来学习高阶特征交互。
66 | 
67 | 
68 | 
69 | ### Output层
70 | 
71 | FM层与Deep层的输出相拼接，最后通过一个逻辑回归返回最终的预测结果：
72 | $$
73 | \hat y=sigmoid(y_{FM}+y_{DNN})
74 | $$
75 | 
76 | 
77 | 
78 | ## 面试相关
79 | 
80 | 1、Wide&Deep与DeepFM的区别？
81 | 
82 | Wide&Deep模型，Wide部分采用人工特征+LR的形式，而DeepFM的Wide部分采用FM模型，包含了1阶特征与二阶特征的交叉，且是端到端的，无需人工的特征工程。
83 | 
84 | 
85 | 
86 | 2、DeepFM的Wide部分与Deep部分分别是什么？Embedding内容是否共享
87 | 
88 | Wide：FM，Deep：DNN；
89 | 
90 | Embedding内容是共享的，在FM的应用是二阶特征交叉时的表征。
91 | 
92 | 


--------------------------------------------------------------------------------
/AI算法/推荐/gbdt_lr.md:
--------------------------------------------------------------------------------
 1 | # gbdt lr
 2 | gbdt+lr是facebook提出在线广告模型，我们知道LR之前在广告和推荐系统由于其快速的计算
 3 | 而被广泛使用，使用由于lr是线性模型，其模型表现能力不强，需要做大量的特征工程。
 4 | facebook提出提出使用决策树进行特征embedding。
 5 | 为了提升线性分类器的准确度，有两种方法进行特征变换：
 6 | 1. 对于连续特征。先进行离散化bin，然后把bin的编号作为离散型特征。这样的话，线性模型可以分段的学习到一个非线性的映射，在每一段内的映射是不变的。另外，对于bin边界的学习非常重要
 7 | 2. 对于离散特征。做笛卡尔积，生成的是tuple input features。笛卡尔积穷举了所有的特征组合，其中也包含部分没用的组合特征，不过可以筛选出来。
 8 | 提升决策树(boosted decision tree)就可以很方便很好的实现上面我们说的这种非线性和tuple特征变换。对于一个样本，针对每一颗树得到一个类别型特征。该特征取值为样本在树中落入的叶节点的编号。举例来说： 
 9 | <img src="../assert/gbdt-lr.png"/>
10 | 上图中的提升决策树包含两棵子树，第一棵树包含3个叶节点，第二棵树包含2个叶节点。输入样本x，在两棵树种分别落入叶子节点2和叶子节点1。那么特征转换就得到特征向量[0 1 0 1 0]。也就是说，把叶节点编号进行one-hot编码。
11 | 那么， 怎么样直观的理解这种特征变化：
12 | + 看做是一种有监督的特征编码。把实值的vector转换成紧凑的二值的vector。
13 | + 从根节点到叶节点的一条路径，表示的是在特征上的一个特定的规则。所以，叶节点的编号代表了这种规则。表征了样本中的信息，而且进行了非线性的组合变换。
14 | + 最后再对叶节点编号组合，相当于学习这些规则的权重。
15 | 
16 | # 核心思想
17 | 1. 数据更新
18 | > 由于推荐和广告等相关的问题，是一个动态的环境，需要对模型进行实时更新，所有对于lr进行在线学习和更新，gbdt可以每天或者几天更新一次。
19 | 2. 在线学习的学习率如何设置
20 | > 一般情况有很多学习率更新的方法，可以根据当前系统进行实验得到最好的学习率设置策略。论文中给出一下几种方法:
21 | + Per-coordinate learning rate:
22 | $$\eta_{t,i}=\frac{\alpha}{\beta+\sqrt{\sum_{j=1}^{t}}\bigtriangledown_{j,i}^2}$$
23 | 其中，$\alpha, \beta$是两个超参数.
24 | + Per-weight square root learning rate:
25 | $$\eta_{t,i}=\frac{\alpha}{\sqrt{n_{t,i}}}$$
26 | 其中，$n_{t,i}$是特征i所有实例的前t次的总和。
27 | + Per-weight learning rate:
28 | $$\eta_{t,i}=\frac{\alpha}{n_{t,i}}$$
29 | + Global learning rate:
30 | $$\eta_{t,i}=\frac{\alpha}{\sqrt{t}}$$
31 | + Constant learning rate:
32 | $$\eta_{t,i}=\alpha$$
33 | 3. 为了保证数据的新鲜性，需要进行在线数据加入，所有的曝光的实例，设置时间t，在时间t内被点击设置为label=1,否则设置label=0,注意时间t不能太大也不能太小，根据现实业务进行设置.
34 | 
35 | 4. 样本的均匀采样和负样本数据的下采样，由于负样本太多需要对负样本进行下采样。
36 | 
37 | 5. Model Re-Calibration
38 | > 负样本欠采样可以加快训练速度并提升模型性能。但是同样带来了问题：改变了训练数据分布。所以需要进行校准。 
39 | $$q=\frac{p}{p+(1-p)/w}$$
40 | 其中:
41 | + w是采样率
42 | + p是在采样后空间中给出的CTR预估值
43 | + 计算得到的q就是修正后的结果
44 | 
45 | # 面试十问
46 | 1. lr的权重个数和gbdt的什么有关?
47 | > lr的权重个数，等于gbdt所有叶子节点的个数.
48 | 
49 | 2. 负样本欠采样之后会对模型有什么影响，怎么解决?
50 | > 负样本欠采样可以加快训练速度并提升模型性能。但是同样带来了问题：改变了训练数据分布。所以需要进行校准。 
51 | > $$q=\frac{p}{p+(1-p)/w}$$
52 | 
53 | 3. GBDT特征的重要性是如何评估的? 
54 | > 特征j的全局重要度通过特征j在单颗树中的重要度的平均值来衡量:  
55 | > $$\hat J_j^2=\frac{1}{M}\sum_{m=1}^{M}\hat J_j^2(T_m)$$
56 | > 其中，M是树的数量，特征j在单棵树中的重要度如下:
57 | > $$\hat J_j^2(T)=\sum_{t=1}^{L-1}\hat i_j^2 I(v_t=j)$$
58 | 
59 | 4. gbdt+lr如何训练
60 | > 一般是先训练gbdt在训练lr，首先将数据data分成两部分a和b，a用来训练gbdt，b用来训练lr。其中用a训练gbdt的时候，需要将a分成train_a, valid_a, test_a, 得到gbdt之后。将b通过gbdt得到所有对应叶子节点的下标进行one-hot编码.
61 | > 继续训练b，将b通过gbdt得到update_b, 将update_b分成训练、验证和测试集，训练得到LR.
62 | 
63 | 5. 为什么建树采用ensemble决策树?
64 | > 一棵树的表达能力很弱，不足以表达多个有区分性的特征组合，多棵树的表达能力更强一些。GBDT每棵树都在学习前面棵树尚存的不足，迭代多少次就会生成多少颗树。按paper以及Kaggle竞赛中的GBDT+LR融合方式，多棵树正好满足LR每条训练样本可以通过GBDT映射成多个特征的需求。
65 | 
66 | 6. 为什么建树采用GBDT而非RF?
67 | > RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。
68 | 
69 | 7. GBDT与LR融合方案
70 | > AD ID类特征在CTR预估中是非常重要的特征，直接将AD ID作为feature进行建树不可行，故考虑为每个AD ID建GBDT树。但互联网时代长尾数据现象非常显著，广告也存在长尾现象，为了提升广告整体投放效果，不得不考虑长尾广告。在GBDT建树方案中，对于曝光充分训练样本充足的广告，可以单独建树，发掘对单个广告有区分度的特征，但对于曝光不充分样本不充足的长尾广告，无法单独建树，需要一种方案来解决长尾广告的问题。
71 | 
72 | > 综合考虑方案如下，使用GBDT建两类树，非ID建一类树，ID建一类树。
73 | 
74 | > 1）非ID类树：不以细粒度的ID建树，此类树作为base，即便曝光少的广告、广告主，仍可以通过此类树得到有区分性的特征、特征组合。
75 | 
76 | > 2）ID类树：以细粒度 的ID建一类树，用于发现曝光充分的ID对应有区分性的特征、特征组合。如何根据GBDT建的两类树，对原始特征进行映射？以如下图3为例，当一条样本x进来之后，遍历两类树到叶子节点，得到的特征作为LR的输入。当AD曝光不充分不足以训练树时，其它树恰好作为补充。
77 | 
78 | 
79 | # 面试真题 
80 | 1. 为什么建树采用GBDT而非RF?
81 | 
82 | # 参考
83 | 1. https://blog.csdn.net/u010352603/article/details/80681100
84 | 2. http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm
85 | 3. https://blog.csdn.net/u014297722/article/details/89420421


--------------------------------------------------------------------------------
/AI算法/推荐/向量化搜索.md:
--------------------------------------------------------------------------------
  1 | # 向量化搜索
  2 | 
  3 | 在高维空间内快速搜索最近邻（Approximate Nearest Neighbor）。召回中，Embedding向量的搜索。
  4 | 
  5 | FAISS、kd-tree、局部敏感哈希、【Amnoy、HNSW】
  6 | 
  7 | 
  8 | 
  9 | ## FAISS
 10 | 
 11 | faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库，底层是用C++实现。Faiss因为超级优越的性能，被广泛应用于推荐相关的业务当中。
 12 | 
 13 | faiss工具包一般使用在推荐系统中的向量召回部分。在做向量召回的时候要么是u2u，u2i或者i2i，这里的u和i指的是user和item。我们知道在实际的场景中user和item的数量都是海量的，最容易想到的基于向量相似度的召回就是使用两层循环遍历user列表或者item列表计算两个向量的相似度，但是这样做在面对海量数据是不切实际的，faiss就是用来加速计算某个查询向量最相似的topk个索引向量。
 14 | 
 15 | **faiss查询的原理：**
 16 | 
 17 | faiss使用了PCA和PQ(Product quantization乘积量化)两种技术进行向量压缩和编码，当然还使用了其他的技术进行优化，但是PCA和PQ是其中最核心部分。
 18 | 
 19 | ### **主要流程**
 20 | 
 21 | - 构建索引`index`
 22 | - 根据不同索引的特性，对索引进行训练（`train`）
 23 | - `add` 添加`xb`数据到索引
 24 | - 针对`xq`进行搜索`search`操作
 25 | 
 26 | ### Example
 27 | 
 28 | 1、数据集
 29 | 
 30 | ```python
 31 | d = 64                           # dimension
 32 | nb = 100000                      # 完整数据集
 33 | nq = 10000                       # 查询数据
 34 | np.random.seed(1234)             
 35 | xb = np.random.random((nb, d)).astype('float32')
 36 | xb[:, 0] += np.arange(nb) / 1000.
 37 | xq = np.random.random((nq, d)).astype('float32')
 38 | xq[:, 0] += np.arange(nq) / 1000.
 39 | ```
 40 | 
 41 | 2、构建索引
 42 | 
 43 | Faiss围绕`Index`对象构建。它封装了数据库向量集，并可选地对其进行预处理以提高搜索效率。索引的类型很多，我们将使用最简单的索引，它们仅对它们执行暴力L2距离搜索：`IndexFlatL2`。
 44 | 
 45 | `d`在我们的例子中，所有索引都需要知道何时建立索引，即它们所操作的向量的维数
 46 | 
 47 | ```python
 48 | index = faiss.IndexFlatL2(d)   # build the index
 49 | ```
 50 | 
 51 | 3、对索引进行训练
 52 | 
 53 | 然后，大多数索引还需要训练阶段，以分析向量的分布。对于`IndexFlatL2`，我们可以跳过此操作。
 54 | 
 55 | 4、添加数据到索引
 56 | 
 57 | 构建和训练索引后，可以对索引执行两项操作：`add`和`search`。
 58 | 
 59 | 将元素添加到索引，我们称之为`add`上`xb`。我们还可以显示索引的两个状态变量：`is_trained`，指示是否需要训练的布尔值，以及`ntotal`索引向量的数量。
 60 | 
 61 | 一些索引还可以存储与每个向量相对应的整数ID（但不能存储`IndexFlatL2`）。如果未提供ID，则`add`只需将向量序号用作ID，即。第一个向量为0，第二个为1，依此类推。
 62 | 
 63 | ```python
 64 | index.add(xb)                  # add vectors to the index
 65 | ```
 66 | 
 67 | 5、对查询数据进行搜索操作
 68 | 
 69 | 可以对索引执行的基本搜索操作是`k`-最近邻搜索，即。对于每个查询向量，`k`在数据库中找到其最近的邻居。
 70 | 
 71 | 该操作的结果可以方便地存储在一个大小为`nq`-by-的整数矩阵中`k`，其中第i行包含查询向量i的邻居ID（按距离递增排序）。除此矩阵外，该`search`操作还返回一个具有相应平方距离的`nq`按`k`浮点矩阵。
 72 | 
 73 | ```python
 74 | k = 4                          # we want to see 4 nearest neighbors
 75 | D, I = index.search(xb[:5], k) # sanity check, 首先搜索一些数据库向量，以确保最近的邻居确实是向量本身
 76 | print(I)
 77 | print(D)
 78 | D, I = index.search(xq, k)     # actual search
 79 | print(I[:5])                   # neighbors of the 5 first queries
 80 | print(I[-5:])                  # neighbors of the 5 last queries
 81 | ```
 82 | 
 83 | ### 索引方式
 84 | 
 85 | Faiss中的稠密向量各种索引都是基于 `Index`实现的，主要的索引方法包括： `IndexFlatL2`、`IndexFlatIP`、`IndexHNSWFlat`、`IndexIVFFlat`、`IndexLSH`、`IndexScalarQuantizer`、`IndexPQ`、`IndexIVFScalarQuantizer`、`IndexIVFPQ`、`IndexIVFPQR`等，[每个方法的具体介绍](https://github.com/facebookresearch/faiss/wiki/Faiss-indexes#summary-of-methods)。
 86 | 
 87 | `IndexFlatL2`：
 88 | 
 89 | - 基于L2距离的暴力全量搜索，速度较慢，不需要训练过程。
 90 | 
 91 | `IndexIVFFlat`：
 92 | 
 93 | - 先聚类再搜索，可以加快检索速度；
 94 | - 先将`xb`中的数据进行聚类（聚类的数目是超参），`nlist`: 聚类的数目
 95 | - `nprobe`: 在多少个聚类中进行搜索，默认为`1`, `nprobe`越大，结果越精确，但是速度越慢
 96 | 
 97 | ```python
 98 | def IndexIVFFlat(nlist):
 99 |     quantizer = faiss.IndexFlatL2(d)
100 |     index = faiss.IndexIVFFlat(quantizer, d, nlist)
101 |     print(index.is_trained)
102 |     index.train(xb)
103 |     print(index.is_trained)
104 |     index.add(xb)
105 |     return index
106 | ```
107 | 
108 | `IndexIFVPQ`
109 | 
110 | - 基于乘积量化（product quantizers）对存储向量进行压缩，节省存储空间
111 | - `m`：乘积量化中，将原来的向量维度平均分成多少份，`d`必须为`m`的整数倍
112 | - `bits`: 每个子向量用多少个`bits`表示
113 | 
114 | ```python
115 | def IndexIVFPQ(nlist, m, bits):
116 |     quantizer = faiss.IndexFlatL2(d)
117 |     index = faiss.IndexIVFPQ(quantizer, d, nlist, m, bits)
118 |     index.train(xb)
119 |     index.add(xb)
120 |     return index
121 | ```
122 | 
123 | 
124 | 
125 | ## kd树
126 | 
127 | kd树是一种对k维空间中的实例点进行**存储**以便对其进行**快速检索**的树形数据结构。kd树是**二叉树**，表示对k维空间的一个划分（partition）。**构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域**。kd树的每个结点对应于一个k维超矩形区域。
128 | 
129 | ### kd树的结构
130 | 
131 | kd树是一个二叉树结构，它的每一个节点记载了【特征坐标，切分轴，指向左枝的指针，指向右枝的指针】。
132 | 
133 | 其中，特征坐标是线性空间$\mathbf{R}^n$的一个点$(x_1,...,x_n)$。
134 | 
135 | 切分轴由一个整数$r$表示，这里$1\leq r\leq n$，是我们在$n$ 维空间中沿第$n$维进行一次分割。
136 | 
137 | 节点的左枝和右枝分别都是 kd 树，并且满足：如果 y 是左枝的一个特征坐标，那么$y_r \leq x_r$并且如果 z 是右枝的一个特征坐标，那么$x_r \leq z_r $。
138 | 
139 | ### kd树的构造
140 | 
141 | 通过数据集来构造kd树存储空间，在推荐系统中即用物品Embedding池进行构建。
142 | 
143 | - 输入：k维空间数据集$T=\left\{x_{1}, x_{2}, \cdots, x_{N}\right\}$，其中$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(k)}\right)^{\mathrm{T}},i=1,2,...,N$；
144 | 
145 | - 输出：kd树；
146 | 
147 | - （1）开始：构造根结点，根结点对应于包含$T$的$k$维空间的超矩形区域。
148 | 
149 |   选择$x^{(1)}$为坐标轴，以$T$中所有实例的$x^{(1)}$坐标的**中位数为切分点**【若超平面上没有切分点，可以适当移动位置，使得超平面上有点】，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴$x^{(1)}$垂直的超平面实现。
150 | 
151 |   由根结点生成深度为1的左、右子结点：左子结点对应坐标$x^{(1)}$小于切分点的子区域，右子结点对应于坐标$x^{(1)}$大于切分点的子区域。
152 |   将**落在切分超平面上的实例点保存在根结点**。
153 | 
154 | - （2）重复：对深度为$j$的结点，选择$x^{(l)}$为切分的坐标轴，$l=j(\bmod k)+1$，以该结点的区域中所有实例的$x^{(l)}$坐标的中位数为切分点，将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴$x^{(l)}$垂直的超平面实现。
155 |   由该结点生成深度为$j+1$的左、右子结点：左子结点对应坐标$x^{(l)}$小于切分点的子区域，右子结点对应坐标$x^{(l)}$大于切分点的子区域
156 |   将落在切分超平面上的实例点保存在该结点。
157 | 
158 | - （3）直到两个子区域没有实例存在时停止。从而形成kd树的区域划分。
159 | 
160 | 最后每一部分都只剩一个点，将他们记在最底部的节点中。因为不再有未被记录的点，所以不再进行切分。
161 | 
162 | ![img](https://pic2.zhimg.com/80/v2-93ada931fd95e04f829318d5983aebe5_1440w.png)
163 | 
164 | ![img](https://pic1.zhimg.com/80/v2-ef599210d778bc0b11ae7b1d0116c28c_1440w.png)
165 | 
166 | ### 搜索kd树
167 | 
168 | 在推荐系统中，即通过用户的Embedding向量来查找与其近邻的$K$个物品Embedding向量。
169 | 
170 | - 输入：已构造的kd树；目标点$x$；  
171 | - 输出：$x$的$k$近邻；
172 | - 设有一个$ k$个空位的列表，用于保存已搜寻到的最近点。
173 | 
174 | - （1）在kd树中找出包含目标点$x$的叶结点：从根结点出发，递归地向下访问树。若目标点$x$当前维的坐标小于切分点的坐标，则移动到左子结点，否则移动到右子结点，直到子结点为叶结点为止；
175 | - （2）如果**“当前k近邻点集”元素数量小于$k$**或者**叶节点距离小于“当前k近邻点集”中最远点距离**，那么将叶节点插入“当前k近邻点集”；
176 | - （3）递归地向上回退，在每个结点进行以下操作：
177 |   - 如果“当前k近邻点集”元素数量小于k或者当前节点距离小于“当前k近邻点集”中最远点距离，那么将该节点插入“当前k近邻点集”。
178 |   - 检查该子结点的父结点的另一子结点对应的区域是否与以目标点为球心、以目标点与于“当前k近邻点集”中最远点间的距离为半径的超球体相交。如果相交，可能在另一个子结点对应的区域内存在距目标点更近的点，移动到另一个子结点，接着，递归地进行最近邻搜索；如果不相交，向上回退；
179 | - 当回退到根结点时，搜索结束，最后的“当前k近邻点集”即为$x$的k近邻点。
180 | 
181 | kd树的平均计算复杂度是$log(N)$。
182 | 
183 | 参考资料：[kd 树算法之详细篇](https://zhuanlan.zhihu.com/p/23966698)
184 | 
185 | 
186 | 
187 | ## 局部敏感哈希
188 | 
189 | 局部敏感哈希的基本思想：
190 | 
191 | > 让相邻对的点落入同一个“桶”，这样在进行最近邻搜索时，仅需要在一个桶内，或相邻的几个桶内的元素中进行搜索即可。如果保持每个桶中的元素个数在一个常数附近，就可以把最近邻搜索的时间复杂度降低到常数级别。
192 | 
193 | 首先需要明确一个概念，
194 | 
195 | > 在欧式空间中，将高维空间的点映射到低维空间，原本相近的点在低维空间中肯定依然相近，但原本远离的点则有一定概率变成相近的点。
196 | 
197 | 所以**利用低维空间可以保留高维空间相近距离关系的性质**，就可以构造局部敏感哈希的桶。
198 | 
199 | 对于Embedding向量，可以用内积操作构建局部敏感哈希桶。假设$\mathbf{v}$是高维空间中的$k$维Embedding向量，$\mathbf{x}$是随机生成的$k$维向量。内积操作可以将$\mathbf{v}$映射到1维空间，成为一个数值：
200 | $$
201 | h(\mathbf{v})=\mathbf{v}\cdot \mathbf{x}
202 | $$
203 | 因此，可以使用哈希函数$h(v)$进行分桶：
204 | $$
205 | h^{x,b}(\mathbf{v})=\lfloor x \frac{\mathbf{x}\cdot \mathbf{v}+ b}{w}\rfloor x 
206 | $$
207 | 其中$\lfloor \rfloor$是向下取整，$w$是分桶宽度，$b$是0到$w$间的一个均匀分布随机变量，避免分桶边界固化。
208 | 
209 | 如果仅采用一个哈希函数进行分桶，则必然存在相近点误判的情况。有效的解决方法是采用$m$个哈希函数同时进行分桶。同时掉进$m$个哈希函数的同一个桶的两点，是相似点的概率大大增加。找到相邻点集合后，取$K$近邻个。
210 | 
211 | 采用多个哈希函数进行分桶，存在一个待解决的问题，到底通过“与”还是“或”：
212 | 
213 | - 与：候选集规模减小，计算量降低，但可能会漏掉一些近邻点；
214 | - 或：候选集中近邻点的召回率提高，但候选集的规模变大，计算开销变大；
215 | 
216 | 以上是将欧式空间中内积操作的局部敏感哈希使用方法；还有余弦相似度、曼哈顿距离、切比雪夫距离、汉明距离等。


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Daily Interview
 2 | 
 3 | ## 背景
 4 | 
 5 | 牛客网，知乎等众多网站上包含了数以百万计的面经，但往往大而散，面试者在准备面试时候去翻阅不但浪费时间，翻阅材料越多，越觉得自己很多知识点都没有掌握，造成心理上极大的压力，导致面试中不能发挥正常水平甚至面试失败。
 6 | 其实，每一位求职者都应该有自己的一份面试笔记，记录笔试中常涉及到的知识点和项目中常被问到的问题。每次面试之前看一遍，做到举一反三，融会贯通，熟捻于心，方能在每次面试中汲取经验，最后从容应对。我个人就有自己的面试笔记，每次面试之前都会翻一遍，边看边想，但求好运。
 7 | 
 8 | ## 宗旨
 9 | 不需要大而全，涵盖所有内容，因为知识在不断更新迭代，我们也做不到涵盖所有。
10 | 不提供查漏补缺，因为每个人的短板不尽相同，需要面试者根据自己知识体系，多加思考，自己完善。
11 | 这是一份每一个面试者面试之前必看一遍的小面经。面试之前的半天时间，温故而知新。
12 | 
13 | ## 内容
14 | 
15 | <div align=center>
16 | <img src="https://github.com/datawhalechina/daily-interview/blob/master/content.png" width="400px">
17 | </div>
18 | 
19 | 
20 | ## 使用指南
21 | 
22 | 1. 目前大部分成员是做AI算法，所以主要精力在AI算法一块。若有对开发感兴趣的人员参与整理，十分欢迎。
23 | 
24 | 2. 数据结构与算法本来属于计算机基础一部分，但是因为不管面试算法岗还是开发岗，都会问到，所以单独提出来。
25 | 
26 | 3. 算法岗：重点是AI算法、数据结构与算法；了解数学、计算机基础。
27 | 
28 |    开发岗：重点是开发、数据结构与算法、计算机基础。
29 | 
30 | 以面试岗位为梳理主线，整理面试之前必看的面试题目，给出高频的面试知识点和面试题。
31 | 
32 | 
33 | ## 招募
34 | 
35 | 如果你也喜欢这个项目，想参与到面经项目中来，可以与我们联系 E-mail:xiongweinie@foxmail.com
36 | 
37 | ## 关注我们
38 | <div align=center>
39 | <p>扫描下方二维码关注公众号：Datawhale</p>
40 | <img src="https://raw.githubusercontent.com/datawhalechina/pumpkin-book/master/res/qrcode.jpeg" width = "180" height = "180">
41 | </div>
42 | 
43 | ## LICENSE
44 | <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="知识共享许可协议" style="border-width:0" src="https://img.shields.io/badge/license-CC%20BY--NC--SA%204.0-lightgrey" /></a><br />本作品采用<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议</a>进行许可。
45 | 


--------------------------------------------------------------------------------
/_coverpage.md:
--------------------------------------------------------------------------------
 1 | <!-- ![logo](https://docsify.js.org/_media/icon.svg) -->
 2 | 
 3 | # Datawhale面经
 4 | 
 5 | > Datawhale面经
 6 |  
 7 |  
 8 | 
 9 | [GitHub](https://github.com/datawhalechina/daily-interview.git)
10 | <!-- [Get Started](#quick-start) -->


--------------------------------------------------------------------------------
/_navbar.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/_navbar.md


--------------------------------------------------------------------------------
/_sidebar.md:
--------------------------------------------------------------------------------
 1 | <!-- docs/_sidebar.md -->
 2 | 
 3 |   - 计算机基础     
 4 |       - [操作系统](./计算机基础/操作系统.md)
 5 |       - [计算机网络](./计算机基础/计算机网络.md) 
 6 |       - [数据库](./计算机基础/数据库.md)
 7 | 
 8 |   - Big data
 9 |       - [MapReduce](./开发/大数据/mapreduce.md)
10 |       - [Technology](./开发/大数据/Technology.md)
11 |       - [Questions](./开发/大数据/questions.md)
12 | 
13 |   - 前端开发
14 |       - [基础知识](./开发/前端开发/README.md)
15 |       - [JavaScript相关问题](./开发/前端开发/【1】javascript.md)
16 |       - [HTML 相关问题](./开发/前端开发/【2】html.md)
17 |       - [CSS 相关问题](./开发/前端开发/【3】css.md)
18 |       - [网络及浏览器相关问题](./开发/前端开发/【4】网络及浏览器.md)
19 |       - [前端框架及打包工具相关问题](./开发/前端开发/【5】前端框架及打包工具.md)
20 |       - [NodeJS 相关问题](./开发/前端开发/【6】nodejs.md)
21 | 
22 |   - Java 后端开发
23 |       - [基础知识](./开发/Java后端开发.md)
24 | 
25 |   - 数学 
26 |       - [logic题](./数学/统计学/logic.md)
27 |       - [probability题](./数学/统计学/logic.md)
28 | 
29 |   - 数据结构与算法
30 |       - [数组](./数据结构与算法/Array.md)
31 |       - [排序](./数据结构与算法/sort.md)
32 |       - [贪心](./数据结构与算法/greedy.md)
33 |       - [字符串](./数据结构与算法/string.md)
34 |       - [链表](./数据结构与算法/linklist.md)
35 |       - [二叉树](./数据结构与算法/binaryTree.md)
36 |       - [图](./数据结构与算法/graph.md)
37 |       - [搜索](./数据结构与算法/search.md)
38 |       - [动态规划](./数据结构与算法/dp.md)
39 |       - 其他 
40 | 
41 |   - 机器学习基础
42 |       - [Metrics](./AI算法/machine-learning/metrics.md)
43 |       - [过拟合与欠拟合](./AI算法/machine-learning/过拟合与欠拟合.md)
44 |       - [梯度下降](./AI算法/machine-learning/梯度下降.md)
45 |       - [ABTest](./AI算法/machine-learning/ABTest.md)
46 | 
47 |   - 机器学习算法    
48 |       - [线性回归+逻辑回归](./AI算法/machine-learning/线性回归+逻辑回归.md)
49 |       - [SVM](./AI算法/machine-learning/SVM.md)
50 |       - [Decision Tree](./AI算法/machine-learning/DecisionTree.md)
51 |       - [EnsembleLearning](./AI算法/machine-learning/EnsembleLearning.md)
52 |       - [Adaboost](./AI算法/machine-learning/Adaboost.md)
53 |       - [XGBoost](./AI算法/machine-learning/XGBoost.md)
54 |       - [LightGBM](./AI算法/machine-learning/LightGBM.md)
55 |       - [Catboost](./AI算法/machine-learning/Catboost.md)
56 |       - [KMeans](./AI算法/machine-learning/KMeans.md)
57 |       - [KNN](./AI算法/machine-learning/KNN.md)
58 |       - [NaïveBayes](./AI算法/machine-learning/NaïveBayes.md)
59 |       - [CRF](./AI算法/machine-learning/CRF.md)
60 |       - [Apriori](./AI算法/machine-learning/Apriori.md)
61 |       - [Prophet](./AI算法/machine-learning/Prophet.md)
62 | 
63 |   - 图像处理算法 
64 |       - [CV基础](./AI算法/CV/CV基础.md)
65 | 
66 |   - 自然语言处理算法 
67 | 
68 |       - [文本结构理解](./AI算法/NLP/文本表示/文本结构理解.md)
69 |       - [文本表征方式](./AI算法/NLP/文本表示/文本表征方式.md)
70 |       - [特征挖掘-基于深度学习的模型](./AI算法/NLP/特征挖掘/基于深度学习的模型.md)
71 |       - [特征挖掘-Bert](./AI算法/NLP/特征挖掘/Bert/Bert面试题.md)
72 |       - [NLG应用场景](./AI算法/NLP/应用场景/NLG.md)
73 | 
74 | 
75 | 
76 | 


--------------------------------------------------------------------------------
/assert/apr.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/apr.png


--------------------------------------------------------------------------------
/assert/auc.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/auc.png


--------------------------------------------------------------------------------
/assert/big-data1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/big-data1.png


--------------------------------------------------------------------------------
/assert/bigdata2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/bigdata2.png


--------------------------------------------------------------------------------
/assert/conf_matrix.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/conf_matrix.png


--------------------------------------------------------------------------------
/assert/d1-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/d1-1.png


--------------------------------------------------------------------------------
/assert/exm6.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/exm6.png


--------------------------------------------------------------------------------
/assert/filter-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/filter-1.png


--------------------------------------------------------------------------------
/assert/filter-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/filter-2.png


--------------------------------------------------------------------------------
/assert/formula-word2vec-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/formula-word2vec-1.png


--------------------------------------------------------------------------------
/assert/formula-word2vec-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/formula-word2vec-2.png


--------------------------------------------------------------------------------
/assert/fp.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/fp.png


--------------------------------------------------------------------------------
/assert/fptree.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/fptree.png


--------------------------------------------------------------------------------
/assert/g-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/g-1.png


--------------------------------------------------------------------------------
/assert/g-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/g-2.png


--------------------------------------------------------------------------------
/assert/gbdt-1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/gbdt-1.png


--------------------------------------------------------------------------------
/assert/gbdt-2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/gbdt-2.png


--------------------------------------------------------------------------------
/assert/gbdt-3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/gbdt-3.png


--------------------------------------------------------------------------------
/assert/gbdt-4.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/gbdt-4.png


--------------------------------------------------------------------------------
/assert/gbdt-lr.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/gbdt-lr.png


--------------------------------------------------------------------------------
/assert/mult_gbdt.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/mult_gbdt.png


--------------------------------------------------------------------------------
/assert/os1.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/os1.jpg


--------------------------------------------------------------------------------
/assert/prb10.gif:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/prb10.gif


--------------------------------------------------------------------------------
/assert/r.jpe:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/r.jpe


--------------------------------------------------------------------------------
/assert/simain.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/simain.jpg


--------------------------------------------------------------------------------
/assert/word2vec-3.PNG:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/assert/word2vec-3.PNG


--------------------------------------------------------------------------------
/content.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/content.png


--------------------------------------------------------------------------------
/index.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | 
 4 | <head>
 5 |   <meta charset="UTF-8">
 6 |   <title>Datawhale面经</title>
 7 |   <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
 8 |   <meta name="description" content="Description">
 9 |   <meta name="viewport" content="width=device-width, initial-scale=1.0, minimum-scale=1.0">
10 |   <link rel="stylesheet" href="//unpkg.com/docsify/lib/themes/vue.css">
11 | </head>
12 | 
13 | <body>
14 |   <div id="app"></div>
15 |   <script>
16 |     window.$docsify = {
17 |       name: 'Datawhale面经',
18 |       repo: 'https://github.com/datawhalechina/daily-interview/',
19 |       loadSidebar: true,
20 |       auto2top: true,
21 |       sidebarDisplayLevel: 0,
22 |       subMaxLevel: 2,
23 |       coverpage: true,
24 |       alias: {
25 |         '/.*/_sidebar.md': '/_sidebar.md'
26 |       },
27 |       pagination: {
28 |         previousText: '上一章节',
29 |         nextText: '下一章节',
30 |       },
31 |       search: {
32 |         placeholder: '搜索',
33 |         noData: '找不到结果！',
34 |       },
35 |       count: {
36 |         countable: true,
37 |         position: 'top',
38 |         margin: '10px',
39 |         float: 'right',
40 |         fontsize: '0.9em',
41 |         color: 'rgb(90,90,90)',
42 |         language: 'chinese',
43 |         isExpected: true
44 |       }
45 |     }
46 |   </script>
47 | 
48 | 
49 |   <!-- Put them above docsify.min.js -->
50 |   <script src="//cdn.jsdelivr.net/npm/docsify@latest/lib/docsify.min.js"></script>
51 |   <!-- code render-->
52 |   <script src="//cdn.jsdelivr.net/npm/prismjs@latest/components/prism-bash.min.js"></script>
53 |   <script src="//cdn.jsdelivr.net/npm/prismjs@latest/components/prism-python.min.js"></script>
54 |   <script src="//cdn.jsdelivr.net/npm/docsify-pagination@latest/dist/docsify-pagination.min.js"></script>
55 |   <script src="//cdn.jsdelivr.net/npm/docsify-copy-code"></script>
56 |   <!-- CDN files for docsify-katex -->
57 |   <script src="//cdn.jsdelivr.net/npm/docsify-katex@latest/dist/docsify-katex.js"></script>
58 |   <link rel="stylesheet" href="//cdn.jsdelivr.net/npm/katex@0.10.2/dist/katex.min.css">
59 |   <!-- sidebar collapse -->
60 |   <script src="//cdn.jsdelivr.net/npm/docsify-sidebar-collapse@latest/dist/docsify-sidebar-collapse.min.js"></script>
61 |   <!-- search -->
62 |   <script src="//cdn.jsdelivr.net/npm/docsify@latest/lib/plugins/search.js"></script>
63 |   <!-- count -->
64 |   <script src="//cdn.jsdelivr.net/npm/docsify-count@latest/dist/countable.min.js"></script>
65 | 
66 | </body>
67 | 
68 | </html>


--------------------------------------------------------------------------------
/大数据技术/README.md:
--------------------------------------------------------------------------------
 1 | ## 背景
 2 | 
 3 | 随着大数据技术的快速发展，大数据也越来越贴近公司的核心业务，从spark开发到数据仓库的建设，大数据涵盖了方法面面，正是这样庞杂的知识体系，给大数据面试带来了很多困扰点，面试者往往需要收集方方面面的资料进行知识体系的巩固。
 4 | 
 5 | 笔者结合自己的工作经验，已经面试经验，整理大数据方面的相关知识点，用于面试与复习，也希望这份资料能同样帮助到你。当然受限于笔者的自身水平，如您在阅读过程中发现问题，麻烦联系我，谢谢。
 6 | 
 7 | ## 笔者联系方式
 8 | 
 9 | E-mail:  xiongweinie@foxmail.com
10 | 
11 | ## 大数据技术框架
12 | 
13 | - Java基础
14 | - Linux基础
15 | - Spark
16 | - Hive
17 | - Hbase
18 | - Hadoop
19 | - Flink
20 | - 数据仓库建设
21 | - 真实面试经验


--------------------------------------------------------------------------------
/开发/Docker+万字教程：从入门到掌握.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/开发/Docker+万字教程：从入门到掌握.pdf


--------------------------------------------------------------------------------
/开发/前端开发/【2】html.md:
--------------------------------------------------------------------------------
 1 | # 前端开发校招面试问题整理【2】——HTML
 2 | 
 3 | ## 1、HTML 元素（element）
 4 | 
 5 | ### Q：简单介绍下常用的 HTML 元素？
 6 | 
 7 | 块状标签：元素独占一行，可指定宽、高。
 8 | 常用的块状元素有：
 9 | 
10 | ```
11 | <div>、<p>、<h1>-<h6>、<ol>、<ul>、<dl>、<table>、<form>
12 | ```
13 | 
14 | 内联元素：元素在一行内，宽度与高度由内容决定，只有在内容超过 HTML 的宽度时，才会换行。
15 | 常用的内联元素有：
16 | 
17 | ```
18 | <a>、<span>、<i>、<em>、<strong>、<label>
19 | ```
20 | 
21 | 内联块状元素同时具备内联元素、块状元素的特点，它和其他元素都在一行，但元素的高度、宽度、行高以及顶和底边距都可设置。常用的内联块状元素有：
22 | 
23 | ```
24 | <img>、<input>
25 | ```
26 | 
27 | ### Q：语义化元素是指？
28 | 
29 | 语义化元素是指元素本身传达了关于其内容类型的一些信息。这些元素让页面的内容结构化，结构更清晰，便于 SEO，容易阅读和维护。
30 | 
31 | 常见的语义化元素：
32 | 
33 | ```
34 | <header>
35 | <footer>
36 | <nav>
37 | <article>
38 | <section>
39 | <aside>
40 | 
41 | <h1>
42 | <h2>
43 | <h3>
44 | <h4>
45 | <h5>
46 | <h6>
47 | 
48 | <strong>
49 | <em>
50 | ```
51 | 
52 | ### Q：HTML5 新增了哪些元素？
53 | 
54 | | 标签        | 说明                                                             |
55 | | ----------- | ---------------------------------------------------------------- |
56 | | `<header>`  | 定义 section 或 document 的页眉。                                |
57 | | `<footer>`  | 定义 section 或 document 的页脚。                                |
58 | | `<nav>`     | 定义导航链接的部分。                                             |
59 | | `<article>` | 定义文章的内容。                                                 |
60 | | `<section>` | 定义文档中的段落。比如章节、页眉、页脚或文档中的其他部分。       |
61 | | `<aside>`   | 定义 article 以外的内容。aside 的内容应该与 article 的内容相关。 |
62 | | `<audio>`   | 定义声音。                                                       |
63 | | `<canvas>`  | 定义图形。                                                       |
64 | | `<video>`   | 定义视频，比如电影片段或其他视频流。                             |
65 | | `<source>`  | 为媒介元素（比如 `<video>` 和 `<audio>`）定义媒介资源。          |
66 | 
67 | ## 2、HTML 事件
68 | 
69 | ### Q：描述一下 HTML 的事件模型？事件捕获/事件冒泡指的是？
70 | ![事件模型](http://www.shadowingszy.top/images/event.png)
71 | 
72 | 当页面触发一个事件的时候，浏览器主要做了三个阶段的事情，分别是：
73 | 1、捕获事件阶段
74 | 2、目标处理阶段
75 | 3、后续事件处理阶段
76 | 
77 | 当事件被触发，从根节点传递事件对象到目标节点的过程，就是事件捕获。
78 | 当处理完成事件后，从目标节点反向的传递到根节点的过程，就是事件冒泡。
79 | 
80 | ### Q：如何阻止事件冒泡？如何阻止元素默认行为？
81 | 
82 | ```javascript
83 | event.stopPropagation() // 阻止事件冒泡
84 | event.preventDefault() // 阻止元素默认行为
85 | ```
86 | 


--------------------------------------------------------------------------------
/开发/前端开发/【3】css.md:
--------------------------------------------------------------------------------
  1 | # 校招前端面试常见问题【3】——CSS
  2 | 
  3 | ## 1、盒模型
  4 | 
  5 | ### Q：请简述一下 CSS 盒模型？
  6 | 
  7 | ![盒模型](http://www.shadowingszy.top/images/box.png)
  8 | 
  9 | W3C 模式：盒子宽=width+padding+border+margin
 10 | 怪异模式：盒子宽=width+margin
 11 | 
 12 | ### Q：inline、block、inline-block 元素的区别？
 13 | 
 14 | inline（行内元素）:
 15 | 使元素变成行内元素，拥有行内元素的特性，即可以与其他行内元素共享一行，不会独占一行。
 16 | 不能更改元素的 height，width 的值，大小由内容撑开。
 17 | 可以使用 padding 上下左右都有效，margin 只有 left 和 right 产生边距效果，但是 top 和 bottom 就不行。
 18 | 
 19 | block（块级元素）:
 20 | 使元素变成块级元素，独占一行，在不设置自己的宽度的情况下，块级元素会默认填满父级元素的宽度。
 21 | 能够改变元素的 height，width 的值。
 22 | 可以设置 padding，margin 的各个属性值，top，left，bottom，right 都能够产生边距效果。
 23 | 
 24 | inline-block（融合行内于块级）:
 25 | 结合了 inline 与 block 的一些特点，结合了上述 inline 的第 1 个特点和 block 的第 2,3 个特点。
 26 | 用通俗的话讲，就是不独占一行的块级元素。
 27 | 
 28 | ## 2、选择器
 29 | 
 30 | ### Q：请列举出你用过的 CSS 选择器？
 31 | 
 32 | 普通选择器：
 33 | |选择器|例子|描述|
 34 | |-|-|-|
 35 | |.class|.intro|选择 class="intro" 的所有元素。|
 36 | |#id|#firstname|选择 id="firstname" 的元素。|
 37 | |\*|\*|选择所有元素|
 38 | |element|p| 选择所有 <p> 元素|
 39 | 
 40 | 层次选择器
 41 | |选择器|例子|描述|
 42 | |-|-|-|
 43 | |element.class| p.intro| 选择 class="intro" 的所有 <p> 元素|
 44 | |element,element| div, p| 选择所有 <div> 元素和所有 <p> 元素|
 45 | |element element| div p |选择 <div> 元素内的所有 <p> 元素|
 46 | |element>element| div > p| 选择父元素是 <div> 的所有 <p> 元素|
 47 | |element+element| div + p| 选择紧跟 <div> 元素的首个 <p> 元素|
 48 | |element1~element2| p ~ ul| 选择前面有 <p> 元素的每个 <ul> 元素|
 49 | 
 50 | 属性选择器
 51 | |选择器|例子|描述|
 52 | |-|-|-|
 53 | |[attribute] |[target] |选择带有 target 属性的所有元素。|
 54 | |[attribute=value] |[target=_blank] |选择带有 target="\_blank" 属性的所有元素。|
 55 | 
 56 | 伪类选择器
 57 | |选择器|例子|描述|
 58 | |-|-|-|
 59 | |:active| a:active |选择活动链接。|
 60 | |::after| p::after |在每个 <p> 的内容之后插入内容。|
 61 | |::before| p::before |在每个 <p> 的内容之前插入内容。|
 62 | |:first-child |p:first-child |选择属于父元素的第一个子元素的每个 <p> 元素。|
 63 | |:focus |input:focus |选择获得焦点的 input 元素。|
 64 | |:fullscreen| :fullscreen |选择处于全屏模式的元素。|
 65 | |:hover |a:hover |选择鼠标指针位于其上的链接。|
 66 | |:link| a:link |选择所有未访问过的链接。|
 67 | |:not(selector) |:not(p) |选择非 <p> 元素的每个元素。|
 68 | |:nth-child(n)| p:nth-child(2) |选择属于其父元素的第二个子元素的每个 <p> 元素。|
 69 | |:visited| a:visited |选择所有已访问的链接。|
 70 | 
 71 | ### Q： CSS 选择器的权重是什么样的？
 72 | 
 73 | | 样式       | 权重      |
 74 | | ---------- | --------- |
 75 | | !important | 权重最大  |
 76 | | 内联样式   | 权重 1000 |
 77 | | 类选择器   | 权重 10   |
 78 | | id 选择器  | 权重 100  |
 79 | | 派生选择器 | 权重 1    |
 80 | 
 81 | ## 3、常见规则
 82 | 
 83 | ### Q：position 的值有哪几种，布局方式是什么样的？
 84 | 
 85 | | 值       | 描述                                                                                                                                                                                                     |
 86 | | -------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
 87 | | static   | 元素框正常生成。块级元素生成一个矩形框，作为文档流的一部分，行内元素则会创建一个或多个行框，置于其父元素中。                                                                                             |
 88 | | relative | 相对于其正常位置进行定位，元素仍保持其未定位前的形状，它原本所占的空间仍保留。                                                                                                                           |
 89 | | absolute | 元素框从文档流完全删除，相对于值不为 static 的第一个父元素进行定位。元素原先在正常文档流中所占的空间会关闭，就好像元素原来不存在一样。元素定位后生成一个块级框，而不论原来它在正常流中生成何种类型的框。 |
 90 | | fixed    | 元素框的表现类似于将 position 设置为 absolute，不过其包含块是视窗本身。                                                                                                                                  |
 91 | 
 92 | ### Q： 简单描述下 flex 布局？
 93 | 
 94 | 使用 flex 布局的元素会成为容器（flex container），它内部的元素自动成为 flex 项目（flex item）。
 95 | 容器拥有两根隐形的轴，水平的主轴（main axis），和竖直的交叉轴。
 96 | 此外，需注意使用 flex 容器内元素，即 flex item 的 float，clear、vertical-align 属性将失效。
 97 | 
 98 | ![盒模型](http://www.shadowingszy.top/images/flex.png)
 99 | 
100 | flex 的各种属性：
101 | 
102 | ```
103 | 1、flex-direction
104 | 属性决定主轴的方向（即项目的排列方向）。
105 | 
106 | row（默认值）：主轴为水平方向，起点在左端。
107 | row-reverse：主轴为水平方向，起点在右端。
108 | column：主轴为垂直方向，起点在上沿。
109 | column-reverse：主轴为垂直方向，起点在下沿。
110 | ```
111 | 
112 | ```
113 | 2、flex-wrap
114 | 默认情况下，项目都排在”轴线”上。本属性定义如果一条轴线排不下，如何换行。
115 | 
116 | nowrap（默认值）：不换行。
117 | wrap：换行，第一行在上方。
118 | wrap-reverse：换行，第一行在下方。
119 | ```
120 | 
121 | ```
122 | 
123 | 3、align-items
124 | 定义弹性盒子在交叉轴上如何对齐。
125 | 
126 | flex-start：交叉轴的起点对齐。
127 | flex-end：交叉轴的终点对齐。
128 | center：交叉轴的中点对齐。
129 | baseline: 项目的第一行文字的基线对齐。
130 | stretch（默认值）：如果项目未设置高度或设为 auto，将占满整个容器的高度。
131 | 
132 | ```
133 | 
134 | ```
135 | 
136 | 4、justify-content
137 | 定义弹性盒子在主轴方向上的对齐方式。
138 | 
139 | flex-start：容器开头对齐。
140 | flex-end：容器终点对齐。
141 | center：容器中点对齐。
142 | 
143 | ```
144 | 
145 | ## 4、常见概念
146 | 
147 | ### Q：FC 是什么？BFC 和 IFC 是什么？
148 | 
149 | FC：格式化模型。
150 | 
151 | FC 会根据 CSS 盒子模型将文档中的元素转换为一个个的盒子，每个盒子的布局由以下因素决定：
152 | 1、盒子的尺寸：精确指定、由约束条件指定或没有指定
153 | 2、盒子的类型：行内盒子（inline）、行内级盒子（inline-level）、原子行内级盒子（atomic inline-level）、块盒子（block）
154 | 3、定位方案：普通流定位、浮动定位或绝对定位
155 | 4、文档树中的其它元素：即当前盒子的子元素或兄弟元素
156 | 5、视窗尺寸与位置
157 | 6、包含的图片的尺寸
158 | 7、其他的某些外部因素
159 | 
160 | BFC：块级格式化上下文。
161 | 
162 | 1、在 BFC 中，盒子从顶端开始垂直地一个接一个地排列，两个盒子之间的垂直的间隙是由它们的 margin 值所决定的。在一个 BFC 中，两个相邻的块级盒子的垂直外边距会产生折叠。
163 | 2、在 BFC 中，每一个盒子的左外边缘会触碰到容器的左边缘。
164 | 3、浮动元素、绝对定位元素，以及设置了 overflow 属性（除了 visible）的元素不是块级盒子的块容器，因此会为他们的内容创建新的 BFC。
165 | 
166 | IFC：行内级格式化上下文。
167 | 
168 | 1、在 IFC 中，盒子一个接着一个地水平放置。这些盒子会通过不同的方式进行对齐，如底部对齐，顶部对齐，文字基线对齐。
169 | 2、矩形区域包含着来自一行的盒子叫做盒行盒（line box）。
170 | 3、line box 的宽度由浮动情况和它的包含块决定。line box 的高度由 line-height 计算决定（也就是说，由其内部的块撑开）。
171 | 
172 | ### Q：如何清除浮动？
173 | 
174 | 浮动可以理解为让某个 div 元素脱离标准流，漂浮在标准流之上。
175 | 一个浮动元素会尽量向左或向右移动，直到它的外边缘碰到包含框或另一个浮动框的边框为止。
176 | 
177 | 清除浮动可以理解为打破横向排列。清除浮动的关键字是 clear，其取值有以下几种：
178 | 1、none，默认值。允许两边都可以有浮动对象
179 | 2、left，不允许左边有浮动对象
180 | 3、right，不允许右边有浮动对象
181 | 4、both，不允许有浮动对象
182 | 对于 CSS 的清除浮动(clear)，一定要牢记：这个规则只能影响使用清除的元素本身，不能影响其他元素。
183 | 
184 | ### Q：什么是回流？什么是重绘？
185 | 
186 | 当页面中的一部分(或全部)因为元素的规模尺寸，布局，隐藏等改变而需要重新绘制，这就称为回流。每个页面至少需要一次回流，就是在页面第一次加载的时候。
187 | 
188 | 当页面中的一些元素需要更新属性，而这些属性只是影响元素的外观，风格，而不会影响布局的，比如 background-color。则就叫称为重绘。
189 | 
190 | 任何对页面中元素的操作都会引起回流或者重绘，比如：
191 | 
192 | 1、添加、删除元素(回流+重绘)
193 | 2、隐藏元素，display:none(回流+重绘)，visibility:hidden(只重绘，不回流)
194 | 3、移动元素，比如改变 top,left(重绘+回流)。
195 | 4、对 style 的操作(对不同的属性操作，影响不一样)。
196 | 5、还有一种是用户的操作，比如改变浏览器大小，改变浏览器的字体大小等(回流+重绘)
197 | 
198 | ### Q：如何开启 GPU 加速？其优缺点是什么？
199 | 
200 | 当页面中某个 DOM 元素应用了某些 CSS 规则时就会开启 GPU 加速，如 3D 变换：
201 | 
202 | ```css
203 | .cube {
204 |   -webkit-transform: translate3d(250px, 250px, 250px) rotate3d(250px, 250px, 250px, -120deg) scale3d(0.5, 0.5, 0.5);
205 | }
206 | ```
207 | 
208 | 如果不想对元素用 3D 变换但是还想要开 GPU 加速，就可以：
209 | 
210 | ```css
211 | .cube {
212 |   -webkit-transform: translateZ(0);
213 |   -moz-transform: translateZ(0);
214 |   -ms-transform: translateZ(0);
215 |   -o-transform: translateZ(0);
216 |   transform: translateZ(0);
217 | }
218 | ```
219 | 
220 | 但是，一定要注意：不要随意使用 GPU 加速，如果的确能够显著提高性能，可以尝试使用 GPU 加速。但是另一方面，使用 GPU 可能会导致严重的性能问题，因为它增加了内存的使用，而且它会减少移动端设备的电池寿命。
221 | 


--------------------------------------------------------------------------------
/开发/前端开发/【4】网络及浏览器.md:
--------------------------------------------------------------------------------
  1 | # 校招前端面试常见问题【4】——网络及浏览器
  2 | 
  3 | ## 1、网络相关
  4 | 
  5 | ### Q：请简述一下 HTTP 协议，以及 HTTP1.0/1.1/2.0/3.0 的区别？
  6 | 
  7 | HTTP 协议：超文本传输协议，使用 TCP/IP 协议传输数据。是一个应用层的协议。
  8 | 
  9 | HTTP1.0：HTTP 1.0 规定浏览器与服务器只保持短暂的连接，浏览器的每次请求都需要与服务器建立一个 TCP 连接，服务器完成请求处理后立即断开 TCP 连接，服务器不跟踪每个客户也不记录过去的请求。因此 HTTP 1.0 存在很大的性能缺陷——当访问一个包含有许多资源文件的网页时，每次请求和响应都需要建立一个单独的连接，每次连接只是传输一个文档和图像，请求之间完全分离。即使图像文件都很小，但是客户端和服务器端每次建立和关闭连接却是一个相对比较费时的过程，会严重影响到性能。
 10 | 
 11 | HTTP 1.1：支持长连接的 HTTP 协议，在一个 TCP 连接上可以传送多个 HTTP 请求和响应。一个包含有许多图像的网页文件的多个请求和应答可以在一个连接中传输，但每个单独的网页文件的请求和应答仍然需要使用各自的连接。
 12 | 
 13 | HTTP2.0：支持多路复用的 HTTP 协议。 HTTP 2.0 允许同时通过单一的 HTTP 2.0 连接发起多重的请求-响应消息。所有通信都在一个连接上完成，这个连接可以承载任意数量的双向数据流。由于 TCP 有慢启动的特点，如果 HTTP 连接很多，就会十分低效。HTTP/2 通过让所有数据流共用同一个连接，可以更有效地使用 TCP 连接。
 14 | 
 15 | HTTP3.0：也就是 QUIC (quick udp internet connection)协议，是由 google 提出的使用 udp 进行多路并发传输的协议。通过使用 UDP 协议，省去了 TCP 握手和慢启动的时间，拥有极低的建立连接延时。
 16 | 
 17 | ### Q：请简述一下 HTTPS 协议？
 18 | 
 19 | HTTPS 在传输数据之前需要客户端与服务器之间进行一次握手，在握手过程中将确立双方加密传输数据的密码信息。TLS/SSL 协议不仅仅是一套加密传输的协议，TLS/SSL 中使用了非对称加密，对称加密以及 HASH 算法。
 20 | 
 21 | 握手过程的简单描述如下：
 22 | 1、客户端将自己支持的加密规则发送给服务器。
 23 | 
 24 | 2、网站从中选出加密算法和 HASH 算法，将证书发回给浏览器。证书里面包含了网站地址，加密公钥，以及证书的颁发机构等信息。
 25 | 
 26 | 3、获得证书之后客户端要做以下工作：
 27 | a) 验证证书（颁发证书的机构是否合法，证书中包含的网站地址是否与正在访问的地址一致等）。
 28 | b) 如果通过验证，浏览器会生成一串随机数的密码，并用证书中提供的公钥加密
 29 | c) 计算握手信息的 HASH，然后将握手信息也一并加密，最后将所有信息发送给网站。
 30 | 
 31 | 4、网站接收浏览器发来的数据之后要做以下的操作：
 32 | a) 使用自己的私钥将信息解密取出密码，使用密码解密握手消息，判断 HASH 是否一致。
 33 | b) 计算握手的 HASH，并使用密码加密握手消息，发送给浏览器。
 34 | 
 35 | 5、浏览器解密并计算握手消息的 HASH，如果与服务端发来的 HASH 一致，此时握手过程结束，之后所有的通信数据将由之前浏览器生成的随机密码进行加密。
 36 | 
 37 | ### Q：请简述一下 HTTP 协议中的缓存策略？
 38 | 
 39 | HTTP 的缓存策略有两种：强缓存和协商缓存。
 40 | 
 41 | 强缓存是利用 http 头中的 Expires 和 Cache-Control 两个字段来控制的，用来表示资源的缓存时间。强缓存中，普通刷新会忽略它，但不会清除它，需要强制刷新。
 42 | 
 43 | 例如：
 44 | cache-control: max-age=691200 （HTTP 1.1）
 45 | expires: Fri, 14 Apr 2017 10:47:02 GMT （HTTP 1.0）
 46 | 
 47 | 协商缓存主要涉及到两个 header 字段：E-Tag 和 Last-Modified。每次读取数据时客户单都会跟服务器通信，并且会增加缓存标识。在第一次请求服务器时，服务器会返回资源，并且返回一个资源的缓存标识，一起存到浏览器的缓存数据库。当第二次请求资源时，浏览器会首先将缓存标识发送给服务器，服务器拿到标识后判断标识是否匹配，如果不匹配，表示资源有更新，服务器会将新数据和新的缓存标识一起返回到浏览器；如果缓存标识匹配，表示资源没有更新，并且返回 304，浏览器就读取本地缓存服务器中的数据。
 48 | 
 49 | 例如：
 50 | E-Tag: 123456abcd
 51 | Last-Modify: Thu,31 Dec 2037 23:59:59 GMT。
 52 | 
 53 | ## 2、浏览器相关
 54 | 
 55 | ### Q：请列举一下你知道的浏览器内核的种类？
 56 | 
 57 | Trident：IE6、IE7、IE8、IE9、IE10、360 浏览器和猎豹浏览器。
 58 | Gecko：firefox 浏览器。
 59 | Blink：opera 浏览器。
 60 | Webkit：sarfari 和 chrome 浏览器。
 61 | 
 62 | ### Q：浏览器内核中的有哪些线程？
 63 | 
 64 | 内核主要分成五部分：
 65 | 
 66 | ![内核](http://www.shadowingszy.top/images/browser.png)
 67 | 
 68 | GUI 渲染线程：负责渲染浏览器界面，解析 HTML，CSS，构建渲染树，布局和绘制等。当界面需要重绘或回流时，该线程就会执行。注意，GUI 渲染线程与 JS 引擎线程是互斥的，
 69 | 
 70 | JS 引擎线程：解析和执行 javascript。
 71 | 
 72 | 事件触发线程：归属于浏览器而不是 JS 引擎，用来控制事件循环。
 73 | 
 74 | 定时器触发线程：setInterval 与 setTimeout 所在线程。浏览器定时计数器并不是由 JavaScript 引擎计数的，因此通过单独线程来计时并触发定时（计时完毕后，添加到事件队列中，等待 JS 引擎空闲后执行）。
 75 | 
 76 | 异步 http 请求线程：在 XMLHttpRequest 在连接后是通过浏览器新开一个线程请求，将检测到状态变更时，如果设置有回调函数，异步线程就产生状态变更事件，将这个回调再放入事件队列中，再由 JavaScript 引擎执行。
 77 | 
 78 | ### Q：请简述一下浏览器的渲染流程？
 79 | 
 80 | ![渲染流程](http://www.shadowingszy.top/images/render.png)
 81 | 
 82 | 接收到文档后，渲染引擎会对 HTML 文档进行解析生成 DOM 树、对 CSS 文件进行解析生成布局树；同时执行页面中的 JavaScript 代码；最终根据 DOM 树和布局树，计算样式生成渲染树，渲染树中，只会包含即将显示在页面中的元素及其样式信息（如 head 元素、display 为 hidden 的元素就不会包含在渲染树中）；根据渲染树需要进行布局来计算每个元素在页面上的位置；
 83 | 
 84 | 接下来渲染引擎开始进行绘制（paint），这一步分为若干阶段：
 85 | 1、根据渲染树绘制每层的各个元素。
 86 | 2、栅格化绘制出的图像（将渲染树中的节点转换成屏幕上的实际像素）
 87 | 3、显示在屏幕上。
 88 | 每一层的绘制是由浏览器来完成的；最后的合成是由 GPU 来完成；而栅格化过程取决于浏览器的设置，chrome 默认开启 GPU 栅格化，否则由 CPU 进行。
 89 | 
 90 | ### Q：浏览器从输入请求到呈现页面有哪几步？
 91 | 
 92 | 1、URL 解析
 93 | 2、DNS 查询
 94 | 3、TCP 连接
 95 | 4、处理请求
 96 | 5、接受响应
 97 | 6、渲染页面
 98 | 
 99 | ### Q：localstorage、sessionstorage 的区别，以及使用场景是什么？
100 | 
101 | localStorage：生命周期是永久的，关闭页面或浏览器之后 localStorage 中的数据也不会消失。localStorage 除非主动删除数据，否则数据永远不会消失（只会存储 string）。
102 | 
103 | sessionStorage：生命周期是在仅在当前会话下有效。sessionStorage 引入了一个“浏览器窗口”的概念，sessionStorage 是在同源的窗口中始终存在的数据。只要这个浏览器窗口没有关闭，即使刷新页面或者进入同源另一个页面，数据依然存在。但是 sessionStorage 在关闭了浏览器窗口后就会被销毁。同时独立的打开同一个窗口同一个页面，sessionStorage 也是不一样的。
104 | 
105 | 使用方法：
106 | 
107 | ```javascript
108 | window.localStorage
109 | window.sessionStorage
110 | ```
111 | 
112 | API：
113 | 
114 | ```javascript
115 | setItem(key, value) // 保存数据，以键值对的方式储存信息。
116 | getItem(key) // 获取数据，将键值传入，即可获取到对应的 value 值。
117 | removeItem(key) // 删除单个数据，根据键值移除对应的信息。
118 | clear() // 删除所有的数据
119 | key(index) // 获取某个索引的 key
120 | ```
121 | 


--------------------------------------------------------------------------------
/开发/前端开发/【5】前端框架及打包工具.md:
--------------------------------------------------------------------------------
  1 | # 校招前端面试常见问题【5】——前端框架及常用工具
  2 | 
  3 | ## React
  4 | 
  5 | #### Q：请简述一下虚拟 DOM 的概念？
  6 | 
  7 | 基于 React 进行开发时所有的 DOM 构造都是通过虚拟 DOM 进行，每当数据变化时，React 都会重新构建整个 DOM 树，然后 React 将当前整个 DOM 树和上一次的 DOM 树进行对比，得到 DOM 结构的区别，然后仅仅将需要变化的部分进行实际的浏览器 DOM 更新。
  8 | 
  9 | React 在构建 DOM 的时候，是使用 javascript 的对象模拟 DOM 的，针对 js 的对象进行比较要比针对浏览器 DOM 进行比较的开销小很多。
 10 | 
 11 | #### Q：请简述一下 React 的生命周期？
 12 | 
 13 | ![react生命周期](http://www.shadowingszy.top/images/react.png)
 14 | 
 15 | #### Q：请简述一下 React Fiber 的概念？
 16 | 
 17 | 在页面元素很多，且需要频繁刷新的场景下，React 15 会出现掉帧的现象。那么为什么会出现掉帧问题呢？其根本原因，是大量的同步计算任务阻塞了浏览器的 UI 渲染。默认情况下，JS 运算、页面布局和页面绘制都是运行在浏览器的主线程当中，他们之间是互斥的关系。如果 JS 运算持续占用主线程，页面就没法得到及时的更新。当我们调用 setState 更新页面的时候，React 会遍历应用的所有节点，计算出差异，然后再更新 UI。如果页面元素很多，整个过程占用的时机就可能超过 16 毫秒，就容易出现掉帧的现象。而原因就是 React 15 采用的是递归的方式遍历整颗组件树。
 18 | 
 19 | react16 将底层更新单元的数据结构改成了链表结构。以前的协调算法是递归调用，通过 react dom 树级关系构成的栈递归。而 fiber 是扁平化的链表的数据存储结构，通过 child 找第一个子节点，return 找父节点，sibling 找兄弟节点。遍历从递归改为循环。
 20 | 
 21 | 这是 React 核心算法的一次大的更新，重写了 React 的 reconciliation 算法。reconciliation 算法是用来更新并且渲染 DOM 树的算法。以前 React 15.x 的版本使用的算法称为“stack reconciliation”，现在称为“fiber reconciler”。
 22 | 
 23 | fiber reconciler 主要的特点是可以把更新流程拆分成一个一个的小的单元进行更新，并且可以中断，转而去执行高优先级的任务或者浏览器的动画渲染等，等主线程空闲了再继续执行更新。
 24 | 
 25 | 对于流畅度问题，我们很容易想到一个 api：requestldleCallback ， 这个 api 可以在浏览器空闲的时候执行回调，我们把复杂的任务分片在浏览器空闲的时间执行，就不会影响浏览器的渲染等工作。这个就可以解决复杂任务长时间霸占主线程导致渲染延迟。
 26 | 
 27 | 但是可能由于兼容性的考虑，react 团队放弃了这个 api，转而利用 requestAnimationFrame 和 MessageChannel pollyfill 了一个 requestIdleCallback
 28 | 
 29 | 当前帧先执行浏览器的渲染等任务，如果当前帧还有空闲时间，则执行任务，直到当前帧的时间用完。如果当前帧已经没有空闲时间，就等到下一帧的空闲时间再去执行。
 30 | 
 31 | #### Q：React setState 的时机？
 32 | 
 33 | 使用 setState 时不会直接更新数据，而是会直接将其挂到更新队列中。
 34 | 更新的时机是：当前宏任务结束后，微任务开始前。
 35 | 
 36 | ```javascript
 37 | this.state = {
 38 |   a: 1,
 39 | }
 40 | 
 41 | // 这种情况只会+1，因为它相当于Object.assign(oldState, {count: XXX}, {count: XXX})
 42 | this.setState({ count: this.state.count + 1 })
 43 | this.setState({ count: this.state.count + 1 })
 44 | 
 45 | console.log(this.state.count) // 这时候会取到原来的state，也就是1
 46 | 
 47 | // 进行改造，这样就一定会+2了
 48 | this.setState((state, props) => {
 49 |   return { count: state.count + 1 }
 50 | })
 51 | this.setState((state, props) => {
 52 |   return { count: state.count + 1 }
 53 | })
 54 | ```
 55 | 
 56 | ## Vue
 57 | 
 58 | #### Q：什么是 mvvm 模式？
 59 | 
 60 | M: 模型 => 数据，业务逻辑，验证逻辑，模型常常包含业务逻辑。
 61 | V: 视图 => 交互界面，是模型数据的可视化呈现，视图可能包含展示逻辑。
 62 | VM：视图和模型的中间人。
 63 | 
 64 | 数据双向绑定：V 的变动直接反映在了 VM 上，M 的变化也直接反映在了 VM 上。
 65 | 
 66 | #### Q：请简述一下 vue 响应式数据的原理？
 67 | 
 68 | 响应式数据的关键在于：data 如何更新 view，以及 view 如何更新 data。
 69 | 
 70 | 1、view 更新 data 可以通过事件监听，比如 input 标签监听 'input' 事件就可以实现了。
 71 | 
 72 | 2、而 data 更新 view 的重点是如何知道数据变了。这时候我们就通过`Object.defineProperty()`对属性设置一个 set 函数，当数据改变了就会来触发这个函数，所以我们只要将一些需要更新的方法放在这里面就可以实现 data 更新 view 了。
 73 | 
 74 | Object.defineProperty 的具体用法：
 75 | 
 76 | ```javascript
 77 | Object.defineProperty(obj, prop, descriptor)
 78 | obj：要在其上定义属性的对象。
 79 | prop：要定义或修改的属性的名称。
 80 | descriptor：将被定义或修改的属性描述符。
 81 | 
 82 | descriptor 具有以下两种可选值：
 83 | get：给属性提供 getter 的方法，如果没有 getter 则为 undefined。当访问该属性时，该方法会被执行，方法执行时没有参数传入，但是会传入 this 对象。
 84 | set：给属性提供 setter 的方法，如果没有 setter 则为 undefined。当属性值修改时，触发执行该方法。该方法将接受唯一参数，即该属性新的参数值。
 85 | ```
 86 | 
 87 | 一个简单的响应式数据的例子：
 88 | 
 89 | ```html
 90 | <!DOCTYPE html>
 91 | <html lang="en">
 92 |   <head>
 93 |     <meta charset="UTF-8" />
 94 |     <title>defineProperty</title>
 95 |   </head>
 96 |   <body>
 97 |     <div id="app">
 98 |       <input type="text" id="txt" />
 99 |       <p id="show"></p>
100 |     </div>
101 | 
102 |     <script>
103 |       let obj = {}
104 | 
105 |       Object.defineProperty(obj, 'txt', {
106 |         get: function () {
107 |           return obj
108 |         },
109 |         set: function (newValue) {
110 |           document.getElementById('txt').value = newValue
111 |           document.getElementById('show').innerHTML = newValue
112 |         },
113 |       })
114 |       document.addEventListener('keyup', function (e) {
115 |         obj.txt = e.target.value
116 |       })
117 |     </script>
118 |   </body>
119 | </html>
120 | ```
121 | 
122 | #### Q：请简述一下 Vue 的生命周期？
123 | 
124 | ![vue生命周期](http://www.shadowingszy.top/images/vue.png)
125 | 
126 | #### Q：请简述一下 Vue router 的原理？
127 | 
128 | Vue router 有两种模式：hash 模式和 history 模式，分别对应了两种原理：
129 | 
130 | hash 模式：
131 | 
132 | ```
133 | hash("#")符号的本来作用是加在 URL 指示网页中的位置，例如：
134 | http://www.example.com/index.html#print
135 | 
136 | #本身以及它后面的字符称之为 hash 可通过 window.location.hash 属性读取。
137 | hash 虽然出现在 url 中，但不会被包括在 http 请求中，对服务器端完全无用，因此，改变 hash 不会重新加载页面。
138 | 
139 | 我们可以为 hash 的改变添加监听事件：
140 | window.addEventListener("hashchange",funcRef,false)
141 | 
142 | 每一次改变 hash，我们都会重新注入对应的组件，就可以来实现前端路由"更新视图但不重新请求页面"的功能了。
143 | ```
144 | 
145 | history 模式：
146 | 
147 | ```
148 | 从HTML5开始，History interface提供了2个新的方法：pushState(),replaceState()使得我们可以对浏览器历史记录栈进行修改。
149 | 
150 | window.history.pushState(stateObject, title, URL)
151 | window.history.replaceState(stateObject, title, URL)
152 | 
153 | stateObject: 当浏览器跳转到新状态时，触发popState事件，该事件将携带stateObject参数的副本
154 | title: 所添加记录的标题
155 | URL: 所添加记录的URL
156 | 
157 | 我们可以为window.history的改变添加监听事件：
158 | window.addEventListener("popstate",funcRef,false)
159 | 
160 | 在监听事件中，重新注入对应的组件，就可以来实现前端路由"更新视图但不重新请求页面"的功能了。
161 | 
162 | 用 HTML5 实现，单页路由的 url 就不会多出一个#，变得更加美观。但因为没有 # 号，所以当用户刷新页面之类的操作时，浏览器还是会给服务器发送请求，可能会造成404。
163 | 
164 | ```
165 | 
166 | ## 打包工具
167 | 
168 | #### Q：介绍一下 webpack？
169 | 
170 | webpack 是一个模块打包工具，在 webpack 中，一切文件都是模块，webpack 能做的就是将它们打包在一起。
171 | 
172 | webpack 在配置时主要有如下常用属性：
173 | 
174 | 1、entry 以及 output：
175 | 入口起点(entry point)指示 webpack 应该使用哪个模块，来作为构建其内部依赖图的开始。进入入口起点后，webpack 会找出有哪些模块和库是入口起点（直接和间接）依赖的。
176 | 
177 | output 属性告诉 webpack 在哪里输出它所创建的 bundles，以及如何命名这些文件，默认值为 ./dist。基本上，整个应用程序结构，都会被编译到你指定的输出路径的文件夹中。你可以通过在配置中指定一个 output 字段，来配置这些处理过程。
178 | 
179 | ```javascript
180 | const path = require('path')
181 | module.exports = {
182 |   entry: './path/to/my/entry/file.js',
183 |   output: {
184 |     path: path.resolve(__dirname, 'dist'),
185 |     filename: 'my-first-webpack.bundle.js',
186 |   },
187 | }
188 | ```
189 | 
190 | 2、loader：
191 | loader 让 webpack 能够去处理那些非 JavaScript 文件。loader 可以将所有类型的文件转换为 webpack 能够处理的有效模块，然后你就可以利用 webpack 的打包能力，对它们进行处理。
192 | 本质上，webpack loader 将所有类型的文件，转换为应用程序的依赖图（和最终的 bundle）可以直接引用的模块。
193 | 
194 | ```javascript
195 | const path = require('path')
196 | const config = {
197 |   module: {
198 |     rules: [{ test: /\.txt$/, use: 'raw-loader' }],
199 |   },
200 | }
201 | ```
202 | 
203 | 3、plugins：
204 | 插件相比于 loader，可以用于执行范围更广的任务，比如压缩打包，优化等。想要使用一个插件，你只需要 require() 它，然后把它添加到 plugins 数组中。
205 | 
206 | ```javascript
207 | const HtmlWebpackPlugin = require('html-webpack-plugin') // 通过 npm 安装
208 | const webpack = require('webpack') // 用于访问内置插件
209 | const config = {
210 |   module: {
211 |     rules: [{ test: /\.txt$/, use: 'raw-loader' }],
212 |   },
213 |   plugins: [new HtmlWebpackPlugin({ template: './src/index.html' })],
214 | }
215 | ```
216 | 


--------------------------------------------------------------------------------
/开发/前端开发/【6】nodejs.md:
--------------------------------------------------------------------------------
  1 | # 校招前端面试常见问题【6】——NodeJS
  2 | 
  3 | ## NodeJS
  4 | 
  5 | #### Q：NodeJS 的 IO 模型特点是什么？与多线程同步 IO 有什么不同？
  6 | 
  7 | NodeJS 的 IO 模型（更准确的说是 js 的执行环境，也就是 v8）的特点是“单线程异步非阻塞”。
  8 | 
  9 | 而与多线程同步 IO，两者各有优劣，应该根据实际应用场景来做取舍。
 10 | 
 11 | 在传统的观点里，异步 IO 的好处是 IO 本身并不需要占用太多的资源，缺点在于非线性代码带来的复杂度和难以理解维护，而多线程同步 IO 的缺点在于性能资源的开销和线程管理的问题。
 12 | 
 13 | 所以很显然，在相同的机器资源里面，异步 IO 的并发量肯定是要高于多线程同步 IO 的；但是服务器程序本身肯定不只是由 IO 组成，还有逻辑运算的部分，过重的逻辑运算依旧会影响性能。换句话说，密集型 CPU 任务会阻塞 js 的执行，导致异步 IO 得不到处理，极大地影响到 node 处理响应的时间。
 14 | 
 15 | 总之，node 的 IO 模型更适合处理 IO 密集型的任务。多线程同步 IO 更适合处理计算密集型的任务。
 16 | 
 17 | #### Q：V8 引擎垃圾回收机制是什么样的？
 18 | 
 19 | 1、如何判断是否可以回收
 20 | （1）标记清除
 21 | 当变量进入环境（例如，在函数中声明一个变量）时，就将这个变量标记为“进入环境”。从逻辑上讲，永远不能释放进入环境的变量所占用的内存，因为只要执行流进入相应的环境，就可能会用到它们。而当变量离开环境时，则将其标记为“离开环境”。
 22 | 
 23 | 具体做法：
 24 | 垃圾收集器在运行的时候会给存储在内存中的所有变量都加上标记（当然，可以使用任何标记方式）。
 25 | 然后，它会去掉运行环境中的变量以及被环境中变量所引用的变量的标记
 26 | 此后，依然有标记的变量就被视为准备删除的变量，原因是在运行环境中已经无法访问到这些变量了。
 27 | 最后，垃圾收集器完成内存清除工作，销毁那些带标记的值并回收它们所占用的内存空间。
 28 | 
 29 | （2）引用计数
 30 | 引用计数的含义是跟踪记录每个值被引用的次数。
 31 | 当声明了一个变量并将一个引用类型值赋给该变量时，则这个值的引用次数就是 1。
 32 | 如果同一个值又被赋给另一个变量，则该值的引用次数加 1。
 33 | 相反，如果包含对这个值引用的变量又取得了另外一个值，则这个值的引用次数减 1。
 34 | 当这个值的引用次数变成 0 时，就可以将其占用的内存空间回收回来，这样，当垃圾收集器下次再运行时，它就会释放那 些引用次数为零的值所占用的内存。
 35 | 但这样会有循环引用的问题。
 36 | 
 37 | 2、V8 垃圾回收策略
 38 | 将内存分为两个生代：新生代（new generation）和老生代（old generation）。
 39 | 新生代中的对象为存活时间较短的对象，老生代中的对象为存活时间较长或常驻内存的对象，分别对新老生代采用不同的垃圾回收算法来提高效率，对象最开始都会先被分配到新生代（如果新生代内存空间不够，直接分配到老生代），新生代中的对象会在满足某些条件后，晋升到老生代。
 40 | 
 41 | 新生代主要使用 Scavenge 进行管理，将内存平均分为两块，使用空间叫 From，闲置空间叫 To，新对象都先分配到 From 空间中，在空间快要占满时将存活对象复制到 To 空间中，然后清空 From 的内存空间，此时，调换 From 空间和 To 空间，继续进行内存分配，当满足晋升条件时对象会从新生代晋升到老生代。
 42 | 
 43 | 对象晋升的条件主要有两个：
 44 | 如果一个对象是第二次经历从 From 空间复制到 To 空间，那么这个对象会被移动到老生代中。
 45 | 当要从 From 空间复制一个对象到 To 空间时，如果 To 空间已经使用了超过 25%，则这个对象直接晋升到老生代中。（设置 25%这个阈值的原因是当这次 Scavenge 回收完成后，这个 To 空间会变为 From 空间，接下来的内存分配将在这个空间中进行。如果占比过高，会影响后续的内存分配）
 46 | 
 47 | 老生代主要采用 Mark-Sweep 和 Mark-Compact 算法，一个是标记清除，一个是标记整理。两者不同的地方是，Mark-Sweep 在垃圾回收后会产生碎片内存，而 Mark-Compact 在清除前会进行一步整理，将存活对象向一侧移动，随后清空边界的另一侧内存，这样空闲的内存都是连续的，但是带来的问题就是速度会慢一些。在 V8 中，老生代是 Mark-Sweep 和 Mark-Compact 两者共同进行管理的。
 48 | 
 49 | #### Q：实现一个 EventEmitter？
 50 | 
 51 | 实现：
 52 | 
 53 | ```javascript
 54 | class EventEmitter {
 55 |   constructor() {
 56 |     this._events = {}
 57 |   }
 58 | 
 59 |   subscribe(type, handler) {
 60 |     if (this._events.hasOwnProperty(type)) {
 61 |       this._events[type].push(handler)
 62 |     } else {
 63 |       this._events[type] = [handler]
 64 |     }
 65 |   }
 66 | 
 67 |   unsubscribe(type, handler) {
 68 |     if (this._events.hasOwnProperty(type)) {
 69 |       const index = this._events[type].indexOf(handler)
 70 |       if (index > -1) {
 71 |         this._events[type].splice(index, 1)
 72 |       }
 73 |     }
 74 |   }
 75 | 
 76 |   once(type, handler) {
 77 |     let fired = false
 78 |     let _this = this
 79 |     function magic() {
 80 |       _this.unsubscribe(type, magic)
 81 | 
 82 |       if (!fired) {
 83 |         fired = true
 84 |         handler.apply(_this, arguments)
 85 |       }
 86 |     }
 87 |     this.subscribe(type, magic)
 88 |   }
 89 | 
 90 |   emit(type, args) {
 91 |     if (this._events.hasOwnProperty(type)) {
 92 |       this._events[type].forEach((fn) => fn(args))
 93 |     }
 94 |   }
 95 | }
 96 | 
 97 | module.exports = EventEmitter
 98 | ```
 99 | 
100 | 使用：
101 | 
102 | ```javascript
103 | const EventEmitter = require('./myEventEmitter')
104 | 
105 | const eventEmitter = new EventEmitter()
106 | 
107 | const fn = (args) => {
108 |   console.log('good args', args)
109 | }
110 | const fn2 = (args) => {
111 |   console.log('good args 2', args)
112 | }
113 | const fn3 = (args) => {
114 |   console.log('good args 3', args)
115 | }
116 | 
117 | eventEmitter.subscribe('good', fn)
118 | eventEmitter.subscribe('good2', fn2)
119 | 
120 | eventEmitter.emit('good', 11111)
121 | eventEmitter.emit('good2', 22222)
122 | 
123 | eventEmitter.unsubscribe('good', fn)
124 | 
125 | eventEmitter.emit('good2', 22222)
126 | 
127 | eventEmitter.once('good3', fn3)
128 | eventEmitter.emit('good3', 33333)
129 | 
130 | eventEmitter.emit('good3', 33333)
131 | ```
132 | 
133 | #### Q：es6 模块化、commonjs 模块化的区别？
134 | 
135 | es6 模块化：
136 | 
137 | ```
138 | 在es6规范中，使用import和export可以使js文件模块化。
139 | 每个import的js文件都是单例，如果再次import，就直接在内存中进行读取。
140 | 
141 | 导出方式1：
142 | //lib.js 文件
143 | let foo = "stringFoo";
144 | let fn0 = function() {
145 |     console.log("fn0");
146 | };
147 | export{foo, fn}
148 | 
149 | //main.js文件
150 | import {foo, fn} from "./lib";
151 | console.log(bar+"_"+foo);
152 | 
153 | ```
154 | 
155 | commonjs 模块化：
156 | 
157 | ```
158 | Node 应用由模块组成，采用 CommonJS 模块规范。
159 | 
160 | 每个文件就是一个模块，有自己的作用域。在一个文件里面定义的变量、函数、类，都是私有的，对其他文件不可见。如果要定义全局变量，需要global属性。
161 | 
162 | CommonJS规范规定，每个模块内部，module变量代表当前模块。
163 | 这个变量是一个对象，它的exports属性（即module.exports）是对外的接口。加载某个模块，其实是加载该模块的module.exports属性。
164 | 为了方便，Node为每个模块提供一个exports变量，指向module.exports。
165 | 
166 | 例如：
167 | var test = function () {
168 | 	console.log(123);
169 | };
170 | module.exports.test = test;
171 | 
172 | 使用require('XXX')加载模块。
173 | require命令的基本功能是，读入并执行一个JavaScript文件，然后返回该模块的exports对象。如果没有发现指定模块，会报错。
174 | ```
175 | 
176 | ## NodeJS 相关框架
177 | 
178 | #### Q：请简述一下 Koa 的洋葱模型？
179 | 
180 | koa 洋葱模型是指 koa 中每个中间件的执行顺序。
181 | koa 在执行多个中间件中的逻辑时，会先执行第一个中间件的逻辑，执行到 next()函数后会执行第二个中间件的逻辑，以此类推，直到最后一个中间件。当最后一个中间件执行完毕后，会跳回执行倒数第二个中间件 next()函数后面的代码，以此类推，直到第一个中间件 next()函数后面的代码执行完毕。
182 | 
183 | ![洋葱模型](http://www.shadowingszy.top/images/koa.png)
184 | 
185 | 举例来说：
186 | 
187 | ```javascript
188 | const Koa = require('koa')
189 | 
190 | const app = new Koa()
191 | const PORT = 3000
192 | 
193 | // #1
194 | app.use(async (ctx, next) => {
195 |   console.log(1)
196 |   await next()
197 |   console.log(1)
198 | })
199 | // #2
200 | app.use(async (ctx, next) => {
201 |   console.log(2)
202 |   await next()
203 |   console.log(2)
204 | })
205 | 
206 | app.use(async (ctx, next) => {
207 |   console.log(3)
208 | })
209 | 
210 | app.listen(PORT)
211 | console.log(`http://localhost:${PORT}`)
212 | ```
213 | 
214 | 访问 http://localhost:3000，控制台打印：
215 | 
216 | ```
217 | 1
218 | 2
219 | 3
220 | 2
221 | 1
222 | ```
223 | 


--------------------------------------------------------------------------------
/开发/大数据/mapreduce.md:
--------------------------------------------------------------------------------
  1 | ## 海量数据处理常用技术概述
  2 | > 如今互联网产生的数据量已经达到PB级别，如何在数据量不断增大的情况下，依然保证快速的检索或者更新数据，是我们面临的问题。
  3 | 所谓海量数据处理，是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决，或者不能一次性读入内存中。
  4 | 
  5 | 在解决海量数据的问题的时候，我们需要什么样的策略和技术，是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题
  6 | 的时候需要使用的技术，但是注意这里只是从技术角度进行分析，只是一种思想并不代表业界的技术策略。
  7 | 常用到的算法策略
  8 | 1. 分治：多层划分、MapReduce
  9 | 2. 排序：快速排序、桶排序、堆排序
 10 | 3. 数据结构：堆、位图、布隆过滤器、倒排索引、二叉树、Trie树、B树，红黑树
 11 | 4. Hash映射：hashMap、simhash、局部敏感哈希
 12 | 
 13 | ### 海量数据处理－－从分而治之到Mapreduce
 14 | 
 15 | **分治**
 16 | > 分治是一种算法思想，主要目的是将一个大问题分成多个小问题进行求解，之后合并结果。我们常用到的有归并排序:*先分成两部分进行排序，之后在合并*，   
 17 | 当然还有其他的很多应用，就比如是我们上篇文章中提到的Top K问题，就是将大文件分成多个小文件进行统计，之后进行合并结果。这里我们对分治进行抽象，   
 18 | 依然从上述提到的Top K频率统计开始出发。定义如下：有M多个Query日志文件记录，要求得到Top K的Query。   
 19 | 我们可以抽象成几个步骤：
 20 | 1. 多个文件的输入，我们叫做**input splits**
 21 | 2. 多进程同时处理多个文档，我们叫做**map**。
 22 | 3. **partition** *从上文中我们知道。因为我们要将相同的Query映射的一起*
 23 | 4. 多进程处理划分或的文件，我们叫做**reduce**
 24 | 5. 合并过个文件的结果，我们叫做**merge**
 25 | 
 26 | > 上面的这四个步骤是我们从Top K问题抽象出来的，为什么我们对每一步进行一个取名字？因为这就是最简单的MapReduce的原理。我们现在就可以认为之前已经
 27 | 用过Mapreduce的思想了，它就是这么简单，当然中的很多问题我都没有提出来，但是主要的思想就是这样，很成熟的MapReduce的实现，有Hadoop和CouchDB等。     
 28 | 我给出一张图片来表示这个过程。
 29 | ![](http://images0.cnblogs.com/blog/508066/201506/151059199826134.jpg)
 30 | 
 31 | **MapReduce**
 32 | > MapReduce是一种编程模式、大数据框架的并行处理接口和分布式算法计算平台，主要用于大规模数据集合的并行计算。一个Mapreduce的程序主要有两部分组成: map和reduce. 它主要借鉴了函数式编程语言和矢量编程语言特性。
 33 | MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。
 34 | 
 35 | **MapReduce组成**
 36 | > 1. **Map:**   
 37 |     用户根据需求设置的Map函数，每一个工作节点(主机)处理本地的数据，将结果写入临时文件，给调用Reduce函数的节点使用。
 38 |     
 39 | > 2. **Shuffle:**       
 40 |     在MapReduce的编程模式中，我们要时刻注意到数据结构是(key, value)对，Shuffle就是打乱数据，也是我们之前提到过的Partition处理，主要目的是将相同的key的数据映射到同一个Reduce工作的节点（这是主要的功能，当然还有其他的功能）。
 41 | 
 42 | > 3. **Reduce:**    
 43 |     Reduce函数，并行处理相同key的函数，返回结果。
 44 | 
 45 |     Mapreduce模式这么流行，现在几乎所有的大公司都在使用Hadoop框架，当然可能会有一些优化，不过主要的思想依然是MapReduce模式。在公司中或者个人的使用的时候，我们一般会先搭建Hadoop环境，之后最简单的使用就是提供Map函数和Reduce函数即可，语言可以使用C++、Java、Python等。例如我们提到的Top k问题的伪代码的例子：     
 46 |     
 47 |     ```
 48 |     map(String key, String values):
 49 |         // key: 文档名字
 50 |         // values: 文档内容
 51 |         for each line in values:
 52 |             EmitIntemediate(line, "1")
 53 | 
 54 |     ..... // 这中间的省略号，表示还可以加一些代码，
 55 |     ..... // 不加也不影响结果，只是效率问题，后面会提到
 56 | 
 57 |     reduce(String key, Iterator values):
 58 |         // key: a query
 59 |         // values: a lists of counts
 60 |         int result = 0;
 61 |         for each v in values:
 62 |             result += ParseInt(v)
 63 |         Emit(AsString(result))
 64 |     ```
 65 | 
 66 | **代码抽象**
 67 | > map:　　　 (k1, v1) 　　   --->　　 list(k2, v2)    
 68 | reduce: 　　(k2, list(v2)) ---> 　　list(v３)   
 69 | 
 70 | MapReduce支持的数据格式，从上述的代码中，我们可以看到MapReduce的输入和输出都是(k, v)对的格式。当然这只是转换之后的格式，一般来书我们的输入文件都是文件，MapReduce认为第一个分隔符之前的字段是key，后面的values，(values可以不存在，例如我们的Top k问题就没有values)。所有在使用的时候，我们只需要用分隔符空格将key和values分开，每一行代表一个数据，提供我们需要的Map和Reduce函数即可。
 71 | 
 72 | 文章到此应该已经可以结束了，我们可以在任何MapReduce框架下，根据需求写出map函数和reduce函数。对于想用使用MapReduce的程序员来说，在写函数的时候只需要注意key和value怎么设置，如何编写map和reduce函数，因为中间的细节，运行的框架已经帮我们封装的很好的，这就是为什么Mapreduce在业界流行。这种编程模式很简单，只要提map和reduce函数，对于那些没有并行计算和分布式处理经验的程序员，MapReduce框架帮我们处理好了并行计算、错误容忍、本地读取优化和加载平衡的细节，我们只需要关注业务，不用关心细节，还有就是这么编程模式可以简单的解决很多常见的问题，例如: linux中的grep命令，Sort，Top K，倒排索引等问题。
 73 | 
 74 | 知其然而知其所以然，不仅更能帮助我们写出更优的代码，更重要的是如何在改进现有的技术，使其更好的应用到我们的业务上，因为很多大公司都会重写这种代码，使其在公司内部更好的应用。
 75 | 
 76 | 
 77 | ### 浅谈技术细节
 78 | 
 79 | MapReduce模式下我们需要关注的问题如下(参考论文)：
 80 | 1. **数据和代码如何存储?**
 81 | > 设置一个Master，拷贝代码文件，分配给节点进行处理，指定Map或者Reduce已经输入和输出文件的路径。所有Master节点是一个管理节点负责调度。
 82 | 2. **如何Shuffle？**
 83 | > 在MapReduce中都是(key, values)数据，输入的M个文件直接对应M的Map，产生的中间结果key2，通过哈希函数，
 84 | hash(key) % R(R是Reduce的个数)。当然我们需要设置一个好的hash函数，保证任务不平衡分到不同的Reduce节点上。
 85 | 
 86 | 3. **节点之间如何通信？**
 87 | > Master负责调度和通信，其他节点之和Master节点通信，master监控所有节点的信息，比如是map或者reduce任务，是否运行结束，占用的资源、文件读写速度等，master会重新分配那些已经完成的节点任务，对所有的错误的节点重新执行。
 88 | 4. **节点出现错误如何解决？**
 89 | > 因为有master的存在，可以重新执行出现错误的运行节点，注意的是对于出错的map任务，其分配到的reduce任务也要重新执行。节点运行bug，我们可以修改代码，使其更鲁棒，但是有时候我们必须使用try-catch操作跳过一些错误的bad lines.
 90 | 5. **Map和Reduce个数如何设置？**
 91 | > 这个设置和集群的个数和经验有很大关系，建议我们每一个map任务的输入数据16-64MB, 因此map的个数 = 总的文件大小 / 16-64MB. reduce的个数建议大于节点的个数，这样可以保证更好的并行计算。
 92 | 6. **怎么控制负载平衡？**
 93 | > master会监控所有节点的运行状态，并且要对所有的运行完成的节点重新分配任务，来保证负载均衡，需要注意的是这里的并行计算是map和reduce的分别并行计算，必须保证map执行之后才能执行reduce(因为你有shuffle操作)。
 94 | 7. **技巧**
 95 | >+ map任务运行时候尽可能的读取本地或者当前局域内的文件，减少文件传输的网络带宽
 96 | > + M和R的设置会对master的监督有一定的影响，因为要监督所有的状态
 97 | > + 备份运行状态很重要，可以知道那台节点运行的缓慢，可能出现异常，可以让其他节点代替它运行任务
 98 | > + shuffle操作的hash函数真的很重要，可以有效的解决负载均衡
 99 | > + map生成的中间文件要根据key进行排序，也可以便于划分
100 | > + map和reduce之间有时候需要加合并(combiner)操作,可以起到加速作用
101 | 
102 | ### 参考
103 | 1. [MapReduce wikipedia ](https://en.wikipedia.org/wiki/MapReduce)
104 | 2. [MapReduce Paper](https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf)
105 | 
106 | 
107 | 
108 | 
109 | 
110 | 
111 | 
112 | 
113 | 
114 | 


--------------------------------------------------------------------------------
/开发/大数据/questions.md:
--------------------------------------------------------------------------------
 1 | # 面试题目
 2 | 
 3 | ## 1. 相同URL
 4 | > **题目**: 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？ 
 5 | 
 6 | > 方案1：估计每个文件的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
 7 | > <img src="../assert/big-data1.png">
 8 | > 遍历文件a，对每个url求取 hash(url)%1000[比如ASCII码值求和], 然后根据所取得的值将url分别存储到1000个小文件(记为a0, a1, … , a999)中。这样每个小文件的大约为300M。
 9 | > 
10 | > 遍历文件b，采取和a相同的方式将url分别存储到1000个小文件(记为b0, b1, … , b999)。
11 | > 
12 | > 这样处理后，所有可能相同的url都在对应的小文件(a0 vs b0, a1 vs b1, … , a999 vs b999)中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
13 | > 
14 | > 求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。
15 | 
16 | 
17 | > 方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。
18 | 
19 | ## 2. Query排序
20 | > **题目**: 有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。
21 | > 
22 | > 方案1：       
23 | > 顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件(r1,r2…r10)中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。
24 | > 
25 | > [2G左右的机器] 对r1,r2…r10用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(r1,r2…r10).
26 | > 
27 | > 对(r1,r2…r10)这10个文件归并排序(内排序和外排序结合)
28 | > <img src="../assert/bigdata2.png"/>
29 | > 方案2：   
30 | > 一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。
31 |  
32 | ## 3. Top k 单词
33 | **题目**: 有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
34 | 
35 | > 1. 顺序读文件，对每个词x，取hash(x)%5000，然后按照该值存到5000个小文件(x0, x1, … x4999)中。这样每个文件大概是200k左右，如果有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
36 | > 2. 对每个小文件，统计每个文件出现的词及相应的频率（可以采用trie树/hash_map等），并取出现频率最大的100个词（可以用含100个结点的最小堆），并把100词及相应的频率存入文件，这样又得到了5000个文件。
37 | > 3. 下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。
38 | 
39 | ## 4. IP统计 
40 | > **题目**: 海量日志数据，提取出某日访问百度次数最多的那个IP。
41 | > 1. 定位到某日，并把访问百度的日志中的IP取出来，逐个写入到大文件中。注意IP是32位，最多有2^32个IP。-
42 | > 2. 采用映射的方法，比如模1000，把整个大文件映射为1000个小文件
43 | > 3. 找出每个小文件出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。
44 | > 4. 然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。
45 |  
46 | ## 5. 不重复的整数
47 | > **题目**: 在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。
48 | > 
49 | > 方案1：   
50 | > 采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32*2bit = 1G内存，还可以接受。  
51 | > 扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。   
52 | > 
53 | > 方案2：   
54 | > 
55 | > 采用上题类似的方法，进行划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。
56 | > 
57 | ## 6. Top K
58 | > **题目**: 海量数据分布在100台电脑中，想个办法高校统计出这批数据的TOP10。
59 | 
60 | > mapreduce还没有使用,是不是应该使用下mapreduce, 找key,定value.
61 | 
62 | # 参考
63 | 1. https://blog.csdn.net/u012289441/article/details/45192775
64 | 2. https://blog.csdn.net/v_july_v/article/details/6685962
65 | 


--------------------------------------------------------------------------------
/数学/统计学/logic.md:
--------------------------------------------------------------------------------
  1 | # 逻辑题目
  2 | 逻辑题目现在也是面试中常考的题目,也不清楚面试出这种题目的意义,可能就是考察
  3 | 面试人员是否逻辑清晰. 这种题目没有什么好的方法,除非你见过原题,否则,只能根据
  4 | 所给出的条件慢慢分析,尽量不要用常规思路,希望大家要跳跃思维. 如果实在不行就
  5 | 给出一种解法,可能不是最优的,至少表示我们有逻辑.
  6 | 
  7 | ## 1. 猜数字
  8 | > **题目**: 
  9 | > 两人玩游戏,在脑门上贴数字(正整数>=1),只看见对方的,看不见自己的,而且两人的数字相差1. 
 10 | ```
 11 | 以下是两人的对话：
 12 | A：我不知道
 13 | B：我也不知道
 14 | A：我知道了
 15 | B：我也知道了
 16 | 问A头上的字是多少，B头上的字是多少. 
 17 | ```
 18 | **解析**: 只看见对方的,看不见自己的.  
 19 | 1. 假设A头上的数字是x(x>=1); B头上的数字是y(y>=1).
 20 | 2. 条件1, A看到B头上的y,说不知道自己的是多少.
 21 | 确定y>=2, 这样的话x可以取两个值y+1,和y-1. 
 22 | 3. 条件2: B看到x后,说我也不知道,同理可以确定,x>=2, y取值是x-1和x+1.
 23 | 4. 条件3, A说我知道了, 因为A的头上x取值是y-1和y+1, 尽然A说自己知道了, 肯定要排除y-1和y+1的其中的一个,现在有 x>=2, y>=2, 只有y=2的时候,y-1=1, 此时x只能是y+1=2, 如果x=1, B就可以直接知道自己的是2, A确定自己是3,之后,
 24 | 5. 条件4, B说他也知道了, A是3, B是2和4,只有自己是2的时候,A才可能知道自己是3.
 25 | 
 26 | ## 2. 握手
 27 | > **题目**:     
 28 | > 五队夫妇甲、乙、丙、丁、戊举行家庭聚会,每一个人都可能和其他人握手,但夫妇之间绝对不握手,聚会结束时,甲先生问其他人: 各握了几次手? 
 29 | 得到的答案是: 0、1、2、3、4、5、6、7、8，试问：甲太太握了几次手? 确定一点每一对夫妇一定会有一个人和其他夫妇握手. 
 30 | 
 31 | **解析**:   
 32 | 每一对夫妇一定会有一个人和其他夫妇握手. 所有一对夫妇握手的次数和一定是8.  
 33 | 记0、1…8这9个人分别为A0、A1…A8。  
 34 | 首先，A8和A0是夫妇。因为A0没有和其他任何人握手，而A8握了别家的所有人的手。    
 35 | 继续推导，A1和A7是夫妇。因为A1已经和A8握过1次手，A7必须和除了A0和自己配偶以外的所有人握手，因此，A1和A7只能是夫妇。   
 36 | 同理，A2和A6是夫妇，A3和A5是夫妇，    
 37 | 最后，A4和甲是夫妇。题目中4只出现一次，因而甲和甲的夫人都握了4次手。      
 38 | 
 39 | ## 3. 找出毒药
 40 | > **题目**:     
 41 | > 实验室里有8瓶饮料，已知其中有且仅有一瓶有毒，小白鼠喝了有毒的饮料后，将会在24小时后毒发身亡。实验室的小李需要在24小时后知道有毒的饮料是哪瓶，他可以使用小白鼠试喝饮料，请问，小李最少需要用几只小白鼠试喝饮料?
 42 | 
 43 | **解析**:         
 44 | 
 45 | 将8个瓶子进行如下编码：     
 46 | (000)_2=0           
 47 | (001)_2=1       
 48 | (010)_2=2       
 49 | (011)_2=3       
 50 | (100)_2=4       
 51 | (101)_2=5       
 52 | (110)_2=6       
 53 | (111)_2=7       
 54 | 编码后的0/1位表示一个老鼠，0-7表示8个瓶子。按照3个二进制位中每位是否为1分类，即最低位为1的1、3、5、7号瓶子的药混起来给老鼠1吃，次低位为1的2、3、6、7号瓶子的药混起来给老鼠2吃，最高位为1的4、5、6、7号瓶子的药混起来给老鼠3吃.    
 55 | 24小时后，哪个老鼠死了，相应的位标为1。如最低老鼠1死了、次低老鼠2死了、最高老鼠3没死，那么就是011=5号瓶子有毒。   
 56 | 即：n只老鼠可以最多检验2^n个瓶子。所有8个饮料最多用三个小白鼠.
 57 | 
 58 | 
 59 | ## 4. 坏鸡蛋
 60 | > **题目**: 有十二个鸡蛋，有一个是坏的(重量与其余鸡蛋不同)请问用天平最少称几次,才能称出哪个鸡蛋是坏的?
 61 | 
 62 | **解析**：
 63 | 
 64 |     题目中没有说明坏的蛋是比好的蛋重还是轻。本题可以将鸡蛋分成三份，每份四只。为表述方便，将鸡蛋编号为1到12。
 65 |     第一次，取1234放在天平的左端，5678放在天平的右端。天平有两种情况，平衡或不平衡。
 66 |     1）先分析天平平衡的情况：若平，则重量不同的蛋在剩下的4个中。
 67 |     第二次用天平，任意取3个1到8号中的蛋放在天平的左端，从9到12号蛋中任意取3个（例如9，10，11）放在另右端，又有两种情况，平衡或不平衡 
 68 |     若平衡，则12号蛋为重量不同的蛋，第三次用天平，把12号蛋和其他任意一蛋比较，可以知道是轻还是重.
 69 |     若不平衡，则可知重量不同的蛋在9，10，11这3个蛋中，并且可以知道他比其他蛋重还是轻，第三次用天平，任意取其中2蛋（例如9，10）放在天平两端，若平衡，则剩下的蛋（11号蛋）为要找的蛋，若不平衡，根据前面判断的该蛋是比较轻还是重可以判断天平上的其中一个蛋为要找的蛋.
 70 |     2）下面分析第一次天平不平衡的情况。那么有左端重或者右端重两种情况，不妨假设左端重（如果是右端重也是一样的）。
 71 |     现在第二次用天平，从左端任意拿下3个蛋（例如123），从右端拿3个蛋（例如567）放到左端，再从第一次称时剩下的4个蛋中任意拿3个（例如9，10，11）到右端，这时天平会出现3种情况：a）左端重，b）平衡，c）右端重。我们一个一个来分析。
 72 |     a）左端重，那么要找的蛋肯定是4号蛋或者8号蛋。第三次用天平，把其中一蛋（例如4号蛋）放在天平左端，任意取其余10个蛋中的一个蛋放在右端，又有3种情况： 
 73 |     一）若平衡，则8号蛋为要找的蛋，并且根据第二次用天平的结果，可知比其余蛋轻。
 74 |     二）若左端重，则4号蛋为要找的蛋，并且比其余蛋重。
 75 |     三）若右端重，则4号蛋为要找的蛋，并且比其余蛋轻。
 76 |     b）平衡，那么要找的蛋在从左端拿下的三个蛋（1，2，3）中，由于第一次用天平左端重，所以可知这个蛋比其余的蛋重，接下了来的分析和前面的一样，不再重复。
 77 |     c）右端重，那么要找的蛋在从右端移到左端的3个蛋（5，6，7）中，并且由天平第一次左端重，第二次右端重可知，该蛋比其他蛋轻，接下来的分析同前面一样。
 78 | 所以，需要称重三次。
 79 | 
 80 | 
 81 | ## 5. 测半径
 82 | > **题目**: 一个球、一把长度大约是球的直径2/3长度的直尺.你怎样测出球的半径? 
 83 | 
 84 | **解析**:
 85 | 
 86 | <img src="../assert/r.jpe">
 87 | 
 88 | ## 6. 过河
 89 | > **题目**: 有A、B、C、D四个人,要在夜里过一座桥。他们通过这座桥分别需要耗时1、2、5、10分钟,只有一支手电筒，并且同时最多只能两个人一起过桥. 请问,最短需要几分钟四人都能过桥? 
 90 | 
 91 | **解析**:
 92 | 
 93 |     A: 1
 94 |     B: 2
 95 |     C: 5
 96 |     D: 10
 97 | 1. AB过去(花费2分钟),A回来(花费1分钟),共1+2=3
 98 | 2. CD过去,让花费时间相近的人一起走,可以降低时间的浪费(花费10分钟), B回来(花费2分钟),共10+2=12
 99 | 3. AB一起过去(花费2分钟),ABCD全部过来共花费3+12+2=17分钟.
100 | 
101 | 
102 | ## 7. 称石头
103 | > **题目**: 给你8颗小石头和一架天平，其中有7颗石头重量一样，另外一个比这7颗略重。请问在最坏情况下，最少要称重几次，才能把这颗较重的石头找出来?
104 | 
105 | **解析**:
106 | 
107 | 分为332.进行称重
108 | 
109 | 首先任取8个石子中的6个进行称重,天平两边都是3个石子.
110 | 1. 如果重量相等     
111 |    再称剩下的两个石子即可找出重的.(2次)
112 | 2. 如果不相等.      
113 |    取较重的一边的任意2个称重,如果相等则剩下的1个是重的,如不相等则较重的一个是要找的石子.(2次)
114 | 
115 | 最少两次称重可以找出重的石头.
116 | 
117 | ## 8. 倒水
118 | > **题目**: 假设有一个池塘,里面有无穷多的水. 现有2个空水壶,容积分别为5升和6升. 问题是如何只用这2个水壶从池塘里取得3升的水. 
119 | 
120 | **解析**:
121 | 
122 |    1. 6升容器装满水, 将水把5升容器倒满, 则6升容器中剩下1升水.
123 |    2. 清空5升容器,并将6升容器中的1升水倒入5升容器中.
124 |    3. 6升容器装满水, 将水把5升容器倒满, 则6升容器中剩下2升水.
125 |    4. 清空5升容器,并将6升容器中的2升水倒入5升容器中. 
126 |    5. 6升容器装满水, 将水把5升容器倒满, 则6升容器中剩下3升水.
127 | 
128 | ## 9. 绳子时间
129 | > **题目**: 烧一根不均匀的绳子要用一个小时，如何用它来判断半个小时? 烧一根不均匀的绳子，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳子的方法来计时45分钟呢?:
130 | 
131 | **解析**:
132 | 
133 |     1. 如何判断半个小时
134 |     将根绳子两头同时点燃,绳子全部烧完,就是半个小时.
135 | 
136 |     1. 如何计时45分钟,
137 |     选择使用两个绳子A和B,将绳子A两头点燃,绳子B一头点燃.
138 |     当绳子A烧完已经过去30分钟,此时点燃绳子B的另一端,直到绳子B烧完一共是45分钟.
139 | 
140 | 
141 | ## 10. 植树
142 | > **题目**: 怎么样种植4棵树木,使其中任意两棵树的距离相等?
143 | 
144 | **解析**：　
145 | 
146 |     从三维空间考虑,画出一个空间正四面体,使其所有的边的长度相同．
147 | 
148 | <img src="../assert/simain.jpg">
149 | 
150 | 
151 | # 参考(copy)
152 | 1. https://blog.csdn.net/linjcai/article/details/80868385
153 | 2. https://www.julyedu.com/question/select/kp_id/1
154 | 3. https://www.cnblogs.com/pang951189/p/7439670.html


--------------------------------------------------------------------------------
/数学/统计学/probability.md:
--------------------------------------------------------------------------------
  1 | # 概率题目
  2 | 现在的面试中,大部分公司都会问道概率相关的问题,我们现在给出几道常见的概率问题.
  3 | 
  4 | ## 1. 三角形问题
  5 | > **题目**: 给你一根铅笔,将铅笔折两次,组成三角形的概率是多大.
  6 | 
  7 | > **解析**:
  8 | 
  9 |     设: 铅笔长度是1, 折两次之后,得到三条边,对应的长度分别是x,y,1-x-y.
 10 |     1. 得到条件:
 11 |     0 < x < 1
 12 |     0 < y < 1
 13 |     0 < 1-x-y < 1
 14 |     计算得到面积是: S=1/2
 15 |     2. 根据两边之和大于第三边,进行计算:
 16 |     x + y > 1-x-y => x + y > 1/2
 17 |     x + (1-x-y) > y => y < 1/2
 18 |     y + (1-x-y) > x => x < 1/2
 19 |     计算得到面积是: A=1/8
 20 |     做线性规划求解:
 21 |     第一步,根据1中的所有条件,画出中的取值面积S,
 22 |     第二步,根据2中的不等式,画出满足条件的面积A.
 23 |     最后的概率=A/S=(1/8) / (1/2) = 1/4. 
 24 | 
 25 |     方法二: (思路来自网友Summer)
 26 |     排除存在的可能性，
 27 | 
 28 |     第一次，x+y=1，假设y>x，如果选择y作为一条边肯定不满足，这时就排除了1/2，只能选x作为一个边。
 29 | 
 30 |     第二次，从y中折出两条边，一定满足三边只和大于第三边，只能根据两边只差＞第三边进行排除。因为y＞x，一定是从y中的两个边之差＞x。假设从y中折一个a，一个y-a。计算，
 31 |     y-a-a＞x，得到y＞x+2a，又因为x＜1/2，y＞1/2，
 32 |     根据三个不等式得到排除概率1/4。
 33 | 
 34 |     1-1/2-1/4，
 35 | 
 36 | 
 37 | ## 2. 排列组合
 38 | > **题目**: 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率是多少?
 39 | 
 40 | > **解析**: 
 41 | 
 42 |     1. 从20个人中,任选4个,是C(20,4).
 43 |     2. 4个人在不同排,即从每排中选中一个C(5,1)*C(5,1)*C(5,1)*C(5,1)
 44 |     3. 所以四个人在不同的概率是 C(5,1)^4 / C(20,4)    
 45 | 
 46 | 
 47 | ## 3. 男女比例
 48 | > **题目**: 在一个世世代代都重男轻女的村庄里，村长决定颁布一条法律，村子里没有生育出儿子的夫妻可以一直生育直到生出儿子为止，假设现在村子上的男女比例是1:1，这条法律颁布之后的若干年村子的男女比例将会多少?
 49 | 
 50 | > **解析**: 
 51 | 
 52 |     还是1:1.
 53 |     先验性的认为生男生女的自然概率相同，都是0.5；由于生育儿子后就不再生，所以，每个家庭都有且只有一个儿子。假定家庭数目为1，则S(男)=1。
 54 |     有0.5的家庭一胎生男就停止生育；剩下的0.5的家庭，有0.25二胎生男则停止生育……，从而，每个家庭的女孩数目为：
 55 | $$S(女)=\sum_{i=1}^{m}(\frac{1}{2})^i(i-1)=1$$
 56 | 
 57 | 
 58 | ## 4. 取球问题
 59 | > **题目**: 袋中有红球，黄球，白球各一个，每次任意取一个又放回，如此连续抽取3次，求下列概率值:  
 60 | > 1. 颜色不全相同
 61 | > 2. 颜色全相同
 62 | > 3. 颜色全不同
 63 | > 4. 颜色无红色
 64 | 
 65 | > **解析**: 
 66 | 
 67 |     1. 每次都取红球的概率是1/3, 如果都是3次都是红色概率则是: (1/3)*(1/3)*(1/3)=1/27
 68 |     所有颜色全相同的概率是3*(1/3)*(1/3)*(1/3)=1/9.
 69 | 
 70 |     2. 颜色不全相同的概率: 1-颜色全相同的概率=8/9.
 71 | 
 72 |     3. 颜色全不同:
 73 |         假设三次依次是红,黄,白: 概率是(1/3)*(1/3)*(1/3)=1/27
 74 |         颜色全排列是A(3,3)=6
 75 |         所有颜色全不同的概率是6*1/27 = 2/9
 76 |     4. 无红色的概率:
 77 |         (2/3)*(2/3)*(2/3)=8/27
 78 | 
 79 | ## 5. 等概率器
 80 | > **题目**: 已知一随机发生器，产生0的概率是p，产生1的概率是1-p，现在要你构造一个发生器，使得它产生0和1的概率均为1/2。(或者是非等概率硬币,也是一样的情况).
 81 | 
 82 | > **解析**: 
 83 | 
 84 |     找到等概率事件. 考虑连续产生两个随机数，结果只有四种可能：00、01、10、11，其中产生01和产生10的概率是相等的，均为p*(1-p)，于是可以利用这个概率相等的特性等概率地产生01随机数。
 85 |     比如把01映射为0,10映射为1。于是整个方案就是：
 86 |     产生两个随机数，如果结果是00或11就丢弃重来，如果结果是01则产生0，结果是10则产生1。
 87 | 
 88 | 
 89 | ## 6. 再谈等概率器
 90 | > **题目**: 给你一个不均匀的骰子,1-6出现的概率都不相同,你也不知道每个面出现的概率,现在让你用这个骰子构造一个01发生器,使得01出现的概率都是1/2. 
 91 | 
 92 | > **解析**: 
 93 | 
 94 |     方法1: 
 95 |     找到一个等概率事件,因为每一个面出现的概率都不知道,现在我们假设扔6次骰子,1-6分别出现一次为事件p,那么p这个序列的概率就是(p1*p2*p3*p4*p5*p6), 我们将这样构造
 96 |     1. 所有以(1,2,3)开头的这样的序列p对应0; 
 97 |     2. 所有以(4,5,6)开头的这样的序列p对应1;
 98 |     3. 每6次作为一个事件,不满足p序列的要求,这次实验就作废.
 99 | 
100 |     看起来0和1产生的概率都是1/2,都是有一个问题,我们需要扔很多次才能得到一次0或1.这种方法理论上可行,实际中不好用.
101 | 
102 |     方法2:
103 |     0101:大于小于.
104 |     我们将扔两次骰子作为一个时间,假设第一是x,第二次是y.
105 |     1. x > y: 对应0
106 |     2. x < y: 对应1
107 |     3. x == y: 当x属于[1,2,3]时对应0, 否则对应1.
108 | 
109 |     各个面出现的概率不同,这个满足要求吗?
110 |     11 12 13 14 15 16
111 |     21 22 23 24 25 26
112 |     31 32 33 34 35 35
113 |     41 42 43 44 45 46
114 |     51 52 53 54 55 56
115 |     61 62 63 64 65 66
116 | 
117 |     可以看出,左下对应0,右上对应1. 而且出现的次数相同.
118 | 
119 | 
120 | ## 7. 吃苹果
121 | > **题目**: 有一苹果两个人抛硬币来决定谁吃这个苹果先抛到正面者吃。问先抛者吃到苹果的概率是多少？
122 | 
123 | > **解析**: 
124 |     先抛者A吃苹果, 后者是B: 
125 |     A(第一次)吃: 1/2
126 |     A(第二次)吃: 1/2(!A)*1/2(!B)*1/2(A)=1/8
127 |     这是一个等比数列,公比是1/4, 首项是1/2.
128 |     求解的(1/2)*(1-(1/4^n)) / (1-1/4) = (1/2)/(3/4) = 2/3.
129 | 
130 | ## 8. 蚂蚁爬三角形
131 | > **题目**: 一个三角形， 三个端点上有三只蚂蚁，蚂蚁可以绕任意边走，问蚂蚁不相撞的概率是多少?
132 | 
133 | > **解析**: 
134 | 
135 |     1.每个蚂蚁在方向的选择上有且只有2种可能，共有3只蚂蚁，所以共有2的3次方种可能
136 |     2.不相撞有有2种可能，即全为顺时针方向或全为逆时针方向。
137 |     不相撞概率=不相撞/全部=2/8
138 | 
139 | 
140 | ## 9. 正确的概率
141 | > **题目**: 甲乙两个人答对一道题的概率分别为90%和80%，对于一道判断题，他们都选择了“正确”，问这道题正确的概率.
142 | 
143 | > **解析**: 
144 | 
145 |     设:
146 |     甲的选择是"正确"的,是事件A.
147 |     乙的选择是"正确"的,是事件B.
148 |     这道题是正确的是事件C.
149 |     则有:
150 | $$P(A|C)=0.9 \tag{1}$$
151 | 
152 | $$P(B|C)=0.8 \tag{2}$$
153 |     
154 |     目标是求: P(C|AB), 根据贝叶斯公式有:
155 | 
156 | $$P(C|AB)=\frac{P(AB|C)*P(C)}{P(AB|C)*P(C)+(AB|\bar{C})*P(\bar{C})} \tag{3}$$
157 | 
158 |     可以认为A和B是独立事件.则有:
159 | $$P(AB|C)=P(A|C)*P(B|C)=0.72$$
160 | $$P(AB|{C})=P(A|{C})*P(B|\bar{C})=(1-0.9)*(1-0.8)=0.02$$
161 | 
162 |     根据实际情况,一道题对或者错的概率是0.5. 则公式3的结果是: 
163 | 
164 | $$\frac{0.72*0.5}{0.72*0.5+0.02*0.5}=\frac{36}{37}$$
165 | 
166 | ## 10. 和超过1的个数
167 | > **题目**: 从(0,1)中随机取数,期望情况下取多少个数才能让和超过1. 
168 | 
169 | > **解析**: 
170 | 
171 | <img src="../assert/prb10.gif">
172 |     
173 |     
174 | 
175 | # 参考
176 | 1. https://www.julyedu.com/question/selectAnalyze/kp_id/6/cate/%E6%A6%82%E7%8E%87%E7%BB%9F%E8%AE%A1
177 | 2. https://blog.csdn.net/huazhongkejidaxuezpp/article/details/73662357
178 | 3. https://www.cnblogs.com/sunflower627/p/4839031.html
179 | 4. http://www.voidcn.com/article/p-afkjgouj-qm.html
180 | 5. https://blog.csdn.net/rudyalwayhere/article/details/7349957


--------------------------------------------------------------------------------
/数据结构与算法/sort.md:
--------------------------------------------------------------------------------
  1 | # 排序（sort）
  2 | > 排序的目的是让一组无序的对象变成有序（升序、降序），排序在面试中很容易被问道。排序之所以这么重要是因为排序是解决大部分问题的第一步，一些看似复杂的问题当数据有序的时候就变的简单，例如查找问题，如果数组有序可以使用搞笑的折半查找。
  3 | 
  4 | 需要提出，这篇文章并不介绍排序，什么插入、冒泡、希尔等算法，我们都不会介绍，我们的目的是给出最常见的关于排序的面试题目，俗称押题，当然希望每个人都能研究每一个题目，在面试过程中遇到排序问题，都可以解决。
  5 | 
  6 | ## 1. 快速排序
  7 | > 题目: 这是面试中最常见的问题，手写快排，面试官主要是考查候选人的算法基本工。
  8 | > 公司: 爱奇艺，某金融公司
  9 | 
 10 | ```
 11 | template<class T>
 12 | static bool cmp(const T a, const T b) {
 13 |     return a < b;
 14 | }
 15 | 
 16 | template<class T>
 17 | int Poivt(T list[], int start,int end, bool (*cmp)(T, T)=cmp) {
 18 |     int t = randint(start, end);
 19 |     swap(list[t],list[start]);
 20 |     int p,i,j;
 21 |     i = start+1;
 22 |     j = end;
 23 |     p = start;
 24 |     while(1) {
 25 |         while(i<end && cmp(list[i],list[p])) ++i;
 26 |         while(j>start && !cmp(list[j],list[p])) --j;
 27 |         if(j<=i) break;
 28 |         else{
 29 |             swap(list[i],list[j]);
 30 |             ++i;
 31 |             --j;
 32 |         }
 33 |     }
 34 |     swap(list[j],list[p]);
 35 |     return j;
 36 | }
 37 | 
 38 | // qsort
 39 | template<class T>
 40 | void QuickSort(T list[], int start,int end, bool (*cmp)(T, T)=cmp) {
 41 |     if(start>=end) return;
 42 |     int p = Poivt(list,start,end,cmp);
 43 |     QuickSort(list,start,p-1,cmp);
 44 |     QuickSort(list,p+1,end,cmp);
 45 | }
 46 | ```
 47 | 
 48 | ## 2. 堆排序
 49 | > 题目: 手写堆排序
 50 | > 公司: 阿里
 51 | ```
 52 | // 第一步建立最大堆， 下标从1开始 A[1..n]
 53 | void BuildMaxHeap(int *A, int n, int &heapsize){
 54 |     heapsize=n; //全局变量，表示最大堆的大小
 55 |     for(int i = n/2; i > 1; i --){        
 56 |         MaxheapFY(A, i);
 57 |     }
 58 | }
 59 | 
 60 | // heapsort
 61 | void HeapSort(int *A,int n){
 62 |     BuildMaxHeap(A,n);//建立最大堆
 63 |     for(int i = n;i >= 1;i --){
 64 |         swap(A[0],A[i]);        
 65 |         heapsize --;
 66 |         MaxheapFY(A, 1);
 67 |     }
 68 | }
 69 | 
 70 | // 维护位置i最大堆的性质
 71 | void MaxheapFY(int *A, int i){
 72 |     int l,r,now;
 73 |     l = i * 2;
 74 |     r = i * 2 + 1;
 75 |     now = i;
 76 |     if(l <= heapsize && A[l] > A[now]) {
 77 |         now = l;
 78 |     }
 79 |     if(r <= heapsize && A[r] > A[now]){
 80 |         now = r;
 81 |     }
 82 |     if(now != i){
 83 |         swap(A[i], A[now]);
 84 |         MaxheapFY(A, now);    
 85 |     }
 86 | }
 87 | 
 88 | ```
 89 | 
 90 | ## 3. 归并排序
 91 | > 题目: 手写归并排序
 92 | 
 93 | ```
 94 | template<class T>
 95 | void Merge(T list[], int start, int mid, int end, bool (*cmp)(T, T)=cmp) {
 96 |     T *temp = new T[end-start+1];
 97 |     int i=start,j=mid+1,k=0;
 98 |     while(i<=mid && j<=end) {
 99 |         if(cmp(list[i],list[j])) temp[k++] = list[i++];
100 |         else temp[k++] = list[j++];
101 |     }
102 |     while(i<=mid) {
103 |         temp[k++] = list[i++];
104 |     }
105 |     while(j<=end) {
106 |         temp[k++] = list[j++];
107 |     }
108 |     // copy 
109 |     for(i=start;i<=end;i++){
110 |         list[i] = temp[i-start];
111 |     }
112 |     delete [] temp;
113 | }
114 | 
115 | // MergeSortUtil
116 | template<class T>
117 | void MergeSortUtil(T list[], int start,int end, bool (*cmp)(T, T)=cmp) {
118 |     if(start>=end) return;
119 |     int mid = (start+end) / 2;
120 |     MergeSortUtil(list,start,mid,cmp);
121 |     MergeSortUtil(list,mid+1,end,cmp);
122 |     
123 |     Merge(list,start,mid,end,cmp);
124 | }
125 | ```
126 | 
127 | ## 4. 实现多路归并排序
128 | > 题目: 实现常用的多路归并排序(使用最大堆，或者优先队列)
129 | > 公司: 百度，360
130 | 
131 | ```
132 | // vec中每一个vector都是有序的
133 | vector<int> MultMerge(vector<vector<int> > vec, vector<int> &result) {
134 | 	int n = vec.size();
135 | 	priority_queue<int, vector<int>, greater<int> > q;
136 | 	vector<vector<int>::iterator> vec_it;
137 | 	for(int i = 0; i < n; i ++) {
138 | 		vector<int>::iterator it = vec[i].begin();
139 | 		vec_it.push_back(it);
140 | 	}
141 | 	for(int i = 0; i < n; i ++) {
142 | 		if(q.size() < k && vec_it[i] != vec[i].end()) {
143 | 			q.push(*(vec_it[i]));
144 | 		}
145 | 	}
146 | 	while(q.size()) {
147 | 		int cand = q.top();
148 | 		q.pop();
149 | 		result.push_back(cand);
150 | 		int index = 0;
151 | 		for(int i = 0; i < n; i ++) {
152 | 			if(vec_it[i] != vec[i].end() && cand == *(vec_it[i])) {
153 | 				index = i;
154 | 				vec_it[index] ++;
155 | 				break;
156 | 			}
157 | 		}
158 | 		if(vec_it[index] != vec[index].end()) {
159 | 			q.push(*(vec_it[index]));
160 | 		}
161 | 
162 | 	}
163 | 	return result;
164 | }
165 | ```
166 | 
167 | ## 5. 单链表插入排序
168 | > 题目: 单链表的插入排序（升序）。
169 | > 公司: 百度
170 | 
171 | ```
172 | struct Node {
173 |     int data;
174 |     struct Node * next;
175 | };
176 | 
177 | void InsertLinked(Node** sorted, Node* tmp) {
178 |     Node* cur;
179 |     // 当前插入节点是最小的值
180 |     if(*sorted == NULL || tmp->data <= (*sorted)->data) {
181 |         tmp->next = *sorted;
182 |         *sorted = tmp;
183 |     }
184 |     else { // 找到插入的位置
185 |         cur = *sorted;
186 |         while(cur->next != NULL && tmp->data > cur->next->data) {
187 |             cur = cur->next;
188 |         }
189 |         tmp->next = cur->next;
190 |         cur->next = tmp;
191 |     }
192 | }
193 | 
194 | void InsertSort(Node** head) {
195 |     // 有序链表
196 |     Node *sorted = NULL;
197 |     Node * cur = *head;
198 | 
199 |     while(cur != NULL) {
200 |         Node *next = cur->next;
201 | 
202 |         // 将cur插入到sorted中，这是一个有序的链表
203 |         InsertLinked(&sorted, cur);
204 | 
205 |         cur = next;
206 |     }
207 |     *head = sorted;
208 | }
209 | 
210 | ```
211 | 
212 | ## 6. 单链表归并排序
213 | > 题目: 单链表的归并排序。
214 | > 公司: 百度
215 | 
216 | ```
217 | void MergeSort(Node **head_ref) {
218 |     Node *head  = *head_ref;
219 |     Node *left;
220 |     Node *right;
221 | 
222 |     // 判断是否是null
223 |     if(head == NULL || head->next == NULL) {
224 |         return;
225 |     }
226 | 
227 |     // 链表分成两个部分，left 和 right
228 |     split(head, &left, &right);
229 |     
230 |     MergeSort(left);
231 |     MergeSort(right);
232 |     
233 |     *head_ref = Merge(left, right);
234 | }
235 | 
236 | // 左右各一半，
237 | void split(Node *head, Node **left, Node **right) {
238 |     //1. 先计算长度n，分别选择前一半和后一半。
239 |     //2. 使用快慢指针，各取一半
240 |     int n = 0;
241 |     Node *cur = head;
242 |     while(cur != NULL) {
243 |         n ++;
244 |     }
245 |     *left = head;
246 | 
247 |     int k = n / 2;
248 |     cur = head;
249 |     Node *p = NULL;
250 |     while(k--) {
251 |         p = cur;
252 |         cur = cur->next;
253 |     }
254 |     p->next = NULL;
255 | 
256 |     *right = cur;
257 | }
258 | 
259 | Node* Merge(Node *left, Node *right) {
260 |     // merge right to left
261 |     Node *head = NULL;
262 |     head->data = -1;
263 |     Node *p = head;    
264 | 
265 |     while(left != NULL && right != NULL) {
266 |         if(left->data <= right->data) {
267 |             p->next = left;
268 |             left = left->next;
269 |         }
270 |         else {
271 |             p->next = right;
272 |             right = right->next;
273 |         }
274 |         p = p->next;
275 |     }
276 | 
277 |     if(left != NULL) {
278 |         p->next = left;
279 |     }
280 |     if(right != NULL) {
281 |         p->next = right;
282 |     }
283 |     
284 |     return head->next;
285 | }
286 | ```
287 | 
288 | 


--------------------------------------------------------------------------------
/模拟面试/readme.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/datawhalechina/daily-interview/a46161eb2274bf38fd383e374b7c07ba16b1041e/模拟面试/readme.md


--------------------------------------------------------------------------------
/计算机基础/操作系统.md:
--------------------------------------------------------------------------------
  1 | 
  2 | 
  3 | # 操作系统
  4 | 
  5 | ## 知识体系
  6 | 
  7 | ## Questions
  8 | 
  9 | ### 1.进程和线程的区别
 10 | 
 11 | - **进程**是系统进行资源分配和调度的基本单位；
 12 | - **线程**是CPU调度和分派的基本单位。
 13 |   - 每个进程都有独立的代码和数据空间（程序上下文），程序之间的切换会有较大的开销；线程可以看做轻量级的进程，同一类线程共享代码和数据空间，每个线程都有自己独立的运行栈和程序计数器，线程之间切换的开销小；
 14 |   - 一个进程至少有一个线程，线程依赖于进程而存在；
 15 |   - 每个独立的进程有程序运行的入口、顺序执行序列和程序出口。但是线程不能独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制，两者均可并发执行；
 16 |   - 多线程程序只要有一个线程崩溃，整个程序就崩溃了，但多进程程序中一个进程崩溃并不会对其它进程造成影响，因为进程有自己的独立地址空间，因此多进程更加健壮。
 17 | 
 18 | ### 2.协程
 19 | 
 20 | - **协程**：协程是一种用户态的轻量级线程，协程的调度完全由用户控制。协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈，直接操作栈则基本没有内核切换的开销，可以不加锁的访问全局变量，所以上下文的切换非常快。
 21 | 
 22 | ### 3.进程的状态
 23 | 
 24 | #### 三态模型
 25 | 
 26 | * **运行**：当一个进程在处理机上运行时，则称该进程处于运行状态。处于此状态的进程的数目小于等于处理器的数目，对于单处理机系统，处于运行状态的进程只有一个。在没有其他进程可以执行时（如所有进程都在阻塞状态），通常会自动执行系统的空闲进程。
 27 | * **就绪**：当一个进程获得了除处理机以外的一切所需资源，一旦得到处理机即可运行，则称此进程处于就绪状态。就绪进程可以按多个优先级来划分队列。例如，当一个进程由于时间片用完而进入就绪状态时，排入低优先级队列；当进程由I／O操作完成而进入就绪状态时，排入高优先级队列。
 28 | * **阻塞**：一个进程正在等待某一事件发生（例如请求I/O而等待I/O完成等）而暂时停止运行，这时即使把处理机分配给进程也无法运行，故称该进程处于阻塞状态。
 29 | 
 30 | ![三态模型](https://i.loli.net/2021/03/25/fjOoY642rznWUGE.png)
 31 | 
 32 | #### 五态模型
 33 | 
 34 | * **新建**：对应于进程被创建时的状态，尚未进入就绪队列。
 35 | * **终止**：进程完成任务到达正常结束点，或出现无法克服的错误而异常终止，或被操作系统及有终止权的进程所终止时所处的状态。
 36 | 
 37 | ![](https://i.loli.net/2021/03/25/B7Ee5j2XCrObMhw.png)
 38 | 
 39 | ### 4.进程间通信方式
 40 | 
 41 | * **匿名管道**：管道是一种半双工的通信方式，数据只能单向流动，而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系。
 42 | * **高级管道**：将另一个程序当做一个新的进程在当前程序进程中启动，则它算是当前程序的子进程。
 43 | * **有名管道**：有名管道也是半双工的通信方式，但是它允许无亲缘关系进程间的通信。
 44 | 
 45 | * **消息队列**：消息队列是由消息的链表，存放在内核中并由消息队列标识符标识。消息队列克服了信号传递信息少、管道只能承载无格式字节流以及缓冲区大小受限等缺点。
 46 | 
 47 | * **信号量**：信号量是一个计数器，可以用来控制多个进程对共享资源的访问。它常作为一种锁机制，防止某进程正在访问共享资源时，其他进程也访问该资源。因此，主要作为进程间以及同一进程内不同线程之间的同步手段。
 48 | 
 49 | * **信号**： 信号是一种比较复杂的通信方式，用于通知接收进程某个事件已经发生。
 50 | 
 51 | * **共享内存**：共享内存就是映射一段能被其他进程所访问的内存，这段共享内存由一个进程创建，但多个进程都可以访问。共享内存是最快的 IPC 方式，它是针对其他进程间通信方式运行效率低而专门设计的。它往往与其他通信机制，如信号两，配合使用，来实现进程间的同步和通信。
 52 | 
 53 | * **套接字**：套接口也是一种进程间通信机制，与其他通信机制不同的是，它可用于不同机器间的进程通信。
 54 | 
 55 | ### 5.僵尸进程和孤儿进程
 56 | 
 57 | * **僵尸进程**：一个进程使用fork创建子进程，如果子进程退出，而父进程并没有调用wait或waitpid获取子进程的状态信息，那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵尸进程。
 58 | * **孤儿进程**：一个父进程退出，而它的一个或多个子进程还在运行，那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养，并由init进程对它们完成状态收集工作。
 59 | 
 60 | ### 6.死锁
 61 | 
 62 | * **死锁**：死锁是指两个或两个以上的进程在执行过程中，由于竞争资源或者由于彼此通信而造成的一种阻塞的现象，若无外力作用，它们都将无法推进下去。
 63 | 
 64 | #### 死锁产生的必要条件
 65 | 
 66 | * **互斥条件**：一个资源每次只能被一个进程使用；
 67 | * **请求与保持条件**：一个进程因请求资源而阻塞时，对已获得的资源保持不放；
 68 | * **不剥夺条件**：进程已获得的资源，在未使用完之前，不能强行剥夺；
 69 | * **循环等待条件**：若干进程之间形成一种头尾相接的循环等待资源关系。
 70 | 
 71 | #### 死锁预防
 72 | 
 73 | * 破坏互斥条件：允许某些资源同时被多个进程访问，但是有些资源本身并不具有这种属性；
 74 | * 破坏请求与保持条件：
 75 |   * 实行资源预先分配策略（当一个进程开始运行之前，必须一次性向系统申请它所需要的全部资源，否则不运行）；
 76 |   * 只允许进程在没有占用资源的时候才能申请资源（申请资源前先释放占有的资源）；
 77 | * 破坏不剥夺条件：允许进程强行抢占被其它进程占有的资源，这样做会降低系统性能；
 78 | * 破坏循环等待条件：将系统中的所有资源统一编号，进程可在任何时刻提出资源申请，但所有申请必须按照资源的编号顺序（升序）提出。
 79 | 
 80 | #### 死锁避免
 81 | 
 82 | > 银行家算法
 83 | >
 84 | > 参考： [ 银行家算法](https://zh.wikipedia.org/wiki/%E9%93%B6%E8%A1%8C%E5%AE%B6%E7%AE%97%E6%B3%95)
 85 | 
 86 | ### 7.页面置换算法
 87 | 
 88 | * **最佳置换算法**（OPT）：选择以后永不使用的或者是在最长时间内不再被访问的页面；
 89 | * **先进先出置换算法**（FIFO）：优先淘汰最早进入内存的页面，亦即在内存中驻留时间最久的页面；
 90 | * **最近最久未使用置换算法**（LRU）：置换出未使用时间最长的页面；
 91 | * **第二次机会算法**（SCR）：按FIFO选择某一页面，若其访问位为1，给第二次机会，并将访问位置0；
 92 | * **时钟算法**（CLOCK）：SCR中需要将页面在链表中移动（第二次机会的时候要将这个页面从链表头移到链表尾），时钟算法使用环形链表，再使用一个指针指向最老的页面，避免了移动页面的开销。
 93 | 
 94 | * 注：[LRU算法题](https://leetcode-cn.com/problems/lru-cache/)
 95 | 
 96 | ### 8.分页和分段的区别
 97 | 
 98 | * 段是信息的逻辑单位，它是根据用户的需要划分的，因此段对用户是可见的 ；页是信息的物理单位，是为了管理主存的方便而划分的，对用户是透明的；
 99 | * 段的大小不固定，由它所完成的功能决定；页的大小固定，由系统决定；
100 | * 段向用户提供二维地址空间；页向用户提供的是一维地址空间；
101 | * 段是信息的逻辑单位，便于存储保护和信息的共享，页的保护和共享受到限制。
102 | 
103 | ### 9.硬中断和软中断
104 | 
105 | ​	    **硬中断**是由硬件产生的，比如，像磁盘，网卡，键盘，时钟等。每个设备或设备集都有它自己的IRQ（中断请求）。
106 | 
107 | ​	    处理中断的驱动是需要运行在CPU上的，因此，当中断产生的时候，CPU会中断当前正在运行的任务，来处理中断。在有多核心的系统上，一个中断通常只能中断一颗CPU（也有一种特殊的情况，就是在大型主机上是有硬件通道的，它可以在没有主CPU的支持下，可以同时处理多个中断）。
108 | 
109 | ​		**硬中断**可以直接中断CPU。它会引起内核中相关的代码被触发。对于那些需要花费一些时间去处理的进程，中断代码本身也可以被其他的硬中断中断。
110 | 
111 | ​		**软中断**的处理非常像硬中断。然而，它们仅仅是由当前正在运行的进程所产生的。通常，软中断是一些对I/O的请求。这些请求会调用内核中可以调度I/O发生的程序。对于某些设备，I/O请求需要被立即处理，而磁盘I/O请求通常可以排队并且可以稍后处理。根据I/O模型的不同，进程或许会被挂起直到I/O完成，此时内核调度器就会选择另一个进程去运行。I/O可以在进程之间产生并且调度过程通常和磁盘I/O的方式是相同。
112 | 
113 | ​		**软中断**仅与**内核**相联系。而内核主要负责对需要运行的任何其他的进程进行调度。一些内核允许设备驱动的一些部分存在于用户空间，并且当需要的时候内核也会调度这个进程去运行。
114 | 
115 | ​		**软中断**并不会直接中断CPU。也只有当前正在运行的代码（或进程）才会产生软中断。这种中断是一种需要内核为正在运行的进程去做一些事情（通常为I/O）的请求。有一个特殊的软中断是Yield调用，它的作用是请求内核调度器去查看是否有一些其他的进程可以运行。
116 | 
117 | 
118 | 
119 | ### 10.IO模型
120 | 
121 | * **阻塞式 I/O**：应用进程被阻塞，直到数据从内核缓冲区复制到应用进程缓冲区中才返回；
122 | 
123 | * **非阻塞式 I/O**：应用进程可以继续执行，但是需要不断地执行系统调用来获知 I/O 是否完成，这种方式称为轮询；
124 | 
125 | * **I/O 复用**：单个进程具有处理多个 I/O 事件的能力；
126 | 
127 |   * **select**：将文件描述符放入一个集合中，调用select时，将这个集合从用户空间拷贝到内核空间（缺点1：每次都要复制，**开销大**），由内核根据就绪状态修改该集合的内容。（缺点2）**集合大小有限制**，32位机默认是1024（64位：2048）；采用水平触发机制。select函数返回后，需要通过遍历这个集合，找到就绪的文件描述符（缺点3：**轮询的方式效率较低**），当文件描述符的数量增加时，效率会线性下降；
128 | 
129 |     默认单个进程打开的FD有限制是1024个，可修改宏定义，但是效率仍然慢。
130 | 
131 |   * **poll**：基本原理与select一致，也是轮询+遍历；唯一的区别就是**poll**采用链表的方式存储，没有最大文件描述符限制。
132 | 
133 |   * **epoll**：通过内核和用户空间共享内存，避免了不断复制的问题；支持的同时连接数上限很高（1G左右的内存支持10W左右的连接数）；文件描述符就绪时，采用回调机制，避免了轮询（回调函数将就绪的描述符添加到一个链表中，执行epoll_wait时，返回这个链表）；支持水平触发和边缘触发，采用边缘触发机制时，只有活跃的描述符才会触发回调函数。
134 | 
135 | * **信号驱动式 I/O**：内核在数据到达时向应用进程发送 SIGIO 信号；
136 | 
137 | * 异步 I/O：内核完成所有操作后向应用进程发送信号。
138 | 
139 | 
140 | 
141 | ## 参考链接
142 | 
143 | * https://github.com/wolverinn/Waking-Up#2-%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F
144 | * http://www.linuxidc.com/Linux/2014-03/98013.htm
145 | * https://blog.csdn.net/violet_echo_0908/article/details/51201278
146 | * https://www.cnblogs.com/wlwl/p/10293057.html
147 | 
148 | 
149 | 
150 | 
151 | 
152 | 
153 | 
154 | 
155 | 
156 | 
157 | 
158 | 
159 | 
160 | 
161 | 
162 | 
163 | 
164 | 
165 | 
166 | 


--------------------------------------------------------------------------------
/计算机基础/数据库.md:
--------------------------------------------------------------------------------
 1 | # 数据库
 2 | 
 3 | ## 1. 事务四大特性
 4 | 
 5 |     1. 原子性，要么执行，要么不执行
 6 |     2. 隔离性，所有操作全部执行完以前其它会话不能看到过程
 7 |     3. 一致性，事务前后，数据总额一致
 8 |     4. 持久性，一旦事务提交，对数据的改变就是永久的
 9 | 
10 | 
11 | ## 2. 数据库模型编辑
12 | 
13 |     1. 对象模型
14 |     2. 层次模型（轻量级数据访问协议）
15 |     3. 网状模型（大型数据储存）
16 |     4. 关系模型
17 |     5. 面向对象模型
18 |     6. 半结构化模型
19 |     7. 平面模型（表格模型，一般在形式上是一个二维数组。如表格模型数据Excel)
20 | 
21 | 
22 | ## 3. 数据库三范式
23 | 
24 |     第一范式：列不可再分 
25 |     第二范式：行可以唯一区分，主键约束 
26 |     第三范式：表的非主属性不能依赖与其他表的非主属性 外键约束 且三大范式是一级一级依赖的，第二范式建立在第一范式上，第三范式建立第一第二范式上
27 | 
28 | 
29 | ## 4. 关系型数据库和非关系型数据库
30 | + **关系数据库**，是建立在关系模型基础上的数据库，借助于集合代数等数学概念和方法来处理数据库中的数据。数据库事务必须具备ACID特性，ACID分别是Atomic原子性，Consistency一致性，Isolation隔离性，Durability持久性。代表数据库：Oracle、Mysql、DB2等。
31 | 
32 | + **关系型数据库的优点**
33 | 1. 容易理解：二维表结构表示逻辑世界的相对的概念，直观明了
34 | 2. 使用方便：使用SQl语句查询想要的一切
35 | 3. 易于维护：遵循数据库的设计原则，降低数据的冗余性
36 | 
37 | 
38 | + **非关系型数据库**，又被称为NoSQL（Not Only SQL)，意为不仅仅是SQL，主要是指非关系型、分布式、不提供ACID (数据库事务处理的四个基本要素)的数据库设计模式。对NoSQL 最普遍的定义是“非关联型的”，强调Key-Value 存储和文档数据库的优点。代表数据库：MongoDB、Redis等
39 | 
40 | + **非关系型数据库的有点**
41 | 1. 将所有数据看做key-value对，根据key值得到想要的一切数据
42 | 2. 适用于SNS(Social Networking Services)中，例如facebook，微博。系统的升级，功能的增加，往往意味着数据结构巨大变动，key值不变，在value中加入需要的字段，一般value的格式是json或者文本等。
43 | 
44 | 
45 | **待续...**
46 | 
47 | 
48 | # 参考
49 | 1. https://blog.csdn.net/qq_22222499/article/details/79060495#8BB_54
50 | 2. https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%BA%93/103728?fr=aladdin
51 | 3. https://www.2cto.com/database/201710/688377.html


--------------------------------------------------------------------------------