├── .gitignore ├── README.md └── book ├── figures ├── beta_comparison.png ├── risk_comparison.png └── risk_comparison.svg ├── script.bib ├── script.pdf ├── script.tex ├── sources ├── 1-introduction.tex ├── 2-statMod.tex ├── 3-asymptNorm.tex ├── 4-desTheory.tex ├── 5-priorSelectionConjugate.tex ├── 6-priorSelectionObjective.tex ├── 7-priorSelectionReference.tex ├── a1-distributions.tex └── literature.tex └── tex ├── my.tex ├── mydef.tex ├── myfront.tex └── statdef.tex /.gitignore: -------------------------------------------------------------------------------- 1 | ## Core latex/pdflatex auxiliary files: 2 | *.aux 3 | *.lof 4 | *.log 5 | *.lot 6 | *.fls 7 | *.out 8 | *.toc 9 | *.fmt 10 | *.fot 11 | *.cb 12 | *.cb2 13 | 14 | # makeidx 15 | *.idx 16 | *.ilg 17 | *.ind 18 | *.ist 19 | 20 | ## Build tool auxiliary files: 21 | *.fdb_latexmk 22 | *.synctex 23 | *.synctex(busy) 24 | *.synctex.gz 25 | *.synctex.gz(busy) 26 | *.pdfsync 27 | 28 | ## Bibliography auxiliary files (bibtex/biblatex/biber): 29 | *.bbl 30 | *.bcf 31 | *.blg 32 | *-blx.aux 33 | *-blx.bib 34 | *.run.xml -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # bayesianBook 2 | Development of the book devoted to overview of connections between Bayesian Statistics and Bayesian Machine Learning 3 | -------------------------------------------------------------------------------- /book/figures/beta_comparison.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/likzet/bayesianBook/e84a0245aa9c4104334038b7a95486ea71fd4cf6/book/figures/beta_comparison.png -------------------------------------------------------------------------------- /book/figures/risk_comparison.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/likzet/bayesianBook/e84a0245aa9c4104334038b7a95486ea71fd4cf6/book/figures/risk_comparison.png -------------------------------------------------------------------------------- /book/figures/risk_comparison.svg: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 22 | 24 | 32 | 37 | 38 | 46 | 51 | 52 | 60 | 65 | 66 | 67 | 85 | 88 | 89 | 91 | 92 | 94 | image/svg+xml 95 | 97 | 98 | 99 | 100 | 101 | 105 | 111 | 117 | 123 | 129 | 135 | θ 147 | R(θ, δ1) 161 | 172 | R(θ, δ2) 186 | R(θ, δ3) 200 | R(θ, δ) 212 | 213 | 214 | -------------------------------------------------------------------------------- /book/script.bib: -------------------------------------------------------------------------------- 1 | @article{bishop2006pattern, 2 | title={Pattern recognition}, 3 | author={Bishop, C.M.}, 4 | journal={Machine Learning}, 5 | volume={128}, 6 | year={2006} 7 | } 8 | 9 | @book{vetrov2007bayesian, 10 | title={Байесовские методы машинного обучения, учебное пособие по спецкурсу}, 11 | author={Ветров, Д.П. and Кропотов, Д.А.}, 12 | year={2007} 13 | } 14 | 15 | @misc{jordan10notes, 16 | author = {M.I. Jordan}, 17 | title = {Lecture notes in Stat260: Bayesian Modeling and Inference}, 18 | month = {January}, 19 | year = {2010}, 20 | publisher={University of California, Berkeley} 21 | } 22 | 23 | @book{gelman2014bayesian, 24 | title={Bayesian data analysis}, 25 | author={Gelman, A. and Carlin, J.B. and Stern, H.S. and Dunson, D.B. and Vehtari, A. and Rubin, D.B.}, 26 | volume={2}, 27 | year={2014}, 28 | publisher={CRC press Boca Raton, FL} 29 | } 30 | 31 | @book{robert2007bayesian, 32 | title={The Bayesian choice: from decision-theoretic foundations to computational implementation}, 33 | author={Robert, C.}, 34 | year={2007}, 35 | publisher={Springer Science \& Business Media} 36 | } 37 | 38 | @book{ghosh2007bayesian, 39 | title={Bayesian Nonparametrics}, 40 | author={Ghosh, J.K. and Ramamoorthi, R.V.}, 41 | year={2003}, 42 | publisher={Springer Science \& Business Media} 43 | } 44 | 45 | @article{bernardo2005reference, 46 | title={Reference analysis}, 47 | author={Bernardo, J.}, 48 | journal={Handbook of statistics}, 49 | volume={25}, 50 | pages={17--90}, 51 | year={2005}, 52 | publisher={Elsevier} 53 | } 54 | 55 | @article{spokoiny2012parametric, 56 | title={Parametric estimation. Finite sample theory}, 57 | author={Spokoiny, V.}, 58 | journal={The Annals of Statistics}, 59 | volume={40}, 60 | number={6}, 61 | pages={2877--2909}, 62 | year={2012}, 63 | publisher={Institute of Mathematical Statistics} 64 | } -------------------------------------------------------------------------------- /book/script.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/likzet/bayesianBook/e84a0245aa9c4104334038b7a95486ea71fd4cf6/book/script.pdf -------------------------------------------------------------------------------- /book/script.tex: -------------------------------------------------------------------------------- 1 | \documentclass{article} 2 | 3 | \usepackage[utf8]{inputenc} 4 | \usepackage[T2A]{fontenc} 5 | \usepackage[russian]{babel} 6 | \usepackage{amsmath,amssymb} 7 | \usepackage{amsthm} 8 | \usepackage{textcomp} 9 | \usepackage{mathrsfs} 10 | \usepackage{graphicx,epstopdf} 11 | \usepackage{multicol} 12 | \usepackage{caption} 13 | \usepackage{subcaption} 14 | \usepackage{verbatim} 15 | \usepackage{imakeidx} 16 | \makeindex 17 | 18 | \usepackage{algpseudocode,algorithm,algorithmicx} 19 | 20 | \newenvironment{proof}{\paragraph{Доказательство:}}{\hfill$\square$} 21 | \newcommand*\Let[2]{\State #1 $\gets$ #2} 22 | \algrenewcommand\algorithmicrequire{\textbf{Вход:}} 23 | 24 | \input ./tex/mydef 25 | \input ./tex/statdef 26 | \input ./tex/my 27 | 28 | 29 | \begin{document} 30 | 31 | \title{Основания Байесовской статистики} 32 | \author{Зайцев А., Янович Ю. \\ Сколтех, ИППИ РАН \\ \texttt{likzet@gmail.com}} 33 | \date{} 34 | 35 | \maketitle 36 | \tableofcontents 37 | 38 | \input ./sources/1-introduction.tex 39 | \input ./sources/2-statMod.tex 40 | \input ./sources/3-asymptNorm.tex 41 | \input ./sources/4-desTheory.tex 42 | \input ./sources/5-priorSelectionConjugate.tex 43 | \input ./sources/6-priorSelectionObjective.tex 44 | \input ./sources/7-priorSelectionReference.tex 45 | \input ./sources/literature.tex 46 | 47 | \appendix 48 | \input ./sources/a1-distributions.tex 49 | 50 | \printindex 51 | 52 | \bibliographystyle{plain} 53 | \bibliography{script.bib} 54 | 55 | \end{document} 56 | -------------------------------------------------------------------------------- /book/sources/1-introduction.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Предисловие} 3 | 4 | На русском языке существует несколько книг, 5 | которые затрагивают использование Байесовских методов машинному обучении. 6 | В частности, можно порекомендовать учебное пособие Дмитрия Ветрова~\cite{vetrov2007bayesian} на русском языке. 7 | Однако, до сих пор должного внимания не было уделено обоснованию Байесовского подхода --- в частности, 8 | с точки зрения классической математической статистики. 9 | 10 | Данное учебное пособие призвано заполнить этот пробел в 11 | литературе, доступной на русском языке. 12 | В первую очередь автор ориентировался на лекции Майкла Джордана, 13 | которые были прочитаны в Беркли в $2010$ году~\cite{jordan10notes}. 14 | Получившийся результат во многом посвящен основному вопросу Байесовской статистики --- выбору априорного распределения, 15 | хотя уделяет внимание и другим важным вопросам. 16 | 17 | Оказывается, что Байесовская статистика использует 18 | многие фундаментальные понятия классической математической статистики и теории информации. 19 | Например, энтропию или теорию принятия решений. 20 | Понимание принципов Байесовской статистики, таким образом, может оказаться полезным и в Байесовском машинном обучении, и для более глубокого понимания 21 | современной математической статистики. 22 | 23 | Авторы выражают благодарность Е.В.Бурнаеву за возможность чтения курса по Байесовским методам в ИППИ РАН, ВШЭ и Сколтехе. 24 | Именно результатом опыта чтения курса и стало это пособие. 25 | 26 | \section{Байесовский подход} 27 | 28 | \subsection{Основные понятия} 29 | Байесовский подход предлагает более гибкую трактовку традиционного вероятностного подхода. 30 | Введем понятия, которые используются в Байесовской математической статистике и Байесовском машинном обучении. 31 | Ограничимся здесь параметрическими моделями в конечномерных пространствах. 32 | 33 | Обычно нас интересует значение параметра или вектора параметров 34 | $\vecT \in \Theta \subseteq \bbR^\pD$. 35 | Мы оцениваем значение параметра по данным $X \in \mathcal{X} \subseteq \bbR^\iD$. 36 | Для заданной вероятностной модели можно записать правдоподобие 37 | $p(X | \vecT)$. 38 | Также задано априорное распределение $\pi(\vecT)$. 39 | \index{распределение!априорное} 40 | Помимо априорного распределения и правдоподобия определено 41 | маргинальное распределение 42 | \[ 43 | p(X) = \int_{\Theta} p(X, \vecT) d\vecT = \int_{\Theta} p(X| \vecT) \pi(\vecT) d\vecT. 44 | \] 45 | Зная правдоподобие, апостериорное распределение и маргинальное распределение, мы можем записать 46 | апостериорную плотность распределения $\vecT$: 47 | \[ 48 | p(\vecT | X) = \frac{p(X | \vecT) \pi(\vecT)}{p(X)}. 49 | \] 50 | Помимо апостериорной плотности распределения нас 51 | часто интересует апостериорное прогнозное распределение для новых данных $X_{\mathrm{new}}$: 52 | \[ 53 | p(X_{\mathrm{new}} | X) = \int p(X_{\mathrm{new}} | \vecT) p(\vecT | X) d\vecT. 54 | \] 55 | 56 | Часто нет необходимости рассматривать маргинальное распределение, так как оно не зависит от $\vecT$, 57 | и с точностью до нормировочного коэффициента 58 | \[ 59 | p(\vecT | X) \propto p(X | \vecT) \pi(\vecT). 60 | \] 61 | 62 | Чтобы использовать введенные выше понятия 63 | для решения реальных задач нужно ответить на два вопроса: 64 | как выбрать априорное распределение и как вычислить все 65 | вероятности, определенные выше. 66 | В данном курсе мы сосредоточимся на первом вопросе --- 67 | хотя по мере возможности осветим и второй. 68 | 69 | \subsection{Классические критерии статистического оценивания} 70 | 71 | Приведем критерии качества статистического оценивания, которые используются в классической математической статистике. 72 | 73 | \emph{Состоятельность.} Пусть $\hat{\theta}_\sS = \hat{\theta}(x_1, \dots, x_\sS)$. 74 | Тогда оценка $\hat{\theta}_\sS$ называется состоятельной, если 75 | \[ 76 | \forall \theta \in \Theta \hat{\theta}_\sS \rightarrow^{p} \theta \text{ при } \sS \rightarrow \infty. 77 | \] 78 | То есть, оценка сходится к истинному значению параметра по вероятности, если размер выборки стремится к бесконечности. 79 | \index{оценка!состоятельная} 80 | 81 | \emph{Скорость сходимости.} Нам часто важен не только сам факт сходимости, но и скорость сходимости. 82 | То есть, нас интересует типичное значение величины $\|\hat{\theta}_\sS - \theta\|$ в зависимости от $\sS$. 83 | Иногда сходимость порядка $\frac{1}{\sqrt{\sS}}$ оказывается слишком медленной. 84 | 85 | \emph{Несмещенность.} Оценку $\hat{\theta}$ назовем несмещенной, если $\bbE \hat{\theta} = \theta$. 86 | \index{оценка!несмещенная} 87 | 88 | \emph{Эффективность.} Оценка будет эффективной, если она обеспечивает наилучшую возможную скорость сходимости. 89 | В достаточно широком наборе моделей удается получить такие оценки. 90 | \index{оценка!эффективная} 91 | 92 | Поясним введенные выше понятия с помощью примера. 93 | 94 | \subsection{Пример использования Байесовского подхода} 95 | \begin{example} 96 | Пусть $x_i \sim \mathcal{N}(\theta, \sigma^2)$. 97 | Есть выборка данных $\Sample = \{x_1, \ldots, x_{\sS}\}$, причем $x_i$ получены независимо, и они из одного и того же распределения. 98 | Задача заключается в оценке выборке значения параметра $\theta$. 99 | 100 | \index{метод максимума правдоподобия} 101 | Будем использовать метод максимума правдоподобия: 102 | \[ 103 | p(D| \theta) \rightarrow \max_{\theta}. 104 | \] 105 | Правдоподобие для такой модели имеет вид: 106 | \[ 107 | p(D| \theta) = \prod_{i = 1}^{\sS} \frac{1}{\sqrt{2 \pi \sigma}} \exp \left(-\frac{1}{2 \sigma^2} (x_i - \theta)^2 \right). 108 | \] 109 | 110 | Максимизация логарифма правдоподобия --- что то же самое, что и максимизация правдоподобия --- эквивалентно задаче минимизации: 111 | \[ 112 | \sum_{i = 1}^{\sS} (x_i - \theta)^2 \rightarrow \min_{\theta}. 113 | \] 114 | 115 | Дифференцируя и приравнивая к нуля производную, получаем оценку максимума правдоподобия (maximum likelihood estimate): 116 | \[ 117 | \hat{\theta}_{MLE} = \frac{1}{\sS} \sum_{i = 1}^{\sS} x_i. 118 | \] 119 | 120 | Подсчитаем теперь математическое ожидание и дисперсию такой оценки: 121 | \begin{align*} 122 | \bbE \hat{\theta}_{MLE} &= \theta, \\ 123 | \bbV \hat{\theta}_{MLE} &= \frac{1}{n} \bbV x = \frac{\sigma^2}{n}. \\ 124 | \end{align*} 125 | Таким образом, оценка максимума правдоподобия несмещенная и состоятельная. 126 | Действительно, среднее значение совпадает с истинным значением параметра и выполнено условие состоятельности: 127 | \[ 128 | \bbV \hat{\theta}_{MLE} \rightarrow 0, \sS \rightarrow \infty. 129 | \] 130 | Скорость сходимости $\bbV \|\hat{\theta}_{MLE} - \theta\|^2 \sim \frac{1}{\sS}$. 131 | 132 | Более того, оказывается, что такая оценка является эффективной. 133 | Так как нормальное распределение принадлежит экспоненциальному семейству, то выполнено неравенство Рао-Крамера: 134 | \[ 135 | \bbV \hat{\theta}_{MLE} \geq I_{\theta}^{-1}, 136 | \] 137 | где $I_{\theta} = - \bbE \left[\frac{\partial^2 p(D|\theta)}{\partial \theta^2} \right]$ --- информация Фишера\index{информация Фишера}, 138 | причем для заданной модели выполнено, что $I_{\theta} = \frac{\sS}{\sigma^2}$. 139 | 140 | Таким образом, для оценки среднего значения нормального распределения выполнено, что 141 | оценка максимума правдоподобия состоятельная, несмещенная и эффективная, причем 142 | дисперсия оценки убывает как $\frac{1}{\sS}$. 143 | 144 | Посмотрим теперь на Байесовскую оценку. 145 | Пусть задано априорное распределение $\pi(\theta) = \mathcal{N}(\mu, \sigma_{\theta}^2)$. 146 | Тогда для апостериорного распределения выполнено, что 147 | \[ 148 | p(\theta | D) \propto p(D| \theta) \pi(\theta). 149 | \] 150 | Сделав несложные преобразования получаем, что 151 | апостериорное распределение тоже будет нормальным, а именно: 152 | \[ 153 | p(\theta | D) = \mathcal{N} \left(\frac{\frac{1}{\sigma^2} \sum_{i = 1}^{\sS} x_i + \frac{\mu}{\sigma_{\theta}^2}}{\frac{\sS}{\sigma^2} + \frac{1}{\sigma_{\theta}^2}}, \frac{1}{\frac{\sS}{\sigma^2} + \frac{1}{\sigma_{\theta}^2}} \right). 154 | \] 155 | Легко видеть, что такая оценка состоятельна, но не является несмещенной и эффективной. 156 | С другой стороны оказывается, что такая оценка \emph{асимптотически} несмещенная и эффективная. 157 | \end{example} 158 | 159 | 160 | -------------------------------------------------------------------------------- /book/sources/2-statMod.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Идеи Байесовской статистики} 3 | 4 | \subsection{Проблематика Байесовского подхода} 5 | 6 | Пусть мы наблюдаем случайную величину $x \in X$ из условного распределения $p(x | \theta)$. 7 | В Байесовской статистике мы будем считать, что $\theta \in \Theta$ --- тоже случайная величина. 8 | Пока будем считать, что $x$ и $\theta$ --- непрерывные случайные величины. 9 | 10 | Классическая задача статистического оценивания заключается в оценке параметра $\theta$ по наблюдениям. 11 | Аналогичная задача решается и в Байесовской статистике --- но теперь нас интересует не просто оценка $\hat{\theta}$, 12 | а все распределение $p(\theta|x)$. 13 | 14 | Это \emph{апостериорное распределение} может быть получено из правдоподобия $p(x| \theta)$, априорного распределения $\pi(\theta)$ и маргинального распределения $p(x)$ 15 | с использованием формулы Байеса: 16 | \[ 17 | p(\theta | x) = \frac{p(x| \theta) \pi(\theta)}{p(x)}. 18 | \] 19 | Так как знаменатель не зависит от $\theta$ часто удобно работать только с числителем, произведением правдоподобия на плотность априорного распределения: 20 | \[ 21 | p(\theta | x) \propto p(x| \theta) \pi(\theta). 22 | \] 23 | 24 | Таким образом, мы ввели следующие объекты: 25 | \begin{itemize} 26 | \item априорное распределение $\pi(\theta)$, \index{распределение!априорное} 27 | \item правдоподобие $p(x| \theta)$, \index{правдоподобие} 28 | \item апостериорное распределение $p(\theta | x)$, \index{распределение!апостериорное} 29 | \item маргинальное распределение $p(x) = \int p(x| \theta) \pi(\theta) d\theta$. \index{распределение!маргинальное} 30 | \end{itemize} 31 | 32 | В классической статистике мы предполагаем, что задана модель данных, 33 | которая определяет правдоподобие $p(x| \theta)$. 34 | На основании этой информации мы делаем оценку $\hat{\theta}$. 35 | В Байесовской статистике для того, чтобы полностью задать вероятностную модель, этого оказывается недостаточно: 36 | нам нужно еще определить априорное распределение данных. 37 | 38 | Грубо все подходы к выбору априорного распределения можно разбить на три пересекающихся группы: 39 | субъективный подход, объективный подход и прагматичный подход. 40 | Мы уделим наибольшее внимание объективному подходу, но рассмотрим и другие. 41 | 42 | В \emph{субъективном} подходе мы считаем, что эксперты в предметной области дали дам готовое априорное распределение, и нам его выбирать не нужно. 43 | Таким образом, в этом случае апиорное распределение уже задано и нам его выбирать не нужно. 44 | Однако, обычно это не так. 45 | 46 | В \emph{объективном} подходе к выбору априорного распределения мы хотим минимизировать влияние априорного распределения 47 | на наши выводы. 48 | Таким образом, нужно выбрать такое априорное распределение, у которого будут одинаковые предпочтения относительно всех $\theta \in \Theta$. 49 | Возникновение объективного подхода связано с тем, что основным направлением развития математической статистики 50 | были вероятностные методы, и альтернативы должны были в первую очередь давать правильные в смысле этого основного направления результаты. 51 | Примерами объективного подхода является априорное распределение Джеффриса и опорное априорное распределение, 52 | которые мы рассмотрим дальше. 53 | Так как индифферентность можно понимать по-разному, в этом подходе существует несколько подходов. 54 | 55 | В прагматичном подходе нам в первую очередь интересно наличие определенных свойств у полученной оценки --- 56 | например, ее численная устойчивость или разреженность. 57 | Выбор априорного распределения позволяет гарантировать некоторые такие свойства, 58 | поэтому часто Байесовские методы используют, например, для регуляризации. 59 | 60 | \subsection{Объективный Байесовский подход} 61 | \label{sec:objective_intro} 62 | 63 | Формулу Байеса знали --- и скорее всего открыли примерно одновременно --- Лаплас и Байес. 64 | Так как они смотрели на нее с классической точки зрения, 65 | то первым их порывом было взять в качестве априорного распределения то, 66 | которое обеспечит минимальное влияния на апостериорное распределение. 67 | 68 | Естественный кандидат в таком случае --- равномерное распределение на множестве параметров $\Theta$. 69 | То есть, $\pi(\theta) \propto c$. 70 | В таком случае 71 | \[ 72 | p(\theta | x) \propto p(x | \theta), 73 | \] 74 | и мы будем получать одинаковые результаты с использованием методов, которые работают и с правдоподобием, и с апостериорным распределением. 75 | 76 | Однако, такое априорное распределение решает нашу проблему в очень узком смысле. 77 | Рассмотрим взаимно-однозначное преобразование случайной величины $\theta$, равномерно распределенной на $\Theta = [0, 1]$. Например: 78 | \begin{align*} 79 | \rho &= \frac{\theta}{1 - \theta}, \rho \in (0, \infty), \\ 80 | r &= \log \left( \frac{\theta}{1 - \theta} \right), r \in (-\infty, \infty), \\ 81 | \end{align*} 82 | В таком случае получим, что априорные распределения $\pi(\rho)$ и $\pi(r)$ уже не будут равномерными. 83 | 84 | Таким образом, выбор в качестве априорного распределения равномерного не обеспечивает 85 | отсутствие предпочтений к различным значениям параметра. 86 | 87 | Этот пример и подобные ему привели к тому, что Байесовский подход в статистике практически не использовался. 88 | Фишер, Нейман, Вальд и Колмогоров строили математическую статистику, в которой не было места априорным распределениям. 89 | 90 | Однако, со времени стало понятно, что на самом деле Байесовская и классическая статистики изучают одно и то же, 91 | но с разных сторон --- подобно тому, как часть физиков в девятнадцатом веке считали, что свет это частица, 92 | а другая часть --- что это волна. 93 | 94 | \index{теорема Де Финетти} 95 | \index{теорема Бернштейна-фон Мизеса} 96 | Байесовский подход можно формализовать в рамках теории принятия решений. 97 | Кроме того, реабилитации Байесовского подхода в математической статистике поспособствовали 98 | три фундаментальных результата: 99 | Де Финетти удалось показать, что удачный выбор априорного распределения позволяет представить в новом виде задачу оценки свойств параметра, 100 | Джеффрису удалось развить идеи Лапласа и определить априорные распределения, которые минимальное бы влияли на апостериорное распределение, 101 | а теорема Бернштейна фон-Мизеса показала, что Байесовские оценки в достаточно общих условиях не сильно уступают по качеству классическим вероятностным оценкам. 102 | Де Финетти оправдал использование субъективного подхода в Байесовской статистике, 103 | а Джеффрис по новому взглянул на объективный подход. 104 | 105 | Еще более важным фактором, повлиявшим на развитие Байесовских идей, стало их использование для решения прикладных задач, 106 | в том числе в машинном обучении. 107 | 108 | % Задана \emph{выборка данных} $X = \{\vecX_i \}_{i = 1}^{\sS{}}$, $\vecX_i \in \mathbb{X} \subseteq \bbR^{\iD{}}$. 109 | % Предполагается, что вероятностное распределение $p(X) = p(X|\vecT)$ определяется \emph{неизвестным вектором параметров} $\vecT \in \Theta \subseteq \bbR^{\pD{}}$. 110 | % Примеры задач статистического оценивания: 111 | % \begin{itemize} 112 | % \item оценка вектора параметров $\vecT$ и получение свойств такой оценки, 113 | % \item оценка вероятности того, что вектор параметров $\vecT$ лежит в заданном множестве $\Theta_0$, 114 | % \item построение такого множества $\Theta_0$ минимального объема, в котором $\vecT$ лежит не меньше чем с заданной вероятностью. 115 | % \item выбор модели, то есть множества $\Theta_0$ из нескольких альтернатив. 116 | % \end{itemize} 117 | 118 | % В статистике рассматривают модели, которые обладают набором <<хороших>> свойств и хорошо исследованы. 119 | % Пример такой модели --- \emph{экспоненциальное семейство распределений}. 120 | % Пусть наблюдения $\vecX_i$ из выборки независимые и одинаково распределены с плотностью $p(\vecX|\vecT)$. 121 | % Тогда семейство распределений, параметризуемых $\vecT \in Theta$, называется экспоненциальным семейством, если 122 | % \[ 123 | % p(\vecX| \vecT) = \exp \left(c(\vecT) + \sum_{j = 1}^{\pD{}} t_j(\vecX) A_j(\vecT) \right) h(\vecX), 124 | % \] 125 | % где $c(\cdot)$, $A_j(\cdot)$ зависят только от $\vecT$, и $t_j(\cdot)$ зависят только от $\vecX$. 126 | % Экспоненциальному семейству распределений принадлежит нормальное распределение, распределение Бернулли, распределение Пуассона и многие другие. 127 | 128 | % Семейство распределений называется \emph{регулярным}, если 129 | % \begin{itemize} 130 | % \item Носитель распределения не зависит от $\vecT$, 131 | % \item функция плотности $p(\vecX| \vecT)$ $3$ раза непрерывно дифференцируема по $\vecT$, 132 | % \item можно дифференцировать под интегралом. 133 | % \end{itemize} 134 | 135 | % Регулярное семейство распределений включает в себя экспоненциальное семейство распределений. 136 | 137 | % Фундаментальную роль в математической статистике играет правдоподобие и его логарифм: 138 | % \[ 139 | % L(X, \vecT) = L(\vecT) = \log p(X| \vecT). 140 | % \] 141 | % Здесь и в дальнейшем для удобства мы опускаем $X$ в списке аргументов логарифма правдоподобия. 142 | 143 | % Оценка максимального правдоподобия имеет вид: 144 | % \[ 145 | % \mleT = \argmax_{\vecT \in \Theta} L(\vecT). 146 | % \] 147 | % При выполнение определенных условий регулярности такая оценка оказывается оценкой, которая имеет минимальную дисперсию среди всех возможных оценок и сходится к истинному значению $\vecT^*$. 148 | 149 | % Отметим, что оценка максимального распределения тесно связана с расстоянием Кульбака-Лейблера. 150 | % Пусть заданы два непрерывных распределения $p(\vecT)$ и $q(\vecT)$. 151 | % Тогда \emph{расстояние Кульбака-Лейблера} между ними имеет вид: 152 | % \[ 153 | % \KuLi(p|q) = -\int p(\vecT) \ln \left( \frac{q(\vecT)}{p(\vecT)} \right) d\vecT. 154 | % \] 155 | % Расстояние Кульбака-Лейблера не является расстоянием, в частности, вообще говоря, $\KuLi(p|q) \neq \KuLi(q|p)$. 156 | % Однако, $\KuLi(p|q) \geq 0$ и равно нулю тогда и только тогда, когда $p = q$. 157 | 158 | 159 | \subsection{Теорема де Финетти} 160 | 161 | Пускай случайные величины $\vecX_i$ таковы, что их совместная функция распределения не меняется в случае произвольной перестановки элементов выборки $\Sample = \{x_i\}_{i = 1}^{\sS}$: 162 | \[ 163 | P(x_1 \leq y_1, \ldots, x_{\sS} \leq y_{\sS}) = P(x_1 \leq y_{i_1}, \ldots, x_{\sS} \leq y_{i_\sS}). 164 | \] 165 | Такой набор случайных величин будем называть перестановочным. 166 | Будем говорить, что последовательность $x_i, i = 1, 2, \ldots, \sS, \sS + 1, \ldots$ бесконечно перестановочна, если для любого $\sS > 1$ выполнено, что $x_1, \ldots, x_{\sS}$ перестановочна. 167 | 168 | \begin{Theorem} 169 | Пусть $x_i$ составляют бесконечную перестановочную последовательность, и каждое $x_i$ принимает значения $0$ или $1$. 170 | Тогда для некоторого распределения $\pi(\theta)$ выполнено, что 171 | \[ 172 | P(x_1 = v_1, \ldots, x_{\sS} = v_{\sS}) = \int_{0}^1 \theta^{\sum_{i = 1}^{\sS} v_i} (1 - \theta)^{\sS - \sum_{i = 1}^{\sS} v_i} d \pi(\theta) 173 | \] 174 | для произвольного $\sS$ и набора $v_i \in \{0, 1\}$. 175 | То есть, для заданного $\theta$ выполнено, что $x_1, \ldots, x_{\sS}$ --- условно независимые одинаково распределенные Бернуллиевские случайные величины с параметром $\theta$, и априорное распределение $\theta$ --- $\pi(\theta)$. 176 | \end{Theorem} 177 | \index{теорема Де Финетти} 178 | 179 | Приведенная теорема может быть обобщена на случай, если множество значений, которые принимают $x_i$ не ограничиваются $0$ и $1$. 180 | Связь между приведенной выше теоремой Де Финетти и теоремой Де Финетти общего вида примерно такая же, как между теоремой Муавра-Лапласа и Центральной предельной теоремой. 181 | 182 | \begin{proof} 183 | 184 | Приведем доказательство теоремы. 185 | Обозначим 186 | \[ 187 | p(v_1, \ldots, v_{\sS}) = p(x_1 = v_1, \ldots, x_{\sS} = v_{\sS}). 188 | \] 189 | Пусть $x_1 + \ldots + x_{\sS} = y_{\sS}$ для $y_{\sS}$ из $\{1, \ldots, \sS\}$. 190 | Тогда для произвольной перестановки $(\tau(1), \ldots, \tau(\sS))$ индексов $(1, \ldots, \sS)$ выполнено, что 191 | \[ 192 | p(x_1 + \ldots + x_{\sS} = y_{\sS}) = C^{y_{\sS}}_{\sS} p(x_{\tau(1)}, \ldots, x_{\tau(\sS)}). 193 | \] 194 | Или 195 | \[ 196 | p(x_{\tau(1)}, \ldots, x_{\tau(\sS)}) = 197 | \frac{1}{C^{y_{\sS}}_{\sS}} p(x_1 + \ldots + x_{\sS} = y_{\sS}). 198 | \] 199 | Для произвольного $N$, такого что $N \geq \sS \geq y_{\sS} \geq 0$ 200 | выполнено, что 201 | \begin{align*} 202 | &p(x_1 + \ldots + x_{\sS} = y_{\sS}) =\\ 203 | &= \sum_{y_{N} = y_{\sS}}^{N - (\sS - y_{\sS})} p(x_1 + \ldots + x_{\sS} = y_{\sS} | x_1 + \ldots + x_{N} = y_{N}) p(x_1 + \ldots + x_{N} = y_{N}) = \\ 204 | &= \sum_{y_{N} = y_{\sS}}^{N - (\sS - y_{\sS})} \frac{C_{y_N}^{y_\sS} C_{N - y_{\sS}}^{\sS - y_\sS}}{C_N^\sS} p(x_1 + \ldots + x_{N} = y_{N}). 205 | \end{align*} 206 | Для фиксированного значения $x_1 + \ldots + x_{N}$ мы можем записать условную вероятность, используя биномиальные коэффициенты, в силу перестановочности случайных величин. 207 | То есть, мы можем записать ее как вероятность достать из урны с $N$ шарами, $y_N$ из которых белые, а $N - y_n$ черные, $\sS$ шаров так, что из них $y_{\sS}$ белых. 208 | 209 | Перепишем теперь 210 | \[ 211 | \frac{C_{y_N}^{y_\sS} C_{N - y_{\sS}}^{\sS - y_\sS}}{C_N^\sS} = C^{y_\sS}_{\sS} \frac{(y_N)_{y_\sS} (N - y_N)_{\sS - y_\sS}}{(N)_\sS}, 212 | \] 213 | где $(N)_{\sS} = \frac{N!}{(N - n)!}$. 214 | 215 | Таким образом, 216 | \begin{align*} 217 | &p(x_{\tau(1)}, \ldots, x_{\tau(\sS)}) = 218 | \frac{1}{C^{y_{\sS}}_{\sS}} p(x_1 + \ldots + x_{\sS} = y_{\sS}) = \\ 219 | &= \frac{1}{C^{y_{\sS}}_{\sS}} \sum_{y_{N} = y_{\sS}}^{N - (\sS - y_{\sS})} C^{y_\sS}_{\sS} \frac{(y_N)_{y_\sS} (N - y_N)_{\sS - y_\sS}}{(N)_\sS} p(x_1 + \ldots + x_{N} = y_{N}) = \\ 220 | &= \sum_{y_{N} = y_{\sS}}^{N - (\sS - y_{\sS})} \frac{(y_N)_{y_\sS} (N - y_N)_{\sS - y_\sS}}{(N)_\sS} p(x_1 + \ldots + x_{N} = y_{N}) 221 | \end{align*} 222 | 223 | Пусть $\Pi_N(\theta)$ совпадает с функцией распределения $x_1 + \ldots + x_{N}$, деленной на $N$. 224 | То есть, для $\theta < 0$ функция $\Pi_N(\theta) = 0$, в точках $\theta = \frac{y_N}{N}$ она испытывает скачок, равный $p(x_1 + \ldots + x_{N} = y_{N})$, и не меняется в других точках. 225 | 226 | Тогда 227 | \[ 228 | p(x_{\tau(1)}, \ldots, x_{\tau(\sS)}) = \int_{0}^1 229 | \frac{(\theta N)_{y_\sS} ((1 - \theta) N)_{\sS - y_\sS}}{(N)_\sS} d \Pi_N(\theta). 230 | \] 231 | Для $N \rightarrow \infty$ выполнено, что 232 | \[ 233 | \frac{(\theta N)_{y_\sS} ((1 - \theta) N)_{\sS - y_\sS}}{(N)_\sS} \rightarrow \theta^{y_\sS} (1 - \theta)^{\sS - y_\sS} 234 | \] 235 | % Approximation of a hypergeometric probability by a 236 | % binomial probability, c.f., G. Blom, G. Englund et.al. kap. 7.3. 237 | Действительно, для малых $\frac{n}{N}$ получаем: 238 | \begin{align*} 239 | \frac{C^k_{N \theta} C^{n - k}_{N (1 - \theta)}}{C^n_N} &= 240 | \frac{N \theta!}{k! (N \theta - k)!} 241 | \frac{N (1 - \theta)!}{(n - k)! (N (1 - \theta) - (n - k)!} \frac{n! (N - n)!}{N!} = \\ 242 | &= \frac{n!}{k! (n - k)!} \frac{(N \theta)! (N (1 - \theta))! (N - n)!}{(N \theta - k)! (N(1 - \theta) - (n - k))! N!} \approx \\ 243 | &\approx \frac{n!}{k! (n - k)!} \frac{(N \theta)^k (N(1 - \theta))^{n - k}}{N^n} = C_n^k \theta^k (1 - \theta)^{n - k}. 244 | \end{align*} 245 | 246 | В соответствии с теоремой Хейли из последовательности $\{\Pi_N(\theta)\}$ можно выбрать сходящуюся подпоследовательность. 247 | %причем в нашем случае она может иметь вид только $\theta^k (1 - \theta)^{n - k}$. 248 | 249 | Таким образом, переходя к пределу по этой сходящейся подпоследовательности, получаем: 250 | \[ 251 | p(x_{1}, \ldots, x_{\sS}) = \int_{0}^1 \theta^{y_n} (1 - \theta)^{n - y_n} d\Pi(\theta), 252 | \] 253 | причем $\Pi(\theta) = \lim_{n \rightarrow \infty} p\left(\frac{\sum_{i = 1}^n x_i}{n} \leq \theta\right)$. 254 | 255 | \end{proof} 256 | 257 | Приведем теперь формулировку теоремы Де Финетти в более общем виде. 258 | \begin{Theorem} 259 | Пусть $x_i$ составляют бесконечную перестановочную последовательность с вероятностной мерой $P$. 260 | % Тогда для некоторого распределения $\Pi(\theta)$ из $\mathcal{F}$ --- множества всех вероятностных распределений на $\bbR$ 261 | Тогда совместное распределение $p(x_1 = y_1, \ldots, x_{\sS} = y_{\sS})$ можно представить в виде: 262 | \[ 263 | p(x_1 = y_1, \ldots, x_{\sS} = y_{\sS}) = \int_{\mathcal{F}} \prod_{i = 1}^{\sS} F(y_i) d \Pi(\theta), 264 | \] 265 | где $F$ --- неизвестная или ненаблюдаемая функция распределения, и 266 | \[ 267 | \Pi(\theta) = \lim_{\sS \rightarrow \infty} P_{\sS}(\hat{F}_{\sS}) 268 | \] 269 | --- вероятностная мера на пространстве функций $\mathcal{F}$, 270 | определенная как предел при $\sS \rightarrow \infty$ на эмпирической функции распределения $\hat{F}_{\sS}$. 271 | 272 | \end{Theorem} 273 | 274 | \subsection{Выводы} 275 | 276 | Таким образом, в Байесовской статистике действительно есть что изучать: 277 | с одной стороны во многих случаях Байесовский подход кажется осмысленным, 278 | с другой --- интуитивных идей недостаточно для построения стройной теории. 279 | 280 | % В этом разделе были представлены два фундаментальных результата Байесовской статистики: теорема Де Финетти, утверждающая, что правильное подобранное априорное распределение способно сильно упростить задачу вывода, и что такое распределение всегда есть, и теорема Бернштейна-фон Мизеса, утверждающая, что Байесовская оценка будет не сильно отличаться от оценки максимума правдоподобия. 281 | -------------------------------------------------------------------------------- /book/sources/3-asymptNorm.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Асимптотическая нормальность апостериорного распределения} 3 | 4 | В классической статистике важным является установить для оценки ее асимптотическое поведение. 5 | Большинство используемых оценок --- регулярные, для них 6 | можно установить асимптотическую нормальность. 7 | 8 | Для Байесовских оценок условие сходимости апостериорного распределения к нормальному определяют теорема Бернштейна-фон Мизеса и в более общем смысле условия Ибрагимов и Хасьминского. 9 | Оба результата представлены в этом разделе. 10 | 11 | 12 | \subsection{Теорема Бернштейна-фон Мизеса} 13 | \index{теорема Бернштейна-фон Мизеса} 14 | 15 | Важной проблемой Байесовской статистики с точки зрения обычной математической статистики является несоответствие между Байесовскими оценками и эффективными классическими оценкаvb. 16 | 17 | Оказывается, что в асимптотике Байесовские оценки часто совпадают с классическими. 18 | Формальное утверждение про близость Байесовских и классических оценок 19 | составляет теорема суть теоремы Бернштейна-фон Мизеса. 20 | 21 | Рассмотрим выборку независимых одинаково распределенных величин $X = \{\vecX_1, \ldots, \vecX_{\sS} \}$ из распределения с плотностью $p(\vecX | \theta_0)$. 22 | Параметр $\theta \in \Theta$, $\Theta$ --- открытое подмножество $\bbR$. 23 | Мы хотим по выборке оценить значение параметра $\theta_0$. 24 | 25 | Будем предполагать следующие условия регулярности: 26 | \begin{itemize} 27 | \item[A1] Носитель $p(\vecX | \theta)$ не зависит от $\theta \in \Theta$ 28 | \item[A2] Логарифм правдоподобия $L( \theta) = \log p(\vecX | \theta)$ трижды непрерывно дифференцируем по $\theta$ в окрестности истинного значения $(\theta_0 - \delta, \theta_0 + \delta)$ для некоторого $\delta > 0$. 29 | Обозначим $\dot{L}(\theta)$, 30 | $\ddot{L}(\theta)$, $\dddot{L}(\theta)$ первую, вторую и третью частные производные правдоподобия по параметру $\theta$. Пусть математические ождидания $\bbE_{\theta_0} \dot{L}( \theta)$, 31 | $\bbE_{\theta_0} \ddot{L}( \theta)$ конечны, и 32 | \[ 33 | \sup_{\theta \in (\theta_0 - \delta, \theta_0 + \delta)} |\dddot{L}(\theta)| < M(\vecX), 34 | \] 35 | причем $\bbE_{\theta_0} M(\vecX) < \infty$. 36 | \item[A3] Можно менять местами математическое ожидание по $\theta_0$ и дифференцирование по $\theta_0$, так что 37 | \begin{align*} 38 | \bbE_{\theta_0} \dot{L}( \theta_0) &= 0 \\ 39 | \bbE_{\theta_0} \ddot{L}( \theta_0) &= - \bbE_{\theta_0} (\dot{L}( \theta_0))^2. 40 | \end{align*} 41 | \item[A4] Информация Фишера\index{информация Фишера} $I(\theta_0)^2 = \bbE_{\theta_0} (\dot{L}(\theta_0))^2 > 0$. 42 | \end{itemize} 43 | 44 | В таких предположениях состоятельная оценка максимума правдоподобия 45 | будет асимптотически нормальной. 46 | 47 | \begin{Theorem} 48 | Пусть для семейства плотностей $\{p(\vecX|\theta), \theta \in \Theta\}$ выполнены предположения [A1]-[A4] и оценка максимума правдоподобия $\mleT_{\sS}$ состоятельна. Тогда 49 | \[ 50 | \sqrt{\sS} (\mleT_{\sS} - \theta_0) \rightarrow^D \mathcal{N} \left(0, \frac{1}{I(\theta_0)}\right). 51 | \] 52 | \end{Theorem} 53 | 54 | \begin{proof} 55 | Утверждение теоремы следует из центральной предельной теоремы и усиленного закона больших чисел. 56 | 57 | Обозначим $L_\sS(\theta) = \sum_{i = 1}^{\sS} \log p(\vecX_i | \theta)$, 58 | а ее первую, вторую и третью производную по $\theta$ --- $\dot{L}_\sS(\theta), \ddot{L}_\sS(\theta)$ и $\dddot{L}_\sS(\theta)$ соответственно. 59 | Разложим производную $L_\sS(\theta)$ по Тейлору: 60 | \[ 61 | 0 = \dot{L}_{\sS}(\mleT_\sS) = \dot{L}_{\sS}(\theta_0) + (\mleT_\sS - \theta_0) \ddot{L}_{\sS}(\theta_0) + \frac12 (\mleT_\sS - \theta_0)^2 \dddot{L}_{\sS}(\theta'), 62 | \] 63 | где $\theta_0 \leq \theta' \leq \mleT_\sS$. 64 | Тогда 65 | \[ 66 | \sqrt{\sS} (\mleT_\sS - \theta_0) = \frac{\frac{1}{\sqrt{\sS}} \dot{L}_{\sS}(\theta_0)}{-\frac{1}{\sS} \ddot{L}_{\sS}(\theta_0) - \frac12 \frac{1}{\sS} \dddot{L}_{\sS}(\theta')}. 67 | \] 68 | Так как выполнена центральная предельная теорема, то числитель сходится по распределению к $\mathcal{N}(0, I(\theta_0))$. 69 | Первое слагаемое в знаменателе сходится к $I(\theta_0)$ по усиленному закону больших чисел. 70 | Второе слагаемое мало в силу состоятельности $\mleT_\sS$ и ограниченности $|\dddot{L}(\vecX | \theta)|$. 71 | Следовательно, левая часть равенства сходится по распределению к 72 | $\mathcal{N}(0, 1 / I(\theta_0))$. 73 | % https://ocw.mit.edu/courses/mathematics/18-443-statistics-for-applications-fall-2006/lecture-notes/lecture3.pdf 74 | % - похожее доказательство, но с разложением только до первого порядка 75 | \end{proof} 76 | 77 | Для теоремы Бернштейна-фон Мизеса понадобятся дополнительные предположения: 78 | \begin{itemize} 79 | \item[A5] Для произвольного $\delta > 0$ существует $\varepsilon > 0$ такое, что 80 | \[ 81 | P_{\theta_0} \left\{ \sup_{|\theta - \theta_0| > \delta} \frac{1}{\sS} \left( L_\sS(\theta) - L_\sS(\theta_0) \right) \leq -\varepsilon \right\} \rightarrow 1. 82 | \] 83 | \item[A6] Априорная плотность распределения $\pi(\theta)$ непрерывна и положительна в $\theta_0$. 84 | \end{itemize} 85 | 86 | \begin{Theorem}[Теорема Бернштейна-фон Мизеса] 87 | \index{теорема Бернштейна-фон Мизеса} 88 | Пусть выполнены предположения [A1]-[A6], а $\mleT_\sS$ --- состоятельная оценка максимума правдоподобия. 89 | Обозначим совместную плотность выборки $p(X| \theta)$. 90 | Тогда для $\sS \rightarrow \infty$: 91 | \[ 92 | \int_\bbR \left|p(s | X) - \frac{1}{\sqrt{2\pi}\sqrt{I(\theta_0)^{-1}}} \exp \left(-\frac{1}{2 I(\theta_0)^{-1}} s^2 \right) \right| ds \rightarrow^{p} 0, 93 | \] 94 | где $s = \sqrt{\sS} (\theta - \mleT_\sS(X))$. 95 | \end{Theorem} 96 | 97 | Теорема утверждает, что апостериорное распределение близко к нормальному по расстоянию полной вариации. 98 | Доказательство теоремы --- техническое: нужно разбить область интегрирования на три и в каждой из областей оценить интеграл сверху. 99 | 100 | Эта теорема утверждает, что мы можем достаточно точно описать апостериорное распределение в асимптотическом случае. 101 | Как следствие этой теоремы мы получаем асимптотическую нормальность и сходимость для Байесовской оценки. 102 | \begin{Theorem} 103 | Пусть $\int_\Theta |\theta| \pi(\theta) d\theta < \infty$. 104 | Будем использовать в качестве Байесовской оценки апостериорное среднее: 105 | \[ 106 | \theta^*_\sS = \int_{\Theta} \theta p(\theta | X) d\theta. 107 | \] 108 | Тогда 109 | \[ 110 | \sqrt{\sS} (\mleT_\sS - \theta^*_\sS) \rightarrow^{p_{\theta_0}} 0. 111 | \] 112 | Кроме того, 113 | \[ 114 | \sqrt{\sS} (\theta^*_\sS - \mleT_\sS) \rightarrow^{D} \mathcal{N}\left(0, \frac{1}{I(\theta_0)}\right). 115 | \] 116 | \end{Theorem} 117 | 118 | Существуют вариации представленных результатов, полученные в других предположениях о регулярности семейства. 119 | Например, получена версия теоремы Бернштейна-фон Мизеса при нарушении параметрического предположения и для конечных выборок. 120 | % были, например, получены в достаточно общем случае В.Спокойным, 121 | % spokoiny2012parametric 122 | %а для конкретных моделей --- А. Зайцевым, Е.Бурнаевым и М.Пановым. 123 | 124 | \subsection{Условия Ибрагимова и Хасьминского} 125 | 126 | Ибрагимов и Хасьминский предложили ряд условий для целого семейства параметрических моделей. 127 | Эти условия были проверены для различных классов нерегулярных задач и случайных процессов. 128 | Рассмотрим теперь результаты, которые получаются с использованием этих условий. 129 | 130 | Множество значений параметров $\Theta$ является подмножеством пространства $\bbR^{\pD}$. 131 | Для упрощения изложения рассмотрим $\pD = 1$. 132 | Совместное распределение выборки $\Sample = \{\vecX_1, \ldots, \vecX_{\sS}\}$ обозначим $P_{\theta}^{\sS}$, а плотность относительно сигма-конечной меры обозначим $p(\Sample, \theta)$. 133 | Последовательность положительных констант $\phi_{\sS}$ сходится к $0$ при $\sS \rightarrow \infty$. 134 | % случай k>1 135 | В регулярном случае, рассмотренном в предыдущем разделе, можно взять $\phi_{\sS} = \frac{1}{\sqrt{\sS}}$. 136 | В нерегулярном случае, как правило, сходимость $\phi_{\sS} \rightarrow 0$ может быть быстрее. 137 | Рассмотрим отображение $U$, определенное как $U(\theta) = \frac{1}{\phi_{\sS}} (\theta - \theta_0)$, где $\theta_0$ --- истинное значение параметра. 138 | Пусть $\mathcal{U}_{\sS} = \{U(\theta): \theta \in \Theta \}$. 139 | Величина $u$ является соответствующим образом масштабированной разностью между $\theta$ и $\theta_0$. 140 | Зададим случайный процесс 141 | \[ 142 | Z_{\sS}(u, \Sample_{\sS}) = \frac{p(\Sample_{\sS}, \theta_0 + \phi_{\sS} u)}{p(\Sample_{\sS}, \theta_0)}. 143 | \] 144 | 145 | \textit{Условия Ибрагимова-Хасьминского} имеют вид: 146 | \begin{itemize} 147 | \item[ИХ1] Для некоторых $M > 0$, $m_1 \geq 0, \alpha > 0, \sS_0 \geq 1$ выполнено, что 148 | \begin{align*} 149 | \E_{\theta_0} \| Z_{\sS}^{\frac12}(u_1) - Z_{\sS}^{\frac12}(u_2)\|^2 &\leq M (1 + A^{m_1}) |u_1 - u_2|^{\alpha}, \\ 150 | \forall u_1, u_2 \in \mathcal{U}_{\sS} \text{ with } &|u_1| \leq A, |u_2| \leq A 151 | \end{align*} 152 | для всех $\sS \geq \sS_0$. 153 | % TODO про расстояние Кульбака-Лейблера 154 | \item[ИХ2] Для всех $u \in \mathcal{U}_{\sS}$ и $\sS \geq \sS_0$ 155 | \[ 156 | \E_{\theta_0} \|Z_{\sS}^{\frac12} (u) \| \leq \exp (-g_{\sS}(|u|)), 157 | \] 158 | где $g_{\sS}$ --- последовательность действительнозначных функций, удовлетворяющих следующим условиям: 159 | \begin{itemize} 160 | \item для любого $\sS \geq 1$, $g_{\sS}(y) \uparrow \infty$ для $y \rightarrow \infty$, 161 | \item[ИХ3] для любого $N > 0$ 162 | \[ 163 | \lim_{y \rightarrow \infty, \\ \sS \rightarrow \infty} y^N \exp(-g_{\sS}(y)) = 0. 164 | \] 165 | \end{itemize} 166 | \item Конечномерные распределения $\{Z_{\sS}(u): u \in \mathcal{U}_{\sS}\}$ сходятся к конечномерным распределениям случайного процесса $\{Z(u): u \in \mathbb{R}\}$. 167 | \end{itemize} 168 | 169 | % TODO про iid выборку 170 | 171 | \begin{Theorem} 172 | Пусть $\Pi$ --- априорное распределение с положительной непрерывной плотностью в $\theta_0$. 173 | Тогда если выполнены условия Ибрагимова-Хасьминского [ИХ1--ИХ3] для квадратичной функции потерь, нормализованная Байесовская оценка $\phi_{\sS} (\tilde{\theta}_{\sS} - \theta_0)$ сходится по распределению к $\int u Z(u) du / \int Z(u) du$. 174 | \end{Theorem} 175 | 176 | \begin{Proposition} 177 | Предположим, что $\vecX_1, \ldots, \vecX_{\sS}$ --- независимые одинаково распределенные случайные величины, и $\Pi$ --- априорное распределение. 178 | Пусть $\hat{\theta}(\vecX_1, \ldots, \vecX_{\sS})$ --- симметричная функция по $\vecX_1, \ldots, \vecX_{\sS}$. Обозначим 179 | \[ 180 | t = \phi_{\sS}^{-1} (\theta - \hat{\theta}(\Sample_{\sS})), 181 | \] 182 | и $A$ --- борелевское множество. 183 | Пусть 184 | \[ 185 | \Pi(t \in A| \Sample_{\sS}) \rightarrow^{P_{\theta_0}} Y_A. 186 | \] 187 | Тогда $Y_A$ --- константа почти всюду на $P_{\theta_0}$. 188 | \end{Proposition} 189 | 190 | \begin{Definition} 191 | Для некоторой симметрической функции $\hat{\theta}(\Sample_{\sS})$ апостериорное распределение $t = \phi_{\sS}^{-1} \left(\theta - \hat{\theta}(\Sample_{\sS}) \right)$ сходится к $Q$, если 192 | \[ 193 | \sup_{A} \{\Pi(t \in A| \Sample_{\sS}) - Q(A)\} \rightarrow^{P_{\theta_0}} 0. 194 | \] 195 | Тогда $\hat{\theta}(\Sample_{\sS})$ называют \emph{точным центрированием.} 196 | \end{Definition} 197 | 198 | \begin{Theorem} 199 | Пусть выполнены условия Ибрагимова-Хасьминского и $\Pi$ --- априорное распределение с непрерывной положительной плотностью в $\theta_0$. 200 | Если точное центрирование $\hat{\theta}(\Sample_{\sS})$ существует, тогда существует случайная величина $W\!$, такая, что 201 | \begin{itemize} 202 | \item[a)] $\phi_{\sS}^{-1}(\theta_0 - \hat{\theta}(\vecX_1, \ldots, \vecX_{\sS}))$ сходится по распределению к $W$. 203 | \item[b)] Для почти всех $\eta \in \mathbb{R}$ величина $\xi(\eta - W) = q(\eta)$ является неслучайной. Здесь $\xi(u) = Z(u) / \int_{\mathbb{R}} Z(u) du, u \in \mathbb{R}$. 204 | 205 | Если b) выполнено для некоторой случайной величины $W$, то апостериорное среднее для заданной выборки $\Sample_\sS$ является точным центрированием с $Q(A) = \int_{A} q(t) dt$. 206 | \end{itemize} 207 | \end{Theorem} 208 | -------------------------------------------------------------------------------- /book/sources/4-desTheory.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Байесовская теория принятия решений} 3 | 4 | \subsection{Задача выбора решающего правила} 5 | 6 | Будем рассматривать задачу статистического оценивания на основе выборки данных: заданы 7 | параметр $\theta \in \Theta$, определяющий распределение данных, 8 | $X$ --- наблюдения, на основе которых нужно принять решение $\delta(X)$ 9 | и риск $l(\theta, \delta(X))$, который штрафует 10 | за решение $\delta(X)$ при заданном параметре $\theta$. 11 | Необходимо найти такое решающее правило $\delta(X)$, 12 | которое будет минимизировать риск $l(\theta, \delta(X))$. 13 | 14 | \begin{example} 15 | Рассмотрим следующий естественный пример. 16 | Пусть задача состоит в оценке параметра $\theta$, то есть 17 | $\delta(X) = \hat{\theta}(X)$, а риск --- квадратичный, 18 | \[ 19 | l(\theta, \delta(X)) = (\theta - \delta(X))^2. 20 | \] 21 | \end{example} 22 | 23 | Отметим, что мы еще не до конца сформировали нашу задачу, 24 | так как природа модели у нас вероятностная, 25 | и $l(\theta, \delta(X))$ --- случайная величина. 26 | 27 | \subsection{Выбор решающего правила с использованием среднего риска} 28 | 29 | В классическом подходе к статистическому оцениванию обычно 30 | используют вероятстный или средний риск: 31 | \[ 32 | R(\theta, \delta) = \bbE_{\theta} l(\theta, \delta(X)) 33 | = \int l(\theta, \delta(X)) p(X| \theta) dX, 34 | \] 35 | то есть мы усредняем риск по всем выборкам $X$, сгенерированным из распределения $p(X| \theta)$. 36 | 37 | Теперь мы получим детерминированный --- при заданном $\theta$ --- 38 | средний риск. 39 | Однако мы все еще не можем однозначно сравнить два решающих правила 40 | $R(\theta, \delta_1)$ и $R(\theta, \delta_2)$. 41 | Чтобы понять в чем проблема, достаточно посмотреть на рисунок~\ref{fig:risk_comparison}: в большинстве случаев нельзя сказать, какое решение равномерно лучше другого решения. 42 | В примере на рисунке видно, что для всех $\theta$ $R(\theta, \delta_1) \leq R(\theta, \delta_2)$, однако нельзя так же сравнить решающие правила 43 | $\delta_1$ и $\delta_3$: для каких-то $\theta$ лучше будет использовать 44 | $\delta_1$, а для каких-то --- наоборот. 45 | 46 | \begin{figure}[h!] 47 | \centering 48 | \includegraphics[width=0.5\textwidth]{figures/risk_comparison.png} 49 | \caption{Сравнение средних рисков для решающих правил 50 | $\delta_1$, $\delta_2$, $\delta_3$} 51 | \label{fig:risk_comparison} 52 | \end{figure} 53 | 54 | Перечислим подходы, которые используются для сравнения решающих правил с использованием среднего риска в классической математической статистике: 55 | \begin{itemize} 56 | \item Решающее правило $\delta$ будет \emph{эффективным}, если для любого другого решающего правила $\delta'$ выполнено, что 57 | \[ 58 | \forall \theta \in \Theta: R(\theta, \delta) \leq R(\theta, \delta'). 59 | \] 60 | Как мы увидели выше, таких решающие правила если и встречаются, то в очень ограниченном классе задач. Однако, можно говорить не про эффективность в целом, а про эффективность в более узком смысле. 61 | \item Естественно \emph{ограничить класс решающих правил}, в котором мы будем искать целевое решающее правило. Например, в задаче оценки параметра мы можем искать только решающие правила, которые дают несмещенную оценку: $\bbE_{\theta} \hat{\theta}(X) = \theta.$ В классе несмещенных оценок для некоторых классов статистических моделей эффективные оценки существуют. В частности, существует классическая вероятностная теория про эффективность оценок достаточных статистик в экспоненциальном классе распределений. 62 | \item Решающее правило $\delta$ будет \emph{минимаксно эффективным}, 63 | \index{минимаксный подход} 64 | если 65 | \[ 66 | \forall \delta' \ne \delta: \sup_{\theta} R(\theta, \delta) \leq 67 | \sup_{\theta} R(\theta, \delta'). 68 | \] 69 | Такой подход сводит сравнение средних рисков к сравнению чисел, 70 | которые агрегируют информацию про средние риски. 71 | Однако, минимаксный подход кажется излишне консервативным в большинстве случаев. Нас редко интересует то, насколько хорошо все работает в худшем случае, обычно мы хотим оценить качество работы решающего правила в среднем. 72 | \end{itemize} 73 | 74 | \subsection{Байесовская теория принятия решений} 75 | 76 | Другая естественная идея, возникающая в теории принятия решений, 77 | --- взвесить средний риск с помощью некоторой функции $\pi(\theta)$. 78 | Тогда мы опять сведем задачу сравнения двух решающих правил к задаче сравнения двух чисел $\int R(\theta, \delta) \pi(\theta) d\theta$. 79 | 80 | Естественный кандидат на роль такой функции --- априорное распределение на $\theta$. 81 | Таким образом Байесовский подход может быть естественным образом использован в теории принятия решений. 82 | 83 | Однако, посмотрим на нее с еще одной стороны. 84 | Введем апостериорный риск: 85 | \[ 86 | \rho(\pi, \delta(X)) = \int_{\Theta} l(\theta, \delta(X)) p(\theta| X) d\theta. 87 | \] 88 | Решением, которое минимизирует апостериорный риск будем называть Байесовским решением $\delta^*(X)$. 89 | Как и раньше, для выбора $\delta^*(X)$ нет необходимости уметь считать $p(X)$, достаточно уметь считать $p(x| \theta) \pi(\theta) \propto p(\theta | X)$. 90 | 91 | \begin{example} 92 | Получим Байесовское решение для квадратичной функции потерь $l(\theta, \delta(X)) = (\theta - \delta(X))^2$. 93 | Апостериорный риск имеет вид: 94 | \[ 95 | \rho(\pi, \delta(X)) = \int_{\Theta} (\theta - \delta(X))^2 p(\theta| X) d\theta = \delta(X)^2 - 2 \delta(X) \int \theta p(\theta | X) d\theta + 96 | \int \theta^2 p(\theta | X) d \theta. 97 | \] 98 | Последний член от $\delta(X)$ не зависит. 99 | Дифференцируя разность первых двух по $\delta(X)$, получаем необходимое условие локального экстремума: 100 | \[ 101 | \frac{\partial\rho(\pi, \delta(X))}{\partial \delta(X)} = 2 \delta(X) - 2 \int \theta p(\theta | X) d\theta = 0. 102 | \] 103 | Следовательно, Байесовское решение имеет вид: 104 | \[ 105 | \delta^*(X) = \int \theta p(\theta | X) d\theta, 106 | \] 107 | то есть оно совпадает с апостериорным средним. 108 | Если мы возьмем $l_1$ функцию потерь $l(\theta, \delta(X)) = \| \theta - \delta(X) \|$, то получим, что Байесовское решающее правило --- медиана апостериорного распределения. 109 | 110 | \end{example} 111 | 112 | Определим теперь Байесовское решающее правило, как функцию $\delta_\pi(X)$, которая минимизирует 113 | \[ 114 | r(\pi, \delta) = \int R(\theta, \delta) \pi(\theta) d\theta, 115 | \] 116 | где $R(\theta, \delta)$ --- средний риск. 117 | Таким образом мы усреднили средний риск по априорному распределению $\theta$. 118 | 119 | Назовем $r(\pi) = r(\pi, \delta_\pi)$. 120 | Мы можем интерпертировать его и с более Байесовской точки зрения. 121 | Действительно, 122 | \begin{align*} 123 | r(\pi, \delta) &= \int \int l(\theta, \delta(X)) p(X | \theta) dx \, \pi(\theta) d\theta = \\ 124 | &= \int \int l(\theta, \delta(X)) p(\theta | X) d\theta p(X) dX = \\ 125 | &= \int \rho(X, \pi) p(X) dX. 126 | \end{align*} 127 | Таким образом, $r(\pi, \delta)$ --- усреднение апостериорного риска по маргинальному распределению $p(X)$. 128 | Таким образом, Байесовское решающее правило --- совокупность Байесовских решений для всех $X$. 129 | 130 | Отметим, что такой подход может быть использован для получения минимаксных оценок, так как во многих случаях мы можем получить Байесовское решающее правило в явном виде. 131 | 132 | \subsection{Проблемы несмещенных оценок} 133 | 134 | Приведем в завершении этого раздела несколько классических примеров задачи статистического оценивания, демонстрирующих неэффективность несмещенных оценок. 135 | 136 | \begin{example}[Регрессия к среднему] 137 | Рассмотрим следующий пример. 138 | Пусть $x$ --- рост матери, а $y$ --- рост дочери. 139 | $x$ и $y$ --- случайные величины из многомерного нормального распределения: 140 | \[ 141 | \begin{pmatrix} 142 | x \\ y 143 | \end{pmatrix} \sim 144 | \mathcal{N} 145 | \left( 146 | \begin{pmatrix} 147 | \mu_1 \\ \mu_2 148 | \end{pmatrix}, 149 | \begin{pmatrix} 150 | \sigma^2 & \rho \\ \rho & \sigma^2 151 | \end{pmatrix} 152 | \right). 153 | \] 154 | Возьмем $\mu_1 = \mu_2 = 160 \text{см}$, $\bbV x = \bbV y = \sigma^2 = 1$ и $\rho = 0.5$. 155 | 156 | Тогда 157 | \[ 158 | \bbE (y | x) = \mu_2 + \rho (x - \mu_1) 159 | \] 160 | 161 | Следовательно, 162 | \begin{align*} 163 | \bbE_y \bbE (y | x) &= 160 + 0.5 (\bbE_y x - 160) = \\ 164 | &= 160 + 0.5 (160 + 0.5(y - 160) - 160) = \\ 165 | &= 160 + 0.25 (y - 160) 166 | \end{align*} 167 | 168 | Ясно, что такая оценка не совпадает с $y$ и, более того, не является несмещенной. 169 | В то же время математическое ожидание для несмещенной оценки будет иметь вид: 170 | \[ 171 | \hat{y} = 160 + 2 (x - 160). 172 | \] 173 | Такая несмещенная оценка противоречит здравому смыслу --- 174 | получается, что дочка должна в среднем сильнее отклоняться от среднего роста, чем мать. 175 | На практике наблюдается обратная ситуация, которую описал еще пионер математической статистики и автор термина регрессия Фрэнсис Гальтон: 176 | обычно дети ближе к среднему росту, если рост их родителей аномально высокий. 177 | Название феномена \emph{регрессия к среднему} и привело к появлению термина регрессия. 178 | % http://ww2.amstat.org/publications/jse/v9n3/stanton.html 179 | 180 | \end{example} 181 | 182 | \begin{example}[Два орла подряд] 183 | Пусть мы подбросили монету $\sS$ раз, 184 | причем число орлов распределено биномиально $B(\sS, \theta)$. 185 | Мы наблюдаем $r$ орлов и хотим оценить $\theta^2$, 186 | вероятность наблюдения двух орлов подряд. 187 | В таком случае мы можем получить эффективную несмещенную оценку --- несмещенную оценку с минимальной дисперсией: 188 | \index{оценка!эффективная} 189 | \index{оценка!несмещенная} 190 | \[ 191 | \hat{\theta^2} = \frac{r(r - 1)}{n (n - 1)}. 192 | \] 193 | 194 | Получается, что для $r = 1$ такая оценка равна нулю. 195 | То есть, вероятность получить два орла подряд равна нулю. 196 | Существует ли оценка, свободная от этого недостатка, и как ее получить? 197 | \end{example} 198 | 199 | \begin{example}[Парадокс Штайна] 200 | \index{парадокс Штайна} 201 | Рассмотрим $\vecX = \{x_1, \ldots, x_{\pD}\}$. 202 | Каждый $x_i \sim \mathcal{N}(\theta_i, \sigma^2)$. 203 | Задача состоит в оценке вектора параметров $\vecT = \{\theta_1, \ldots, \theta_{\pD}\}$. 204 | Функция потерь квадратичная, $l(\vecT, \hat{\vecT}(\vecX)) = \bbE \|\vecT - \hat{\vecT}\|^2$. 205 | 206 | Естественная несмещенная оценка в данном случае совпадает с оценкой максимума правдподобия, $\hat{\vecT}_{MLE} = \vecX$. 207 | 208 | Однако, оказывается, что такая оценка не является эффективной. 209 | Рассмотрим, например, оценку Джеймса-Штайна: 210 | \[ 211 | \hat{\vecT}_{JS} = \left(1 - \frac{(\pD - 2) \sigma^2}{\|\vecX\|^2} \right) \vecX. 212 | \] 213 | Для $\pD \geq 3$ такая оценка оказывается эффективнее, чем оценка максимума правдоподобия. 214 | Однако и она не будет самой эффективной. 215 | Оценка Джеймса-Штайна с параметром $\boldsymbol{\nu}$ оказывается еще более эффективной для $\pD \geq 4$: 216 | \[ 217 | \hat{\vecT}_{JS\boldsymbol{\nu}} = \left(1 - \frac{(\pD - 3) \sigma^2}{\|\vecX - \boldsymbol{\nu}\|^2} \right) (\vecX - \boldsymbol{\nu}) + \boldsymbol{\nu}. 218 | \] 219 | 220 | В частности, она более эффективна, чем Байесовская оценка 221 | 222 | \[ 223 | \hat{\vecT}_{JS\boldsymbol{\nu}+} = \left(1 - \frac{(\pD - 3) \sigma^2}{\|\vecX - \boldsymbol{\nu}\|^2} \right)^+ (\vecX - \boldsymbol{\nu}) + \boldsymbol{\nu}. 224 | \] 225 | \end{example} 226 | 227 | 228 | %TODO Bias-variance tradeoff? -------------------------------------------------------------------------------- /book/sources/5-priorSelectionConjugate.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | 3 | 4 | \section{Сопряженное априорное распределение} 5 | \index{распределение!априорное!сопряженное} 6 | 7 | \subsection{Определение сопряженного априорного распределения} 8 | 9 | Одним из наиболее широко используемых понятий в Байесовской статистике является понятие сопряженного априорного распределения. 10 | 11 | \begin{Definition} 12 | Пусть задана статистическая модель данных с правдоподобием данных $p(X | \vecT)$. 13 | Тогда семейство априорных распределений называется \emph{сопряженным семейством априорных распределений}, если 14 | при выборе априорного распределения из этого семейства, 15 | апостериорное распределение тоже будет ему принадлежать. 16 | \end{Definition} 17 | 18 | Часто для краткости мы будем говорить не о сопряженном семействе априорных распределений, а просто о сопряженном априорном распределении. 19 | 20 | \begin{example} 21 | Тривиальный пример сопряженного семейства априорных распределений --- семейство всех вероятностных распределений. 22 | \end{example} 23 | 24 | Если смотреть на этот пример, не очень понятно, зачем нужно такое определение. 25 | Однако во многих случаях определение такого семейства 26 | для заданной вероятностной модели оказывается полезным. 27 | 28 | \subsection{Сопряженное распределение для мультиномиального распределения} 29 | 30 | Рассмотрим выборку размера $\sS$ из мультиномиального распределения. 31 | Пускай в этом распределении $k$ различных категорий, обозначим их $\{1, 2, \ldots, k\}$. 32 | Обозначим $x_i$ количество наблюдений $i$-ой категории, 33 | а $\theta_i$ --- вероятность того, что мы наблюдаем событие из $i$-ой категории. 34 | Тогда правдоподобие для наблюдений $\vecX = \{x_1, \ldots, x_k\}$ и вектора параметров $\vecT = \{\theta_1, \ldots, \theta_k\}$имеет вид: 35 | \[ 36 | p(\vecX | \vecT) = C_{\sS}^{x_1, \ldots, x_k} \theta_1^{x_1} \cdot \ldots \cdot \theta_k^{x_k}, 37 | \] 38 | где нормировочный коэффициент для распределения $C_{\sS}^{x_1, \ldots, x_k}$ имеет вид: 39 | \[ 40 | C_{\sS}^{x_1, \ldots, x_k} = \frac{x_1! \ldots x_k!}{\sS!}. 41 | \] 42 | 43 | Пускай априорное распределение --- распределение Дирихле с вектором параметров $\vecA \in \bbR_+^k (\alpha_i \geq 0)$: 44 | \[ 45 | \pi(\vecT | \vecA) \propto \theta_1^{\alpha_1 - 1} \cdot \ldots \cdot \theta_k^{\alpha_k - 1}. 46 | \] 47 | Тогда апостериорное распределение тоже будет распределением Дирихле с вектором параметров $\vecX + \vecA$: 48 | \[ 49 | p(\vecT | \vecX, \vecA) \propto \theta_1^{x_1 + \alpha_1 - 1} \cdot \ldots \cdot \theta_k^{x_k + \alpha_k - 1}. 50 | \] 51 | 52 | Так как распределение Дирихле для категориальных случайных величин примерно то же самое, что и нормальное распределение для непрерывных случайных величин: для него все можно посчитать аналитически, и, кроме того, у него множество других полезных свойств, то его использование в этом случае в 53 | качестве сопряженного распределения представляется крайне полезным. 54 | 55 | 56 | 57 | \subsection{Сопряженное распределение для экспоненциального семейства распределений} 58 | \index{экспоненциальное семейство распределений} 59 | % https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter9.pdf 60 | 61 | Экспоненциальное семейство распределений включает большую часть интересных для математической статистики вероятностных распределений. 62 | Например, в это семейство входят нормальное, биномиальное и Пуассоновское распределения. 63 | В данном разделе нас интересует то, что мы можем в явном виде предъявить для распределений из такого семейства сопряженное распределение. 64 | Более подробно свойства экспоненциального семейства распределений описаны в разделе~\ref{sec:exp_family}. 65 | 66 | Если $\vecX_1, \ldots, \vecX_\sS$ --- независимые одинаково распределенные случайные вектора из одного и того же распределения из экспоненциального семейства, то правдоподобие имеет вид: 67 | \begin{equation} 68 | \label{eq:exp_likelihood} 69 | p(X | \vecT) = \prod_{j = 1}^{\sS} h(\vecX_j) \exp \left(\vecT^\T \sum_{j = 1}^\sS T(\vecX_j) - n A(\vecT) \right). 70 | \end{equation} 71 | 72 | Определим сопряженное априорное распределение для экспоненциального семейства как 73 | \begin{equation} 74 | \label{eq:prior_exponential} 75 | \pi(\vecT | \vecTau, \sS_0) = H(\tau, \sS_0) \exp(\vecT^T \vecTau - \sS_0 A(\vecT)). 76 | \end{equation} 77 | Плотность выше можно нормализовать, если $\sS_0 > 0$ и $\tau / \sS_0$ лежит в выпуклой оболочке носителя меры $\vecT$. 78 | Это априорное распределение тоже лежит в экспоненциальном семействе и <<имитирует>> правдоподобие~\eqref{eq:exp_likelihood}. 79 | Апостериорное распределение будет иметь такой же вид, 80 | но с другими параметрами: 81 | \begin{align*} 82 | &\vecTau' = \vecTau + \sum_{j = 1}^\sS T(\vecX_j), \\ 83 | &\sS'_0 = \sS + \sS_0. 84 | \end{align*} 85 | Вид параметров позволяет явно интепретировать параметры априорного распределения: $\sS_0$ --- размер <<выборки>> для апостериорного распределения, $\vecTau$ --- априорное предположение о математическом ожидании вектора достаточных статистик. 86 | 87 | 88 | 89 | Определим теперь $\vecMu = \vecMu(\vecT) = \bbE [T(\vecX) | \vecT]$. 90 | Общая теория экспоненциальных семейств распределений 91 | дает нам $\vecMu = \nabla_{\vecT} A(\vecT)$. 92 | Найдем среднее значение $\vecMu$ при фиксированном априорном распределении с параметрами $\vecTau$ и $\sS_0$. 93 | 94 | Заметим сперва, что 95 | \[ 96 | \bbE [\vecMu | \vecTau, \sS_0] = \bbE [\nabla_{\vecT} A(\vecT) | \vecTau, \sS_0]. 97 | \] 98 | С помощью прямых вычислений получим, что 99 | \[ 100 | \nabla_{\vecT} \pi(\vecT| \vecTau, \sS_0) = \pi(\vecT| \vecTau, \sS_0) (\vecTau - \sS_0 \nabla_{\vecT} A(\vecT)). 101 | \] 102 | Так как $\pi(\vecT| \vecTau, \sS_0)$ --- плотность вероятностного распределения, то она обращается в ноль в бесконечности. 103 | Тогда используя теорему Грина получаем (математически корректное и полное доказательство дано в работе Диакониса и Ильвизакера 1979 года): % cite n Diaconis and Ylvisaker (1979) TODO 104 | \[ 105 | \int_{\bbR^\pD} \nabla_{\vecT} \pi(\vecT| \vecTau, \sS_0) d\vecT = 0. 106 | \] 107 | Получаем, что 108 | \[ 109 | \int \pi(\vecT| \vecTau, \sS_0) (\vecTau - \sS_0 \nabla_{\vecT} A(\vecT)) d\vecT = 110 | \int_{\bbR^\pD} \nabla_{\vecT} \pi(\vecT| \vecTau, \sS_0) d\vecT = 0. 111 | \] 112 | Тогда 113 | \[ 114 | \int \pi(\vecT| \vecTau, \sS_0) \sS_0 \nabla_{\vecT} A(\vecT)) d\vecT = \vecTau \int \pi(\vecT| \vecTau, \sS_0) d\vecT = \vecTau. 115 | \] 116 | Следовательно, 117 | \[ 118 | \bbE_{prior} [\vecMu | \vecTau, \sS_0] = \bbE [\nabla_{\vecT} A(\vecT) | \vecTau, \sS_0] = \frac{\vecTau}{\sS_0}. 119 | \] 120 | Аналогично для апостериорного распределения: 121 | \[ 122 | \bbE_{posterior} [\vecMu | \vecTau, \sS_0] = \frac{\vecTau + \sum_{j = 1}^\sS T(\vecX_j)}{\sS + \sS_0} = \kappa \frac{\vecTau}{\sS_0} + (1 - \kappa) \frac{\sum_{j = 1}^\sS T(\vecX_j)}{\sS}, 123 | \] 124 | где $\kappa = \frac{\sS_0}{\sS_0 + \sS}$. 125 | Таким образом, апостериорное среднее --- линейная комбинация априорного среднего и среднего достаточных статистик. 126 | 127 | Отметим, что при естественных предположениях выполнено и обратное утверждение: 128 | если апостериорное среднее всегда выпуклая комбинация оценки максимума правдоподобия и априорного среднего, 129 | то мы работаем с распределениями из экспоненциального семейства. 130 | 131 | В Таблице~\ref{table:conjugate} приведены пары примеров правдоподобие-априорное распределение. 132 | Все они принадлежат экспоненциальному семейству. 133 | 134 | \begin{table}[h] 135 | \centering 136 | \begin{tabular}{cc} 137 | \hline 138 | Правдоподобие & Априорное распределение \\ 139 | \hline 140 | Бернулли & Бета \\ 141 | Пуассона & Гамма \\ 142 | Нормальное & Нормальное \\ 143 | Мультиномиальное & Дирихле \\ 144 | Нормальное & Нормальное \\ 145 | Нормальное & Обратное Гамма (для дисперсии) \\ 146 | Равномерное & Парето \\ 147 | \hline 148 | \end{tabular} 149 | \caption{Пары правдоподобие-соответствующее сопряженное априорное распределение} 150 | \label{table:conjugate} 151 | \end{table} 152 | 153 | % Hайдем теперь $\bbE [\mu | \vecTau, \sS_0]$ 154 | % У экспоненциального семейства распределений множество замечательных свойств. 155 | % Мы лишь напомним, что $T(\vecX)$ --- вектор достаточных статистик для распределения, а для градиента $A(\vecT)$ выполнено, что: 156 | % \[ 157 | % \nabla_{\vecT} A(\vecT) = \bbE (T(\vecX) | \vecT). 158 | % \] 159 | 160 | 161 | 162 | 163 | 164 | -------------------------------------------------------------------------------- /book/sources/6-priorSelectionObjective.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Объективное априорное распределение} 3 | 4 | В предыдущем разделе мы рассмотрели прагматический способ выбора априорного распределения, 5 | который предполагает получения результата, разумного с точки зрения проведения вычислений в Байесовском подходе. 6 | Другим популярным подходом к выбору априорного распределения 7 | --- помимо прагматичного способа, описанного ранее --- является объективный подход. 8 | В этом подходе наша цель --- выбрать априорное распределение, 9 | которое бы больше всего соответствовало отсутствия каких-либо априорных знаний, неинформативное априорное распределение. 10 | Рассмотрим два естественных примера такого распределения. 11 | % Как мы увидели в разделе~\ref{sec:objective_intro} равномерное априорное распределение не годится, так как при использовании другой параметризации параметров мы получаем уже неравномерное распределение. 12 | 13 | \begin{example}[Априорное распределение для параметра сдвига] 14 | Пускай мы хотим выбрать целевое распределение данных из семейства $f(x - \theta)$. 15 | Естественно предположить, что все параметры сдвига равновероятны --- и мы не можем отдать предпочтение какому-нибудь в нашем неинформативном априорном распределении. 16 | 17 | Тогда логично использовать равномерное априорное распределение с плотностью $\pi(\theta) \sim 1$. 18 | Если множество $\Theta$ допустимых значений $\theta$ ограничено, то мы получаем корректное априорное распределение, 19 | которое соответствует нашим требованиям. 20 | 21 | Если множество $\Theta$ неограничено, например, $\Theta = \bbR$, то плотность $\pi(\theta) \sim 1, \theta \in \Theta$ 22 | не соответствует никакому корректному вероятностному распределению, так как интеграл $\int_{\Theta} \pi(\theta) d\theta$ не будет конечным. 23 | Такое априорное распределение будет \emph{некорректным априорным распределением}. 24 | 25 | Однако, в некоторых случаях некорректное априорное распределение оказывается полезным. 26 | Часто для некорректного априорного распределения апостериорное распределение оказывается корректным. 27 | В частности, подход к выбору $\theta$ на основе максимизации правдоподобия соотвествует Байесовскому подходу с равномерным на $\bbR$ 28 | априорным распределением. 29 | 30 | Так же можно определить такое некорректное априорное распределение как предел последовательности корректных априорных распределений. 31 | Тем самым получится математически строго работать с объектами Байесовского статистики. 32 | \end{example} 33 | 34 | \begin{example}[Априорное распределение для параметра масштаба] 35 | Введем равномерное распределение для параметра масштаба. 36 | Параметр масштаба --- такой параметр плотности, что для $\theta \in \Theta \subseteq \bbR^+$ выполнено: 37 | \[ 38 | f_\theta(x) = \frac{1}{\theta} f^0 \left(\frac{x}{\theta} \right), 39 | \] 40 | отношение $\frac{1}{\theta}$ здесь нужно для нормализации распределения. 41 | Примером параметра масштаба является корень из дисперсии $\sigma$ для нормального распределения. 42 | 43 | 44 | Тогда если мы захотим потребовать от априорного распределения инвариантности к масштабу, 45 | то для любого $c > 0$ должно быть выполнено, что 46 | \[ 47 | \pi(\theta) = \frac{1}{c} \pi \left(\frac{\theta}{c} \right). 48 | \] 49 | У такого функционального уравнения существует единственное с точностью до масштабирующего коэффициента решение: 50 | \[ 51 | \pi(\theta) \sim \frac{1}{\theta}. 52 | \] 53 | Отметим, что мы --- как и при выборе априорного распределения для параметра сдвига --- получили некорректное неинформативное распределение для масштаба из $\bbR$. 54 | Как и для параметра сдвига это не является фундаментальной проблемой. 55 | 56 | Рассмотрим теперь $\rho = \log \theta$. 57 | Тогда 58 | \[ 59 | \pi(\rho) = \pi(\theta) \left| \frac{d \theta}{d \rho} \right| \sim e^{-\rho} e^{\rho} = 1. 60 | \] 61 | То есть, неинформативное априорное распределение для такого преобразования параметра масштаба будет равномерным. 62 | 63 | Можно получить такое и другие априорные распределения и другим способом. 64 | \end{example} 65 | 66 | 67 | % Естественной идеей будет выбрать априорное распределение, которое не будет зависеть от параметризации. 68 | % Такое априорное распределение называется \emph{опорным априорным распределением}. 69 | 70 | \subsection{Априорное распределение Джеффриса} 71 | 72 | Предложим априорное распределение, на которое не будет влиять параметризация $\theta$. 73 | Такое \emph{априорное распределение Джеффриса} имеет вид\index{распределение!априорное!Джеффриса}: 74 | \[ 75 | \pi_J(\theta) \sim I(\theta)^{\frac12}, 76 | \] 77 | где $I(\theta)^{\frac12}$ --- информационная матрица Фишера или информация Фишера \index{информация Фишера}: 78 | \[ 79 | I(\theta) = - \bbE_{\theta} \left[\frac{d^2 \log p(x| \theta)}{d \theta^2} \right]. 80 | \] 81 | Информационная матрица Фишера --- важный объект в классической математической статистике. 82 | Легко видеть, что она локально вогнута в окрестности оценки максимума правдоподобия 83 | и глобально вогнута для экспоненциального семейства распределений. 84 | 85 | Докажем, что априорное распределение Джеффриса не зависит от параметризации. 86 | \begin{proof} 87 | 88 | Сперва докажем лемму 89 | \begin{Lemma} 90 | \label{lemma:bbeEqZero} 91 | Если правдоподобие --- регулярно (то есть, можно выносить дифференцирования по параметру за интеграл), то 92 | для математического ожидания производной логарифма правдоподобия по параметру выполнено: 93 | \[ 94 | \bbE \left(\frac{\partial \log p(x | \theta)}{\partial \theta} \right) = 0. 95 | \] 96 | \end{Lemma} 97 | \begin{proof} 98 | Получаем результат теоремы воспользовавшись регулярностью правдоподобия и условием нормировки для вероятностного распределения $\int p(x| \theta) dx = 1$: 99 | \begin{align*} 100 | \bbE \left(\frac{\partial \log p(x | \theta)}{\partial \theta} \right) &= \int \frac{\partial \log p(x | \theta)}{\partial \theta} p(x| \theta) dx = \\ 101 | &= \int \frac{\partial p(x | \theta)}{\partial \theta} \frac{1}{p(x | \theta)} p(x| \theta) dx =\\ 102 | &= \int \frac{\partial p(x | \theta)}{\partial \theta} dx = \frac{\partial}{\partial \theta} \int p(x| \theta) dx =\\ 103 | &= \frac{\partial}{\partial \theta} 1 = 0. \\ 104 | \end{align*} 105 | \end{proof} 106 | 107 | Подсчитаем информацию Фишера для другой параметризации $\phi$ параметра $\theta$: 108 | \begin{align*} 109 | I(\phi) &= -\bbE \left[\frac{d^2 \log p(x | \phi)}{d \phi^2} \right] = \\ 110 | &= -\bbE \left[\frac{d^2 \log p(x | \theta)}{d \theta^2} \left(\frac{d \theta}{d \phi} \right)^2 + \frac{d \log p(x | \theta)}{d \theta} \frac{d^2 \theta}{d \phi^2} \right] = \\ 111 | &= -\bbE \left[\frac{d^2 \log p(x | \theta)}{d \theta^2} \left(\frac{d \theta}{d \phi} \right)^2 \right] -\bbE \left[ \frac{d \log p(x | \theta)}{d \theta} \frac{d^2 \theta}{d \phi^2} \right] = \\ 112 | &= -\bbE \left[\frac{d^2 \log p(x | \theta)}{d \theta^2} \right] \left(\frac{d \theta}{d \phi} \right)^2. 113 | \end{align*} 114 | При преобразованиях мы воспользовались результатом Леммы~\ref{lemma:bbeEqZero} для того, чтобы избавиться от одного из слагаемых. 115 | 116 | Следовательно, 117 | \[ 118 | I(\phi) = I(\theta) \left(\frac{d \theta}{d \phi} \right)^2. 119 | \] 120 | Таким образом, 121 | \[ 122 | \sqrt{I(\phi)} = \sqrt{I(\theta)} \left| \frac{d \theta}{d \phi} \right|. 123 | \] 124 | Плотность распределения при преобразовании случайной величины имеет вид: 125 | \[ 126 | \pi(\phi(\theta)) = \pi(\theta) \left| \frac{d \theta}{d \phi(\theta)} \right| 127 | \] 128 | Комбинируя это и предыдущее уравнение получаем: 129 | \[ 130 | \pi_J(\theta) = \sqrt{I(\theta)}, 131 | \] 132 | что и требовалось доказать. 133 | 134 | \end{proof} 135 | 136 | \subsection{Примеры априорных распределений Джеффриса} 137 | \begin{example} 138 | Получим априорное распределение Джеффриса для математического ожидания нормального распределения. 139 | Пусть $x \sim \mathcal{N}(\mu, \sigma^2)$, причем $\sigma^2$ известно. 140 | Тогда плотность распределения: 141 | \[ 142 | p(x | \mu) \sim \exp \left(- \frac{1}{2 \sigma^2} (x - \mu)^2 \right). 143 | \] 144 | Дифференцируя логарифм правдоподобия два раза получаем: 145 | \[ 146 | \frac{d^2 \log p(x | \mu)}{d \mu^2} = -\frac{1}{\sigma^2}. 147 | \] 148 | Таким образом, информация Фишера не зависит от $\mu$, и мы получаем равномерное априорное распределение Джеффриса: 149 | \[ 150 | \pi_J(\theta) \sim I(\theta)^{\frac12} = \frac{1}{\sigma}. 151 | \] 152 | В этом примере математическое ожидание --- пример параметра сдвига. 153 | \end{example} 154 | 155 | \begin{example} 156 | Найдем априорное распределение Джеффриса для еще одной широко используемой модели. 157 | Пусть $x \sim \mathrm{Bin}(\sS, \theta)$ --- биномиальная случайная величина с параметрами $\sS$ и $0 \leq \theta \leq 1$. 158 | Тогда правдоподобие для $x \in \mathbb{N} \cup \{0\}$имеет вид: 159 | \[ 160 | p(x | \theta) = C_{\sS}^x \theta^x (1- \theta)^{\sS - x}. 161 | \] 162 | Получим априорное распределение Джеффриса. 163 | Логарифм правдоподобия имеет вид: 164 | \[ 165 | \log p(x | \theta) \propto x \log \theta + (\sS - x) \log(1 - \theta). 166 | \] 167 | Его частная производная по $\theta$: 168 | \[ 169 | \frac{\partial \log p(x | \theta)}{\partial \theta} \propto \frac{x}{\theta} - \frac{\sS - x}{1 - \theta}. 170 | \] 171 | Тогда вторая производная имеет вид: 172 | \[ 173 | \frac{ \partial^2 \log p(x | \theta)}{\partial \theta^2} \propto -\frac{x}{\theta^2} - \frac{\sS - x}{(1 - \theta)^2}. 174 | \] 175 | Для биномиального распределения 176 | \[ 177 | \bbE_\theta x = \sS \theta. 178 | \] 179 | Следовательно, 180 | \[ 181 | I(\theta) = -\bbE \left[\frac{d^2 \log p(x | \theta)}{d \theta^2} \right] = \frac{n \theta}{\theta^2} + \frac{n - n\theta}{(1 - \theta)^2} = 182 | \frac{n}{\theta} + \frac{n}{1 - \theta} = \frac{n}{\theta (1 - \theta)}. 183 | \] 184 | Подставляя полученную информацию Фишера в формулу для априорного распределения Джеффриса получаем: 185 | \[ 186 | \pi_J(\theta) = \sqrt{I(\theta)} \propto \theta^{-\frac12} (1 - \theta)^{-\frac12}. 187 | \] 188 | Априорным распределением Джеффриса для такой модели $\pi_J(\theta)$ будет бета-распределение с параметрами $(\frac12, \frac12)$. 189 | % TODO не могу нормально объяснить рассуждение ниже 190 | % Данные «меньше всего» влияют на апостериорное распределение, если $\theta = \frac12$, 191 | % и «больше всего», если $\theta = 0$ или $1$. 192 | % Использование $\beta(\frac12, \frac12)$ позволяет уравнять эффект добавления данных в модель. 193 | Сравнение априорного распределения Джеффриса с равномерным распределением на $[0, 1]$ (то же самое, что и распределение $\beta(1, 1)$) 194 | приведено на рисунке~\ref{fig:beta_comparison}. 195 | 196 | \begin{figure} 197 | \centering 198 | \includegraphics[width=0.5\textwidth]{figures/beta_comparison.png} 199 | \caption{Сравнение равномерного априорного распределения $\beta(1, 1)$ и априорного распределения Джеффриса $\beta(\frac12, \frac12)$} 200 | \label{fig:beta_comparison} 201 | \end{figure} 202 | \end{example} 203 | 204 | \subsection{Связь сопряженного априорного распределения и априорного распределения Джеффриса} 205 | 206 | Для примера с биномиальным распределением сопряженное априорное распределение и априорное распределение Джеффриса совпадают. 207 | Для нормального распределения это не так: для математического ожидания $\pi_J(\mu) \sim 1$, а $\pi_J(\sigma) \sim \frac{1}{\sigma}$, 208 | в то время сопряженное априорное распределение $\pi_C(\sigma)$ для $\sigma$ --- обратное гамма-распределение. 209 | 210 | Однако, если для плотности обратного гамма-распределения с параметрами $a, b$: 211 | \[ 212 | \pi_{a, b}(\sigma) \propto \frac1{\sigma^{-(a + 1)}} e^{\frac{-b}{\sigma}} 213 | \] 214 | устремить $a, b$ к нулю, то в пределе получим априорное распределение Джеффриса с плотностью, пропорциональной $\frac{1}{\sigma}$. 215 | Параметры $a$ и $b$ априорного распределения можно интерпретировать как количество наблюдений и меру концентрации параметра в области. 216 | Таким образом, устремляя эти два параметра к нулю, мы получаем априорное распределение, в котором нет <<наблюдений>> и параметр равномерно распределен по всему пространству. 217 | Похожий эффект можно наблюдать и в некоторых других случаях при устремлении <<априорного размера выборки>> $\sS_0$ в формуле для плотности распределения из экспоненциального семейства~\eqref{eq:prior_exponential} к нулю. 218 | 219 | Разумеется, модели в математической статистике не исчерпываются этими двумя примерами, и в общем случае сопряженное априорное распределение и априорное распределение Джеффриса могут быть никак не связаны. 220 | 221 | \subsection{Ограничения априорного распределения Джеффриса} 222 | 223 | Априорное распределение Джеффриса работает некорректно для размерности пространства параметров $\pD > 1$. 224 | Помимо этого у него есть и другие проблемы. 225 | Приведем несколько примеров, которые эти проблемы демонстрируют. 226 | По аналогии с одномерным случаем определим априорное распределение Джеффриса как 227 | \[ 228 | \pi_J(\vecT) = |I(\vecT)|^{\frac12}. 229 | \] 230 | По определению элементы информационной матрицы Фишера 231 | \[ 232 | I(\vecT)_{ij} = -\bbE_{\vecT} \left[ \frac{\partial^2 \log p(X | \vecT)}{\partial \theta_i \partial \theta_j} \right]. 233 | \] 234 | 235 | \begin{example} 236 | Пусть мы наблюдаем вектор $\vecX$ из многомерного нормального распределения: 237 | \[ 238 | \vecX \sim \mathcal{N}(\vecT, I) 239 | \] 240 | для $\vecX \in \bbR^{\pD}$. 241 | Задача состоит в оценке $\eta = \|\vecT\|^2$. 242 | 243 | В таком случае априорное распределение Джеффриса будет равномерным. 244 | Апостериорное распределение в таком случае будет нецентральным $\chi^2$ распределением с $\pD$ степенями свободы. 245 | Апостериорное среднее для одного наблюдения вектора $\vecX$ имеет вид: 246 | \[ 247 | \bbE (\eta | \vecX) = \|\vecX \|^2 + \pD. 248 | \] 249 | 250 | Получается, что, используя априорное распределение Джеффриса, мы получаем результат, смещенный в большую сторону на $\pD$, 251 | в то время как обычно мы ожидаем от Байесовского подхода результата со свойствами регуляризации. 252 | Например, классическая вероятностная оценка с минимальной дисперсией имеет вид $\|\vecX \|^2 - \pD$. 253 | Под классической вероятностной оценкой мы здесь понимаем оценку вида $\hat{\eta} = \|\vecX \|^2 + c$, для которой мы минимизируем среднеквадратичную ошибку $\bbE (\hat{\eta} - \|\vecT \|^2)^2 $. 254 | 255 | Так же будет происходить и в многомерном случае. 256 | В силу того, что большая часть равномерного распределения находится на большом расстоянии от начала координат, 257 | Байесовские оценки часто будут смещены, причем в большую сторону. 258 | Это естественно, так как распределение оказывается на самом деле очень информативным --- в соответствии с нашим предположением большая часть плотности лежит далеко от начала координат и для таких априорных распределений мы будем получать апостериорные распределения, смещенные в сторону бесконечности. 259 | И чем больше будет размерность пространства параметров --- тем более заметен будет этот эффект. 260 | 261 | 262 | \end{example} 263 | Рассмотрим теперь двумерный пример. 264 | \begin{example} 265 | Пусть $x \sim \mathcal{N}(\mu, \sigma^2)$, и пусть $\vecT = (\mu, \sigma^2)^\T$. 266 | Подсчитаем производные и получим информационную матрицу Фишера: 267 | \begin{align*} 268 | I(\vecT) &= - 269 | \begin{pmatrix} 270 | -\frac{1}{\sigma^2} & \frac{2 (x - \mu)}{\sigma^2} \\ 271 | \frac{2 (x - \mu)}{\sigma^2} & \frac{3}{\sigma^4} (x - \mu)^2 - \frac{1}{\sigma^2} \\ 272 | \end{pmatrix} = \\ 273 | &= 274 | \begin{pmatrix} 275 | \frac{1}{\sigma^2} & 0 \\ 276 | 0 & \frac{1}{\sigma^2} \\ 277 | \end{pmatrix}, 278 | \end{align*} 279 | так как $\bbE_{\vecT} (x - \mu) = 0$, $\bbE_{\vecT} (x - \mu)^2 = \sigma^2$. 280 | Следовательно, априорное распределение Джеффриса имеет вид: 281 | \[ 282 | \pi_J(\vecT) = |I(\vecT)|^{\frac12} \propto \frac{1}{\sigma^2}. 283 | \] 284 | У такого априорного распределения ряд недостатков --- например, низкая скорость сходимости. 285 | Сам Джеффрис предложил использовать априорное распределение $\pi_{J'}(\vecT) \propto \frac{1}{\sigma} I$. 286 | Такое априорное распределение лучше с точки зрения естественных предположений и позволяет получить оценки, статистические свойства которых лучше. 287 | Такое $\pi_{J'}$ совпадает с опорным априорным распределением, про которое мы поговорим в следующей главе~\ref{sec:reference_prior}.\index{распределение!априорное!опорное} 288 | \end{example} 289 | 290 | Получается, что у априорного распределение Джеффриса есть следующие недостатки: 291 | \begin{itemize} 292 | \item Равномерность априорного распределения может в некоторых случаях приводить к неразумным с точки зрения здравого смысла оценкам. 293 | \item Непонятно, как правильно обобщить его на многомерный случай. 294 | \end{itemize} 295 | 296 | Чтобы решить эти проблемы, было предложено использовать опорное априорное распределение. 297 | у него в меньшей степени проявляются недостатки перечисленные выше и, кроме того, оно позволяет посмотреть на задачу выбора неинформативного априорного распределения с точки зрения теории информации. -------------------------------------------------------------------------------- /book/sources/7-priorSelectionReference.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Опорное априорное распределение} 3 | \label{sec:reference_prior} 4 | 5 | \subsection{Определение опорного априорного распределения} 6 | 7 | В конце предыдущей главы мы увидели, что априорное распределение Джеффриса не годится, если размерность пространства параметров $\pD > 1$. 8 | Существуют альтернативные подходы к выбору неинформативного априорного распределения, которые подходят и для больших размерностей. 9 | В этой главе мы рассмотрим такой подход. 10 | Априорные распределения, которые получаются в результате его использования, называются 11 | \emph{опорными априорными распределениями}. 12 | 13 | Пусть $X \sim p(x | \theta)$ и $T(X)$ --- достаточная статистика для $\theta$. 14 | Мы хотим, чтобы априорное распределение $\pi(\theta)$ и апостериорное распределение $p(\theta | t)$ для фиксированного значения достаточной статистики $t$ были максимально далеки друг от друга --- то есть, 15 | чтобы априорное распределение привносило в статистический вывод как можно меньше информации. 16 | Для этого будем максмизировать расстояние Кульбака-Лейблера между априорным и апостериорным распределением: 17 | \[ 18 | \mathrm{KL}(p(\theta | t) | \pi(\theta)) = \int_{\theta \in \Theta} p(\theta | t) \log \frac{p(\theta | t)}{\pi(\theta)} d\theta. 19 | \] 20 | 21 | Нам хотелось бы максимизировать такое расстояния не для одного фиксированного значения $t$, а по всем $t$ --- причем, взвесить разные $t$ разумно, 22 | используя маргинальное распределение $p(t)$. 23 | Такое взвешивание $\mathrm{MI}(\Theta, T)$ называют взаимной информацией. 24 | \[ 25 | \mathrm{MI}_{\pi(\theta)}(\Theta, T) = \int p(t) \int p(\theta | t) \log \frac{p(\theta | t)}{\pi(\theta)} d\theta dt \rightarrow \max_{\pi(\theta)}. 26 | \] 27 | 28 | В таких обозначениях искомое опорное априорное распределение будет решением следующей вариационной задачи: 29 | \[ 30 | \pi^*(\theta) = \mathrm{arg} \max_{\pi(\theta)} \mathrm{MI}_{\pi(\theta)}(\Theta, T). 31 | \] 32 | 33 | Однако часто аналитическое решение такой вариационной задачи получить невозможно. 34 | 35 | \subsection{Вычисление опорного априорного распределения} 36 | 37 | Определение опорного априорного распределения, введенное выше, 38 | рассматривает статистику $T(x)$ как функцию одного наблюдения. 39 | Давайте вместо этого рассмотрим вектор $\mathbf{T}^k$, 40 | включащий значения статистик, полученные с помощью $k$ независимых наблюдений из распределения $p(x| \theta)$. 41 | 42 | Введем обозначения: 43 | \begin{align*} 44 | \mathrm{MI}_{\pi(\theta)}(\Theta, \mathbf{T}^k) &= \int p(\mathbf{t}^k) \int p(\theta | \mathbf{t}^k) \log \frac{p(\theta | \mathbf{t}^k)}{\pi(\theta)} d\theta d\mathbf{t}^k, \\ 45 | \pi_k(\theta) &= \mathrm{arg} \max_{\pi(\theta)} \mathrm{MI}_{\pi(\theta)}(\Theta, \mathbf{T}^k). 46 | \end{align*} 47 | 48 | Затем мы получим неинформативное априорное распределение, устремив $k$ к бесконечности: 49 | \[ 50 | \pi^*(\theta) = \lim_{k \rightarrow \infty} \pi_k(\theta). 51 | \] 52 | 53 | Перепишем $\mathrm{MI}_{\pi(\theta)}(\Theta, \mathbf{T}^k)$ в виде: 54 | \[ 55 | \mathrm{MI}_{\pi(\theta)}(\Theta, \mathbf{T}^k) = \int \pi(\theta) \log \frac{f_k(\theta)}{\pi(\theta)} d\theta, 56 | \] 57 | где 58 | \[ 59 | f_k(\theta) = \exp \left(\int p(\mathbf{t}^k | \theta) \log p(\theta | \mathbf{t}^k) d \mathbf{t}^k \right). 60 | \] 61 | В решении этой вариационной задачи у нас есть дополнительное ограничение $\int \pi(\theta) d\theta = 1$. 62 | Следовательно, Лагранджиан имеет вид: 63 | \[ 64 | \pi_k(\theta) = \sup_{\pi(\theta)} \int \pi(\theta) \log \frac{f_k(\theta)}{\pi(\theta)} d\theta + \lambda \left(\int \pi(\theta) d\theta - 1 \right). 65 | \] 66 | Используя вариационное исчисление, мы получаем: 67 | \[ 68 | \pi^*_k(\theta) \propto f_k(\theta). 69 | \] 70 | 71 | Не будем здесь приводить полного решения этой вариационной задачи. 72 | Получим только доказательство того, что 73 | \[ 74 | \pi^*_k(\theta) = f_k(\theta). 75 | \] 76 | в дискретном случае. 77 | \begin{proof} 78 | Пусть $T$ и $\theta$ --- дискретны, тогда 79 | \[ 80 | \pi^*_k(\theta) = \argmax_{\pi(\theta)} \sum_i \pi_i \frac{q_i}{\pi_i} + \lambda \left(\sum_i \pi_i - 1\right), 81 | \] 82 | здесь $\pi_i$ --- вероятности $\pi(\theta_i)$, $q_i = f_k(\theta_i)$. 83 | Дифференцируя по $\pi_i$, получаем необходимое условие экстремума: 84 | \begin{align*} 85 | \frac{\partial}{\partial \pi_j} \left[ \sum_i \pi_i \frac{q_i}{\pi_i} + \lambda \left(\sum_i \pi_i - 1\right)\right] &= \log (q_j / \pi_j) + \pi_j (q_j / \pi_j)^{-1} (-q_j / \pi_j^2) + \lambda= \\ 86 | &= -1 -\log \pi_j + \log q_j + \lambda = 0. 87 | \end{align*} 88 | Следовательно, 89 | \[ 90 | \log \pi_j = \log q_j + \lambda - 1. 91 | \] 92 | Таким образом, 93 | \[ 94 | \pi_j = q_j e^{\lambda - 1}. 95 | \] 96 | Тогда 97 | \[ 98 | \pi = q, 99 | \] 100 | что и требовалось доказать. 101 | \end{proof} 102 | 103 | Мы свели исходную задачу к задаче вычисления интеграла 104 | \[ 105 | f_k(\theta) = \exp \left(\int p(\mathbf{t}^k | \theta) \log p(\theta | \mathbf{t}^k) d \mathbf{t}^k \right). 106 | \] 107 | К тому же нужно найти асимптотический предел для $k \rightarrow \infty$. 108 | Если мы устремим размер выборки к бесконечности, 109 | апостериорное распределение $p(\theta| \mathbf{t}^k) $ будет близко к нормальному, 110 | причем среднее этого нормального распределения будет соответствовать 111 | истинному значению оцениваемого параметра. 112 | 113 | Формально близость апостериорного распределения к нормальному и 114 | сходство Байесовских и классических оценок параметров 115 | описывает теорема Бернштейна-фон Мизеса. 116 | \index{теорема Бернштейна-фон Мизеса} 117 | 118 | \begin{Theorem}[Теорема Берншейтна-фон Мизеса] 119 | Пусть для задачи статистического оценивания выполнен ряд условий регулярности: классическая эффективная оценка $\estTk$ асимптотически нормальна, и априорное распределение ведет себя достаточно регулярно, в частности в окрестности истинного значения параметра $\theta_0$. 120 | Обозначим $\mathbf{t}^k$ вектор независимых $t^k_j$ из распределения $p(t| \theta)$. Тогда 121 | \begin{equation} 122 | \label{eq:bvm} 123 | \|p(\theta | \mathbf{t}^k) - \mathcal{N}(\estTk, I_k^{-1}(\theta_0))\| \rightarrow 0, 124 | \end{equation} 125 | где $I_k(\theta_0)$ --- информация Фишера\index{информация Фишера} для $\theta_0$, сходимость понимается в смысле сходимости по вероятности, а $\|\cdot\|$ обозначает расстояние по вариации. 126 | \end{Theorem} 127 | 128 | Докажем теперь, используя теорему Бернштейна-фон Мизеса, что опорное априорное распределение совпадает с априорным распределением Джеффриса в одномерном случае. 129 | 130 | \begin{proof} 131 | Любая асимптотически эффективная оценка $\estTk$ является асимптотически достаточной. 132 | Следовательно, мы можем заменить в \eqref{eq:bvm} $\mathbf{t}^k$ на $\estTk$: 133 | \[ 134 | \|p(\theta | \estTk) - \mathcal{N}(\estTk, I_k^{-1}(\theta_0))\| \rightarrow 0. 135 | \] 136 | Для $y \sim \mathcal{N}(\estTk, I_k^{-1}(\theta_0))$ плотность имеет вид: 137 | \[ 138 | p(y) = \sqrt{I_k(\theta_0)} \exp \left(-\frac{I_k(\theta_0)}{2} (y - \estTk)^2 \right). 139 | \] 140 | 141 | Для независимых наблюдений $I^{-1}_k(\theta_0) = \frac{1}{k} I^{-1}(\theta_0)$. 142 | Таким образом, 143 | \[ 144 | p(\theta | \estTk) \propto \sqrt{k I(\theta_0)} \exp \left(-\frac{k I(\theta_0)}{2} (y - \estTk)^2 \right). 145 | \] 146 | Оценка $\estTk$ --- состоятельна, следовательно для больших $k$: 147 | \[ 148 | p(\theta | \estTk) \propto \sqrt{k I(\estTk)} \exp \left(-\frac{k I(\estTk)}{2} (y - \estTk)^2 \right). 149 | \] 150 | 151 | Далее будем действовать менее формально. 152 | Полное доказательство есть, например, в статье~\cite{bernardo2005reference}. 153 | 154 | Рассмотрим $\theta = \theta_0$: 155 | \begin{align*} 156 | p(\theta_0 | \estTk) &\propto \sqrt{k I(\theta_0)} \exp \left(-\frac{k I(\estTk)}{2} (\theta_0 - \estTk)^2 \right) \approx \\ 157 | &\approx \sqrt{k I(\theta_0)} \exp \left(-\frac{k I(\estTk)}{2} (\theta_0 - \theta_0)^2 \right) = \sqrt{k I(\theta_0)}. 158 | \end{align*} 159 | 160 | Рассмотрим искомый интеграл для больших $k$. 161 | В силу того, что $\theta$ --- истинное значение параметра и мы рассматриваем условное распределение $p(\mathbf{t}^k | \theta)$, мы можем заменить $p(\theta | \estTk)$ на $\sqrt{k I(\theta)}$ из выражения выше и получить: 162 | \[ 163 | f_k(\theta) \approx \exp \left(\int p(\mathbf{t}^k | \theta) \log \sqrt{I(\theta)} d \mathbf{t}^k \right). 164 | \] 165 | $\sqrt{I(\theta)}$ не зависит от $\mathbf{t}^k$, 166 | а интеграл по вероятностной плотности --- единица. 167 | Следовательно, 168 | \[ 169 | f_k(\theta) \approx \sqrt{I(\theta)}. 170 | \] 171 | Получается, что опорное априорное распределение распределение совпадает с априорным распределением Джеффриса в одномерном случае. 172 | \end{proof} 173 | 174 | 175 | \begin{example}[Опорное априорное распределение для экспоненциального распределения] 176 | Пусть $x_i \sim \mathrm{Exp}(\theta)$. 177 | Достаточная статистика для $\theta$ --- среднее выборки $\overline{x} = \frac{1}{\sS} \sum_{i = 1}^\sS x_i$. 178 | Оценка максимума правдоподобия есть $\mleT = \frac{1}{\overline{x}}$. 179 | 180 | Для одномерного случая мы могли бы получить опорное априорное распределение из априорного распределения Джеффриса. 181 | Но давайте вместо этого воспользуемся подходом, описанном выше. 182 | 183 | Пусть $\vecX = \{x_1, \ldots, x_\sS \}$. Тогда правдоподобие: 184 | \[ 185 | p(\vecX | \theta) = \theta^{\sS} \exp \left(-\sS \overline{x} \theta\right). 186 | \] 187 | 188 | В соответствии с теоремой Бернштейна-фон Мизеса апостериорное распределение для $\sS \rightarrow \infty$ не зависит от априорного распределения, поэтому возьмем для удобства равномерное априорное распределение. 189 | 190 | В силу концентрации для больших выборок для достаточной статистики~$\mleT$: 191 | \[ 192 | p(\mleT | \theta) \approx \delta(\mleT - \theta). 193 | \] 194 | Следовательно, 195 | \[ 196 | f_k(\theta) \approx \exp \left[\log p(\theta | \mleT) \right] = p(\theta | \mleT). 197 | \] 198 | 199 | Получим апостериорное распределение по формуле Байеса: 200 | \[ 201 | p(\theta | \mleT) = \frac{p( \mleT | \theta) \pi(\theta)}{p(\mleT)}. 202 | \] 203 | Априорное распределение --- равномерное, правдоподобие 204 | \[ 205 | p(\mleT | \theta) \propto \theta^{\sS} \exp \left(-\sS \frac{\theta}{\mleT} \right), 206 | \] 207 | а маргинальное распределение 208 | \[ 209 | p(\mleT) = \int p(\mleT | \theta) \pi(\theta) d\theta = \int \theta^\sS \exp \left(-\sS \frac{\theta}{\mleT} \right) d\theta = \Gamma(\sS + 1) \left(\frac{\mleT}{\sS} \right)^{\sS + 1}. 210 | \] 211 | 212 | Подставляя эти выражения в исходную формулу, получаем: 213 | \[ 214 | \pi_\sS(\theta) = \left. \left(\frac{\sS}{\mleT}\right)^{\sS + 1} \frac{1}{\Gamma(\sS + 1)} \theta^\sS \exp \left(- \frac{\sS \theta}{\mleT} \right) \right|_{\mleT = \theta} \propto \frac{1}{\theta}. 215 | \] 216 | Здесь мы использовали $\mleT = \theta$ в силу того, что выполнена теорема Бернштейна-фон Мизеса. 217 | \end{example} 218 | 219 | Проверим теперь, что опорное априорное распределение 220 | инвариантно к репараметризации --- даже если не выполнены условия регулярности, при выполнении которых опорное априорное распределение совпадает с априорным распределением Джеффриса. 221 | \begin{proof} 222 | Нам нужно проверить, что взаимная информация не зависит от параметризации: 223 | \begin{align*} 224 | \mathrm{MI}_{\pi(\theta)}(\Theta, \mathbf{T}^k) &= \int p(\mathbf{t}^k) \int p(\theta | \mathbf{t}^k) \log \frac{p(\theta | \mathbf{t}^k)}{\pi(\theta)} d\theta d\mathbf{t}^k = \\ &= \int p(\mathbf{t}^k) \int p(\phi | \mathbf{t}^k) \log \frac{p(\phi | \mathbf{t}^k)}{\pi(\phi)} d\phi d\mathbf{t}^k 225 | \end{align*} 226 | При использовании другой параметризации плотность распределения нужно домножить на Якобиан: 227 | \begin{align*} 228 | p(\phi) &= p(\theta(\phi)) \left|\frac{d \theta}{d \phi} \right| \\ 229 | p(\phi | \mathbf{t}^k) &= p(\theta(\phi) | \mathbf{t}^k) \left|\frac{d \theta}{d \phi} \right| 230 | \end{align*} 231 | Следовательно, отношение априорной и апостериорной плотностей не зависит от параметризации --- Якобиан сокращается. 232 | Якобиан в $p(\phi | \mathbf{t}^k)$ сокращается в силу формулы для замены переменных под интегралом. 233 | Таким образом, внутренний интеграл не меняется, а, значит, не меняется и взаимная информация. 234 | \end{proof} 235 | 236 | \subsection{Примеры опорных априорных распределений} 237 | 238 | \begin{example} 239 | Рассмотрим класс плотностей 240 | \[ 241 | M = \{f(x - \theta) : x \in \bbR, \theta \in \bbR \}. 242 | \] 243 | Для такого класса плотностей зададим опорное априорное распределение $\pi(\theta)$. 244 | 245 | Для фиксированного $\theta$ и случайной величины из распределения $f(x - \theta)$ пусть $y = x + a, \nu = \theta + a$. 246 | Определим $f'(y) = f(y - a - \theta)$. 247 | Рассмотрим семейство плотностей $M'$, эквивалентное $M$: 248 | \[ 249 | M' =\{f'(y - \nu): y \in \bbR, \nu \in \bbR \}. 250 | \] 251 | Так как Якобиан сдвига равен единице, и плотность априорного распределения 252 | не зависит от сдвига, то $\pi'(\nu) = \pi(\theta)$. 253 | В силу инвариантности опорного априорного распределения относительно 254 | репараметризации $\pi'(\nu) = \pi(\theta + a)$. 255 | Следовательно, $\pi(\theta + a) = \pi(\theta)$ для произвольного $a$. 256 | Таким образом, опорное априорное распределение для одномерного параметра сдвига будет равномерным. 257 | \end{example} 258 | 259 | \begin{example} 260 | Рассмотрим теперь одномерный параметр масштаба. 261 | Определим семейство 262 | \[ 263 | S = \left\{\frac{1}{\theta} f \left( \frac{x}{\theta} \right) : x > 0, \theta > 0 \right\}. 264 | \] 265 | Взяв $y = \log x$, $\phi = \log \theta$, определим эквивалентное семейство плотностей: 266 | \[ 267 | S' = \{f(\exp(y - \phi)): y \in \bbR, \phi \in \bbR \}. 268 | \] 269 | Мы получили семейство распределений, для которого $\phi$ --- параметр сдвига. 270 | В силу результата, полученного в предыдущем примере, $\pi'(\phi)$ --- равномерное. 271 | Выполнено, что 272 | \[ 273 | \pi'(\phi) = \theta \pi(\theta). 274 | \] 275 | Следовательно, опорное априорное распределение для параметра масштаба: 276 | \[ 277 | \pi(\theta) \propto \frac{1}{\theta}. 278 | \] 279 | \end{example} 280 | 281 | \subsection{Использование метода Монте-Карло для получения опорного априорного распределения} 282 | 283 | Опорное априорное распределение имеет вид: 284 | \[ 285 | f_k(\theta) = \exp \left\{\int p(\mathbf{t}^k | \theta) \log \left( \frac{p(\mathbf{t}^k | \theta) h(\theta)}{\int p(\mathbf{t}^k | \theta) h(\theta) d \theta}\right) d \mathbf{t}^k \right\}, 286 | \] 287 | где $h(\theta)$ --- исходное априорное распределение, от которого результат зависеть не будет. 288 | 289 | Аналитически получить опорное априорное распределение получится только в нескольких случаях, поэтому используют приближенные подходы. 290 | Один из самых популярных --- методы на основе идеи Монте-Карло. 291 | Пускай $\{x^{(i)}\}$ --- выборка независимых одинаково распределенных случайных величин из распределения $p(x)$. 292 | Тогда для функции $f(x)$ можно оценить интеграл $\int f(x) p(x) dx$ как: 293 | \[ 294 | \bbE f(x) = \int f(x) p(x) dx \approx \frac{1}{\sS} \sum_{i = 1}^{\sS} f(x^{(i)}). 295 | \] 296 | Сходимость будет, например, в силу закона больших чисел. 297 | 298 | Предложим алгоритм сэмплирования из опорного априорного распределения на основе идеи Монте-Карло. 299 | 300 | % \begin{algorithmic} 301 | % \If {$i\geq maxval$} 302 | % \State $i\gets 0$ 303 | % \Else 304 | % \If {$i+k\leq maxval$} 305 | % \State $i\gets i+k$ 306 | % \EndIf 307 | % \EndIf 308 | % \end{algorithmic} -------------------------------------------------------------------------------- /book/sources/a1-distributions.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Основные вероятностные распределения} 3 | 4 | \subsection{Многомерное нормальное распределение} 5 | \label{sec:gauss} 6 | \index{распределение!многомерное нормальное} 7 | 8 | Многомерное нормальное распределение или гауссовское распределение --- такое вероятностное распределение $p(\vecX | \vecMu, \Sigma)$ на $\vecX \in \bbR^\iD$, что его плотность имеет вид: 9 | \[ 10 | p(\vecX | \vecMu, \Sigma) = \frac{1}{(2 \pi)^{\iD / 2} |\Sigma|^{1 / 2}} 11 | \exp \left\{- \frac12 (\vecX - \vecMu)^{\mathrm{T}} \Sigma^{-1} (\vecX - \vecMu) \right\}. 12 | \] 13 | Два набора параметров распределения --- вектор $\vecMu$ и матрица $\Sigma$ --- определяют его среднее значение и ковариационную матрицу соответственно. 14 | Такое распределение обозначают $\mathcal{N}(\vecMu, \Sigma)$. 15 | 16 | У нормального распределения множество замечательных свойств, о которых можно прочитать в отдельных главах этой книги или в более общих книгах, таких как книга Бишопа~\cite{bishop2006pattern}. 17 | 18 | \subsection{Распределение Дирихле} 19 | \label{sec:dirichlet} 20 | \index{распределение!Дирихле} 21 | 22 | Носитель распределение Дирихле --- симплекс. 23 | Для $k$-мерного распределения Дирихле симплекс есть множество точек, для которых: 24 | \[ 25 | S_k = \left\{ \vecX: \sum_{i = 1}^k x_i = 1, x_i \geq 0, i \in \{1, \ldots, k\} \right\}. 26 | \] 27 | Легко видеть, что существует взаимнооднозначное соответствие между вероятностными распределениями на конечном множестве $\{1, \ldots, k\}$ и точками такого симплекса. 28 | 29 | Плотность распределения Дирихле с вектором параметров $\vecA \in \bbR_+^k (\alpha_i \geq 0)$ есть: 30 | \[ 31 | p(\vecX | \vecA) \propto x_1^{\alpha_1 - 1} \cdot \ldots \cdot x_k^{\alpha_k - 1}. 32 | \] 33 | 34 | Получим нормировочный коэффициент для такого распределения: 35 | \[ 36 | \int_{\vecX \in S_k} x_1^{\alpha_1 - 1} \cdot \ldots \cdot x_k^{\alpha_k - 1} d\vecX = \frac{\prod_{i = 1}^k \Gamma(\alpha_i)}{\Gamma(\sum_{i = 1}^k \alpha_k)}, 37 | \] 38 | здесь $\Gamma(a) = \int_{0}^{\infty} t^{a - 1} e^{-t} dt$ --- гамма функция, $\Gamma(n + 1) = n!$ для $n \in \mathbb{N}$ и $\Gamma(a + 1) = a \Gamma(a)$. 39 | 40 | Если мы рассмотрим $k = 2$, то получим бета-распределение. 41 | В частности, выполнено, что: 42 | \[ 43 | \int_0^1 \theta^{\alpha_1 - 1} (1 - \theta)^{\alpha_2 - 1} d\theta = \frac{\Gamma(\alpha_1) \Gamma(\alpha_2)}{\Gamma(\alpha_1 + \alpha_2)}. 44 | \] 45 | 46 | \begin{example} 47 | Найдем среднее бета-распределения. 48 | \begin{align*} 49 | \bbE x &= \int_0^1 \theta \frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1) \Gamma(\alpha_2)} \theta^{\alpha_1 - 1} (1 - \theta)^{\alpha_2 - 1}d\theta = \\ 50 | &= \frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1) \Gamma(\alpha_2)} \int_0^1 \theta^{\alpha_1 + 1 - 1} (1 - \theta)^{\alpha_2 - 1}d\theta = \\ 51 | &= \frac{\Gamma(\alpha_1 + \alpha_2)}{\Gamma(\alpha_1) \Gamma(\alpha_2)} 52 | \frac{\Gamma(\alpha_1 + 1) \Gamma(\alpha_2)}{\Gamma(\alpha_1 + \alpha_2 + 1)} = \frac{\alpha_1}{\alpha_1 + \alpha_2}. 53 | \end{align*} 54 | Для распределения Дирихле с вектором параметров $\vecA$ математическое ожидание равно $\bbE x_j = \frac{\alpha_j}{\sum_{i = 1}^k \alpha_k}$. 55 | 56 | \end{example} 57 | 58 | \subsection{Экспоненциальное семейство распределений} 59 | \label{sec:exp_family} 60 | \index{экспоненциальное семейство распределений} 61 | % http://www.cs.columbia.edu/~jebara/4771/tutorials/lecture12.pdf 62 | % https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter8.pdf 63 | 64 | В этом разделе определим экспоненциальное семейство распределений и получим ряд его полезных свойств. 65 | \begin{Definition} 66 | Будем говорить, что распределение многомерной случайной величины $\vecX$ принадлежит экспоненциальному семейству, если 67 | его плотность относительно меры Лебега $p(\vecX | \vecT)$ имеет вид: 68 | \[ 69 | p(\vecX | \vecT) = h(\vecX) \exp \left(\vecT^\T T(\vecX) - A(\vecT) \right). 70 | \] 71 | \end{Definition} 72 | 73 | Параметризация вектора параметров распределения $\vecT$, для которой правдоподобие имеет такой вид, называется \emph{канонической}. 74 | 75 | Вектор $T(\vecX)$ --- вектор достаточных статистик для модели, то есть такая функция данных $\vecX$, что 76 | условное распределение $P(\vecX | \vecT)$ совпадает с условным распределением $P(\vecX | T, \vecT)$. 77 | Эквивалентное утверждение, необходимое и достаточное условие того, что статистика является достаточной определяет взаимосвязь условных распределений $P(\vecT | \vecX, T) = P(\vecT | T)$. 78 | 79 | Для экспоненциального семейства распределений вектор достаточных статистик конечен. Теорема Питмана-Купмана-Дармуа утверждает, что принадлежность к экспоненциальному семейству --- необходимое и достаточное условие для того, чтобы размер вектора достаточных статистик не зависел от размера выборки, если область возможных значений не зависит от вектора параметров. 80 | 81 | Экспоненциальному семейству распределений принадлежат почти все используемые в математической статистике распределения: нормальное, биномиальное, Пуассоновское. 82 | Среди известных распределений, которые не принадлежат этому семейству распределений, --- распределение Коши. 83 | 84 | Приведем два примера экспоненциального семейства, канонических параметризаций и достаточных статистик для них. 85 | \begin{example} 86 | Рассмотрим распределение Бернулли, определенное на $x \in \{0, 1\}$. 87 | \begin{align*} 88 | p(x | \alpha) &= \alpha^{x} (1 - \alpha)^{1 - x} = \\ 89 | &= \exp \left[\log (\alpha^{x} (1 - \alpha)^{1 - x}) \right] = \\ 90 | &= \exp \left[x \log \alpha + (1 - x) \log (1 - \alpha)) \right] = \\ 91 | &= \exp \left[x \log \frac{\alpha}{1 - \alpha} + \log (1 - \alpha)) \right] = \\ 92 | &= \exp \left[x \theta - \log (1 + e^{\theta})\right]. 93 | \end{align*} 94 | Для распределения Бернулли минимальная достаточная статистика 95 | \[ 96 | T(x) = x, 97 | \] 98 | Каноническая параметризация 99 | \[ 100 | \theta = \log \frac{\alpha}{1 - \alpha}, 101 | \] 102 | а $A(\theta)$ и $h(\vecX)$: 103 | \[ 104 | A(\theta) = \log (1 + e^{\theta}), h(\vecX) = 1. 105 | \] 106 | \end{example} 107 | 108 | \begin{example} 109 | Покажем, что нормальное распределение тоже принадлежит экспоненциальному семейству. 110 | \begin{align*} 111 | p(x| \mu, \sigma) &= \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma^2} (x - \mu)^2 \right) =\\ 112 | &= \frac{1}{\sqrt{2 \pi}} \exp \left(-\log \sigma - \frac{x^2}{2 \sigma^2} + \frac{\mu x}{\sigma^2} - \frac{\mu^2}{2 \sigma^2} \right) = \\ 113 | &= \frac{1}{\sqrt{2 \pi}} \exp \left( \vecT^\T T(x) - \log \sigma - \mu^2 / (2 \sigma^2) \right), 114 | \end{align*} 115 | $h(x) = \frac{1}{\sqrt{2 \pi}}$, $A(\vecT) = \log \sigma + \mu^2 / (2 \sigma^2)$. 116 | Получаем вектор достаточных статистик: 117 | \[ 118 | T(x) = \begin{pmatrix} 119 | x \\ 120 | x^2 121 | \end{pmatrix}, 122 | \] 123 | и каноническую параметризацию: 124 | \[ 125 | \vecT = \begin{pmatrix} 126 | \mu / \sigma^2 \\ 127 | -1 / (2 \sigma^2). 128 | \end{pmatrix} 129 | \] 130 | Компонента $A(\theta)$ имеет следующий вид как функция от канонических параметров: 131 | \[ 132 | A(\theta) = \frac{\mu}{2 \sigma^2} + \log \sigma = - \frac{\theta_1^2}{4 \theta_2} - \frac12 \log (-2\theta_2). 133 | \] 134 | \end{example} 135 | 136 | Приведем еще три важных свойства распределений из этого семейства. 137 | \begin{Theorem} 138 | \label{th:exponential_derivative} 139 | \begin{equation} 140 | \label{eq:a_derivative} 141 | \frac{\partial A(\vecT)}{\partial \vecT} = \bbE_{p_{\vecT}} T(\vecX). 142 | \end{equation} 143 | \end{Theorem} 144 | \begin{proof} 145 | Интеграл плотности вероятностного распределения $p(\vecX| \vecT)$ равен $1$: 146 | \[ 147 | 1 = \int_{\bbR^{\iD}} h(\vecX) \exp \left(\vecT^T T(\vecX) - A(\vecT) \right) d\vecX. 148 | \] 149 | Перенесем $\exp \left(A(\vecX) \right)$ и прологарифмируем левую и правую часть: 150 | \[ 151 | A(\vecT) = \log \left[\int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX)) d \vecX \right]. 152 | \] 153 | Обозначим $Q(\vecT) = \int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX)) d \vecX$. 154 | Подсчитаем производную: 155 | \begin{align*} 156 | \frac{\partial A(\vecT)}{\partial \vecT} &= \frac{1}{Q(\vecT)} \frac{\partial Q(\vecT)}{\partial \vecT} = \frac{Q'(\vecT)}{Q(\vecT)} = \\ 157 | &= \frac{\int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX)) T(\vecX) d \vecX}{\int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX)) d \vecX} = \\ 158 | &= \frac{\int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX) - A(\vecT)) T(\vecX) d \vecX}{\int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX) - A(\vecT)) d \vecX} = \\ 159 | &= \int_{\bbR^{\iD}} h(\vecX) \exp( \vecT^\T T(\vecX) - A(\vecT)) T(\vecX) d \vecX = \\ 160 | &= \bbE_{p_{\vecT}} T(\vecX). 161 | \end{align*} 162 | Получается, что мы явно можем выразить эту производную как математическое ожидание достаточной статистики: 163 | \[ 164 | \frac{\partial A(\vecT)}{\partial \vecT} = \bbE_{p_{\vecT}} T(\vecX). 165 | \] 166 | \end{proof} 167 | \begin{Theorem} 168 | Функция $A(\vecT)$ выпуклая. 169 | \end{Theorem} 170 | \begin{proof} 171 | Возьмем вторую производную от $\frac{\partial A(\vecT)}{\partial \vecT}$, то получим: 172 | \begin{align*} 173 | \frac{\partial A'(\vecT)}{\partial \vecT} &= \frac{\partial }{\partial \vecT} \left[\frac{Q'(\vecT)}{Q(\vecT)} \right] = \frac{\partial }{\partial \vecT} \left[ Q'(\vecT) \frac{1}{Q(\vecT)} \right] = \\ 174 | &= \frac{\int h(\vecX) \exp \left(\vecT^T T(\vecX) - A(\vecT)\right) T^2(\vecX) d \vecX}{\int h(\vecX) \exp \left(\vecT^T T(\vecX) - A(\vecT)\right) d \vecX} - \left(\bbE_{p_{\vecT}} T(\vecX) \right)^2 = \\ 175 | &= \bbE_{p_{\vecT}} T^2(\vecX) - \left(\bbE_{p_{\vecT}} T(\vecX) \right)^2 = \mathrm{cov}_{p_{\vecT}} T(\vecX). 176 | \end{align*} 177 | То есть, гессиан $A(\vecT)$ --- ковариационная матрица: 178 | % TODO вставить вывод 179 | \[ 180 | \frac{\partial^2 A(\vecT)}{\partial \vecT^2} = \mathrm{cov}_{p_{\vecT}} T(\vecX). 181 | \] 182 | Ковариационная матрица случайного вектора $\mathrm{cov}_{p_{\vecT}} T(\vecX)$ неотрицательно определена. 183 | Следовательно, функция $A(\vecT)$ выпуклая. 184 | \end{proof} 185 | 186 | Наконец обозначим $\vecMu = \bbE T(\vecX)$. 187 | \begin{Theorem} 188 | Пусть мы наблюдаем выборку независимых одинаково распределенных случайных величин $D = \{x_1, \ldots, x_n\}$. 189 | Тогда оценка максимума правдоподобия $\hat{\vecMu}_{MLE}$: 190 | \[ 191 | \hat{\vecMu}_{MLE} = \frac{1}{n} \sum_{i = 1}^{n} T(x_i). 192 | \] 193 | \end{Theorem} 194 | \begin{proof} 195 | Используем Теорему~\ref{th:exponential_derivative} и явно дифференцируем плотность. 196 | \end{proof} 197 | 198 | Так как выполнено~\eqref{eq:a_derivative}, 199 | то решение уравнения 200 | \[ 201 | \frac{d A(\vecT)}{d \vecT} = \frac{1}{n} \sum_{i = 1}^{n} T(x_i). 202 | \] 203 | может использоваться для оценки вектора параметров $\vecT$ 204 | 205 | Оценки максимума правдоподобия $\hat{\vecMu}_{MLE}$ будут несмещенными и эффективными (для них будет выполнено неравенство Рао-Крамера). 206 | 207 | % TODO написать про это -------------------------------------------------------------------------------- /book/sources/literature.tex: -------------------------------------------------------------------------------- 1 | % !TEX root = ../script.tex 2 | \section{Что еще читать про Байесовскую математическую статистику} 3 | 4 | Существует множество хороших книг, в которых описано современное состояние Байесовской статистики и Байесовского машинного обучения. 5 | 6 | В машинном обучении стоит начать с книги К.Бишопа~\cite{bishop2006pattern}. 7 | Большую часть других вопросов покрывает более современная книга А.Гельмана~\cite{gelman2014bayesian}. 8 | Следует использовать последнее третье издание, в которое включен, например, раздел, посвященный процессам Дирихле. 9 | С другой стороны следует отметить, что эту книгу следует использовать скорее как справочник, чем как книгу, которую следует читать подряд. 10 | 11 | В математической статистике данное пособие больше всего коррелирует с книгой~\cite{robert2007bayesian}, богатой на примеры использования Байесовской математической статистики и ее апологии. 12 | 13 | Наиболее полно непараметрическая Байесовская статистика изложена в книге Дж.Гоша~\cite{ghosh2007bayesian}. 14 | В этой книге довольного много опечаток, а изложение не всегда ясное и последовательное. 15 | Однако она наиболее полно представляет широкое многообразие результатов как в параметрической, так и в непараметрической Байесовской статистике. 16 | 17 | 18 | -------------------------------------------------------------------------------- /book/tex/my.tex: -------------------------------------------------------------------------------- 1 | \newcommand{\Sample}{\mathrm{D}} % sample 2 | \newcommand{\sS}{n} % sample size 3 | \newcommand{\iD}{d} % input dimension 4 | \newcommand{\pD}{p} % parameter space dimension 5 | \newcommand{\fN}{g} % number of factors for Variational inference 6 | 7 | \renewcommand{\X}{\mathcal{X}} % some subset of for example \mathbb{R}^1 8 | 9 | \newcommand{\const}{\mathrm{const}} 10 | 11 | \newcommand{\estTk}{\tilde{\theta}_k} % an estimate of theta 12 | % \newcommand{\mleT}{\hat{\theta}_{\mathrm{MLE}}} % MLE estimate of theta 13 | \newcommand{\mleT}{\hat{\theta}} % MLE estimate of theta 14 | 15 | \newcommand{\vecB}{\mathbf{b}} % b vector 16 | \newcommand{\vecE}{\mathbf{e}} % e vector 17 | \newcommand{\vecK}{\mathbf{k}} % k vector 18 | \newcommand{\vecP}{\mathbf{p}} % p vector 19 | \newcommand{\vecU}{\mathbf{u}} % u vector 20 | \newcommand{\vecW}{\mathbf{w}} % w vector 21 | \newcommand{\vecX}{\mathbf{x}} % x vector 22 | \newcommand{\vecY}{\mathbf{y}} % y vector 23 | \newcommand{\vecZ}{\mathbf{z}} % z vector 24 | 25 | \newcommand{\vecL}{\boldsymbol{\lambda}} % theta vector 26 | \newcommand{\vecT}{\boldsymbol{\theta}} % theta vector 27 | \newcommand{\vecO}{\boldsymbol{\omega}} % omega vector 28 | \newcommand{\vecMu}{\boldsymbol{\mu}} % mu vector 29 | \newcommand{\vecEta}{\boldsymbol{\eta}} % eta vector 30 | \newcommand{\vecTau}{\boldsymbol{\tau}} % eta vector 31 | \newcommand{\vecA}{\boldsymbol{\alpha}} % alpha vector 32 | 33 | \newcommand{\decSpace}{\mathbb{A}} % decision space A 34 | 35 | \newcommand{\bbR}{\mathbb{R}} % space R 36 | \newcommand{\bbX}{\mathbb{X}} % space X 37 | \newcommand{\bbZ}{\mathbb{Z}} % space Z 38 | \newcommand{\bbE}{\mathbb{E}} % expectation E 39 | \newcommand{\bbV}{\mathbb{V}} % variance E 40 | 41 | 42 | \newcommand{\hRatio}{m} % ratio between grid sizes for high and low fidelity data 43 | \newcommand{\sRatio}{\delta} % ratio between grid sizes for high and low fidelity data 44 | 45 | \newcommand{\mN}{\mathcal{N}} % Normal distribution 46 | 47 | \newcommand{\tra}{\mathrm{T}} % transose sign 48 | 49 | % \newcommand{\mleT}{\tilde{\vecT}} % maximum likelihood estimation for vector of parameters theta 50 | % \newcommand{\E}{\mathbb{E}} % expectation 51 | \newcommand{\KuLi}{\mathrm{KL}} % Kullback-Lieber divergence 52 | 53 | \hyphenation{Ме-тро-по-ли-са-Ха-стинг-са} 54 | 55 | % \theoremstyle[plain] 56 | \newtheorem{Theorem}{Теорема} 57 | \newtheorem{Lemma}{Лемма} 58 | \newtheorem{Proposition}{Предложение} 59 | \newtheorem{Statement}{Утверждение} 60 | \newtheorem{Corollary}{Следствие} 61 | \newtheorem{Remark}{Замечание} 62 | 63 | % \theoremstyle[definition] 64 | \newtheorem{Definition}{Определение} 65 | 66 | \newcounter{problemNumber} 67 | \newcommand{\problem}{\vspace{12px} \noindent\stepcounter{problemNumber}{\bf{\arabic{problemNumber}. \,\,}}} 68 | 69 | 70 | \theoremstyle{definition} 71 | \newtheorem{example}{Пример}[section] -------------------------------------------------------------------------------- /book/tex/mydef.tex: -------------------------------------------------------------------------------- 1 | %\renewcommand{\(}{\begin{math} \,} 2 | %\renewcommand{\)}{\,\end{math}} 3 | \renewcommand{\(}{$\,} 4 | \renewcommand{\)}{\,$} 5 | 6 | \def\nquad{\hspace{-1cm}} 7 | \def\eqdef{\stackrel{\operatorname{def}}{=}} 8 | \def\tod{\stackrel{d}{\longrightarrow}} 9 | \def\tow{\stackrel{w}{\longrightarrow}} 10 | \def\toP{\stackrel{\P}{\longrightarrow}} 11 | 12 | 13 | \newcommand{\cc}[1]{\mathscr{#1}} 14 | %\newcommand{\cc}[1]{\mathcal{#1}} 15 | \newcommand{\bb}[1]{\boldsymbol{#1}} 16 | 17 | %\renewcommand{\bar}[1]{\overset{\!\_\!\_\!\_}{#1}} 18 | \renewcommand{\bar}[1]{\overline{#1}} 19 | \renewcommand{\hat}[1]{\widehat{#1}} 20 | \renewcommand{\tilde}[1]{\widetilde{#1}} 21 | 22 | 23 | \renewcommand{\Gamma}{\varGamma} 24 | \renewcommand{\Pi}{\varPi} 25 | \renewcommand{\Sigma}{\varSigma} 26 | \renewcommand{\Delta}{\varDelta} 27 | \renewcommand{\Lambda}{\varLambda} 28 | \renewcommand{\Psi}{\varPsi} 29 | \renewcommand{\Phi}{\varPhi} 30 | \renewcommand{\Theta}{\varTheta} 31 | \renewcommand{\Omega}{\varOmega} 32 | \renewcommand{\Xi}{\varXi} 33 | \renewcommand{\Upsilon}{\varUpsilon} 34 | % 35 | \def\nn{\nonumber \\} 36 | 37 | \def\suml{\sum\limits} 38 | \def\supl{\sup\limits} 39 | \def\maxl{\max\limits} 40 | \def\infl{\inf\limits} 41 | \def\intl{\int\limits} 42 | \def\liml{\lim\limits} 43 | \def\Cov{\operatorname{Cov}} 44 | \def\Var{\operatorname{Var}} 45 | \def\arginf{\operatornamewithlimits{arginf}} 46 | \def\argsup{\operatornamewithlimits{argsup}} 47 | \def\argmax{\operatornamewithlimits{argmax}} 48 | \def\argmin{\operatornamewithlimits{argmin}} 49 | \def\val{\operatorname{val}} 50 | 51 | %\def\E{\boldsymbol{E}} 52 | %\def\P{\boldsymbol{P}} 53 | \def\D{\boldsymbol{D}} 54 | \def\dd{\operatorname{d}} 55 | \def\tr{\operatorname{tr}} 56 | \def\I{I\!\!I} 57 | \def\R{I\!\!R} 58 | \def\E{I\!\!E} 59 | \def\P{I\!\!P} 60 | \def\X{\mathfrak{X}} 61 | \def\kappa{\varkappa} 62 | %\def\R{\mathbb{R}} 63 | \def\Const{\mathrm{Const.} \,} 64 | \def\cdt{\boldsymbol{\cdot}} 65 | \def\tm{\!\times\!} 66 | \def\T{\top} 67 | \def\diag{\operatorname{diag}} 68 | \def\diam{\operatorname{diam}} 69 | \def\rank{\operatorname{rank}} 70 | \def\loc{\operatorname{loc}} 71 | 72 | \def\av{\bb{a}} 73 | \def\bv{\bb{b}} 74 | \def\cv{\bb{c}} 75 | \def\dv{\bb{d}} 76 | \def\ev{\bb{e}} 77 | \def\fv{\bb{f}} 78 | \def\gv{\bb{g}} 79 | \def\hv{\bb{h}} 80 | \def\iv{\bb{i}} 81 | \def\jv{\bb{j}} 82 | \def\kv{\bb{k}} 83 | \def\lv{\bb{l}} 84 | \def\mv{\bb{m}} 85 | \def\nv{\bb{n}} 86 | \def\ov{\bb{o}} 87 | \def\pv{\bb{p}} 88 | \def\qv{\bb{q}} 89 | \def\rv{\bb{r}} 90 | \def\sv{\bb{s}} 91 | \def\tv{\bb{t}} 92 | \def\uv{\bb{u}} 93 | \def\vv{\bb{v}} 94 | \def\wv{\bb{w}} 95 | \def\xv{\bb{x}} 96 | \def\yv{\bb{y}} 97 | \def\zv{\bb{z}} 98 | 99 | \def\Cv{\bb{C}} 100 | \def\Gv{\bb{G}} 101 | \def\Mv{\bb{M}} 102 | \def\Sv{\bb{S}} 103 | \def\Uv{\bb{U}} 104 | \def\Yv{\bb{Y}} 105 | \def\Dv{\bb{D}} 106 | \def\Zv{\bb{Z}} 107 | 108 | 109 | \def\alphav{\bb{\alpha}} 110 | \def\epsv{\bb{\varepsilon}} 111 | \def\etav{\bb{\eta}} 112 | \def\gammav{\bb{\gamma}} 113 | \def\varepsilonv{\bb{\varepsilon}} 114 | \def\phiv{\bb{\phi}} 115 | \def\psiv{\bb{\psi}} 116 | \def\tauv{\bb{\tau}} 117 | \def\upsilonv{\bb{\upsilon}} 118 | \def\xiv{\bb{\xi}} 119 | \def\zetav{\bb{\zeta}} 120 | 121 | \def\Psiv{\bb{\Psi}} 122 | \def\CONST{\mathtt{C}} 123 | 124 | 125 | 126 | \def\itemv{\vfill\item} 127 | \newenvironment{myslide}[1] 128 | {\begin{frame}\frametitle{#1}\vfill} 129 | {\vfill\end{frame}} 130 | 131 | \def\vsp{\vspace{0.05\textheight} \vfill} 132 | \def\summarysign{\resizebox{0.08\textwidth}{0.08\textheight}{\includegraphics{summary}}\,} 133 | \def\nix{} 134 | \def\wpu{$\bullet$} 135 | 136 | \def\btri{\vfill{\( \blacktriangleright \) }} 137 | \def\btrir{\vfill{\( \blacktriangleright \) }} 138 | 139 | \newcommand{\mygraphics}[3]{\begin{center} 140 | \resizebox{#1\textwidth}{#2\textheight}{\includegraphics{#3}} 141 | \end{center} 142 | } 143 | 144 | \newcommand{\mybox}[3]{\begin{center} 145 | \resizebox{#1\textwidth}{#2\textheight}{#3} 146 | \end{center} 147 | } 148 | 149 | %\definecolor{myhcolor}{rgb}{0.2,0,0.8} 150 | %\definecolor{myhcolor}{named}{red} 151 | \newenvironment{eqnh} 152 | { 153 | %\color{myhcolor}} {} 154 | \setbeamercolor{postit}{fg=black,bg=hellgelb} %{fg=myhcolor,bg=white} 155 | \begin{beamercolorbox}[center,wd=\textwidth]{postit} %rounded=true,shadow=true, 156 | \begin{eqnarray*}} 157 | {\end{eqnarray*}\end{beamercolorbox} 158 | } 159 | -------------------------------------------------------------------------------- /book/tex/myfront.tex: -------------------------------------------------------------------------------- 1 | \usepackage{amsmath,amssymb,amsthm} 2 | \usepackage{natbib} 3 | \usepackage{epsfig,graphicx} 4 | \usepackage{comment} 5 | \usepackage{color} 6 | \usepackage{srcltx} 7 | \usepackage[mathscr]{eucal} 8 | \usepackage[math]{easyeqn} 9 | \usepackage{etoolbox} 10 | %\input{mydef} 11 | %\input{../tex/statdef} 12 | 13 | \ifims{ 14 | % article style 15 | \textheight=23cm 16 | \textwidth=14.8cm 17 | \topmargin=0pt 18 | \oddsidemargin=1.0cm 19 | \evensidemargin=1.0cm 20 | %\pagestyle{empty} 21 | \linespread{1.3} 22 | \renewenvironment{abstract} 23 | {\centerline{\textbf{Abstract}}\bigskip 24 | \begin{center} 25 | \begin{minipage}{11cm} 26 | \begin{small} 27 | } 28 | { \end{small} 29 | \end{minipage} 30 | \end{center} 31 | \bigskip 32 | } 33 | \newcommand{\keywords}[1]{\par\noindent\emph{Keywords:} #1 \\} 34 | \newcommand{\subjclass}[1]{\par\noindent\emph{AMS 2000 Subject Classification:} #1\\} 35 | }{ %ims style 36 | %\textheight=21cm 37 | } 38 | 39 | %\newcommand{\subjclass}[1]{\par\noindent\emph{JEL codes:} #1\\} 40 | 41 | 42 | 43 | \numberwithin{equation}{section} 44 | \numberwithin{figure}{section} 45 | %%%%%%%%%%%% 46 | \newcounter{example}[section] 47 | \numberwithin{example}{section} 48 | \newcounter{remark}[section] 49 | \numberwithin{remark}{section} 50 | \newtheorem{theorem}{Theorem}[section] 51 | \newtheorem{proposition}[theorem]{Proposition} 52 | \newtheorem{lemma}[theorem]{Lemma} 53 | \newtheorem{corollary}[theorem]{Corollary} 54 | \newtheorem{definition}[theorem]{Definition} 55 | \newtheorem{exmp}[example]{Example} 56 | \newtheorem{rmrk}[remark]{Remark} 57 | \newenvironment{example}{\begin{exmp}\rm}{\end{exmp}} 58 | \newenvironment{remark}{\begin{rmrk}\rm}{\end{rmrk}} 59 | 60 | \renewcommand{\textfraction}{0.00} 61 | \renewcommand{\topfraction}{1} 62 | \renewcommand{\bottomfraction}{1} 63 | 64 | \bibliographystyle{apalike} 65 | \newcommand{\citeasnoun}[1]{\cite{#1}} 66 | 67 | 68 | \begin{document} 69 | \thispagestyle{empty} 70 | \ifims{ 71 | \title{\thetitle} 72 | \ifau{ % 1 author 73 | \author{ 74 | \authora 75 | \ifdef{\thanksa}{\thanks{\thanksa}}{} 76 | \\[5.pt] 77 | \addressa \\ 78 | \texttt{ \emaila} 79 | } 80 | } 81 | { % 2 authors 82 | \author{ 83 | \authora 84 | \ifdef{\thanksa}{\thanks{\thanksa}}{} 85 | \\[5.pt] 86 | \addressa \\ 87 | \texttt{ \emaila} 88 | \and 89 | \authorb 90 | \ifdef{\thanksb}{\thanks{\thanksb}}{} 91 | \\[5.pt] 92 | \addressb \\ 93 | \texttt{ \emailb} 94 | } 95 | } 96 | { % 3 authors 97 | \author{ 98 | \authora 99 | \ifdef{\thanksa}{\thanks{\thanksa}}{} 100 | \\[5.pt] 101 | \addressa \\ 102 | \texttt{ \emaila} 103 | \and 104 | \authorb 105 | \ifdef{\thanksb}{\thanks{\thanksb}}{} 106 | \\[5.pt] 107 | \addressb \\ 108 | \texttt{ \emailb} 109 | \and 110 | \authorc 111 | \ifdef{\thanksc}{\thanks{\thanksc}}{} 112 | \\[5.pt] 113 | \addressc \\ 114 | \texttt{ \emailc} 115 | } 116 | } 117 | 118 | \maketitle 119 | \pagestyle{myheadings} 120 | \markboth 121 | {\hfill \textsc{ \small \theruntitle} \hfill} 122 | {\hfill 123 | \textsc{ \small 124 | \ifau{\runauthora} 125 | {\runauthora \, and \runauthorb} 126 | {\runauthora, \runauthorb, and \runauthorc} 127 | } 128 | \hfill} 129 | \begin{abstract} 130 | \theabstract 131 | \end{abstract} 132 | 133 | \ifAMS 134 | {\par\noindent\emph{AMS 2000 Subject Classification:} Primary \kwdp. Secondary \kwds} 135 | {\par\noindent\emph{JEL codes}: \kwdp} 136 | 137 | \par\noindent\emph{Keywords}: \thekeywords 138 | } % end front latex 139 | { % front ims 140 | \begin{frontmatter} 141 | \title{\thetitle\protect\thanksref{T1}} 142 | \thankstext{T1}{\thankstitle} 143 | 144 | 145 | % "Title of the paper" 146 | 147 | \runtitle{\theruntitle} 148 | 149 | \begin{aug} 150 | \author{\authora\ead[label=e1]{\emaila}} 151 | \address{\addressa \\ 152 | \printead{e1}} 153 | \end{aug} 154 | 155 | \runauthor{\runauthora} 156 | \affiliation{\affiliationa} 157 | 158 | 159 | 160 | 161 | \begin{abstract} 162 | \theabstract 163 | \end{abstract} 164 | 165 | 166 | \begin{keyword}[class=AMS] 167 | \kwd[Primary ]{\kwdp} 168 | \kwd[; secondary ]{\kwds} 169 | \end{keyword} 170 | 171 | \begin{keyword} 172 | \kwd{\thekeywords} 173 | \end{keyword} 174 | 175 | \end{frontmatter} 176 | } % end front ims 177 | -------------------------------------------------------------------------------- /book/tex/statdef.tex: -------------------------------------------------------------------------------- 1 | \def\ND{\cc{N}} 2 | \def\Bernoulli{\mathrm{Bernoulli}} 3 | \def\Vola{\mathrm{Vola}} 4 | \def\Poisson{\mathrm{Poisson}} 5 | \def\ag{\mathrm{ag}} 6 | \def\glob{\operatorname{glob}} 7 | \def\blk{\operatorname{block}} 8 | \def\cond{\, \big| \,} 9 | 10 | \def\rdl{\epsilon} 11 | \def\rd{\bb{\rdl}} 12 | \def\rddelta{\delta} 13 | \def\rdomega{\varrho} 14 | \def\rddeltab{\rddelta^{*}} 15 | \def\rhorb{\rhor^{*}} 16 | 17 | 18 | 19 | 20 | \def\wv{\bb{w}} 21 | \def\varthetav{\bb{\vartheta}} 22 | \def\Lr{\breve{L}} 23 | \def\zetavr{\breve{\zetav}} 24 | \def\etavr{\breve{\etav}} 25 | \def\xivr{\breve{\xiv}} 26 | 27 | 28 | \def\rdb{\rd} 29 | %\def\rdm{\bb{\sigma}} 30 | \def\rdm{\underline{\rdb}} 31 | 32 | \def\taub{\tau_{\rdb}} 33 | \def\taum{\tau_{\rdm}} 34 | \def\kappab{\kappa_{\rd}} 35 | \def\deltab{\delta_{\rd}} 36 | 37 | \def\taubGP{\tau_{\rdb,\GP}} 38 | \def\taumGP{\tau_{\rdm,\GP}} 39 | \def\kappabGP{\kappa_{\rd,\GP}} 40 | \def\deltabGP{\delta_{\rd,\GP}} 41 | 42 | \def\rG{\rd,\GP} 43 | 44 | \def\LinSp{\mathrm{L}} 45 | \def\Id{I\!\!\!I} 46 | \def\Ind{\operatorname{1}\hspace{-4.3pt}\operatorname{I}} 47 | 48 | \def\BG{\mathcal{R}} 49 | \def\bg{r} 50 | \def\fmup{\phi} 51 | \def\rg{r} 52 | \def\uc{u_{c}} 53 | \def\muc{\mu_{c}} 54 | \def\mud{\mu_{0}} 55 | \def\xxd{\xx_{0}} 56 | \def\yyd{\yy_{0}} 57 | \def\gmd{\gm_{0}} 58 | 59 | \def\ms{m^{*}} 60 | \def\Inv{A} 61 | \def\InvT{\Inv^{\T}} 62 | \def\Invt{\tilde{\Inv}} 63 | 64 | 65 | \def\ssize{N} 66 | \def\nsize{{n}} 67 | 68 | %\def\rhor{\mathfrak{b}} 69 | \def\rhor{\omega} 70 | 71 | 72 | \def\LT{L} 73 | \def\LGP{\LT_{\GP}} 74 | %\def\La{\breve{L}} 75 | \def\La{\mathbb{L}} 76 | \def\Lab{\La_{\rdb}} 77 | \def\Lam{\La_{\rdm}} 78 | 79 | \def\DP{D} 80 | \def\DPc{\DP_{0}} 81 | \def\DPb{\DP_{\rdb}} 82 | \def\DPm{\DP_{\rdm}} 83 | 84 | \def\LabGP{\La_{\rdb,\GP}} 85 | \def\LamGP{\La_{\rdm,\GP}} 86 | 87 | \def\DPbGP{\DP_{\rdb,\GP}} 88 | \def\DPmGP{\DP_{\rdm,\GP}} 89 | \def\riskbGP{\riskt_{\rdb,\GP}} 90 | 91 | \def\gmi{\mathtt{b}} 92 | \def\gmiid{\mathtt{g}_{1}} 93 | \def\kullbi{\Bbbk} 94 | \def\Thetasi{\Theta_{\loc}} 95 | \def\rri{\mathtt{u}} 96 | \def\rris{\rri_{0}} 97 | 98 | \def\Ipc{\bb{\mathrm{f}}} 99 | \def\IF{\bb{\mathrm{f}}} 100 | \def\IFc{\IF_{0}} 101 | \def\IFb{\IF_{\rdb}} 102 | \def\IFm{\IF_{\rdm}} 103 | 104 | 105 | \def\DF{\cc{D}} 106 | \def\DFc{\DF_{0}} 107 | \def\DFb{\DF_{\rdb}} 108 | \def\DFm{\breve{\DF}_{\rd}} 109 | \def\DFm{\DF_{\rdm}} 110 | 111 | \def\DPr{\breve{\DP}} 112 | \def\VF{\cc{V}} 113 | \def\VFc{\VF_{0}} 114 | 115 | \def\HHc{\HH_{0}} 116 | \def\HHb{\HH_{\rd}} 117 | \def\HHm{\HH_{\rdm}} 118 | 119 | 120 | \def\xib{\xi^{*}} 121 | \def\xivb{\xiv_{\rdb}} 122 | \def\xivm{\xiv_{\rdm}} 123 | \def\CAm{\underline{\CA}} 124 | \def\CAb{\CA} 125 | 126 | \def\penr{\operatorname{pen}} 127 | \def\pen{\mathfrak{t}} 128 | \def\PEN{\operatorname{PEN}} 129 | \def\RSS{\operatorname{RSS}} 130 | \def\med{\operatorname{med}} 131 | 132 | \def\ex{\mathrm{e}} 133 | %\def\bracketing{\diamond} 134 | \def\entrl{\mathbb{Q}} 135 | %\def\entrlr{\mathbb{Q}^{\bracketing}} 136 | \def\entrlb{\entrl} 137 | %\def\entrlp{\entrl_{p}^{*}(\mrho)} 138 | %\def\entrlq{\entrl_{p}^{*}(\qqq)} 139 | %\def\entrlG{\entrl(\GV)} 140 | \def\entr{\entrl} 141 | 142 | \def\kullb{\cc{K}} %{\wp} 143 | \def\kullbc{\kullb^{c}} 144 | 145 | 146 | \def\gm{\mathtt{g}} 147 | \def\gmc{\gm_{c}} 148 | \def\gmb{\gm} 149 | \def\gmbm{\gmb_{1}} 150 | 151 | \def\yy{\mathtt{y}} 152 | \def\yyc{\yy_{c}} 153 | %\def\yyn{\yy_{0}} 154 | \def\xx{\mathtt{x}} 155 | \def\xxc{\xx_{c}} 156 | \def\tc{t_{c}} 157 | 158 | \def\alp{\alpha} 159 | \def\alpn{\rho} 160 | %\def\as{a_{0}} 161 | %\def\daas{\Phi} 162 | \def\gmu{\mathfrak{a}} 163 | 164 | 165 | \def\losst{\varrho} 166 | \def\loss{\wp} 167 | \def\lossp{u} 168 | \def\closs{g} 169 | 170 | \def\riskt{\cc{R}} 171 | \def\emprisk{\ell} 172 | \def\bias{b} 173 | \def\bern{q} 174 | 175 | %\def\nuu{\mathfrak{u}} 176 | %\def\nud{\mathfrak{u}_{0}} 177 | %\def\nun{c_{\nuu}} 178 | 179 | 180 | 181 | \def\TT{\nsize} 182 | 183 | \def\Pone{P} 184 | %\def\Ef{\E} 185 | %\def\Pf{\P} 186 | \def\Pf{\P_{f(\cdot)}} 187 | \def\Ef{\E_{f(\cdot)}} 188 | \def\Ps{\P_{\thetas}} 189 | \def\Es{\E_{\thetas}} 190 | \def\Pu{\P_{\upsilons}} 191 | \def\Eu{\E_{\upsilons}} 192 | 193 | \def\Pvs{\P_{\thetavs}} 194 | \def\Evs{\E_{\thetavs}} 195 | 196 | %\def\upsdc{\ups_{0}} 197 | \def\UPd{w} 198 | \def\nunup{\nu_{1}} 199 | \def\rru{\rr_{1}} 200 | \def\rups{\rr_{0}} 201 | \def\rupsb{\rups^{*}} 202 | \def\rrf{\rr^{\flat}} 203 | 204 | 205 | \def\smooths{\mathbb{S}} 206 | \def\smooth{\smooths_{1}} 207 | 208 | 209 | \def\elli{\bar{\ell}} 210 | 211 | 212 | %\def\Pu{Q} 213 | 214 | \def\K{K} 215 | 216 | \def\Psir{\breve{\Psi}} 217 | 218 | \def\af{a} 219 | \def\afs{\af^{*}} 220 | 221 | \def\kapla{\varkappa} 222 | 223 | \newcommand{\mlew}[1]{\tilde{\thetav}_{#1}} 224 | \newcommand{\mlea}[1]{\hat{\thetav}_{#1}} 225 | \newcommand{\mluw}[1]{\tilde{\theta}_{#1}} 226 | \newcommand{\mlua}[1]{\hat{\theta}_{#1}} 227 | \newcommand{\penm}[1]{\boldsymbol{m}_{#1}} 228 | 229 | \def\Pdom{\mu_{0}} 230 | \def\PDOM{\bb{\mu}_{0}} 231 | \def\EDOM{\E_{0}} 232 | 233 | \def\mk{m} 234 | \def\Mk{\cc{M}} 235 | \def\SV{\cc{S}} 236 | 237 | \def\Cs{E} 238 | \def\Csd{\Cs^{\circ}} 239 | \def\Ca{A} 240 | \def\CS{\cc{E}} 241 | \def\CA{\cc{A}} 242 | \def\CAb{\CA_{\rd}} 243 | \def\CAC{\CA_{\CoFu}} 244 | 245 | \def\Ccb{m_{\rdb}} 246 | \def\Ccm{m_{\rdm}} 247 | \def\CcbGP{m_{\rdb,\GP}} 248 | \def\CcmGP{m_{\rdm,\GP}} 249 | 250 | 251 | \def\nunu{\nu_{0}} 252 | \def\numu{\nu_{1}} 253 | %\def\nubu{\nu_{2}} 254 | \def\nupi{\nu^{+}} 255 | \def\nubu{\beta} 256 | 257 | \def\nus{\nu} 258 | \def\nusb{\nus} 259 | \def\nusr{\nus^{\bracketing}} 260 | \def\Nusb{\mathbb{N}} 261 | \def\Nusr{\mathbb{N}^{\diamond}} 262 | 263 | \def\dist{d} 264 | \def\distd{\mathfrak{a}} 265 | 266 | \def\hatk{\kappa} 267 | \def\ko{k^{\circ}} 268 | 269 | 270 | %\def\qq{\mathfrak{q}} 271 | \def\qqq{\mathfrak{q}} 272 | %\def\ppp{\mathfrak{s}} 273 | \def\ppp{{s}} 274 | \def\Cqq{C(\qqq)} 275 | \def\Cqqb{C^{\diamond}(\qqq)} 276 | %\def\Cqq{\qqq \log(2 \ppp)} 277 | \def\Crho{C(\mrho)} 278 | \def\Cqqm{\log(4)} 279 | \def\Cqpr{(\qqq \rrp + \dimp / 2)} 280 | 281 | \def\Cdima{\mathfrak{e}_{0}} 282 | \def\Cdimb{\mathfrak{e}_{1}} 283 | \def\cdima{\mathfrak{c}_{0}} 284 | \def\cdimb{\mathfrak{c}_{1}} 285 | \def\cdim{\mathfrak{c}} 286 | 287 | \def\rdomega{\varrho} 288 | \def\deltaD{\delta} 289 | \def\alphai{\alpha_{1}} 290 | \def\alphaii{\alpha_{2}} 291 | \def\alphaiii{\alpha_{3}} 292 | \def\alphaiv{\alpha_{4}} 293 | 294 | \def\err{\diamondsuit} 295 | %\def\rd{\varrho} 296 | %\def\errb{\err_{\rdomega}} 297 | \def\errbm{\bar{\err}_{\rdomega}} 298 | \def\errm{\err_{\rdm}} 299 | \def\errb{\err_{\rdb}} 300 | 301 | 302 | \def\errbGP{\err_{\rdomega,\GP}} 303 | \def\errmGP{\err_{\rdm,\GP}} 304 | \def\errbmGP{\bar{\err}_{\rd,\GP}} 305 | 306 | \def\errs{\err_{\rdomega}^{*}} 307 | \def\deltas{\alpha} 308 | 309 | \def\xivbGP{\xiv_{\rdb,\GP}} 310 | \def\xivmGP{\xiv_{\rdm,\GP}} 311 | 312 | 313 | \def\SP{S} 314 | \def\GP{G} 315 | \def\GPt{\GP_{0}} 316 | \def\GPn{\GP_{1}} 317 | \def\gp{g} 318 | \def\gs{s} 319 | 320 | %\def\SP{G} 321 | 322 | \def\errbGP{\err_{\rdb,\GP}} 323 | \def\errmGP{\err_{\rdm,\GP}} 324 | \def\errpmGP{\err_{\GP}^{\pm}} 325 | %\def\errsGP{\err_{\GP}^{*}} 326 | %\def\deltaDGP{\delta_{\GP}} 327 | 328 | \def\LCS{\cc{C}} 329 | 330 | \def\DPGP{\DP_{\GP}} 331 | \def\thetavsGP{\thetavs_{\GP}} 332 | 333 | 334 | \def\LL{\cc{L}} 335 | \def\LLb{\LL^{*}} 336 | \def\LLh{\cc{L}} 337 | 338 | \def\YY{\cc{Y}} 339 | \def\LP{L^{\circ}} 340 | 341 | 342 | \def\modcnrd{\mathfrak{A}} 343 | 344 | \def\pens{\pi} 345 | \def\pnn{\mathfrak{g}} 346 | \def\pnnd{\mathfrak{u}} 347 | %\def\pnnd{b} 348 | \def\pnndGP{\pnnd_{\GP}} 349 | 350 | 351 | \def\confpr{\mathfrak{c}} 352 | \def\confprb{\confpr^{*}} 353 | 354 | \def\pn{\pens^{*}} 355 | \def\penInt{\mathfrak{D}} 356 | \def\penH{\mathbb{H}} 357 | \def\pmu{\mathfrak{u}} 358 | \def\Closs{\cc{R}} 359 | 360 | \def\dimp{p} 361 | \def\riskb{\riskt_{\rdb}} 362 | %\def\dimpp{\mathfrak{p}} 363 | \def\dimpp{\dimp+1} 364 | \def\dime{\dimp_{e}} 365 | \def\dimS{\dimp_{s}} 366 | \def\dimG{\dimp_{\GP}} 367 | \def\dimA{\mathtt{p}_{0}} 368 | \def\dimB{\dimA_{0}} 369 | \def\dimh{\mathtt{p}} 370 | \def\BB{I\!\!B} 371 | \def\vA{\mathtt{v}} 372 | 373 | 374 | \def\deficiency{\Delta} 375 | \def\spread{\Delta} 376 | \def\dimtotal{\dimp^{*}} 377 | 378 | \def\thetav{\bb{\theta}} 379 | %\def\thetavs{\thetav_{0}} 380 | \def\thetavs{\thetav^{*}} 381 | \def\thetavc{\thetav'} 382 | \def\thetavd{\thetav^{\circ}} 383 | \def\thetavdc{\thetav^{\sharp}} 384 | %\def\dthetavs{\thetav,\thetavs} 385 | %\def\dthetavc{\thetav,\thetavc} 386 | %\def\dthetavd{\thetav,\thetavd} 387 | \def\dthetavs{\thetav,\thetavs} 388 | 389 | \def\thetas{\theta^{*}} 390 | \def\thetac{\theta'} 391 | \def\thetad{\theta^{\circ}} 392 | \def\thetab{\theta^{\dag}} 393 | \def\thetavb{\thetav^{\dag}} 394 | 395 | \def\vtheta{\vartheta} 396 | \def\vthetav{\bb{\vtheta}} 397 | %\def\prior{\operatorname{pr}} 398 | \def\prior{\Pi} 399 | 400 | \def\Gam{\Xi} 401 | \def\Gam{\mathcal{S}} 402 | \def\RG{R} 403 | \def\Psu{\Upsilon} 404 | \def\Phim{\breve{\Phi}} 405 | 406 | \def\Proj{P} 407 | 408 | \def\gammavs{\gammav^{*}} 409 | \def\gammavd{\gammav^{\circ}} 410 | \def\etavs{\etav^{*}} 411 | \def\etavd{\etav^{\circ}} 412 | \def\etavc{\etav'} 413 | 414 | \def\taus{\tau_{0}} 415 | \def\taup{\lceil \tau \rceil} 416 | 417 | %\def\Sigmas{{\Sigma^{*}}} 418 | \def\sigmas{{\sigma^{*}}} 419 | \def\Sigmas{\Sigma_{0}} 420 | 421 | \def\upsilonc{\upsilon'} 422 | \def\upsilond{\upsilon^{\circ}} 423 | \def\upsilonp{{\upsilon}^{*}} 424 | \def\upsilonm{{\upsilon}_{*}} 425 | \def\upsilonvs{\upsilonv^{*}} 426 | \def\upsilons{\upsilon^{*}} 427 | \def\upsilonb{\bar{\upsilon}} 428 | 429 | \def\ups{\bb{\upsilon}} 430 | \def\upss{\ups_{0}} 431 | \def\upsc{\ups^{\prime}} 432 | \def\upsd{\ups^{\circ}} 433 | %\def\upsd{\mathring{\ups}} 434 | %\def\upsd{\breve{\ups}} 435 | \def\upsdc{\ups^{\sharp}} 436 | \def\upsdu{\ups^{\flat}} 437 | 438 | \def\Ups{\varUpsilon} 439 | \def\Upsd{\Ups^{\circ}} 440 | \def\Upss{\Ups_{\circ}} 441 | \def\UpsP{\Ups^{c}} 442 | 443 | \def\Thetas{\Theta_{0}} 444 | \def\ThetasGP{\Theta_{0,\GP}} 445 | \def\varthetav{\bb{\vartheta}} 446 | 447 | 448 | \def\glink{g} 449 | 450 | 451 | \def\fvs{\fv} 452 | \def\fs{f} 453 | \def\fb{\fv^{\dag}} 454 | 455 | 456 | 457 | %\def\uu{\bb{u}} 458 | \def\uc{\uv'} 459 | \def\ud{\uv^{\circ}} 460 | \def\uvs{\uv^{*}} 461 | \def\us{u^{*}} 462 | 463 | 464 | \def\reps{\epsilon} 465 | \def\eps{\epsilon} 466 | 467 | \def\repsc{\reps_{0}} 468 | \def\repsb{\reps^{*}} 469 | %\def\repsg{\mathfrak{e}} 470 | \def\repsg{g} 471 | 472 | \def\lu{\delta} 473 | \def\lub{\bar{\lu}} 474 | 475 | \def\Uu{U} 476 | \def\UU{\cc{Y}} 477 | \def\UUM{\cc{M}} 478 | \def\UP{\cc{U}} 479 | \def\up{\mathfrak{u}} 480 | 481 | \def\VP{V} 482 | \def\VPc{\VP_{0}} 483 | \def\VPV{\cc{U}} 484 | \def\VPVc{\cc{\VPV}_{0}} 485 | \def\VPGP{\VP_{\GP}} 486 | \def\VPSP{\VP_{\SP}} 487 | 488 | \def\VV{H} 489 | \def\GV{\cc{G}} 490 | \def\GVS{S} 491 | 492 | \def\VVb{\VV^{*}} 493 | \def\VVc{\VV_{0}} 494 | \def\vv{\bb{h}} 495 | \def\vva{g} 496 | \def\vp{\mathbf{v}} 497 | \def\vpc{\vp_{0}} 498 | \def\VVca{\VV} 499 | \def\Vtt{H} 500 | 501 | 502 | \def\DG{D} 503 | 504 | 505 | \def\Vn{V_{0}} 506 | \def\vn{v_{0}} 507 | 508 | \def\norm{\mathfrak{c}} 509 | %\def\normc{\mathfrak{d}} 510 | \def\normc{\delta} 511 | \def\norma{c} 512 | 513 | \def\egridd{\cc{E}_{\delta}} 514 | \def\penb{\varkappa} 515 | 516 | \def\dotzeta{\dot{\zeta}} 517 | %\def\mes{\operatorname{mes}} 518 | \def\mes{\pi} 519 | \def\mesl{\Lambda} 520 | \def\cprr{F} 521 | 522 | %\def\lambdab{\bar{\lambda}} 523 | \def\lambdam{\gm_{1}} 524 | \def\lambdaB{{\lambda}^{*}} 525 | \def\lambdac{{\lambda'}} 526 | 527 | %\def\cla{\mathfrak{b}} 528 | \def\cla{{b}} 529 | \def\fis{\mathfrak{a}} 530 | \def\fiss{\fis_{1}} 531 | 532 | \def\Vd{{V}} 533 | \def\vd{\bar{v}} 534 | 535 | \def\klim{k^{\circ}} 536 | \def\midm{\mid \!} 537 | 538 | \def\Ldrift{M} 539 | \def\ldrift{m} 540 | \def\mY{b} 541 | \def\Lvar{D} 542 | \def\lvar{\sigma} 543 | 544 | \def\Mubcu{\Upsilon} 545 | \def\Dthetav{\bb{u}} 546 | 547 | 548 | \def\B{\cc{B}} 549 | %\def\BD{\mathring{\B}} 550 | \def\BD{\B^{\circ}} 551 | \def\BU{B} 552 | \def\BI{\B^{*}} 553 | %\def\dD{d^{*}} 554 | 555 | %\def\Ns{\mathbb{N}} 556 | %\def\Nsd{\mathbb{N}_{\thetavd}} 557 | 558 | \def\mub{\mu^{*}} 559 | \def\mubc{\mu} 560 | \def\mubcb{\mubc^{*}} 561 | \def\Mubc{\mathbb{M}} 562 | \def\Mubcb{\mathrm{M}} 563 | 564 | \def\zzc{\zz_{c}} 565 | \def\ww{w} 566 | \def\wwc{\ww_{c}} 567 | 568 | \def\norms{\circ} %{\vartriangle} 569 | \def\rs{\rr_{\norms}} 570 | \def\yys{\yy_{\norms}} 571 | \def\xxs{\xx_{\norms}} 572 | \def\zzs{\zz_{\norms}} 573 | \def\uu{\mathtt{u}} 574 | \def\uus{\uu_{\norms}} 575 | \def\mus{\mu_{\norms}} 576 | \def\gms{\gm_{\norms}} 577 | \def\wws{\ww_{\circ}} 578 | 579 | \def\srho{s} 580 | \def\mrho{\varrho} 581 | %\def\mrhoc{\mrho'} 582 | 583 | \def\Lmgf{\mathfrak{M}} 584 | \def\Lmgfb{\Lmgf^{*}} 585 | %\def\LMGF{\cc{M}} 586 | %\def\LMGFu{\LMGF_{*}} 587 | %\def\Lmgfd{\bar{\Lmgf}} 588 | %\def\LmgfP{\Lmgf^{\circ}} 589 | 590 | \def\lmgf{\mathfrak{m}} 591 | \def\lmgfb{\lmgf^{*}} 592 | %\def\lmgfd{\bar{\lmgf}} 593 | 594 | 595 | \def\Expzeta{\mathfrak{N}} 596 | \def\expzeta{\mathfrak{s}} 597 | 598 | %\def\Lexpm{\mathfrak{S}} 599 | %\def\expzetab{\expzeta_{0}} 600 | %\def\ExpL{\cc{D}} 601 | %\def\mUU{\mathfrak{b}} 602 | %\def\ExpL{d} 603 | %\def\dI{\ExpL^{*}} 604 | %\def\ExpM{\cc{M}} 605 | %\def\fz{f} 606 | 607 | 608 | 609 | %\def\rough{R} 610 | 611 | \def\rr{\mathtt{r}} 612 | \def\rrb{\rr^{*}} 613 | \def\rru{\rr_{\circ}} 614 | \def\rrc{\rr'} 615 | \def\rs{r_{*}} 616 | 617 | \def\zz{\mathfrak{z}} 618 | \def\zzb{\tilde{\zz}} 619 | \def\tt{\mathfrak{t}} 620 | \def\zb{z_{\rd}} 621 | \def\zzg{\zz_{1}} 622 | \def\zzQ{\zz_{0}} 623 | \def\zzq{\zz} 624 | 625 | \def\Cr{\mathfrak{c}} 626 | \def\Crp{\mathfrak{C}} 627 | \def\Crl{\mathfrak{r}} 628 | \def\Crlp{\mathfrak{R}} 629 | %\def\Crlq{\mathfrak{T}} 630 | \def\Crlq{\cc{T}} 631 | %\def\Crlqc{\Crlq_{0}} 632 | \def\Crlmu{\cc{M}} 633 | 634 | 635 | 636 | 637 | 638 | %%%%%%%%%%%% semipar %%%%%%%%%%%%%%%%%%%%%%%% 639 | \def\zetah{\zeta_{h}} 640 | \def\GG{G} 641 | \def\HH{H} 642 | \def\pG{p} 643 | \def\pH{q} 644 | \def\hh{H^{*}} 645 | 646 | \def\mubch{\mubc_{1}} 647 | \def\rhoh{\rho_{1}} 648 | \def\CoFuh{\CoFu_{1}} 649 | \def\dimh{p_{1}} 650 | \def\VPh{\VP_{1}} 651 | \def\VPt{\VP_{0}} 652 | 653 | \def\LLh{L_{1}} 654 | \def\pnndh{\pnnd_{1}} 655 | 656 | \def\LCS{C} 657 | \def\Ac{A_{0}} 658 | \def\Ab{A_{\rd}} 659 | \def\DPrb{\DPr_{\rdb}} 660 | \def\DPrm{\DPr_{\rdm}} 661 | %\def\zetavrb{\zetavr_{\rd}} 662 | \def\Cb{\cc{C}_{\rdb}} 663 | \def\Ub{\cc{U}_{\rdb}} 664 | \def\zetavrb{\zetavr_{\rd}} 665 | \def\xivrb{\breve{\xiv}_{\rd}} 666 | \def\VPrb{\breve{\VP}_{\rdb}} 667 | \def\Larb{\breve{\La}_{\rdb}} 668 | \def\Larm{\breve{\La}_{\rdm}} 669 | \def\score{\nabla} 670 | \def\scorer{\breve{\nabla}} 671 | 672 | \def\LCS{C} 673 | \def\Ac{A_{0}} 674 | \def\Bc{B_{0}} 675 | \def\AF{A} 676 | \def\Ab{A_{\rdb}} 677 | \def\Am{A_{\rdm}} 678 | \def\DPrc{\DPr_{0}} 679 | \def\DPrb{\DPr_{\rdb}} 680 | \def\DPrm{\DPr_{\rdm}} 681 | \def\Cb{\cc{C}_{\rdb}} 682 | \def\Cm{\cc{C}_{\rdm}} 683 | \def\Ub{\cc{U}_{\rdb}} 684 | \def\deltav{\bb{\delta}} 685 | \def\nuv{\bb{\nu}} 686 | %\def\scorer_{\thetav}{\zetavr_{\rd}} 687 | \def\xivrb{\breve{\xiv}_{\rd}} 688 | \def\VPrb{\breve{\VP}_{\rdb}} 689 | \def\Larb{\breve{\La}_{\rdb}} 690 | \def\Lar{\breve{\La}} 691 | \def\Larm{\breve{\La}_{\rdm}} 692 | \def\VH{Q} 693 | \def\VHc{\VH_{0}} 694 | \def\zetavrm{\zetavr_{\rdm}} 695 | \def\N{\mathbb{N}} 696 | 697 | \def\Span{\operatorname{span}} 698 | \def\Exc{{\square}} 699 | \def\UUs{U_{\circ}} 700 | \def\errbm{\errb^{*}} 701 | \def\corrDF{\nu} 702 | \def\BBr{\breve{\BB}} 703 | \def\taua{\tau} 704 | \def\AssId{\mathcal{I}} 705 | \def\AFD{\cc{A}} 706 | 707 | \def\BanX{\cc{X}} 708 | \def\basX{\ev} 709 | \def\apprX{\alpha} 710 | \def\fvs{\fv^{*}} 711 | \def\lkh{\ell} 712 | \def\Bc{B_{0}} 713 | \def\lin{\operatorname{lin}} 714 | 715 | \def\assId{\iota} 716 | 717 | %%%%%%%%%%% BvM %%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 718 | 719 | 720 | \def\xivGP{\xiv_{\GP}} 721 | \def\dimA{\mathtt{p}} 722 | \def\dimAGP{\dimA} 723 | \def\dime{\dimA_{e}} 724 | \def\dimS{\dimA_{s}} 725 | \def\nubm{\nu_{\rd}} 726 | \def\uub{u_{\rd}} 727 | \def\uubGP{u_{\rd,\GP}} 728 | 729 | \def\priorden{\pi} 730 | \def\xivGP{\xiv_{\GP}} 731 | \def\dimA{\mathtt{p}} 732 | \def\dimAGP{\dimA} 733 | \def\dime{\dimA_{e}} 734 | \def\dimS{\dimA_{s}} 735 | \def\nubm{\nu_{\rd}} 736 | \def\uub{u_{\rd}} 737 | \def\uubGP{u_{\rd,\GP}} 738 | 739 | \def\CR{\mathcal{C}} 740 | \def\CRb{\CR_{\rdb}} 741 | \def\vthetavb{\bar{\vthetav}} 742 | \def\Covpost{\mathfrak{S}} 743 | 744 | \def\Db{\DP_{+}} 745 | \def\Dm{\DP_{-}} 746 | \def\uvb{\uv_{+}} 747 | \def\uvm{\uv_{-}} 748 | \def\uud{\omega} 749 | \def\taub{\delta} 750 | \def\Lip{L} 751 | \def\Xb{X_{+}} 752 | \def\Xm{X_{-}} 753 | \def\deltam{\delta_{-}} 754 | \def\betauv{\delta} 755 | \def\betab{\betauv_{1}} 756 | \def\betaf{\betauv_{2}} 757 | \def\upsv{\bb{\varkappa}} 758 | \def\upsvb{\bar{\upsv}} 759 | \def\rhob{\varrho} 760 | \def\alpb{\alp_{1}} 761 | \def\betap{\betauv_{3}} 762 | \def\Ec{\E^{\circ}} 763 | \def\ff{f} 764 | \def\fpos{g} 765 | \def\fneg{h} 766 | \def\alpb{\alp_{+}} 767 | \def\alpm{\alp_{-}} 768 | 769 | 770 | 771 | 772 | %%%%%%%%%%% sms %%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 773 | \def\kappak{\kappa} 774 | \def\kappas{\kappak^{*}} 775 | \def\Kappak{\cc{K}} 776 | \def\DPk{\DP_{\kappak}} 777 | \def\VPk{\VP_{\kappak}} 778 | 779 | 780 | 781 | %%%%%%%%%%%% sp %%%%%%%%%%%%%%%%%%%%%%%%%%%%% 782 | \def\ts{s} 783 | \def\tsv{\bb{\ts}} 784 | \def\mm{\kappa} 785 | \def\mmc{\mm'} 786 | \def\mmd{\mm^{\circ}} 787 | \def\mmo{\mm^{*}} 788 | \def\mmmmo{\mm,\mmo} 789 | \def\mmt{\tilde{\mm}} 790 | \def\mma{\hat{\mm}} 791 | \def\pp{z} 792 | 793 | \def\LLL{L_{1}} 794 | \def\LLr{L_{0}} 795 | \def\muL{\mu_{1}} 796 | \def\mur{\mu_{0}} 797 | 798 | \def\LmgfL{\Lmgf_{1}} 799 | \def\Lmgfr{\Lmgf_{0}} 800 | \def\Lmgfm{\Lmgf_{1}} 801 | 802 | \def\Kappa{\cc{K}} 803 | \def\CoFu{\cc{C}} 804 | \def\CoFuc{\CoFu_{0}} 805 | \def\CoFub{\CoFu^{*}} 806 | \def\CoFuL{\CoFu_{1}} 807 | \def\CoFur{\CoFu_{0}} 808 | \def\CAL{\CA_{1}} 809 | \def\CAr{\CA_{0}} 810 | \def\CAzz{\cc{A}} 811 | 812 | \def\pnnL{\pnn_{1}} 813 | \def\pnnr{\pnn_{0}} 814 | \def\ttd{\delta} 815 | \def\alphaL{\alpha_{1}} 816 | \def\alphar{\alpha_{0}} 817 | \def\alpharL{\alpha} 818 | \def\rat{\mathfrak{t}} 819 | \def\mquad{\nquad} 820 | \def\zzL{\zz_{1}} 821 | \def\zzr{\zz_{0}} 822 | 823 | \def\mmset{\mathcal{I}} 824 | \def\xex{u} 825 | \def\dcm{q} 826 | \def\dc{g} 827 | \def\dcL{\dc_{1}} 828 | \def\dcr{\dc_{0}} 829 | \def\kk{k} 830 | 831 | \def\cpen{\tau} 832 | 833 | %================= density ============== 834 | \def\dens{f} 835 | \def\jj{j} 836 | \def\JJ{\cc{J}} 837 | \def\Zphi{Z} 838 | \def\Zphiv{\bb{\Zphi}} 839 | 840 | 841 | %================= LES ===================== 842 | \def\nuu{\mathfrak{u}} 843 | \def\nud{\mathfrak{u}_{0}} 844 | \def\nun{c_{\nuu}} 845 | \def\rhork{\kullb} 846 | \def\GH{\mbox{GH}} 847 | \def\HYP{\mbox{HYP}} 848 | \def\NIG{\mbox{NIG}} 849 | \def\IR{{\rm I\!R}} 850 | \def\taggr{b} 851 | \def\penm{\boldsymbol{m}} 852 | \def\Crlp{\cc{R}} 853 | --------------------------------------------------------------------------------