├── .gitignore ├── LICENSE ├── README.md ├── code ├── DeGroot_example_6.3.3.r ├── De_Groot_example_6.2.3.R ├── IC_Poisson_approx_cobertura.r ├── IC_da_palmirinha.r ├── IC_normal.r ├── IC_normal_cobertura.r ├── IC_uniforme.r ├── LGN.r ├── LRT_binomial.r ├── Poisson_gamma_Bayes.r ├── Poisson_gamma_Bayes_sequential.r ├── Q1_A1_2022.r ├── Q2_A1_2022.r ├── Q_1_P1_2021.r ├── Q_2_P1_2021.r ├── Q_4_P1_2021.r ├── Rao_Blackwell_exemplo.r ├── cloud_seeding.csv ├── dados_ponto_fervura.csv ├── distribuicao_media_variancia_amostrais_normal.r ├── estimadores_uniforme_0_theta.r ├── estimadores_uniforme_theta_2theta.r ├── exemplo_8.3.1_DeGroot.r ├── exemplo_9.1.16_DeGroot.ipynb ├── exemplo_9.2.5_DeGroot.r ├── exemplo_componentes_eletronicos.r ├── exemplo_grandes_amostras.r ├── metodo_delta_exponencial.r ├── plots_t_Student.r ├── regressao_linear.r ├── sampling_distribution_mle_exponential.r ├── teste_binomial_rascunho.r ├── teste_t_pareado.r └── teste_uniforme_0_theta.r ├── exercicios ├── CMT_1_2022.pdf ├── CMT_2_2022.pdf ├── exercícios_revisão_A1.pdf ├── exercícios_revisão_A2.pdf ├── exercícios_revisão_A2.tex ├── exercícios_revisão_probabilidade.pdf └── exercícios_revisão_probabilidade.tex ├── material_apoio └── Trotter1959_Article_AnElementaryProofOfTheCentralL.pdf ├── provas ├── PDF │ ├── A12020_solucoes.pdf │ ├── A12021_solucoes.pdf │ ├── A12022_solucoes.pdf │ ├── A22020_solucoes.pdf │ ├── A22021_solucoes.pdf │ └── A22022_solucoes.pdf └── src │ ├── A12020_solucoes.tex │ ├── A12021_solucoes.tex │ ├── A12022_solucoes.tex │ ├── A1_2022_sol1.tex │ ├── A1_2022_sol2.tex │ ├── A1_2022_sol3.tex │ ├── A1_2022_sol_bonus.tex │ ├── A22020_solucoes.tex │ ├── A22021_solucoes.tex │ ├── A2_2022_sol1.tex │ ├── A2_2022_sol2.tex │ ├── A2_2022_sol3.tex │ ├── P2_2022_BSc_solucoes.tex │ ├── Q2_A1_2022_ests.pdf │ ├── a2_2021.bib │ ├── ests_Q4.pdf │ └── var_delta_1.pdf ├── scribbles ├── 2021-09-27-Qui_quadrado.pdf ├── 2021-09-27_inferencia.pdf ├── 2021-09-29_inferencia.pdf ├── 2021-10-04_inferencia.pdf └── 2021-10-06_inferencia.pdf ├── slides ├── README.md ├── aula_1.tex ├── aula_10.tex ├── aula_11.tex ├── aula_12.tex ├── aula_13.tex ├── aula_14.tex ├── aula_15.tex ├── aula_16.tex ├── aula_17.tex ├── aula_18.tex ├── aula_19.tex ├── aula_2.tex ├── aula_3.tex ├── aula_4.tex ├── aula_5.tex ├── aula_6.tex ├── aula_7.tex ├── aula_8.tex ├── aula_9.tex ├── beamercolorthemechameleon.sty ├── beamercolorthemefreewilly.sty ├── beamercolorthemenouvelle.sty ├── beamerinnerthemefancy.sty ├── beamerouterthemedecolines.sty ├── beamerthemeTorino.sty ├── figures │ ├── Bayes_Theorem_MMB_01.jpg │ ├── anscombe.png │ ├── anscombe_mod.pdf │ ├── bayesian_inference.jpg │ ├── beta_3_2_LGN.pdf │ ├── bilateral.pdf │ ├── blood_pressure.pdf │ ├── comparacao_t_Student.pdf │ ├── defeituosos.pdf │ ├── exponential_mle_deltaMethod.pdf │ ├── freq_meme.jpg │ ├── gamma_1_2.pdf │ ├── hypothesis_testing_funny.jpeg │ ├── poder_palmirinha.pdf │ ├── posterior_componentes.pdf │ ├── pressure_data.pdf │ ├── pressure_model.pdf │ ├── probability_curves_DeGroot8.1.pdf │ ├── sample_moments_normal.pdf │ ├── sequential_Bayes_componentes.pdf │ └── wrong_pvalue_funny.jpeg ├── inferencia.pdf ├── inferencia.tex └── logo.jpg └── trabalhos ├── refs.bib ├── trabalho_I.pdf ├── trabalho_I.tex ├── trabalho_II.pdf ├── trabalho_II.tex ├── trabalho_III.pdf ├── trabalho_III.tex ├── trabalho_IV.pdf ├── trabalho_IV.tex ├── trabalho_V.pdf └── trabalho_V.tex /.gitignore: -------------------------------------------------------------------------------- 1 | # History files 2 | .Rhistory 3 | .Rapp.history 4 | 5 | # Session Data files 6 | .RData 7 | 8 | # User-specific files 9 | .Ruserdata 10 | 11 | # Example code in package build process 12 | *-Ex.R 13 | 14 | # Output files from R CMD build 15 | /*.tar.gz 16 | 17 | # Output files from R CMD check 18 | /*.Rcheck/ 19 | 20 | # RStudio files 21 | .Rproj.user/ 22 | 23 | # produced vignettes 24 | vignettes/*.html 25 | vignettes/*.pdf 26 | 27 | # OAuth2 token, see https://github.com/hadley/httr/releases/tag/v0.3 28 | .httr-oauth 29 | 30 | # knitr and R markdown default cache directories 31 | *_cache/ 32 | /cache/ 33 | 34 | # Temporary files created by R markdown 35 | *.utf8.md 36 | *.knit.md 37 | 38 | # R Environment Variables 39 | .Renviron 40 | 41 | # LaTeX 42 | *.aux 43 | *.log 44 | *.bbl 45 | *.out 46 | -------------------------------------------------------------------------------- /LICENSE: -------------------------------------------------------------------------------- 1 | MIT License 2 | 3 | Copyright (c) 2020 Luiz Max F. Carvalho 4 | 5 | Permission is hereby granted, free of charge, to any person obtaining a copy 6 | of this software and associated documentation files (the "Software"), to deal 7 | in the Software without restriction, including without limitation the rights 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell 9 | copies of the Software, and to permit persons to whom the Software is 10 | furnished to do so, subject to the following conditions: 11 | 12 | The above copyright notice and this permission notice shall be included in all 13 | copies or substantial portions of the Software. 14 | 15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR 16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, 17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE 18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER 19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, 20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE 21 | SOFTWARE. 22 | -------------------------------------------------------------------------------- /code/DeGroot_example_6.3.3.r: -------------------------------------------------------------------------------- 1 | ######################################################################### 2 | ## Problema Amostre 12 variaveis aleatorias independentes uniforme(0, 1) 3 | ## Defina x_bar = soma(X)/12 4 | ## Quanto vale Pr(|x_bar - 0.5| < 0.1)? 5 | ## Para a solução exata, notar que a soma de n v.a.s U(0, 1) tem 6 | ### distribuição Irwin-Hall (https://en.wikipedia.org/wiki/Irwin%E2%80%93Hall_distribution) 7 | ### e que Pr(|X - 1/2| < 0.1) = Pr(0.4 < X < 0.6) = Pr(X<0.6)-Pr(X<0.4). 8 | ######################################################################### 9 | ## Funcoes auxiliares 10 | IW_cdf <- function(x, n){ 11 | if(x > n) return(1) 12 | ks <- 0:floor(x) 13 | vals <- sapply(ks, function(k) (-1)^k * choose(n, k) * (x-k)^n) 14 | S <- sum(vals) 15 | ans <- exp(log(S)-lfactorial(n)) 16 | return(ans) 17 | } 18 | IW_cdf <- Vectorize(IW_cdf) 19 | ###################### 20 | ## Usando TCL 21 | aproximacao.normal <- pnorm(1.2)-pnorm(-1.2) 22 | 23 | ## Usando Monte Carlo 24 | M <- 1E6 25 | amostras <- matrix(NA, nrow = M, ncol = 12) 26 | for(i in 1:M) amostras[i, ] <- runif(12) 27 | 28 | medias <- apply(amostras, 1, mean) 29 | 30 | aproximacao.monte.carlo <- mean(abs(medias-0.5) < 0.1) 31 | 32 | ## Exato 33 | curve(IW_cdf(x, n = 12), 0, 12) 34 | abline(v = 0.4 * 12, lwd = 2, lty = 2) 35 | abline(v = 0.6 * 12, lwd = 2, lty = 2) 36 | 37 | exato <- IW_cdf(0.6*12, n = 12)-IW_cdf(0.4*12, n = 12) 38 | 39 | #### Comparando 40 | aproximacao.normal 41 | aproximacao.monte.carlo 42 | exato 43 | 44 | aproximacao.normal - exato 45 | aproximacao.monte.carlo - exato -------------------------------------------------------------------------------- /code/De_Groot_example_6.2.3.R: -------------------------------------------------------------------------------- 1 | ### X_1, \ldots, X_n are i.i.d Bernoulli with p = 1/2 2 | ### S = sum(X_i) 3 | ### p = Pr(4n/10 < S < 6n/ 10) 4 | ## We want n such that p > 0.7 5 | ## Chebychev approx 6 | computa_n_Chebychev <- function(p, theta = 0.5, a = .4){ 7 | ans <- ceiling( 8 | 1/( 9 | 4 * (1-p) * (a-theta)^2 10 | ) 11 | ) 12 | return(ans) 13 | } 14 | calcula_p_exata <- function(n, theta = 0.5, a = .4){ 15 | prob <- 16 | pbinom(q = round((1-a)*n), size = n, p = theta) - 17 | pbinom(q = round(a*n)-1, size = n, p = theta) 18 | return(prob) 19 | } 20 | aa <- .4 21 | tt <- .5 22 | n.chute <- 2 23 | p.chute <- calcula_p_exata(n.chute, theta = tt, a = aa) 24 | alvo <- 0.7 25 | cat("Tamanho de amostra é:", n.chute, " Alvo é: ", alvo, " p é:", p.chute, "\n") 26 | fn_erro <- function(n){ 27 | (calcula_p_exata(n = n, theta = tt, a = aa)-alvo)^2 28 | } 29 | if(p.chute < alvo){ 30 | M <- 10000 31 | ns <- 2:M 32 | erros <- sapply(ns, fn_erro) 33 | print( n.opt <- ns[which.min(erros)] ) 34 | calcula_p_exata(n.opt, theta = tt, a = aa) 35 | } 36 | computa_n_Chebychev(p = alvo, theta = tt, a = aa) 37 | -------------------------------------------------------------------------------- /code/IC_Poisson_approx_cobertura.r: -------------------------------------------------------------------------------- 1 | is_in <- function(x, l, u){ 2 | below <- x >= l 3 | above <- x <= u 4 | result <- as.logical(below * above) 5 | return(result) 6 | } 7 | 8 | get_ci <- function(x, gamma = 0.95){ 9 | n <- length(x) 10 | cc <- qnorm(p = (1+gamma)/2) 11 | x_bar <- mean(x) 12 | Z <- cc*sqrt(x_bar/n) 13 | A <- x_bar - Z 14 | B <- x_bar + Z 15 | return( 16 | data.frame(xbar = x_bar, lwr = A, upr = B) 17 | ) 18 | } 19 | ##### 20 | mu <- 2 21 | n <- 50# 919 22 | M <- 5000 23 | 24 | amostras <- matrix(rpois(n*M, lambda = mu), 25 | ncol = n, nrow = M) 26 | 27 | hist(amostras[1, ]) 28 | get_ci(amostras[1, ]) 29 | 30 | intervalos <- data.frame(mean = rep(NA, M), 31 | L = rep(NA, M), 32 | U = rep(NA, M), 33 | contem = rep(NA, M)) 34 | 35 | for( i in 1:M){ 36 | intervalos[i, 1:3] <- get_ci(amostras[i, ]) 37 | intervalos$contem[i] <- is_in(x = mu, 38 | l = intervalos[i, 2], 39 | u = intervalos[i, 3]) 40 | } 41 | intervalos <- data.frame(amostra = 1:M, intervalos) 42 | 43 | tail(intervalos) 44 | 45 | mean(intervalos$contem) 46 | 47 | 48 | ##### Plots 49 | library(ggplot2) 50 | 51 | 52 | p1 <- ggplot() + 53 | geom_pointrange(data = intervalos, 54 | mapping = aes(x = amostra, y = mean, 55 | ymin = L, ymax = U, colour = contem)) + 56 | geom_hline(yintercept = mu, linetype = "longdash") + 57 | ggtitle("Poisson aproximado") + 58 | theme_bw(base_size = 20) 59 | 60 | p1 61 | # gridExtra::grid.arrange(p1, p2, ncol=2) 62 | 63 | larguras.desc <- intervalos$U-intervalos$L 64 | hist(larguras.desc, probability = TRUE) 65 | mean(larguras.desc) 66 | -------------------------------------------------------------------------------- /code/IC_da_palmirinha.r: -------------------------------------------------------------------------------- 1 | xbar <- 8.307849 2 | s2bar <- 7.930452 ## 1/n * Delta^2; Delta^2 = sum((x-xbar)^2) 3 | n <- 1000 4 | 5 | gama <- .95 6 | cc <- qt(p = (1 + gama)/2, 7 | df = n-1) ## inv_cdf_T_{n-1}((1 + gamma)/2) 8 | sigma.prime <- sqrt(n*s2bar/(n-1)) 9 | d <- cc * sigma.prime/sqrt(n) 10 | 11 | a <- xbar - d 12 | b <- xbar + d 13 | 14 | c(a, b) 15 | c(xbar, a, b) 16 | 17 | ### Supondo que sigma é conhecida 18 | truesd <- 2 19 | 20 | # (xbar - mu)/sqrt(sigma^2/n) ~ N(0, 1) 21 | 22 | # Pr( -k < Z < k) = gamma 23 | # Pr( xbar - k*sigma/sqrt(n) < mu < xbar + k*sigma/sqrt(n)) = gamma 24 | 25 | # a > 0 26 | # 2*Phi(k)-1 = gamma => a = Phi_inv((1+gamma)/2) 27 | 28 | k <- qnorm(p = (1 + gama)/2, mean = 0, sd = 1) 29 | 30 | d2 <- k*truesd/sqrt(n) 31 | a2 <- xbar - d2 32 | b2 <- xbar + d2 33 | 34 | c(xbar, a, b) 35 | c(xbar, a2, b2) 36 | 37 | # Função poder 38 | 39 | mu0 <- 7 40 | 41 | poder_pamonha <- function(mu){ 42 | x <- sqrt(n) * (mu0 + cc - mu)/truesd 43 | y <- sqrt(n) * (mu0 - cc - mu)/truesd 44 | res <- pnorm(x, mean = 0, sd = 1, 45 | lower.tail = FALSE) + 46 | pnorm(y, mean = 0, sd = 1) 47 | return(res) 48 | } 49 | poder_pamonha <- Vectorize(poder_pamonha) 50 | 51 | curve(poder_pamonha, 0, 14, 52 | xlab = expression(mu), 53 | ylab = expression(pi(mu*"|"*delta)), lwd = 3) 54 | abline(v = mu0, lty = 2, lwd = 2) 55 | 56 | ### Testando hipóteses (APG) 57 | #### Unilateral 58 | ## H0: mu >= 7 59 | ## H1: mu < 7 60 | ### U > c => reijeito H0 61 | ### U < c => não rejeito H0 62 | # X ~n(mu0, sigma^2) 63 | U <- (sqrt(n) * (xbar-mu0))/sigma.prime 64 | ## Se H0 = vdd então U ~ T(n-1) 65 | ( p.valor <- pt(q = U, df = n-1) ) ## T^{-1}(U; n-1) 66 | 67 | ## install.packages("BSDA") 68 | BSDA::tsum.test(mean.x = xbar, 69 | s.x = sigma.prime, 70 | n.x = n, mu = mu0, 71 | alternative = "less") 72 | 73 | BSDA::tsum.test(mean.x = xbar, 74 | s.x = sigma.prime, 75 | n.x = n, mu = mu0) 76 | -------------------------------------------------------------------------------- /code/IC_normal.r: -------------------------------------------------------------------------------- 1 | truemu <- -.5 2 | truesd <- 200 3 | 4 | n <- 10 5 | M <- 10000 6 | gama <- .90 7 | cc <- qt(p = (1 + gama)/2, df = n-1) 8 | 9 | computa_D <- function(x) { 10 | n <- length(x) 11 | Delta.sq <- sum((x - mean(x))^2) 12 | sigma.prime <- sqrt(Delta.sq/(n-1)) 13 | d <- cc * sigma.prime/sqrt(n) 14 | return(d) 15 | } 16 | 17 | ta_no_intervalo <- function(intervalo){ 18 | (intervalo[1] <= truemu) * (truemu <= intervalo[2]) 19 | } 20 | ####### 21 | 22 | data.sets <- matrix(rnorm(n = n*M, mean = truemu, sd = truesd), 23 | ncol = n, nrow = M) 24 | 25 | 26 | Xbars <- apply(data.sets, 1, mean) 27 | Ds <- apply(data.sets, 1, computa_D) 28 | As <- Xbars - Ds 29 | Bs <- Xbars + Ds 30 | 31 | Intervalos <- data.frame(lwr = As, upr = Bs) 32 | Intervalos$contem <- apply(Intervalos, 1, ta_no_intervalo) 33 | 34 | mean(Intervalos$contem) ## cobertura dos intervalos 35 | 36 | 37 | ########### Figura 38 | praplotar <- data.frame(lwr = As, media = Xbars, upr = Bs, 39 | inclui = as.factor(Intervalos$contem), replicata = 1:M) 40 | library(ggplot2) 41 | 42 | p0 <- ggplot(data = praplotar, aes(x = replicata, y = media, colour = inclui)) + 43 | geom_point() + 44 | geom_errorbar(aes(ymin = lwr, ymax = upr)) + 45 | geom_hline(yintercept = truemu, linetype = "longdash", size = 1.5) + 46 | scale_y_continuous(expression(bar(X[n]) %+-% D), expand = c(0, 0)) + 47 | theme_bw(base_size = 16) 48 | 49 | p0 50 | -------------------------------------------------------------------------------- /code/IC_normal_cobertura.r: -------------------------------------------------------------------------------- 1 | is_in <- function(x, l, u){ 2 | below <- x >= l 3 | above <- x <= u 4 | result <- as.logical(below * above) 5 | return(result) 6 | } 7 | 8 | get_ci <- function(x, gamma = 0.95){ 9 | n <- length(x) 10 | cc <- qt(p = (1+gamma)/2, df = n-1) 11 | x_bar <- mean(x) 12 | sigma_prime <- sqrt(var(x)) 13 | Z <- cc*sigma_prime/sqrt(n) 14 | A <- x_bar - Z 15 | B <- x_bar + Z 16 | return( 17 | data.frame(xbar = x_bar, lwr = A, upr = B) 18 | ) 19 | } 20 | 21 | get_ci_fixedVar <- function(x, v, gamma = 0.95){ 22 | n <- length(x) 23 | zz <- qnorm(p = (1+gamma)/2) 24 | x_bar <- mean(x) 25 | Z <- zz*sqrt(v/n) 26 | A <- x_bar - Z 27 | B <- x_bar + Z 28 | return( 29 | data.frame(xbar = x_bar, lwr = A, upr = B) 30 | ) 31 | } 32 | ##### 33 | mu <- 42 34 | sigma_sq <- 30^2 35 | n <- 5# 919 36 | M <- 5000 37 | 38 | amostras <- matrix(rnorm(n*M, mean = mu, 39 | sd = sqrt(sigma_sq)), 40 | ncol = n, nrow = M) 41 | 42 | hist(amostras[1, ]) 43 | get_ci(amostras[1, ]) 44 | 45 | intervalos <- data.frame(mean = rep(NA, M), 46 | L = rep(NA, M), 47 | U = rep(NA, M), 48 | contem = rep(NA, M)) 49 | 50 | for( i in 1:M){ 51 | intervalos[i, 1:3] <- get_ci(amostras[i, ]) 52 | intervalos$contem[i] <- is_in(x = mu, 53 | l = intervalos[i, 2], 54 | u = intervalos[i, 3]) 55 | } 56 | intervalos <- data.frame(amostra = 1:M, intervalos) 57 | 58 | tail(intervalos) 59 | 60 | mean(intervalos$contem) 61 | 62 | ######## Variancia conhecida 63 | 64 | intervalos.vc <- data.frame(mean = rep(NA, M), 65 | L = rep(NA, M), 66 | U = rep(NA, M), 67 | contem = rep(NA, M)) 68 | 69 | for( i in 1:M){ 70 | intervalos.vc[i, 1:3] <- get_ci_fixedVar(amostras[i, ], v = sigma_sq) 71 | intervalos.vc$contem[i] <- is_in(x = mu, 72 | l = intervalos.vc[i, 2], 73 | u = intervalos.vc[i, 3]) 74 | } 75 | intervalos.vc <- data.frame(amostra = 1:M, intervalos.vc) 76 | 77 | tail(intervalos.vc) 78 | mean(intervalos.vc$contem) 79 | 80 | 81 | ##### Plots 82 | library(ggplot2) 83 | 84 | 85 | p1 <- ggplot() + 86 | geom_pointrange(data = intervalos, 87 | mapping = aes(x = amostra, y = mean, 88 | ymin = L, ymax = U, colour = contem)) + 89 | geom_hline(yintercept = mu, linetype = "longdash") + 90 | ggtitle("Variância desconhecida") + 91 | theme_bw(base_size = 20) 92 | 93 | 94 | p2 <- ggplot() + 95 | geom_pointrange(data = intervalos.vc, 96 | mapping = aes(x = amostra, y = mean, 97 | ymin = L, ymax = U, colour = contem)) + 98 | geom_hline(yintercept = mu, linetype = "longdash") + 99 | ggtitle("Variância conhecida") + 100 | theme_bw(base_size = 20) 101 | 102 | 103 | p1 104 | p2 105 | # gridExtra::grid.arrange(p1, p2, ncol=2) 106 | 107 | larguras.desc <- intervalos$U-intervalos$L 108 | larguras.vc <- intervalos.vc$U-intervalos.vc$L 109 | 110 | hist(larguras.desc, probability = TRUE) 111 | abline(v = larguras.vc[1], lwd = 3, lty = 2) 112 | 113 | mean(larguras.desc) 114 | larguras.vc[1] 115 | -------------------------------------------------------------------------------- /code/IC_uniforme.r: -------------------------------------------------------------------------------- 1 | is_in <- function(x, l, u){ 2 | below <- x >= l 3 | above <- x <= u 4 | result <- as.logical(below * above) 5 | return(result) 6 | } 7 | get_ci <- function(x){ 8 | y1 <- min(x) 9 | y2 <- max(x) 10 | return( 11 | data.frame( 12 | lwr = y1, 13 | upr = y2, 14 | width = y2-y1 15 | ) 16 | ) 17 | } 18 | 19 | ###################### 20 | theta <- 10 # -pi^2/6 21 | ll <- 1/2 22 | M <- 10000 23 | 24 | amostras <- matrix(runif(2*M, min = theta-ll, max = theta + ll), 25 | nrow = M, ncol = 2) 26 | cis <- apply(amostras, 1, get_ci) 27 | cis.dt <- do.call(rbind, cis) 28 | inclusion <- unlist( 29 | lapply(cis, 30 | function(x) is_in(x = theta, l = x[1], u = x[2])) 31 | ) 32 | mean(inclusion) 33 | sum(inclusion) 34 | head(cis.dt) 35 | 36 | theta 37 | 38 | hist(cis.dt$width) 39 | abline(v = ll, lwd = 3, lty = 2) 40 | 41 | boxplot(cis.dt$width~inclusion) 42 | abline(h = ll, lwd = 3, lty = 2) 43 | 44 | head(cis.dt) 45 | theta 46 | 47 | smaller <- which(cis.dt$width < 1/2) 48 | includes <- which(inclusion) 49 | 50 | length( 51 | intersect(smaller, includes) 52 | ) 53 | 54 | -------------------------------------------------------------------------------- /code/LGN.r: -------------------------------------------------------------------------------- 1 | dist <- "beta" 2 | 3 | ## Beta 4 | alpha <- 3 5 | beta <- 2 6 | 7 | ## Log-normal 8 | mu <- 0 9 | sigma <- 2 10 | 11 | if(dist == "ln"){ 12 | EX <- exp(mu + sigma^2/2) 13 | }else{ 14 | EX <- alpha / (alpha + beta) 15 | } 16 | 17 | computa_media <- function(n){ 18 | if(dist == "ln"){ 19 | mean(rlnorm(n = n, meanlog = mu, sdlog = sigma)) 20 | }else{ 21 | mean(rbeta(n = n, shape1 = alpha, shape2 = beta)) 22 | } 23 | } 24 | ns <- seq(2, 1E5, by = 500) 25 | medias <- sapply(ns, computa_media) 26 | 27 | library(ggplot2) 28 | 29 | forplot <- data.frame(n = ns, x_bar = medias) 30 | 31 | ggplot(forplot, aes(x = n, y = x_bar))+ 32 | geom_line() + 33 | scale_x_continuous("Tamanho de amostra", expand = c(0, 0)) + 34 | scale_y_continuous(expression(bar(X[n])), expand = c(0, 0)) + 35 | geom_hline(yintercept = EX, linetype = "longdash", size = 2) + 36 | theme_bw(base_size = 16) 37 | 38 | -------------------------------------------------------------------------------- /code/LRT_binomial.r: -------------------------------------------------------------------------------- 1 | ############ 2 | ## Funções auxiliares 3 | # Exemplo 9.1.18 De Groot 4 | Lambda <- function(y, n, theta0, log = FALSE){ 5 | l1 <- y * (log(n*theta0)-log(y)) 6 | if(y==0) l1 <- 0 7 | l2 <- (n-y)*(log(n*(1-theta0))-log(n-y)) 8 | if(y==n) l2 <- 0 9 | ans <- l1 + l2 10 | if(!log) ans <- exp(ans) 11 | return(ans) 12 | } 13 | Lambda <- Vectorize(Lambda) 14 | # 15 | findSet <- function(tab, level = alpha0){ 16 | K <- nrow(tab) 17 | set <- NA 18 | accpr <- 0 19 | for(i in 1:K){ 20 | accpr.tent <- accpr + tab$Pr[i] 21 | if(accpr.tent < level){ 22 | accpr <- accpr.tent 23 | set <- c(set, tab$y[i]) 24 | }else{ 25 | next 26 | } 27 | } 28 | set <- na.omit(set) 29 | return( 30 | list( 31 | confidence_set = as.vector(set), 32 | test_size = accpr 33 | ) 34 | ) 35 | } 36 | 37 | ############ 38 | sample.size <- 10 39 | p0 <- 0.01 40 | alpha0 <- 1/5 41 | 42 | # LRT: razão de verossimilhanças 43 | 44 | tabProb <- data.frame(y = 0:sample.size, 45 | Lambda = Lambda(y = 0:sample.size, 46 | n = sample.size, 47 | theta0 = p0), 48 | Pr = dbinom(x = 0:sample.size, 49 | size = sample.size, prob = p0)) 50 | round(tabProb, 3) 51 | 52 | plot(0:sample.size, Lambda(y = 0:sample.size, 53 | n = sample.size, 54 | theta0 = p0), xlab = expression(y), 55 | ylab = expression(Lambda(y)), type = "b") 56 | 57 | ConjuntoRejeicao <- findSet(tab = tabProb) 58 | ConjuntoRejeicao 59 | 60 | TabRejeicao <- 61 | tabProb[match(ConjuntoRejeicao$confidence_set, tabProb$y), ] 62 | 63 | 64 | TabRejeicao[which.max(TabRejeicao$Lambda),] 65 | 66 | ###### 67 | 68 | simula_e_testa <- function(N, theta0){ 69 | Y <- rbinom(n = 1, size = N, prob = theta0) 70 | ttab <- data.frame(y = 0:N, 71 | Lambda = Lambda(0:N, n = N, theta0 = theta0), 72 | Pr = dbinom(x = 0:N, size = N, prob = theta0)) 73 | test.set <- findSet(tab = ttab) 74 | the.test <- Y %in% test.set$confidence_set 75 | return( 76 | list( 77 | res = the.test, 78 | attained.size = test.set$test_size 79 | ) 80 | ) 81 | } 82 | 83 | M <- 10000 84 | results <- sizes <- rep(NA, M) 85 | for(i in 1:M){ 86 | temp <- simula_e_testa(N = sample.size, 87 | theta0 = p0) 88 | results[i] <- temp$res 89 | sizes[i] <- temp$attained.siz 90 | } 91 | mean(results) 92 | mean(sizes) 93 | 94 | 95 | 96 | -------------------------------------------------------------------------------- /code/Poisson_gamma_Bayes.r: -------------------------------------------------------------------------------- 1 | alpha0 <- 3 2 | beta0 <- 1/3 3 | xm <- qgamma(p = 1-.9999, shape = alpha0, rate = beta0) 4 | xM <- qgamma(p = .9999, shape = alpha0, rate = beta0) 5 | 6 | curve(dgamma(x, shape = alpha0, rate = beta0), 7 | xm, xM, lwd = 3, 8 | xlab = expression(theta), 9 | ylab = expression(pi(theta))) 10 | 11 | ### Prior predictive 12 | M <- 1E4 13 | theta.prior.draws <- rgamma(n = M, 14 | shape = alpha0, 15 | rate = beta0) 16 | 17 | X.prior.draws <- rpois(n = M, lambda = theta.prior.draws) 18 | hist(X.prior.draws, probability = TRUE) 19 | mean(X.prior.draws) 20 | var(X.prior.draws) 21 | 22 | ### Posterior calculations 23 | theta.gen <- pi^2/6 24 | nobs <- 20 25 | X.data <- rpois(n = nobs, lambda = theta.gen) 26 | S <- sum(X.data) 27 | alpha1 <- alpha0 + S 28 | beta1 <- beta0 + nobs 29 | 30 | xm1 <- qgamma(p = 1-.9999, shape = alpha1, rate = beta1) 31 | xM1 <- qgamma(p = .9999, shape = alpha1, rate = beta1) 32 | 33 | xm2 <- min(xm, xm1) 34 | xM2 <- max(xM, xM1) 35 | 36 | curve(dgamma(x, shape = alpha1, rate = beta1), 37 | xm2, xM2, lwd = 3, col = 2, lty = 2, 38 | xlab = expression(theta), 39 | ylab = expression(pi(theta))) 40 | curve(dgamma(x, shape = alpha0, rate = beta0), 41 | xm2, xM2, lwd = 3, add = TRUE) 42 | legend( 43 | x = "topright", 44 | legend = c("priori", "posteriori"), 45 | col = 1:2, 46 | lty = 1:2, 47 | bty = 'n', 48 | lwd = 2 49 | ) 50 | 51 | ### Posterior predictive 52 | theta.posterior.draws <- rgamma(n = M, 53 | shape = alpha1, 54 | rate = beta1) 55 | 56 | X.posterior.draws <- rpois(n = M, lambda = theta.posterior.draws) 57 | hist(X.posterior.draws, probability = TRUE) 58 | mean(X.posterior.draws) 59 | var(X.posterior.draws) 60 | 61 | ppc.draws <- rbind( 62 | data.frame(x_pred = X.prior.draws, distribution = "prior"), 63 | data.frame(x_pred = X.posterior.draws, distribution = "posterior") 64 | ) 65 | 66 | library(ggplot2) 67 | 68 | p1 <- ggplot( 69 | data = ppc.draws, 70 | aes(x = x_pred, 71 | colour = distribution, 72 | fill = distribution 73 | ) 74 | ) + 75 | geom_histogram(alpha = .4) + 76 | scale_x_continuous(expand = c(0, 0), 77 | expression(x[pred])) + 78 | scale_y_continuous(expand = c(0, 0)) + 79 | theme_bw(base_size = 16) 80 | 81 | p1 82 | -------------------------------------------------------------------------------- /code/Poisson_gamma_Bayes_sequential.r: -------------------------------------------------------------------------------- 1 | alpha0 <- 3 2 | beta0 <- 1/3 3 | theta.gen <- pi^2/6 4 | nobs <- 1 5 | X.data <- rpois(n = nobs, lambda = theta.gen) 6 | S <- sum(X.data) 7 | alphan <- alpha0 + S 8 | betan <- beta0 + nobs 9 | 10 | xm1 <- 0 11 | xM1 <- 5*theta.gen 12 | iters <- 20 13 | for(i in 1:iters){ 14 | new.X <- rpois(n = 1, lambda = theta.gen) 15 | alphan <- alphan + new.X 16 | betan <- betan + 1 17 | curve(dgamma(x, shape = alphan, rate = betan), 18 | xm1, xM1, lwd = 3, 19 | xlab = expression(theta), 20 | ylab = expression(pi(theta)), 21 | main = paste("Mais ", i, " amostras")) 22 | abline(v = theta.gen, lwd = 3, lty = 2) 23 | } 24 | -------------------------------------------------------------------------------- /code/Q1_A1_2022.r: -------------------------------------------------------------------------------- 1 | ## Exercise 2, section 7.2, DeGroot 2 | ## Omega, the parameter space 3 | theta1 <- .1 4 | theta2 <- .2 5 | n <- 8 6 | 7 | ## P_theta(X = x) 8 | f1 <- function(x) dbinom(x = x, size = n, prob = theta1) 9 | f1 <- Vectorize(f1) 10 | f2 <- function(x) dbinom(x = x, size = n, prob = theta2) 11 | f2 <- Vectorize(f2) 12 | 13 | ## Plotting 14 | tb <- tibble::tibble(f1 = f1(0:n), f2 = f2(0:n)) 15 | tb 16 | matplot(tb, 17 | ylab = expression(P[theta](X==x)), 18 | xlab = expression(x)) 19 | 20 | ratio <- function(x, n) (4/9)^x * (9/8)^n 21 | 22 | ratio(0:n, n) 23 | f1(0:n)/f2(0:n) 24 | 25 | n/(0:n) 26 | -log(4/9)/log(9/8) 27 | ## Prior 28 | pr1 <- .7 29 | pr2 <- .3 30 | 31 | ## Posterior 32 | p1 <- function(x) f1(x) * pr1 33 | p2 <- function(x) f2(x) * pr2 34 | 35 | post <- function(x) { 36 | v1 <- p1(x) 37 | v2 <- p2(x) 38 | return( 39 | v1/(v1 + v2) 40 | ) 41 | } 42 | 43 | post(0:n)/(1-post(0:n)) 44 | p1(0:n)/p2(0:n) -------------------------------------------------------------------------------- /code/Q2_A1_2022.r: -------------------------------------------------------------------------------- 1 | delta_1 <- function(x) mean(x) 2 | delta_2 <- function(x) var(x) 3 | ########### 4 | set.seed(666) 5 | samplesize <- 2 6 | nrep <- 5E3 7 | theta0 <- 1.2021 ## Zeta(3) 8 | 9 | the.data <- matrix(rpois(n = samplesize * nrep, lambda = theta0), 10 | nrow = nrep, ncol = samplesize) 11 | 12 | D1s <- apply(the.data, 1, delta_1) 13 | D2s <- apply(the.data, 1, delta_2) 14 | 15 | hist(D1s, probability = TRUE, breaks = 50, 16 | main = "", 17 | xlab = expression(delta[i]), 18 | cex.axis = 1.5) 19 | hist(D2s, probability = TRUE, col = 2, add = TRUE, breaks = 50) 20 | # axis(1, cex.axis = 1.2) 21 | # axis(2, cex.axis = 1.2) 22 | abline(v = theta0, lwd = 3, lty = 2) 23 | legend( 24 | x = "top", 25 | cex = 1.5, 26 | legend = c(expression(delta[1]), expression(delta[2])), 27 | col = c("grey50", "red"), 28 | pch = 16, 29 | bty = 'n' 30 | ) 31 | 32 | mean((D1s-theta0)^2) 33 | mean((D2s-theta0)^2) 34 | 35 | var(D1s) 36 | theta0/samplesize 37 | var(D2s) 38 | 2*theta0^2 + theta0/2 -------------------------------------------------------------------------------- /code/Q_1_P1_2021.r: -------------------------------------------------------------------------------- 1 | N <- 1e6 2 | b <- 10 3 | 4 | X <- runif(n = N, min = 0, max = b) 5 | Y <- runif(n = N, min = 0, max = b) 6 | 7 | 8 | U <- (X-b/2)^2 9 | V <- (Y-b/2)^2 10 | W <- U + V 11 | 12 | ecc <- ecdf(W) 13 | 14 | hist(W) 15 | 16 | F_T <- function(t){ 17 | b <- b + 0i 18 | t <- t + 0i 19 | Re( 20 | (b*sqrt(4*t-b^2) - 4*t*atan(sqrt(4*t-b^2)/b) + 2*pi*t)/(2*b^2) 21 | ) 22 | } 23 | 24 | r <- runif(1, 0, b/2) 25 | ecc(r^2) 26 | F_T(r^2) 27 | (pi*r^2)/b^2 28 | 29 | thN <- sample(1:N, min(1000, N), replace = FALSE) 30 | plot(X[thN], Y[thN], col = as.numeric(W[thN] <= r^2) + 1) 31 | plotrix::draw.circle(x = b/2, y = b/2, radius = r, lwd = 4) 32 | 33 | var_delta <- function(A, u, n){ 34 | sapply(A, function(x) { 35 | x*(u^2-x)/n 36 | }) 37 | } 38 | # var_delta <- Vectorize(var_delta) 39 | uu <- 1 40 | curve(var_delta(x, u = uu, n = 10), 0, pi*uu^2/4, lwd = 3, 41 | ylab = expression(Var(delta[1])), xlab = expression(A)) 42 | curve(var_delta(x, u = uu, n = 30), 0, pi*uu^2/4, 43 | lty = 2, lwd = 3, add = TRUE) 44 | curve(var_delta(x, u = uu, n = 100), 0, pi*uu^2/4, 45 | lwd = 3, lty = 4, add = TRUE) 46 | abline(v = uu^2/2, lwd = 2, lty = 5) 47 | legend(x = "topleft", 48 | legend = c("n=10", "n=30", "n=100"), 49 | lwd = 2, lty = 1:4, col = 1, bty = 'n') 50 | 51 | -------------------------------------------------------------------------------- /code/Q_2_P1_2021.r: -------------------------------------------------------------------------------- 1 | library(invgamma) 2 | 3 | computa_emv <- function(x){ 4 | 1/mean(x) 5 | } 6 | alpha_emv <- function(x, c){ 7 | exp(-c*x) 8 | } 9 | 10 | theta0 <- 2 11 | cc <- 1 12 | alpha.vdd <- exp(-cc*theta0) 13 | M <- 10000 14 | n <- 100 15 | 16 | amostras <- matrix(NA, ncol = n, nrow = M) 17 | for (j in 1:M){ 18 | amostras[j, ] <- rexp(n = n, rate = theta0) 19 | } 20 | 21 | ### Estimating theta 22 | EMVs <- apply(amostras, 1, computa_emv) 23 | 24 | mean(EMVs) 25 | n/(n-1) * theta0 26 | 27 | theo_eqm <- function(n, theta){ 28 | theta^2 * (n^2+ n -2)/((n-1)^2*(n-2)) 29 | } 30 | mean((EMVs-theta0)^2) 31 | theo_eqm(n = n, theta = theta0) 32 | 33 | 34 | var(EMVs) 35 | (mean(EMVs)-theta0)^2 36 | 1/(n * theta0^2) 37 | 38 | hist(EMVs, probability = TRUE) 39 | abline(v = theta0, lwd = 2, lty = 2) 40 | curve(invgamma::dinvgamma(x, shape = n, rate = n*theta0), 41 | min(EMVs), max(EMVs), add = TRUE, lwd = 2) 42 | 43 | ## Estimating of alpha 44 | alpha.EMVs <- sapply(EMVs, alpha_emv, c = cc) 45 | hist(alpha.EMVs) 46 | abline(v = alpha.vdd, lwd = 2, lty = 2) 47 | 48 | mean((alpha.EMVs-alpha.vdd)^2) 49 | var(alpha.EMVs) 50 | (mean(alpha.EMVs)-alpha.vdd)^2 51 | 52 | (alpha.vdd * log(alpha.vdd)^2)/(n *cc) 53 | -------------------------------------------------------------------------------- /code/Q_4_P1_2021.r: -------------------------------------------------------------------------------- 1 | delta_donald <- function(x){ 2 | x[1] 3 | } 4 | # 5 | delta_huguinho <- function(x){ 6 | kH <- (n+3)/(2*n + 2) 7 | (1/kH)*min(x) 8 | } 9 | # 10 | delta_zezinho <- function(x){ 11 | kZ <- (3*n+1)/(2*n + 2) 12 | (1/kZ) * max(x) 13 | } 14 | # 15 | delta_luisinho <- function(x){ 16 | (min(x) + max(x))/2 17 | } 18 | # 19 | computa_vies_qdd <- function(deltas, theta){ 20 | (mean(deltas) - theta)^2 21 | } 22 | computa_eqm <- function(deltas, theta){ 23 | mean((deltas-theta)^2) 24 | } 25 | # 26 | theta.vdd <- 10 27 | n <- 30 28 | M <- 1e5 29 | amostras <- matrix(NA, ncol = n, nrow = M) 30 | for (j in 1:M){ 31 | amostras[j, ] <- runif(n = n, min = theta.vdd/2, max = (3/2)*theta.vdd) 32 | } 33 | 34 | Ds <- apply(amostras, 1, delta_donald) 35 | Hs <- apply(amostras, 1, delta_huguinho) 36 | Zs <- apply(amostras, 1, delta_zezinho) 37 | Ls <- apply(amostras, 1, delta_luisinho) 38 | 39 | par(mfrow = c(2, 2)) 40 | hist(Ds, probability = TRUE, main = "Pato Donald", 41 | xlab = expression(delta[D])) 42 | abline(v = theta.vdd, lwd = 3, lty = 2) 43 | hist(Hs, probability = TRUE, main = "Huguinho", 44 | xlab = expression(delta[UH])) 45 | abline(v = theta.vdd, lwd = 3, lty = 2) 46 | hist(Zs, probability = TRUE, main = "Zezinho", 47 | xlab = expression(delta[UZ])) 48 | abline(v = theta.vdd, lwd = 3, lty = 2) 49 | hist(Ls, probability = TRUE, main = "Luisinho", 50 | xlab = expression(delta[L])) 51 | abline(v = theta.vdd, lwd = 3, lty = 2) 52 | 53 | ### 54 | #### Variância 55 | # Donald 56 | var(Ds) 57 | theta.vdd^2/12 58 | # Huguinho 59 | var(Hs) 60 | (4*n)/((n+3)^2*(n+2)) * theta.vdd^2 61 | # Zezinho 62 | var(Zs) 63 | (4*n)/((3*n+1)^2*(n+2)) * theta.vdd^2 64 | # Luisinho 65 | var(Ls) 66 | 1/(2*(n+1)*(n+2)) * theta.vdd^2 67 | 68 | #### Viés 69 | # Donald 70 | computa_vies_qdd(Ds, theta.vdd) 71 | # Huguinho 72 | computa_vies_qdd(Hs, theta.vdd) 73 | # Zezinho 74 | computa_vies_qdd(Zs, theta.vdd) 75 | # Luisinho 76 | computa_vies_qdd(Ls, theta.vdd) 77 | 78 | #### EQM 79 | # Donald 80 | computa_eqm(Ds, theta.vdd) 81 | theta.vdd^2/3 82 | # Huguinho 83 | computa_eqm(Hs, theta.vdd) 84 | (4*n)/((n+3)^2*(n+2)) * theta.vdd^2 85 | # Zezinho 86 | computa_eqm(Zs, theta.vdd) 87 | (4*n)/((3*n+1)^2*(n+2)) * theta.vdd^2 88 | # Luisinho 89 | computa_eqm(Ls, theta.vdd) 90 | 1/(2*(n+1)*(n+2)) * theta.vdd^2 91 | 92 | #### Agora, o Tio Patinhas 93 | 94 | var_alpha <- function(x){ 95 | a <- (n+3)/(2*n + 2) 96 | b <- (3*n+1)/(2*n + 2) 97 | gamma <- theta.vdd^2 /( (n+1)^2*(n+2)) 98 | obj <- (n*x^2)/b^2+(2*(1-x)*x)/(a*b)+(n*(1-x)^2)/a^2 99 | return(gamma*obj) 100 | } 101 | 102 | par(mfrow = c(1, 1)) 103 | curve(var_alpha) 104 | 105 | 106 | alpha_opt <- function(n){ 107 | a <- (n+3)/(2*n + 2) 108 | b <- (3*n+1)/(2*n + 2) 109 | (b^2*n-a*b)/((b^2+a^2)*n-2*a*b) 110 | } 111 | alpha.opt <- alpha_opt(n) 112 | 113 | alpha.numopt <- optimise(var_alpha, interval = c(0, 1)) 114 | 115 | alpha.numopt$minimum 116 | alpha.opt 117 | (1/2) * (n/(n^2-n+1)) 118 | 119 | delta_patinhas <- function(x, w){ 120 | (1-w)*delta_huguinho(x) + w*delta_zezinho(x) 121 | } 122 | 123 | Ps <- apply(amostras, 1, 124 | function(x) delta_patinhas(x = x, w = alpha.opt)) 125 | 126 | computa_eqm(Ps, theta.vdd) 127 | var(Ps) 128 | var_alpha(alpha.opt) 129 | var_alpha(alpha.numopt$minimum) 130 | 2/((5*n+3)*(n+2))*theta.vdd^2 131 | 132 | computa_vies_qdd(Ps, theta.vdd) 133 | 134 | par(mfrow = c(1, 2)) 135 | hist(Zs, probability = TRUE, main = "Zezinho", 136 | xlab = expression(delta[UZ])) 137 | abline(v = theta.vdd, lwd = 3, lty = 2) 138 | hist(Ps, probability = TRUE, main = "Tio Patinhas", 139 | xlab = expression(delta[P])) 140 | abline(v = theta.vdd, lwd = 3, lty = 2) 141 | 142 | ### 143 | ## Comparando todo mundo em relação ao EQM 144 | # Donald 145 | theta.vdd^2/3 146 | # Huguinho 147 | (4*n)/((n+3)^2*(n+2)) * theta.vdd^2 148 | # Zezinho 149 | (4*n)/((3*n+1)^2*(n+2)) * theta.vdd^2 150 | # Luisinho 151 | 1/(2*(n+1)*(n+2)) * theta.vdd^2 152 | # Tio Patinhas 153 | 2/((5*n+3)*(n+2))*theta.vdd^2 -------------------------------------------------------------------------------- /code/Rao_Blackwell_exemplo.r: -------------------------------------------------------------------------------- 1 | ### X1, ..., Xn ~ exponencial(lambda) 2 | ## Estimadores 3 | delta <- function(samp) samp[1] 4 | delta0 <- function(samp){ ## estimador melhorado por Rao-Blackwell 5 | s <- sum(samp) 6 | x1 <- samp[1] 7 | n <- length(samp) 8 | # est <- (n-1)/s * (1 - x1/s)^(n-2) 9 | est <- exp( ## versão numericamente estável 10 | log(n-1)-log(s) + (n-2)*log1p(- x1/s) 11 | ) 12 | return(est) 13 | } 14 | 15 | ## Simulando dados 16 | Nsim <- 1000 17 | N <- 500 18 | lambda <- 3 19 | 20 | amostras <- matrix(rexp(n = Nsim*N, rate = lambda), 21 | ncol = N, nrow = Nsim) 22 | 23 | ### Aplicando os estimadores 24 | 25 | Ds <- apply(amostras, 1, delta) 26 | D0s <- apply(amostras, 1, delta0) 27 | 28 | par(mfrow = c(1, 2)) 29 | hist(Ds, probability = TRUE, 30 | xlab = expression(delta)) 31 | abline(v = lambda, lwd = 2, lty = 2) 32 | 33 | hist(D0s, probability = TRUE, 34 | xlab = expression(delta[0])) 35 | abline(v = lambda, lwd = 2, lty = 2) 36 | 37 | ## EQM 38 | 39 | mean((Ds-lambda)^2) 40 | mean((D0s-lambda)^2) 41 | 42 | mean(Ds) 43 | mean(D0s) 44 | 45 | var(Ds) 46 | var(D0s) 47 | -------------------------------------------------------------------------------- /code/cloud_seeding.csv: -------------------------------------------------------------------------------- 1 | "Control","Seeded" 2 | 1202.6,2745.6 3 | 830.1,1697.8 4 | 372.4,1656 5 | 345.5,978 6 | 321.2,703.4 7 | 244.3,489.1 8 | 163,430 9 | 147.8,334.1 10 | 95,302.8 11 | 87,274.7 12 | 81.2,274.7 13 | 68.5,255 14 | 47.3,242.5 15 | 41.1,200.7 16 | 36.6,198.6 17 | 29,129.6 18 | 28.6,119 19 | 26.3,118.3 20 | 26.1,115.3 21 | 24.4,92.4 22 | 21.7,40.6 23 | 17.3,32.7 24 | 11.5,31.4 25 | 4.9,17.5 26 | 4.9,7.7 27 | 1,4.1 28 | -------------------------------------------------------------------------------- /code/dados_ponto_fervura.csv: -------------------------------------------------------------------------------- 1 | pt_fervura, pressao 2 | 194.5, 20.79 3 | 194.3, 20.79 4 | 197.9, 22.40 5 | 198.4, 22.67 6 | 199.4, 23.15 7 | 199.9, 23.35 8 | 200.9, 23.89 9 | 201.1, 23.99 10 | 201.4, 24.02 11 | 201.3, 24.01 12 | 203.6, 25.14 13 | 204.6, 26.57 14 | 209.5, 28.49 15 | 208.6, 27.76 16 | 210.7, 29.04 17 | 211.9, 29.88 18 | 212.2, 30.06 19 | -------------------------------------------------------------------------------- /code/distribuicao_media_variancia_amostrais_normal.r: -------------------------------------------------------------------------------- 1 | mu <- pi 2 | sigmaSq <- (1.3)^3 3 | 4 | n <- 10 5 | M <- 10000 6 | 7 | svar <- function(x){ 8 | n <- length(x) 9 | xb <- mean(x) 10 | sv <- sum((x-xb)^2)/n 11 | return(sv) 12 | } 13 | 14 | data.sets <- matrix(rnorm(n = n*M, mean = mu, sd = sqrt(sigmaSq)), ncol = n, nrow = M) 15 | 16 | xbars <- apply(data.sets, 1, mean) 17 | sbars <- apply(data.sets, 1, svar) 18 | 19 | par(mfrow=c(1, 2)) 20 | 21 | hist(xbars, probability = TRUE, main = "Média amostral", xlab = expression(bar(X[n]))) 22 | curve(dnorm(x, mean = mu, sd = sqrt(sigmaSq/n)), min(xbars), max(xbars), lwd = 2, add = TRUE) 23 | 24 | hist(sbars, probability = TRUE, main = "Variância amostral", xlab = expression(bar(S[n]^2))) 25 | curve(dgamma(x, shape = (n-1)/2, rate = n/(2*sigmaSq) ), min(sbars), max(sbars), lwd = 2, add = TRUE) 26 | 27 | 28 | -------------------------------------------------------------------------------- /code/estimadores_uniforme_0_theta.r: -------------------------------------------------------------------------------- 1 | mle <- function(x) max(x) # W1 2 | unbiased <- function(x) mle(x) * (n+1)/(n) # W2, unbiased 3 | moments <- function(x) 2*mean(x) 4 | f_M <- function(t) n/theta * (t/theta)^(n-1) 5 | f_M <- Vectorize(f_M) 6 | # 7 | 8 | theta <- pi^2/6 9 | n <- 10 10 | M <- 10000 11 | ########### 12 | 13 | data.sets <- matrix(runif(n = n*M, min = 0, max = theta), ncol = n, nrow = M) 14 | 15 | ##### MLE 16 | W1 <- apply(data.sets, 1, mle) 17 | hist(W1, probability = TRUE) 18 | mean(W1) 19 | n/(n+1) * theta ## the actual E[W1] 20 | var(W1) 21 | c <- n/(n+1) 22 | ( VarW1 <- (n/(n+2) - c^2)*theta^2 ) 23 | ( MSE1 <- mean((theta-W1)^2) ) 24 | (2/((n+1)*(n+2)))*theta^2 ## true MSE1 25 | 26 | ##### Unbiased 27 | 28 | W2 <- apply(data.sets, 1, unbiased) 29 | hist(W2, probability = TRUE) 30 | mean(W2) 31 | theta ## the actual E[W2] 32 | var(W2) 33 | ( VarW2 <- (1/(n*(n+2)))*theta^2 ) 34 | ( MSE2 <- mean((theta-W2)^2) ) 35 | 36 | ##### 37 | 38 | W3 <- apply(data.sets, 1, moments) 39 | hist(W3, probability = TRUE) 40 | mean(W3) 41 | theta ## the actual E[W2] 42 | var(W3) 43 | ( VarW3 <- theta^2/(3*n) ) 44 | ( MSE3 <- mean((theta-W3)^2) ) 45 | 46 | ### 47 | 48 | MSE1 49 | MSE2 50 | MSE3 51 | 52 | -------------------------------------------------------------------------------- /code/estimadores_uniforme_theta_2theta.r: -------------------------------------------------------------------------------- 1 | mle <- function(x) max(x)/2 # W1 2 | unbiased <- function(x) mle(x) * (2*n+2)/(2*n +1) # W2, unbiased 3 | f_M <- function(t) n/theta * (t/theta - 1)^(n-1) 4 | f_M <- Vectorize(f_M) 5 | #### 6 | theta <- pi^2/6 7 | n <- 2 8 | M <- 10000 9 | #### 10 | data.sets <- matrix(runif(n = n*M, min = theta, max = 2*theta), 11 | ncol = n, nrow = M) 12 | 13 | W1 <- apply(data.sets, 1, mle) 14 | hist(W1, probability = TRUE) 15 | mean(W1) 16 | (2*n +1)/(2*(n+1)) * theta ## the actual E[W1] 17 | theta 18 | var(W1) 19 | ( VarW1 <- theta^2/4 * ((4*n^2 + 8*n + 2)/(n^2 + 3*n + 2) - ((2*n +1)/(n+1))^2) ) 20 | ( biasW1 <- (1-(2*n +1)/(2*n+2))* theta ) 21 | VarW1 + biasW1^2 ## MSE W1 22 | 23 | W2 <- apply(data.sets, 1, unbiased) 24 | hist(W2, probability = TRUE) 25 | mean(W2) 26 | theta 27 | var(W2) ## MSE W2 28 | ## E[W1] = c* theta => W2 = W1/c => Var(W2) = Var(W1)/c^2 29 | ## c = 1-biasW1/theta 30 | (1-biasW1/theta)^-2 * VarW1 31 | 32 | 33 | # ### Extra 34 | # eccdf <- function(x) 35 | # { 36 | # x <- sort(x) 37 | # n <- length(x) 38 | # if (n < 1) 39 | # stop("'x' must have 1 or more non-missing values") 40 | # vals <- sort(unique(x)) 41 | # rval <- approxfun(vals, 1-cumsum(tabulate(match(x, vals)))/n, #[CHANGED] 42 | # method = "constant", yleft = 1, yright = 0, f = 0, ties = "ordered") 43 | # class(rval) <- c("eccdf", "stepfun", class(rval)) #[CHANGED] 44 | # attr(rval, "call") <- sys.call() 45 | # rval 46 | # } 47 | # 48 | # Ff2 <- function(y) 1- (y/theta - 1)^n 49 | # 50 | # Ms <- apply(data.sets, 1, max) 51 | # mean(Ms) 52 | # plot(eccdf(Ms)) 53 | # curve(Ff2, theta, 2*theta, lwd = 2, col = 2, lty = 2, add = TRUE) 54 | # 55 | # 56 | # (2*n + 1)/(n + 1) * theta 57 | # n/(n + 1)* theta 58 | # 59 | # var(Ms) 60 | -------------------------------------------------------------------------------- /code/exemplo_8.3.1_DeGroot.r: -------------------------------------------------------------------------------- 1 | dados.nuvens <- read.csv("cloud_seeding.csv") 2 | 3 | ## Y ~ lognormal(mu, sigma_sq) 4 | ## log(Y) ~ normal(mu, sigma_sq) 5 | hist(dados.nuvens$Seeded) 6 | hist(log(dados.nuvens$Seeded)) 7 | 8 | X <- log(dados.nuvens$Seeded) 9 | 10 | mean(X) 11 | var(X) 12 | sum((X-mean(X))^2)/26 13 | sum((X-mean(X))^2)/25 14 | 15 | x_bar <- mean(X) 16 | S2_bar <- sum((X-mean(X))^2)/26 17 | 18 | sqrt(26)/5 19 | 20 | ### P1 = Pr(|U| < 1/5 * sqrt(n)) 21 | ### = Pr(U < 1/5 * sqrt(n)) 22 | #### U = n * (mu_h - mu)^2/sigma_sq 23 | a <- 1/5 24 | p1 <- function(n){ 25 | pchisq(q = a * sqrt(n), df = 1) 26 | } 27 | ### P2 = Pr(0.64n < V < 1.44 n) 28 | #### Pr(V < 1.44n) - Pr(V < 0.64n) 29 | p2 <- function(n){ 30 | pchisq(q = 1.44*n, df = n-1)- 31 | pchisq(q = 0.64*n, df = n-1) 32 | } 33 | 34 | par(mfrow = c(1, 2)) 35 | curve(p1, 1, 20, xlab = "n", main = "P_1(n)") 36 | curve(p2, 1, 20, xlab = "n", main = "P_2(n)") 37 | 38 | p3 <- function(n) p1(n)*p2(n) 39 | ns <- 1:1500 40 | tabelinha <- data.frame( 41 | n = ns, 42 | prob = p3(ns) 43 | ) 44 | 45 | head(tabelinha) 46 | 47 | head(subset(tabelinha, prob >= 0.99)) 48 | -------------------------------------------------------------------------------- /code/exemplo_9.2.5_DeGroot.r: -------------------------------------------------------------------------------- 1 | r <- function(x, log = TRUE){ 2 | xbar <- mean(x, na.rm = TRUE) 3 | ans <- n*(xbar - .5) 4 | if(!log) ans <- exp(ans) 5 | return(ans) 6 | } 7 | 8 | theta0 <- 0 9 | theta1 <- 1 10 | n <- 100 11 | alpha0 <- 0.05 12 | cprime <- qnorm(1-alpha0, sd = 1/sqrt(n)) 13 | cprime 14 | logc <- n*(cprime-.5) 15 | 16 | X0 <-rnorm(n, mean = theta0, sd = 1) 17 | X1 <-rnorm(n, mean = theta1, sd = 1) 18 | 19 | ## Uma observação: este teste não é ruim: 20 | cat("Rejeita H0 para X0?", r(X0) > logc, "\n") 21 | cat("Rejeita H0 para X1?", r(X1) > logc, "\n") 22 | 23 | ## Porém... 24 | type_II_prob <- function(n){ 25 | ans <- pnorm(q = qnorm(1-alpha0, sd = 1/sqrt(n)), mean = theta1, sd = 1/sqrt(n), lower.tail = TRUE) 26 | } 27 | ns <- c(1, 25, 100) 28 | data.frame(n = ns, beta = type_II_prob(ns), logc = exp(ns*(cprime-.5))) 29 | 30 | curve(type_II_prob, 1, 100, 31 | xlab = "Tamanho de amostra (n)", ylab = expression(beta(delta))) 32 | -------------------------------------------------------------------------------- /code/exemplo_componentes_eletronicos.r: -------------------------------------------------------------------------------- 1 | ### Distribuição a priori 2 | ## ! Dica: brinque com os hiperparâmetros da priori e olhe o que acontece com o segundo gráfico. 3 | alpha <- 1 4 | beta <- 2 5 | theta <- rgamma(1e6, shape = alpha, rate = beta) 6 | 7 | curve(dgamma(x, shape = alpha, rate = beta), min(theta), max(theta), 8 | xlab = expression(theta), ylab = expression(xi(theta)), lwd = 3, cex.lab=1.5) 9 | 10 | ## Gerando alguns dados 11 | 12 | n <- 10 13 | ## ! Dica: mude o número de observações e veja o que acontece com a posteriori no segundo gráfico. 14 | 15 | theta.vdd <- 0.65 # theta "verdadeiro" 16 | 17 | X <- rexp(n = n, rate = theta.vdd) 18 | mean(X); sd(X) 19 | 20 | S <- sum(X) 21 | 22 | curve(dgamma(x, shape = alpha, rate = beta), min(theta), max(theta), 23 | xlab = expression(theta), ylab = "Densidade", lwd = 3, cex.lab = 1.5) 24 | curve(dgamma(x, shape = alpha + n + 1, rate = beta + S), min(theta), max(theta), 25 | lwd = 3, lty = 2, col = "grey50", add = TRUE) 26 | legend(x = "topright", legend = c("Priori", "Posteriori"), bty = 'n', lwd = 2, lty = 1:2, col = c("black", "grey50")) 27 | 28 | ## Agora, o aprendizado sequencial 29 | 30 | curve(dgamma(x, shape = alpha, rate = beta), min(theta), max(theta), 31 | xlab = expression(theta), ylab = "Densidade", lwd = 4, cex.lab = 1.5) 32 | for(i in 1:n){ 33 | curve(dgamma(x, shape = alpha + n + 1, rate = beta + sum(X[1:i])), min(theta), max(theta), 34 | lwd = 4, lty = 2, col = rev(heat.colors(n))[i], add = TRUE) 35 | } 36 | legend(x = "topright", 37 | legend = c("Priori", paste("Posteriori até x_", 1:n, sep = "")), bty = 'n', lwd = 3, lty = c(1, rep(2, n)), 38 | col = c("black", rev(heat.colors(n)[1:n]))) 39 | -------------------------------------------------------------------------------- /code/exemplo_grandes_amostras.r: -------------------------------------------------------------------------------- 1 | ## Vamos ilustrar o exemplo da proporção de itens defeitusos dado em De Groot, seção 7.4 2 | 3 | n <- 100 #! Dica: mude o tamanho de amostra e veja o que acontece 4 | y <- 10 #! Dica: mude o número de itens defeituosos e veja o que acontece com as posterioris 5 | 6 | prior1 <- function(theta) dbeta(x = theta, shape1 = 1, shape2 = 1) 7 | prior2 <- function(theta) dbeta(x = theta, shape1 = 1, shape2 = 2) 8 | 9 | posterior1 <- function(theta) dbeta(x = theta, shape1 = 1 + y, shape2 = 1 + (n - y)) 10 | posterior2 <- function(theta) dbeta(x = theta, shape1 = 1 + y, shape2 = 2 + (n -y)) 11 | 12 | curve(prior1, xlab = expression(theta), ylab = "Density", lwd = 3, lty = 1, ylim = c(0, 15)) 13 | curve(prior2, lwd = 3, lty = 2, col = "red", add = TRUE) 14 | curve(posterior1, lwd = 3, add = TRUE) 15 | curve(posterior2, lwd = 3, col = "red", lty = 2, add = TRUE) 16 | abline(v = y/n, lty = 3, lwd = 3) 17 | legend(x = "topright", legend = c("Prior/Posterior 1", "Prior/Posterior 2"), 18 | col = c("black", "red"), lty = 1:2, bty = 'n') -------------------------------------------------------------------------------- /code/metodo_delta_exponencial.r: -------------------------------------------------------------------------------- 1 | ## De Groot (4th ed.) exemplo 7.6.11 2 | 3 | gera_dados <- function(n, theta){ 4 | X <- rexp(n = n, rate = theta) 5 | return(X) 6 | } 7 | 8 | computa_emv <- function(x){ 9 | theta.chapeu <- 1/mean(x) 10 | } 11 | 12 | estima <- function(n, theta){ 13 | dados <- gera_dados(n = n, theta = theta) 14 | est <- computa_emv(dados) 15 | return(est) 16 | } 17 | 18 | dinvgamma <- function(x, alpha, beta, log = FALSE){ 19 | ## densidade de uma gama inversa com parametros alpha e beta 20 | ## esta é a distribuição **exata** do EMV neste caso 21 | lconst <- alpha * log(beta) - lgamma(alpha) 22 | ldens <- -(alpha + 1)*log(x) - beta/x 23 | ans <- lconst + ldens 24 | if(!log) ans <- exp(ans) 25 | return(ans) 26 | } 27 | dinvgamma <- Vectorize(dinvgamma) 28 | ############# 29 | 30 | M <- 1E4 ## repetições 31 | 32 | theta.vdd <- .234 33 | 34 | par(mfrow=c(2, 2)) 35 | 36 | ## n = 10 37 | n10 <- 10 38 | 39 | ests.n10 <- sapply(1:M, function(i) estima(n = n10, theta = theta.vdd) ) 40 | 41 | hist(ests.n10, probability = TRUE, xlab = expression(hat(theta)), main = "Tamanho de amostra = 10") 42 | curve(dnorm(x, mean = theta.vdd, sd = sqrt(theta.vdd^2/n10)), lwd = 2, add = TRUE) 43 | curve(dinvgamma(x, alpha = n10, beta = n10*theta.vdd), lwd = 2, lty = 2, col = 2, add = TRUE) 44 | abline(v = theta.vdd, lwd = 2, lty = 3) 45 | 46 | ## n = 50 47 | n50 <- 50 48 | 49 | ests.n50 <- sapply(1:M, function(i) estima(n = n50, theta = theta.vdd) ) 50 | 51 | hist(ests.n50, probability = TRUE, xlab = expression(hat(theta)), main = "Tamanho de amostra = 50") 52 | curve(dnorm(x, mean = theta.vdd, sd = sqrt(theta.vdd^2/n50)), lwd = 2, add = TRUE) 53 | curve(dinvgamma(x, alpha = n50, beta = n50*theta.vdd), lwd = 2, lty = 2, col = 2, add = TRUE) 54 | abline(v = theta.vdd, lwd = 2, lty = 3) 55 | 56 | ## n = 100 57 | n100 <- 100 58 | 59 | ests.n100 <- sapply(1:M, function(i) estima(n = n100, theta = theta.vdd) ) 60 | 61 | hist(ests.n100, probability = TRUE, xlab = expression(hat(theta)), main = "Tamanho de amostra = 100") 62 | curve(dnorm(x, mean = theta.vdd, sd = sqrt(theta.vdd^2/n100)), lwd = 2, add = TRUE) 63 | curve(dinvgamma(x, alpha = n100, beta = n100*theta.vdd), lwd = 2, lty = 2, col = 2, add = TRUE) 64 | abline(v = theta.vdd, lwd = 2, lty = 3) 65 | 66 | ## n = 100 67 | n1000 <- 1000 68 | 69 | ests.n1000 <- sapply(1:M, function(i) estima(n = n1000, theta = theta.vdd) ) 70 | 71 | hist(ests.n1000, probability = TRUE, xlab = expression(hat(theta)), main = "Tamanho de amostra = 1000") 72 | curve(dnorm(x, mean = theta.vdd, sd = sqrt(theta.vdd^2/n1000)), lwd = 2, add = TRUE) 73 | curve(dinvgamma(x, alpha = n1000, beta = n1000*theta.vdd), lwd = 2, lty = 2, col = 2, add = TRUE) 74 | abline(v = theta.vdd, lwd = 2, lty = 3) 75 | -------------------------------------------------------------------------------- /code/plots_t_Student.r: -------------------------------------------------------------------------------- 1 | f1 <- function(x) dnorm(x) 2 | f2 <- function(x) dcauchy(x) 3 | f3 <- function(x) dt(x, df = 1) 4 | f4 <- function(x) dt(x, df = 5) 5 | f5 <- function(x) dt(x, df = 30) 6 | 7 | par(mfrow = c(1, 2)) 8 | curve(f1, -5, 5, xlab = expression(x), ylab = "Densidade", lwd = 2) 9 | curve(f2, lwd = 2, col = "grey50", add = TRUE) 10 | curve(f3, lwd = 2, col = "red", lty = 2, add = TRUE) 11 | curve(f4, lwd = 2, col = "blue", lty = 3, add = TRUE) 12 | curve(f5, lwd = 2, col = "red", lty = 4, add = TRUE) 13 | 14 | curve(f1, 2, 5, xlab = expression(x), ylab = "Densidade", lwd = 2) 15 | curve(f2, lwd = 3, col = "grey50", add = TRUE) 16 | curve(f3, lwd = 3, col = "red", lty = 2, add = TRUE) 17 | curve(f4, lwd = 3, col = "blue", lty = 3, add = TRUE) 18 | curve(f5, lwd = 3, col = "red", lty = 4, add = TRUE) 19 | 20 | legend(x = "topright", 21 | legend = c( 22 | "N(0,1)", 23 | "Cauchy", 24 | "T(1)", 25 | "T(5)", 26 | "T(30)" 27 | ), 28 | col = c("black", "grey50", "red", "blue", "red", "blue"), 29 | lty = c(1, 1, 2, 3, 4, 5), 30 | lwd = 2, 31 | bty = 'n') -------------------------------------------------------------------------------- /code/regressao_linear.r: -------------------------------------------------------------------------------- 1 | ## Table 11.5, DeGroot (4th ed.) 2 | boiling.pt <- read.csv(file = "dados_ponto_fervura.csv") 3 | head(boiling.pt) 4 | 5 | ## Ajustando o modelo 6 | linmod <- lm(pressao ~ pt_fervura, data = boiling.pt) 7 | summary(linmod) 8 | 9 | ### plotting code taken from https://rstudio-pubs-static.s3.amazonaws.com/71339_d0b8346f41314979bc394448c5d60d86.html 10 | temp_var <- predict(linmod, interval = "prediction") 11 | new_df <- cbind(boiling.pt, temp_var) 12 | 13 | library(ggplot2) 14 | p0 <- ggplot(new_df, aes(pt_fervura, pressao))+ 15 | geom_point() + 16 | scale_x_continuous("Ponto de fervura da água (ºF)") + 17 | scale_y_continuous("Pressão atmosférica (inHG)") + 18 | theme_bw(base_size = 16) 19 | p0 20 | 21 | p1 <- p0 + 22 | geom_line(aes(y = lwr), color = "red", linetype = "dashed")+ 23 | geom_line(aes(y = upr), color = "red", linetype = "dashed")+ 24 | geom_smooth(method=lm, se = TRUE) + 25 | theme_bw(base_size = 16) 26 | 27 | p1 -------------------------------------------------------------------------------- /code/sampling_distribution_mle_exponential.r: -------------------------------------------------------------------------------- 1 | #### Suponha que x_1, ..., x_n ~ exponencial(theta) 2 | #### A MLE de theta é theta_hat = n/sum(x) 3 | #### Vamos derivar a distribuição amostral de theta_hat 4 | #### Note que a soma de x_i, S, tem distribuição Gamma com parametros n e theta. 5 | #### Depois note que 1/S tem distribuição gama inversa com parametros n e theta. 6 | #### Por ultimo note que se X tem distribuição gama inversa com parametros a e b. 7 | ##### cX tem distribuição gama inversa com parametros a e cb. 8 | 9 | 10 | library(invgamma) 11 | 12 | computa_emv <- function(x){ 13 | 1/mean(x) 14 | } 15 | 16 | theta.vdd <- 2 17 | M <- 10000 18 | n <- 100 19 | 20 | amostras <- matrix(NA, ncol = n, nrow = M) 21 | for (j in 1:M){ 22 | amostras[j, ] <- rexp(n = n, rate = theta.vdd) 23 | } 24 | 25 | EMVs <- apply(amostras, 1, computa_emv) 26 | 27 | hist(EMVs, probability = TRUE) 28 | curve(invgamma::dinvgamma(x, shape = n, rate = n*theta.vdd), 29 | min(EMVs), max(EMVs), add = TRUE, lwd = 2) -------------------------------------------------------------------------------- /code/teste_binomial_rascunho.r: -------------------------------------------------------------------------------- 1 | n <- 10 2 | p0 <- 1/2 3 | alpha0 <- 0.2 4 | 5 | # c(p0) 6 | # delta_c é um teste de tamanho alpha0=0.05 7 | 8 | tamanho_c <- function(c){ 9 | ## Pr(Y >= c | p = p0) 10 | res <- 1- sum(dbinom(0:(c-1), n, p0)) 11 | return(res) 12 | } 13 | tamanho_c <- Vectorize(tamanho_c) 14 | 15 | # Agora vamos plotar para tentar achar c* tal que Pr(Y >= c | p = p0) <= alpha0 16 | 17 | curve(tamanho_c, 1, n, lwd = 2, xlab = expression(c)) 18 | abline(h = alpha0, lty = 2) 19 | 20 | ## Agora vamos expressar o poder como função da probabilidade postulada p0 21 | 22 | Y <- 5 23 | 24 | poder_p <- function(p){ 25 | res <- 1- sum(dbinom(0:(Y-1), n, p)) 26 | return(res) 27 | } 28 | poder_p <- Vectorize(poder_p) 29 | 30 | curve(poder_p, xlab = expression(p[0])) 31 | abline(h = alpha0, lty = 2) 32 | 33 | # LRT: razão de verossimilhanças 34 | 35 | Lambda <- function(y, log = FALSE){ 36 | l1 <- y * (log(n*p0)-log(y)) 37 | if(y==0) l1 <- 0 38 | l2 <- (n-y)*(log(n*(1-p0))-log(n-y)) 39 | if(y==n) l2 <- 0 40 | ans <- l1 + l2 41 | if(!log) ans <- exp(ans) 42 | return(ans) 43 | } 44 | Lambda <- Vectorize(Lambda) 45 | 46 | tabProb <- data.frame(y = 0:n, Lambda = Lambda(0:n), Pr = dbinom(x = 0:n, size = n, prob = p0)) 47 | round(tabProb, 3) 48 | plot(0:n, Lambda(0:n), xlab = expression(y), ylab = expression(Lambda(y))) 49 | 50 | 51 | findSet <- function(tab, level = alpha0){ 52 | K <- nrow(tab) 53 | set <- NA 54 | accpr <- 0 55 | for(i in 1:K){ 56 | accpr.tent <- accpr + tab$Pr[i] 57 | if(accpr.tent < level){ 58 | accpr <- accpr.tent 59 | set <- c(set, tab$y[i]) 60 | }else{ 61 | next 62 | } 63 | } 64 | set <- na.omit(set) 65 | return( 66 | list( 67 | confidence_set = as.vector(set), 68 | test_size = accpr 69 | ) 70 | ) 71 | } 72 | findSet(tab = tabProb) -------------------------------------------------------------------------------- /code/teste_t_pareado.r: -------------------------------------------------------------------------------- 1 | sigma_sq <- 20^2 2 | mu.antes <- 140 3 | mu.depois <- 120 4 | n <- 50 5 | 6 | set.seed(666) 7 | X <- rnorm(n, mean = mu.antes, sd = sqrt(sigma_sq)) 8 | Y <- rnorm(n, mean = mu.depois, sd = sqrt(sigma_sq)) 9 | 10 | plot(X, Y, xlab = "Pressão arterial antes (mmHg)", 11 | ylab = "Pressão arterial depois (mmHg)") 12 | 13 | t.test(X, Y, paired = TRUE) -------------------------------------------------------------------------------- /code/teste_uniforme_0_theta.r: -------------------------------------------------------------------------------- 1 | n <- 68 2 | Fmax <- function(y, theta, log = FALSE){ 3 | ans <- n*(log(y)-log(theta)) 4 | if(y > theta) ans <- 0 5 | if(!log) ans <- exp(ans) 6 | return(ans) 7 | } 8 | poder <- function(theta){ 9 | return(Fmax(2.9, theta) + 1 - Fmax(4, theta)) 10 | } 11 | poder <- Vectorize(poder) 12 | 13 | curve(poder, 1, 5, xlab = expression(theta), 14 | ylab = expression(pi(theta*"|"*delta)), lwd = 2) 15 | curve(poder, 2.9, 4, lwd = 6, col = 2, add = TRUE) 16 | abline(v = c(3, 4), lwd = 2, lty = 2) 17 | 18 | curve(poder, 3, 4, xlab = expression(theta), 19 | ylab = expression(pi(theta*"|"*delta)), lwd = 2) 20 | -------------------------------------------------------------------------------- /exercicios/CMT_1_2022.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/exercicios/CMT_1_2022.pdf -------------------------------------------------------------------------------- /exercicios/CMT_2_2022.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/exercicios/CMT_2_2022.pdf -------------------------------------------------------------------------------- /exercicios/exercícios_revisão_A1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/exercicios/exercícios_revisão_A1.pdf -------------------------------------------------------------------------------- /exercicios/exercícios_revisão_A2.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/exercicios/exercícios_revisão_A2.pdf -------------------------------------------------------------------------------- /exercicios/exercícios_revisão_A2.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,12pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage[portuguese]{babel} 8 | \usepackage{textcomp} 9 | 10 | %%%%%%%%%%%%%%%%%%%% Notation stuff 11 | \newcommand{\indep}{\perp \!\!\! \perp} %% indepence 12 | \newcommand{\pr}{\operatorname{Pr}} %% probability 13 | \newcommand{\vr}{\operatorname{Var}} %% variance 14 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 15 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 16 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 17 | \newcommand{\Sm}{\bar{X}_n} %% sample mean, random variable 18 | \newcommand{\sm}{\bar{x}_n} %% sample mean, realised 19 | \newcommand{\Sv}{\bar{S}^2_n} %% sample variance, random variable 20 | \newcommand{\sv}{\bar{s}^2_n} %% sample variance, realised 21 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 22 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 23 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 24 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 25 | \newcommand{\emv}{\hat{\theta}_{\text{EMV}}} 26 | 27 | % Title Page 28 | \title{Exercícios de Revisão: A2.} 29 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 30 | 31 | \begin{document} 32 | \maketitle 33 | 34 | \section{PO-KE-MON.} 35 | Suponha que a Liga Internacional de Pokemon (LIP) tenha um sistema de \textit{pokescores} que podem assumir qualquer valor real. 36 | Quanto maior o \textit{pokescore} de uma jogadora, mais alto no ranking mundial ela está. 37 | A liga se organiza em times de $n$ jogadores. 38 | 39 | Para entrar na liga, um time precisa ter um \textit{pokescore} médio superior a $\theta_0$. 40 | Suponha que os \textit{pokescores} são distribuídos de acordo com uma distribuição Normal com média $\theta$ e variância $\sigma^2$, conhecida. 41 | Queremos desenvolver um método para incluir times num torneio automaticamente, baseado nos \textit{pokescores} dos seus integrantes. 42 | 43 | \begin{itemize} 44 | \item[(a)] Encontre uma quantidade pivotal para $\theta$; 45 | \item[(b)] Utilizando a quantidade do item anterior, construa um intervalo de confiança de $95\%$ para $\theta$; 46 | \item[(c)] A partir do intervalo encontrado, é possível testar $H_0: \theta \leq \theta_0$? Como? 47 | \item[(d)] Se $\sigma^2$ fosse desconhecida, como você modificaria o teste do item anterior? 48 | \item[(e)] Se aplicarmos os testes em (c) e (d) para selecionar times automaticamente, seremos injustos com alguns times, isto é, vamos deixar de incluir times que de fato se encaixam na condição de seleção. 49 | Com que probabilidade isso acontece? 50 | \item[(f)] Se quisermos diminuir a probabilidade do item anterior, o que podemos fazer? Que consequências isso tem? 51 | \end{itemize} 52 | 53 | 54 | \section{Acertando a agenda.} 55 | 56 | Astolfo quer saber quanto tempo leva para produzir uma lâmpada em sua fábrica. 57 | Bruna, sua assistente, decide medir o tempo de fabricação (em horas) de $n$ lâmpadas aleatórias $\rs$ e acredita que a duração do processo segue uma distribuição exponencial com parâmetro $\theta>0$, i.e., $f(x \mid \theta) = \theta\exp(-\theta x)$ para $x>0$. 58 | Suponha que essas medidas formam uma amostra aleatória. 59 | 60 | Cada máquina só consegue produzir uma lâmpada de cada vez, e trabalha de forma ininterrupta. 61 | Bruna decide verificar se consegue fabricar 48 lâmpadas por dia em cada máquina. 62 | 63 | \begin{itemize} 64 | \item[(a)] Escreva a hipótese alternativa e nula para este teste como função do parâmetro da exponencial e mostre que o poder do teste de hipóteses que rejeita $H_0$ se $S_n = \sum_{i=1}^nX_i \ge c$ é uma função decrescente de $\theta$ 65 | \item[(b)] Encontre um valor de $c$ que faça este teste ter um tamanho $\alpha_0$ pré-definido. 66 | \item[(c)] Mostre como encontrar o número mínimo de medidas para que o poder do teste em 40 minutos seja ao menos 90\%. 67 | \item[(d)] Encontre uma estatística pivotal para $\theta$; 68 | \item[(e)] Use a estatística encontrada no item anterior para construir um intervalo de confiança de $\gamma$\%. 69 | \end{itemize} 70 | 71 | 72 | \section{Questões sobre modelos lineares.} 73 | \begin{itemize} 74 | \item[(a)] Suponha que medimos a potência $X$, em cavalos de potência, e o consumo em $Km/L$, $Y$, dos motores de $n$ veículos da última edição da Revista Quadro Rodas. 75 | Proponha um teste para estudar se o coeficiente angular entre as duas variáveis é positivo; 76 | \item[(b)] Se a potência do motor de um fusquinha é $x_0$ cavalos de potência, mostre como obter um intervalo de confiança para o consumo médio; 77 | \item[(c)] Compare o intervalo do item anterior com o intervalo de predição para o consumo do motor do fusquinha, $y_0$; 78 | \item[(d)] O modelo $E[Y] = \beta_0 + \beta_1X + \beta_2X^2 + \beta_3X^3$ é linear? 79 | Como você ajustaria este modelo a $n$ pares de dados $(x_i, y_i)$? 80 | \item[(e)]$^\ast$ Considere uma regressão linear simples. 81 | Descreva uma estratégia de transformação da variável independente, $X$, de modo que $\hat{\beta_0}$ e $\hat{\beta_1}$ sejam independentes. 82 | \end{itemize} 83 | 84 | \section{Pamonha é coisa séria.} 85 | 86 | Ainda no processo de validação de seu selo de Pamonha Gourmet\textregistered, Palmirinha agora tem outra preocupação: o equipamento que mede a concentração de amido na pamonha tem um erro de medição não desprezível. 87 | O manual do medidor de concentração de amido diz que o erro de medição é Normal com média $0$ e variância $1$. 88 | \begin{itemize} 89 | \item[(a)] Proponha um experimento para determinar se o medidor está corretamente calibrado; 90 | \item[(b)] A partir do experimento no item anterior, proponha um teste para verificar se a variância do erro de medição é diferente do especificado no manual. 91 | Enuncie sua hipótese nula, alternativa e estatística de teste claramente; 92 | \item[(c)] Valciclei obteve dados e realizou o teste proposto. 93 | Obteve um p-valor de $0.005$. 94 | Escreveu para Palmirinha: ``A probabilidade de o medidor estar descalibrado é de 99.5\%''. 95 | Ele acertou em sua conclusão? Justifique; 96 | \item[(d)] Suponha que o outro assistente de Palmirinha, Adryelson, repita o mesmo experimento utilizando outro medidor. 97 | Da mesma forma que antes, proponha um teste para comparar as variâncias dos medidores de Valciclei e Adryelson. 98 | \end{itemize} 99 | 100 | \end{document} 101 | -------------------------------------------------------------------------------- /exercicios/exercícios_revisão_probabilidade.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/exercicios/exercícios_revisão_probabilidade.pdf -------------------------------------------------------------------------------- /exercicios/exercícios_revisão_probabilidade.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,12pt, notitlepage]{paper} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{amsthm} 7 | \usepackage{enumitem} 8 | \usepackage[portuguese]{babel} 9 | \usepackage{textcomp} 10 | 11 | 12 | \newtheorem{theo}{Teorema} 13 | \newtheorem{defn}{Definição} 14 | 15 | %%%%%%%%%%%%%%%%%%%% Notation stuff 16 | \newcommand{\indep}{\perp \!\!\! \perp} %% indepence 17 | \newcommand{\pr}{\operatorname{Pr}} %% probability 18 | \newcommand{\vr}{\operatorname{Var}} %% variance 19 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 20 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 21 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 22 | \newcommand{\Sm}{\bar{X}_n} %% sample mean, random variable 23 | \newcommand{\sm}{\bar{x}_n} %% sample mean, realised 24 | \newcommand{\Sv}{\bar{S}^2_n} %% sample variance, random variable 25 | \newcommand{\sv}{\bar{s}^2_n} %% sample variance, realised 26 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 27 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 28 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 29 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 30 | \newcommand{\emv}{\hat{\theta}_{\text{EMV}}} 31 | 32 | % Title Page 33 | \title{Exercícios de Revisão: Teoria de probabilidade.} 34 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 35 | 36 | \begin{document} 37 | \maketitle 38 | 39 | \section{Desigualdades probabilísticas} 40 | 41 | As desigualdades probabilísticas são ferramentas de grande utilidade na prática estatística. 42 | São úteis, por exemplo, na demonstração de teoremas de convergência que veremos mais à frente no curso. 43 | 44 | \begin{itemize} 45 | \item[(a)] 46 | \begin{theo}[Desigualdade de Markov] 47 | \label{thm:Markov_ineq} 48 | Seja $X$ uma variável aleatória contínua não-negativa e $t > 0$. 49 | Então 50 | \begin{equation} 51 | \label{eq:Markov_ineq} 52 | \pr(X \geq t) \leq \frac{E[X^n]}{t^n}. 53 | \end{equation} 54 | \end{theo} 55 | Demonstre o Teorema~\ref{thm:Markov_ineq}. 56 | \textit{Dica}: use a linearidade e a monotonicidade da integral. 57 | \item[(b)] 58 | \begin{theo}[Desigualdade de Chebychev] 59 | \label{thm:Chebychev_ineq} 60 | Seja $Y$ uma variável aleatória com média $E[Y] =: \mu$ e variância $\vr(Y) =: \sigma^2$, ambas finitas. 61 | Mais uma vez, $t>0$. 62 | Então 63 | \begin{equation} 64 | \label{eq:Chebychev_ineq} 65 | \pr(|Y-\mu| \geq t) \leq \frac{\vr(Y)}{t^2}. 66 | \end{equation} 67 | \end{theo} 68 | Demonstre o Teorema~\ref{thm:Chebychev_ineq}. 69 | \end{itemize} 70 | 71 | \section{Distribuições da média e variância amostrais.} 72 | 73 | Considere uma~\textbf{amostra aleatória} $\rs$, $n \in \mathbb{N}$ de variáveis aleatórias de uma mesma distribuição com média $E[X_i] = \mu$ e variância $\vr(X_i) = \sigma^2$. 74 | 75 | \begin{defn}[Média amostral] 76 | A média amostral de $\rs$ é 77 | \begin{equation} 78 | \label{eq:sample_mean} 79 | \bar{X}_n := \frac{1}{n} \sum_{i = 1}^n X_i. 80 | \end{equation} 81 | \end{defn} 82 | 83 | \begin{itemize} 84 | \item[(a)] Demonstre o seguinte resultado: 85 | \begin{theo}[Média e variância em uma amostra i.i.d.] 86 | \label{thm:iid_properties} 87 | Sejam $\rs$ variáveis aleatórias independentes e identicamente distribuídas, com média $\mu$ e variância $\sigma^2$. 88 | Temos que (i) $E[\bar{X}_n] = \mu$ e (ii) $\vr(\bar{X}_n) = \frac{\sigma^2}{n}$. 89 | \end{theo} 90 | \item[(b)] Comente sobre como as premissas de identidade de distribuição e independência são utilizadas em sua demonstração do item anterior. 91 | \end{itemize} 92 | 93 | \section{Lei (fraca) dos grandes números e Teorema central do limite} 94 | 95 | As leis dos grandes números são resultados fundamentais da teoria de probabilidade, nos permitindo fazer afirmações sobre o comportamento de processos estocásticos à medida que o número de observações aumenta. 96 | Da mesma forma, os teoremas centrais do limite\footnote{Sim, existem vários.} tratam da distribuição~\textbf{assintótica}\footnote{Isto é, à medida que o número de observações $n \to \infty$.} de certas variáveis aleatórias. 97 | 98 | Primeiro, uma definição. 99 | \begin{defn}[Convergência em probabilidade] 100 | \label{defn:weak_convergence} 101 | Dizemos que uma sequência de variáveis aleatórias~\textit{converge em probabilidade} para $b$ se, para todo $\epsilon > 0$, temos 102 | \begin{equation} 103 | \nonumber 104 | \lim_{n\to\infty} \pr\left(|Z_n-b| < \epsilon \right) = 1. 105 | \end{equation} 106 | Neste caso, escrevemos $Z_n \xrightarrow{\text{p}} b$. 107 | \end{defn} 108 | 109 | \begin{itemize} 110 | \item[(a)] Mostre que o seguinte teorema vale: 111 | \begin{theo}[Lei Fraca dos Grandes Números] 112 | \label{thm:WLLN} 113 | Sejam $\rs$ variáveis aleatórias independentes e identicamente distribuídas, com média $\mu$ e variância $\sigma^2$. 114 | Então 115 | $$ \bar{X}_n \xrightarrow{\text{p}} \mu.$$ 116 | \end{theo} 117 | \item[(b)] \begin{theo}[Teorema Central do Limite (Lindeberg e Lévy)] 118 | \label{thm:CLT_LindebergLevy} 119 | Sejam $\rs$ variáveis aleatórias independentes e identicamente distribuídas, com média $\mu$ e variância $\sigma^2$. 120 | Então, para cada $x$, temos 121 | $$ \lim_{n\to\infty} \pr\left( \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \leq x \right) = \Phi(x), $$ 122 | onde 123 | $$\Phi(x) := \frac{1}{\sqrt{2\pi}}\int_0^x \exp\left(-\frac{t^2}{2}\right)dt,$$ 124 | é a função de distribuição (cumulativa) normal padrão. 125 | \end{theo} 126 | Mostre que o Teorema~\ref{thm:CLT_LindebergLevy} vale. 127 | \textit{Dica}: Ver Casella \& Berger (2002), página 237. 128 | \end{itemize} 129 | 130 | \section{Aplicações.} 131 | 132 | Para fixar o conteúdo, agora veremos algumas aplicações dos conceitos trabalhados e dos resultados demonstrados. 133 | 134 | \begin{itemize} 135 | \item[(a)] Suponha que uma moeda \underline{justa} é lançada $n$ vezes. 136 | Seja $X_i$ a variável aleatória que é $1$ se o $i$-ésimo lançamento dá cara e $0$ caso contrário. 137 | Quantos lançamentos devemos fazer para que 138 | $$ \pr(0.4 \leq \bar{X}_n \leq 0.6) \geq 0.7\: ?$$ 139 | Responda à pergunta utilizando (i) a desigualdade de Chebychev e (ii) probabilidades binomiais, obtidas atráves de uma tabela ou programa de computador. 140 | \item[(b)] Compare os resultados do item anterior e discuta se a aproximação por Chebychev é boa. 141 | Que consequências práticas (em termos de custo de amostragem, por exemplo) haveria em usar o resultado aproximado? 142 | O que isso diz sobre a desigualdade de Chebychev? 143 | \item[(c)] Suponha que $X_1, \ldots, X_{12}$ são variáveis aleatórias independentes com distribuição uniforme em $(0, 1)$. 144 | Defina 145 | $$ p:= \pr\left(\left| \bar{X}_n - \frac{1}{2}\right| \leq 0.1\right).$$ 146 | Determine quanto vale $p$ utilizando: (i) o teorema central do limite (TCL) e (ii) a expressão exata. 147 | \item[(d)] Compare os resultados obtidos no item anterior e discuta se a aproximação utilizando o TCL é boa. 148 | \end{itemize} 149 | 150 | \end{document} 151 | -------------------------------------------------------------------------------- /material_apoio/Trotter1959_Article_AnElementaryProofOfTheCentralL.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/material_apoio/Trotter1959_Article_AnElementaryProofOfTheCentralL.pdf -------------------------------------------------------------------------------- /provas/PDF/A12020_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A12020_solucoes.pdf -------------------------------------------------------------------------------- /provas/PDF/A12021_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A12021_solucoes.pdf -------------------------------------------------------------------------------- /provas/PDF/A12022_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A12022_solucoes.pdf -------------------------------------------------------------------------------- /provas/PDF/A22020_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A22020_solucoes.pdf -------------------------------------------------------------------------------- /provas/PDF/A22021_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A22021_solucoes.pdf -------------------------------------------------------------------------------- /provas/PDF/A22022_solucoes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/PDF/A22022_solucoes.pdf -------------------------------------------------------------------------------- /provas/src/A12022_solucoes.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage{xcolor} 8 | \usepackage{url} 9 | \usepackage{cancel} 10 | \usepackage{mathtools} 11 | \usepackage[portuguese]{babel} 12 | \usepackage{newclude} 13 | 14 | %%%%%%%%%%%%%%%%%%%% Notation stuff 15 | \newcommand{\pr}{\operatorname{Pr}} %% probability 16 | \newcommand{\vr}{\operatorname{Var}} %% variance 17 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 18 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 19 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 20 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 21 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 22 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 23 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 24 | \newcommand{\emv}{\hat{\theta}} 25 | \DeclarePairedDelimiter\ceil{\lceil}{\rceil} 26 | \DeclarePairedDelimiter\floor{\lfloor}{\rfloor} 27 | \DeclareMathOperator*{\argmax}{arg\,max} 28 | \DeclareMathOperator*{\argmin}{arg\,min} 29 | %%%% 30 | \newif\ifanswers 31 | \answerstrue % comment out to hide answers 32 | 33 | % Title Page 34 | \title{Primeira avaliação (A1)} 35 | \author{Disciplina: Inferência Estatística \\ Instrutor: Luiz Max Carvalho \\ Monitores: Jairon Nóia \& Tiago Silva} 36 | \date{24 de Setembro de 2022} 37 | 38 | \begin{document} 39 | \maketitle 40 | 41 | \begin{center} 42 | \fbox{\fbox{\parbox{1.0\textwidth}{\textsf{ 43 | \begin{itemize} 44 | \item O tempo para realização da prova é de 3 horas; 45 | \item Leia a prova toda com calma antes de começar a responder; 46 | \item Responda todas as questões sucintamente; 47 | \item Marque a resposta final claramente com um quadrado, círculo ou figura geométrica de sua preferência; 48 | \item A prova vale 80 pontos. A pontuação restante é contada como bônus; 49 | \item Apenas tente resolver a questão bônus quando tiver resolvido todo o resto; 50 | \item Você tem direito a trazer \textbf{uma folha de ``cola''} tamanho A4 frente e verso, que deverá ser entregue junto com as respostas da prova. 51 | \end{itemize}} 52 | }}} 53 | \end{center} 54 | 55 | \newpage 56 | 57 | \section*{1. Treasure map.} 58 | 59 | Suponha que temos um modelo estatístico paramétrico, com f.d.p./f.m.p. $f_\theta(x)$, $\theta \in \Omega \subseteq \mathbb{R}^p$ com suporte em $\mathcal{X} \subseteq \mathbb{R}^d$. 60 | Dada uma observação $\bX=\bx$, o chamado estimador \textit{maximum a posteriori}, MAP, é definido como 61 | \begin{equation*} 62 | \delta_{\text{MAP}}(\bX) = \argmax_{\theta \in \Omega} \xi(\theta \mid \bx). 63 | \end{equation*} 64 | 65 | \begin{enumerate}[label=\alph*)] 66 | \item (10 pontos) Mostre que quando $\Omega = \{\theta_1, \theta_2, \ldots, \theta_k\}$, $k\geq2$, isto é, quando o espaço de parâmetros é discreto, $\delta_{\text{MAP}}$ é o estimador de Bayes sob a seguinte perda 67 | \begin{equation*} 68 | L(\delta, \theta) = 69 | \begin{cases} 70 | 0, \delta = \theta,\\ 71 | 1, \text{caso contrário}, 72 | \end{cases} 73 | \end{equation*} 74 | também chamada de perda \textit{zero-um} (\textit{0-1} loss). 75 | \item (10 pontos) Suponha que a proporção $\theta$ de itens defeituosos em uma linha de produção toma apenas os valores $0,1$ e $0,2$. 76 | Suponha ainda que $n$ itens são inspecionados e $x$ são defeituosos, $x \in \{0, 1, \ldots, n\}$. 77 | Mostre como encontrar o estimador de máxima verossimilhança para $\theta$; 78 | \item (10 pontos) Suponha que, \textit{a priori}, $\pr(\theta = 0,1) =: \pi(0,1) = 0,7$. 79 | Exiba a distribuição \textit{a posteriori} de $\theta$ e mostre como encontrar o MAP para $\theta$. 80 | \end{enumerate} 81 | \ifanswers 82 | \include*{A1_2022_sol1} 83 | \fi 84 | 85 | \section*{2. Now, Dinah, tell me the truth.} 86 | 87 | Tome $\bx = (x_{1}, \dots, x_{n}) \in \mathbb{N}^{n}$ um conjunto de realizações de uma variável aleatória $X$ distribuída conforme a distribuição de Poisson, com f.m.p. 88 | \begin{equation*} 89 | f(x | \theta) = \frac{\theta^{x}}{x!} e^{-\theta}, 90 | \end{equation*} 91 | \noindent com taxa $\theta \in \mathbb{R}_{+}$ desconhecida. 92 | 93 | \begin{enumerate}[label=\alph*)] 94 | \item (10 pontos) Defina $\bar{X}_{n} := \frac{1}{n} \sum_{i=1}^n X_{i}$. 95 | Verifique que os estimadores 96 | \begin{equation*} 97 | \delta_{1}(\mathbf{X}) = \frac{1}{n} \sum_{i=1}^n X_{i} \text{ e } \delta_{2}(\mathbf{X}) = \frac{1}{n - 1} \sum_{i=1}^n (X_{i} - \bar{X}_{n})^{2}, 98 | \end{equation*} 99 | \noindent são não viesados de $\theta$. 100 | \item (10 pontos) Mostre que $\delta_{1}$ é eficiente. 101 | Ele é consistente? 102 | \item (10 pontos) Suponha que $n = 2$. 103 | Mostre que $\delta_{2}$ é \textbf{inadmissível}. 104 | 105 | \textbf{Dica}: Se $X$ e $Y$ são variáveis aleatórias com distribuição de Poisson com média $\theta$, então 106 | \begin{equation*} 107 | E_\theta\left[\frac{(X - Y)^{4}}{4}\right] = 3\theta^{2} + \frac{\theta}{2}. 108 | \end{equation*} 109 | \item (10 pontos) A informação de Fisher quantifica a informação sobre um parâmetro contida em uma amostra aleatória. 110 | Compute a informação de Fisher, $I_{X}(\theta)$, em $\mathbf{X}$. 111 | \item (10 pontos) A parametrização é crucial para a informação de Fisher; existem transformações de variáveis que mudam substancialmente a sua interpretação. 112 | Sendo assim, prove que para o modelo Poisson, a informação de Fisher em $\mathbf{X}$ sobre $\eta = \sqrt{\theta}$ é constante. 113 | 114 | \textbf{Dica}: Se $\eta = g(\theta)$, então $I_{X}(\theta) = I_{X}(\eta) |g'(\theta)|^{2}$. 115 | % $g \colon \mathbb{R}_{+} \rightarrow \mathbb{R}_{+}$ 116 | \end{enumerate} 117 | \ifanswers 118 | \include*{A1_2022_sol2} 119 | \fi 120 | 121 | \section*{3. \textit{Actually}, Beta wolves don't exist in the wild\footnote{\url{https://sciencenorway.no/ulv/wolf-packs-dont-actually-have-alpha-males-and-alpha-females-the-idea-is-based-on-a-misunderstanding/1850514}}.} 122 | 123 | Em várias aplicações estatísticas os dados nos são apresentados na forma de proporções. 124 | Um bom exemplo é a proporção de óleo bruto que é convertida em gasolina depois da destilação e fracionamento. 125 | Para modelar estes dados é preciso escolher um modelo apropriado. 126 | A distribuição Beta é uma família de distribuições contínuas com suporte em $(0, 1)$, cuja densidade (no suporte) vale 127 | \begin{equation*} 128 | f(x; a, b) = \frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)} x^{a-1} (1-x)^{b-1}, 129 | \end{equation*} 130 | para $a, b > 0$. 131 | Para esta distribuição, sabemos que $E_\theta[X] = a/(a + b)$ e $\vr_\theta(X) = ab/[(a+b)^2(a+b+1)]$. 132 | Tome $\bX = (\rs)$ uma amostra aleatória de uma distribuição Beta com parâmetros $a$ e $b$. 133 | 134 | \begin{enumerate}[label=\alph*)] 135 | \item (10 pontos) Encontre uma estatística suficiente para $a$ quando $b$ é conhecida. 136 | \item (10 pontos) Encontre o estimador de máxima verossimilhança para $E_\theta[X]$ quando $b = 1$, conhecido. 137 | \end{enumerate} 138 | \ifanswers 139 | \include*{A1_2022_sol3} 140 | \fi 141 | 142 | \section*{Bônus: Lindex!} 143 | 144 | A função de perda LINEX (LINear--EXponential) é uma função de perda que trata assimetrias de maneira suave. 145 | Essa função é definida como: 146 | \[ L(\theta, a) = e^{c(a-\theta)} - c(a-\theta) -1, \] 147 | onde $c>0$. 148 | Quando $c$ varia, a função de perda varia de muito assimétrica para quase simétrica. 149 | \begin{enumerate}[label=\alph*)] 150 | \item (10 pontos) Mostre que o estimador de Bayes para $\theta$ é dado por 151 | \begin{equation*} 152 | \delta(\bX) = -\frac{1}{c} \log \left( E\left[e^{-c\theta} \, | \, \bX) \right] \right). 153 | \end{equation*} 154 | \item (10 pontos) Seja $X_1,\ldots,X_n$ uma amostra aleatória de uma distribuição $N(\mu,\sigma^2)$, com $\sigma^2$ conhecido. 155 | Suponha ainda que a priori é não informativa, ou seja $p(\mu) \propto 1$. 156 | Mostre que o estimador de Bayes utilizando a perda LINEX é 157 | \[\widehat{\theta}_L = \overline{X}_n - \frac{c \sigma^2}{2n}.\] 158 | \end{enumerate} 159 | \textbf{Dica:} Se $Z$ é uma variável aleatória com distribuição normal de média $m$ e variância $v$, 160 | \begin{equation*} 161 | E[\exp\{kZ\}] = \exp\left(\frac{k^2v + 2km}{2}\right), 162 | \end{equation*} 163 | para $k \in \mathbb{R}$. 164 | \ifanswers 165 | \include*{A1_2022_sol_bonus} 166 | \fi 167 | 168 | % \bibliographystyle{apalike} 169 | % \bibliography{refs} 170 | 171 | \end{document} 172 | -------------------------------------------------------------------------------- /provas/src/A1_2022_sol1.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: estimador de Bayes; perda; estimador de máxima verossimilhança.} 2 | \textcolor{purple}{\textbf{Nível de dificuldade}: fácil.}\\ 3 | \textcolor{blue}{ 4 | \textbf{Resolução:} 5 | Primeiro, vamos escrever a perda esperada: 6 | \begin{align*} 7 | E_{\theta \mid \bx}\left[L(\delta, \theta\right] &= \sum_{t \in \Omega} L(\delta, t)\xi(t \mid \bx),\\ 8 | &= \sum_{t^\star \neq \delta} \xi(t^\star \mid \bx),\\ 9 | &= P_{\theta \mid \bx}(\theta \neq \delta). 10 | \end{align*} 11 | Deste modo, o estimador de Bayes é estimador que minimiza esta perda: 12 | \begin{align*} 13 | \delta_{\textrm{MAP}} &= \argmin_{d \in \mathcal{D}} E_{\theta \mid \bx}\left[L(d, \theta)\right],\\ 14 | &= \argmin_{d \in \Omega} P_{\theta \mid \bx}(\theta \neq d),\\ 15 | &= \argmin_{d \in \Omega} \left\{ 1- P_{\theta \mid \bx}(\theta = d) \right\},\\ 16 | &= \argmax_{d \in \Omega} P_{\theta \mid \bx}(\theta = d),\\ 17 | &= \argmax_{d \in \Omega} \xi(d \mid \bx), 18 | \end{align*} 19 | como queríamos demonstrar. 20 | Note que é natural fazer $\mathcal{D} = \Omega$ porque a perda é $1$ para todo valor fora de $\Omega$. 21 | Para encontrar o EMV pedido em b), primeiro vamos formular um modelo probabilístico para os dados. 22 | É razoável afirmar que o número de itens defeituosos tem distribuição binomial com $n$ tentativas e probabilidade de sucesso $\theta \in \{0.1, 0.2\}$, isto é, com um espaço paramétrico discreto em lugar do usual $\Omega = (0, 1)$: 23 | \begin{equation*} 24 | f(x \mid n, \theta) = \binom{n}{x} \theta^{x} (1-\theta)^{n-x}, \theta \in \left\{\frac{1}{10}, \frac{2}{10}\right\}, x = 0, 1, \ldots, n. 25 | \end{equation*} 26 | Assim, temos que 27 | \begin{align*} 28 | \delta_{\textrm{EMV}} &= \argmax_{\theta \in \left\{\frac{1}{10}, \frac{2}{10}\right\}} \binom{n}{x} \theta^{x} (1-\theta)^{n-x},\\ 29 | &= \argmax_{\theta \in \left\{\frac{1}{10}, \frac{2}{10}\right\}} \theta^{x} (1-\theta)^{n-x}. 30 | \end{align*} 31 | Poderíamos parar por aqui, mas vamos explorar essa questão mais um pouco. 32 | Escreva $f_1(x) = f(x \mid n, 0.1)$ e $f_2(x) = f(x \mid n, 0.2)$ e note que 33 | \begin{equation*} 34 | r(x) := \frac{f_1(x)}{f_2(x)} < 1 \iff \delta_{\textrm{EMV}} = 0.2. 35 | \end{equation*} 36 | Reescrevendo a verossimilhança como $f(x \mid n, \theta) \propto (\frac{\theta}{1-\theta})^x(1-\theta)^n$ , temos 37 | \begin{align*} 38 | \frac{(\frac{1}{9})^x(\frac{9}{10})^n}{(\frac{1}{4})^x(\frac{8}{10})^n} < 1 \iff \delta_{\textrm{EMV}} = 0.2,\\ 39 | \left(\frac{4}{9}\right)^x\left(\frac{9}{8}\right)^n < 1 \iff \delta_{\textrm{EMV}} = 0.2,\\ 40 | \frac{\log\left(\frac{4}{9}\right)}{\log\left(\frac{9}{8}\right)} < -\frac{n}{x} \iff \delta_{\textrm{EMV}} = 0.2,\\ 41 | \frac{n}{x} > 6.884949 \iff \delta_{\textrm{EMV}} = 0.2, 42 | \end{align*} 43 | com o compromisso de que vamos definir $n/0 = \infty > 6.884949$. 44 | Agora vamos resolver c), computando primeiro a distribuição \textit{a posteriori} de $\theta$: 45 | \begin{align*} 46 | \xi(\theta = 0.1 \mid \bx) &= \frac{f_1(x)\pi(0.1)}{f_1(x)\pi(0.1) + f_2(x)[1-\pi(0.1)]},\\ 47 | &= \frac{0.7\left(\frac{1}{10}\right)^x \left(\frac{9}{10}\right)^n}{0.7\left(\frac{1}{10}\right)^x \left(\frac{9}{10}\right)^n + 0.3\left(\frac{2}{10}\right)^x \left(\frac{8}{10}\right)^n}. 48 | \end{align*} 49 | Fazendo $\pi_1 = \pi(0.1)$ e $\pi_2 = \pi(0.2)$, temos que de modo análogo ao que foi feito para o EMV: 50 | \begin{align*} 51 | \frac{\xi(\theta = 0.1 \mid \bx)}{ \xi(\theta = 0.2 \mid \bx)}< 1 \iff \delta_{\textrm{MAP}} = 0.2,\\ 52 | \frac{f_1(x)\pi_1}{f_2(x)\pi_2}< 1 \iff \delta_{\textrm{MAP}} = 0.2,\\ 53 | \frac{f_1(x)}{f_2(x)}\frac{\pi_1}{1-\pi_1}< 1 \iff \delta_{\textrm{MAP}} = 0.2,\\ 54 | \left(\frac{4}{9}\right)^x\left(\frac{9}{8}\right)^n \times \frac{7}{3}< 1 \iff \delta_{\textrm{MAP}} = 0.2, 55 | \end{align*} 56 | ou seja, a razão de verossimilhanças precisa ser ajustada pela razão entre as probabilidades \textit{a priori}, ou \textit{chance} \textit{a priori} neste caso ($k=2$). 57 | Por exemplo, quando $x=3$, $\delta_{\textrm{EMV}} = 0.2$, mas $\delta_{\textrm{MAP}} = 0.1$. 58 | $\blacksquare$\\ 59 | \textbf{Comentário:} 60 | Esta questão se baseia no exercício 2 da seção 7.2 de De Groot (recomendado!) e exercício de revisão feito em aula. 61 | Neste exercício nós aplicamos a definição de estimador de Bayes para de fato nos convencer de que, uma vez estabelecida uma função de perda e uma priori (e portanto, uma posteriori), somos sempre capazes de encontrar (pelo menos) um estimador de Bayes. 62 | Além disso, vimos que é possível criar um estimador bayesiano que maximiza a posteriori em vez de integrar com respeito a ela, bem ao feitio da estatística clássica. 63 | Note que adicionar uma distribuição sobre $\Omega$ pode e em geral vai levar a inferências diferentes do que se obteria puramente usando a verossimilhança. 64 | } -------------------------------------------------------------------------------- /provas/src/A1_2022_sol2.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: informação de Fisher; estimador de máxima verossimilhança; reparametrização; admissibilidade; eficiência.}\\ \textcolor{purple}{\textbf{Nível de dificuldade}: médio.}\\ 2 | \textcolor{blue}{ 3 | \textbf{Resolução:} 4 | Para facilitar, vamos estabelecer alguns fatos antes de começar a resolução. 5 | Primeiro, se $W$ é uma variável aleatória com distribuição Poisson com taxa $\lambda$, então 6 | \begin{align*} 7 | E_\theta[W^2] &= \vr_\theta(W) + (E_\theta[W])^2,\\ 8 | &= \theta + \theta^2,\\ 9 | & = \theta(1+ \theta). 10 | \end{align*} 11 | Além disso, se $\bX = (\rs)$ é um vetor de observações com média amostral $\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$, então 12 | \begin{align*} 13 | S_2 &:= \sum_{i=1}^n \left(X_i -\bar{X}_n\right)^2,\\ 14 | & = \sum_{i=1}^n X_i^2 - 2 \bar{X}_n \sum_{i=1}^n X_i + n\left(\bar{X}_n\right)^2,\\ 15 | &= \sum_{i=1}^n X_i^2 -n\left(\bar{X}_n\right)^2, 16 | \end{align*} 17 | onde a penúltima linha segue do fato de que $S_n = \sum_{i=1}^n X_i = n \bar{X}_n$. 18 | Armados destes fatos, vamos responder a). 19 | Primeiro, 20 | \begin{align*} 21 | E_\theta[\delta_1(\bX)] &= \frac{1}{n}\sum_{i=1}^n X_i,\\ 22 | &= \frac{n\theta}{n} = \theta, 23 | \end{align*} 24 | portanto $\delta_1$, que é o estimador de máxima verossimilhança de $\theta$, é não-viesado. 25 | Agora, 26 | \begin{align*} 27 | E_\theta[\delta_2(\bX)] &= \frac{1}{n-1}\left\{\sum_{i=1}^n X_i^2 -n\left(\bar{X}_n\right)^2\right\},\\ 28 | &= \frac{1}{n-1}\left\{n\theta(1+\theta) -nE_\theta\left[\left(\bar{X}_n\right)^2\right]\right\},\\ 29 | & = \frac{1}{n-1}\left\{n\theta(1+\theta) -\frac{n}{n^2}E_\theta\left[\left(\sum_{i=1}^n X_i \right)^2\right]\right\},\\ 30 | &= \frac{1}{n-1}\left\{n\theta(1+\theta) -\frac{n}{n^2}n\theta(1 + n\theta)\right\},\\ 31 | &= \frac{\theta}{n-1}\left\{n(1+\theta) -(1 + n\theta)\right\},\\ 32 | &= \theta. 33 | \end{align*} 34 | Para b) e d), precisamos calcular $I_n(\theta) = nI(\theta)$, e podemos fazer assim porque nossa amostra é i.i.d. 35 | Assim, 36 | \begin{align*} 37 | I(\theta) &= E_\theta\left[-\frac{\partial^2\theta}{\partial\theta^2}\log f_n(\bx \mid \theta)\right],\\ 38 | &= E_\theta\left[-\frac{-\sum_{i=1}^n X_i}{\theta^2}\right],\\ 39 | &= \frac{1}{\theta}, 40 | \end{align*} 41 | de modo que $I_n(\theta) = n/\theta$ e portanto o limite inferior de Cramér-Rao para a variância de estimadores não-viesados de $\theta$ é $1/I_n(\theta) = \theta/n$. 42 | Precisamos verificar se a variância de $\delta_1$ ``encaixa'' nessa cota. 43 | \begin{align*} 44 | \vr_\theta(\delta_1(\bX)) &= \vr_\theta(\bar{X}_n),\\ 45 | &= \frac{\vr_\theta(\sum_{i=1}^nX_i)}{n^2},\\ 46 | &= \frac{n\theta}{n^2}, 47 | \end{align*} 48 | o que mostra que a cota inferior é alcançada e, portanto, $\delta_1$ é eficiente. 49 | Note também que $\lim_{n\to\infty}\bar{X}_n = \theta$, portanto $\delta_1$ também é consistente. 50 | Outra maneira de ver isso é perceber que o viés de $\delta_1$ é zero e sua variância converge para zero assintoticamente\footnote{Lembre-se: convergência em média quadrática implica convergência em probabilidade, como vimos na revisão de Probabilidade no início do curso.}. 51 | Agora, vamos resolver c), o que implica computar a variância de $\delta_2$, $\vr_\theta(\delta_2(\bX)) = E_\theta\left[\{\delta_2(\bX)\}^2\right] -\theta^2$. 52 | Vamos reescrever $\delta_2$ para nos facilitar a vida: 53 | \begin{align*} 54 | \delta_2(\bX) &= \left(X_1 - \frac{X_1 + X_2}{2}\right)^2 + \left(X_2 - \frac{X_1 + X_2}{2}\right)^2,\\ 55 | &= \left(\frac{X_1 - X_2}{2}\right)^2 + \left(\frac{X_2 - X_1}{2}\right)^2,\\ 56 | &= 2\frac{(X_1-X_2)^2}{4} = \frac{(X_1-X_2)^2}{2}. 57 | \end{align*} 58 | Estamos em posição de calcular 59 | \begin{align*} 60 | \vr_\theta(\delta_2(\bX)) &= E_\theta\left[\{\delta_2(\bX)\}^2\right] -\theta^2,\\ 61 | &= E_\theta\left[\left\{\frac{(X_1-X_2)^2}{2}\right\}^2\right] -\theta^2,\\ 62 | &= 3\theta^2 + \frac{\theta}{2}-\theta^2,\\ 63 | &= 2\theta^2 + \frac{\theta}{2}, 64 | \end{align*} 65 | onde a penúltima igualdade segue da dica dada. 66 | Como $2\theta^2$ é positivo necessariamente, concluímos que $\delta_2$ não é eficiente; como demonstramos que existe outro estimador não-viesado que é de fato eficiente, somos forçados a concluir que $R(\delta_2, \theta) > R(\delta_1, \theta)$ para todo $\theta$ e, que portanto, $\delta_2$ não é admissível. 67 | A Figura~\ref{fig:poisson_ests} mostra um esboço da distribuição de $\delta_1$ e $\delta_2$ para $n=2$ e $\theta_0 = \zeta(3) \approx 1.2021$. 68 | \begin{figure}[!ht] 69 | \begin{center} 70 | \includegraphics[scale=0.4]{Q2_A1_2022_ests.pdf} 71 | \end{center} 72 | \caption{\textbf{Distribuição amostral dos estimadores $\delta_1$ e $\delta_2$ no caso Poisson}. 73 | Mostramos os histogramas para $N=5000$ simulações de Monte Carlo com $\theta_0 = 1.2021$ -- marcado pela linha tracejada vertical. 74 | Para estas simulações, $\vr(\delta_1) \approx 0.60$, enquanto $\vr(\delta_2) \approx 3.49$. 75 | } 76 | \label{fig:poisson_ests} 77 | \end{figure} 78 | Para finalizar e responder e), vamos usar a dica para calcular $g^\prime(\theta) = 1/2\sqrt{\theta}$, o que nos leva a 79 | \begin{align*} 80 | \frac{1}{\theta} = \frac{I_X(\eta)}{4\theta} 81 | \implies I_X(\eta) = 4, \: \forall \theta \in (0, \infty), 82 | \end{align*} 83 | o que de fato é constante com relação ao parâmetro, $\theta$. 84 | Para ter certeza, vamos reparametrizar a p.m.f. e proceder aos cálculos. 85 | Note que $\theta = \eta^2$, portanto, 86 | \begin{equation*} 87 | f_\eta(x) = \frac{\eta^{2x}e^{\eta^2}}{x!}, 88 | \end{equation*} 89 | de modo que 90 | \begin{equation*} 91 | \log f_\eta(x) = 2x \log(\eta) -\eta^2, 92 | \end{equation*} 93 | e 94 | \begin{equation*} 95 | \frac{\partial^2}{\partial\eta^2}\log f_\eta(x) = -\frac{2x}{\eta^2}-2. 96 | \end{equation*} 97 | Tomando menos a esperança da expressão acima, temos 98 | \begin{equation*} 99 | I_X(\eta) = \frac{2E_\eta[x]}{\eta^2} + 2 = \frac{2\eta^2}{\eta^2} + 2 = 4. 100 | \end{equation*} 101 | $\blacksquare$\\ 102 | \textbf{Comentário:} 103 | Extraído do exercício 3, Seção 8.8, do DeGroot, e dos exemplos 8.7.5 e 8.8.8. A Seção 3.7 do livro The Bayesian Choice contém os detalhes do item (e). 104 | O interessante aqui é que como na Poisson a média e a variância coincidem em termos do valor do parâmetro, então podemos criar dois estimadores de momentos, baseados na média e variância amostrais, respectivamente, para tentar estimar $\theta$. 105 | No entanto, apenas um deles será eficiente, o que nesse caso coincide com o estimador de máxima verossimilhança. 106 | Vimos também que a parametrização influencia fortemente a forma da informação de Fisher, e este é um fato que pode ser explorado. 107 | Mais à frente no curso veremos as chamadas transformações estabilizadoras da variância e o método Delta, que ilustram esse ponto. 108 | } -------------------------------------------------------------------------------- /provas/src/A1_2022_sol3.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: Teorema da fatorização; estimador de máxima verossimilhança; invariância; suficiência.}\\ \textcolor{purple}{\textbf{Nível de dificuldade}: médio.}\\ 2 | \textcolor{blue}{ 3 | \textbf{Resolução:} 4 | Vamos resolver a) escrevendo a verossimilhança e depois aplicando o Teorema da Fatorização. 5 | Assim, como nossa amostra é aleatória 6 | \begin{align*} 7 | f_n(\bx \mid a, b) &= \prod_{i=1}^n f(x_i; a, b),\\ 8 | & = \left(\frac{\Gamma(a + b)}{\Gamma(a)\Gamma(b)}\right)^n \left(\prod_{i=1}^n x_i\right)^{a-1} \left(\prod_{i=1}^n 1-x_i\right)^{b-1},\\ 9 | &\propto \left(\frac{\Gamma(a + b)}{\Gamma(a)}\right)^n\left(\prod_{i=1}^n x_i\right)^{a} , 10 | \end{align*} 11 | de onde conseguimos facilmente identificar $T(\bX) = \prod_{i=1}^n X_i$ como estatística suficiente para $a$ quando $b$ é conhecida. 12 | Para b) queremos o EMV para $\mu = E_\theta[X] = a/(a+b)$ quando $b=1$, isto é $\mu = a/(a+1)$. 13 | A primeira providência é escrever 14 | \begin{align*} 15 | L_n(a) &\propto \left(\frac{\Gamma(a + 1)}{\Gamma(a)}\right)^n\left(\prod_{i=1}^n x_i\right)^{a},\\ 16 | &= a^n \left(\prod_{i=1}^n x_i\right)^{a}. 17 | \end{align*} 18 | Temos algumas opções para computar esta quantidade por máxima verossimilhança: podemos reparametrizar a distribuição Beta em termos da sua esperança $\mu$ e maximizar a verossimilhança resultante ou podemos obter $\hat{a}_{\textrm{EMV}}$ e usar a invariância do EMV para escrever $\hat{\mu}_{\textrm{EMV}} = \hat{a}_{\textrm{EMV}}/(\hat{a}_{\textrm{EMV}} +1)$. 19 | Aqui vamos fazer os dois caminhos, mas primeiro o mais fácil. 20 | Tomando o log da verossimilhança e diferenciando, temos 21 | \begin{equation*} 22 | \frac{\partial}{\partial a}\log L_n(a) = \frac{n}{a} + \sum_{i=1}^n \log(x_i), 23 | \end{equation*} 24 | de modo que podemos escrever\footnote{Note que $ \frac{\partial^2}{\partial a^2}\log L_n(a) = -\frac{n}{a^2} < 0$.} 25 | \begin{equation*} 26 | \hat{a}_{\textrm{EMV}} = - \frac{n}{\sum_{i=1}^n \log(X_i)}. 27 | \end{equation*} 28 | Agora, vamos ver como fica verossimilhança reparametrizada: 29 | \begin{align*} 30 | L_n(\mu) &= \left(\frac{\mu}{1-\mu}\right)^n \left(\prod_{i=1}^n x_i\right)^{\left(\frac{\mu}{1-\mu}\right)}. 31 | \end{align*} 32 | Assim, 33 | \begin{equation*} 34 | \frac{\partial}{\partial \mu}\log L_n(\mu) = -\dfrac{\left(n-\sum_{i=1}^n \log(x_i)\right)\mu-n}{\left(1-\mu\right)^2\mu}. 35 | \end{equation*} 36 | Como o denominador é positivo, para que $\frac{\partial}{\partial \mu}\log L_n(\mu) = 0$, é preciso que 37 | \begin{align*} 38 | -\left(n-\sum_{i=1}^n \log(x_i)\right)\mu-n = 0,\\ 39 | \implies \hat{\mu}_{\textrm{EMV}} = -\frac{n}{n-\sum_{i=1}^n \log(x_i)}. 40 | \end{align*} 41 | o que de fato coincide com o que já calculamos -- confira se quiser. 42 | $\blacksquare$\\ 43 | \textbf{Comentário:} 44 | Esta questão se baseia no exercício 7 da seção 7.7 de DeGroot (recomendado!). 45 | Aplicações do princípio da invariância do EMV foram vistos em sala e, por exemplo, no exercício 12 da seção 7.8, também recomendado. 46 | } -------------------------------------------------------------------------------- /provas/src/A1_2022_sol_bonus.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: Estimador de Bayes.}\\ \textcolor{purple}{\textbf{Nível de dificuldade}: médio.}\\ 2 | \textcolor{blue}{ 3 | \textbf{Resolução:} 4 | De maneira similar ao que fizemos na questão 2), vamos escrever o risco explicitamente: 5 | \begin{align*} 6 | R(\delta, \theta) &= E_{\theta \mid \bx}\left[ \exp\left\{c(\delta-\theta)\right\} - c(\delta-\theta) -1\right],\\ 7 | &= \exp(c\delta)E_{\theta \mid \bx}\left[\exp\{-c\theta\}\right] - c\delta-cE_{\theta \mid \bx}\left[\theta\right] -1. 8 | \end{align*} 9 | Para facilitar a notação, vamos escrever 10 | \begin{align*} 11 | \omega & := E_{\theta \mid \bx}\left[\exp\{-c\theta\}\right],\\ 12 | \mu_{\bx} &:= E_{\theta \mid \bx}\left[\theta\right], 13 | \end{align*} 14 | de modo que 15 | \begin{equation*} 16 | R(\delta, \theta) = \exp(c\delta)\omega - c\delta-c\mu_{\bx} -1. 17 | \end{equation*} 18 | Agora vamos verificar que a LINEX é convexa, e, no processo, encontrar o estimador de Bayes. 19 | \begin{align} 20 | \label{eq:1stderiv} 21 | \frac{\partial }{\partial \delta} R(\delta, \theta) &= c(\omega\exp(c\delta)-1),\\ 22 | \frac{\partial^2}{\partial \delta^2} R(\delta, \theta) &= c^2\omega\exp(c\delta). 23 | \end{align} 24 | Concluímos que igualar (\ref{eq:1stderiv}) a zero vai nos dar um ponto de mínimo, visto que a derivada segunda é maior que zero. 25 | Deste modo, 26 | \begin{align*} 27 | &c(\omega\exp(c\delta)-1) = 0 \implies \omega\exp(c\delta) = 1,\\ 28 | &\implies \delta^\star = -\frac{\log\left(\omega\right)}{c}, 29 | \end{align*} 30 | como queríamos demonstrar. 31 | Agora, vamos especializar este resultado para o caso normal com uma priori imprópria sobre $\mu$. 32 | Para começar, 33 | \begin{align*} 34 | \xi(\mu \mid \bx) &\propto f_n(\bx \mid x),\\ 35 | &\propto \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right),\\ 36 | &\propto \exp\left(-\frac{n}{2\sigma^2} (\mu-\bar{x}_n)^2\right), 37 | \end{align*} 38 | onde a última expressão segue de identidade conhecida e discutida em sala. 39 | Agora, notamos que a posteriori $\xi(\mu \mid \bx)$ é a densidade de uma distribuição normal com média $\bar{x}_n$ e variância $\sigma^2/n$. 40 | Agora, sabemos que o estimador LINEX é 41 | \begin{align*} 42 | \delta_{\textrm{LINEX}} = -\frac{1}{c} \log\left( E_{\theta \mid \bx}\left[\exp\{-c\mu\}\right]\right). 43 | \end{align*} 44 | Seguindo a dica e fazendo $k = -c$, $m = \bar{x}_n$ e $v = \sigma^2/n$, temos 45 | \begin{align*} 46 | \delta_{\textrm{LINEX}} &= -\frac{1}{c} \log\left(\exp\left\{\frac{c^2\frac{\sigma^2}{n} - 2c\bar{x}_n}{2}\right\}\right),\\ 47 | &= -\frac{1}{c} \left\{\frac{c^2\frac{\sigma^2}{n} - 2c\bar{x}_n}{2}\right\}, 48 | \end{align*} 49 | de onde segue a resposta de b). 50 | Note que $\delta_{\textrm{LINEX}}$ é inadmissível sob perda quadrática, tendo viés $b(\mu) = -c\sigma^2/(2n)$, independente do valor de $\mu$ e indo para zero quando $n\to \infty$. 51 | $\blacksquare$\\ 52 | \textbf{Comentário:} Nesta questão nós aplicamos os princípios da teoria da Teoria da Decisão que dão suporte à inferência bayesiana. 53 | Empregamos uma perda cuja assimetria é possível controlar através de um parâmetro $c$ e descobrimos que o estimador resultante é viesado, mas esse é o preço a se pagar por um estimador que é ótimo sob qualquer nível de assimetria induzido pela perda LINEX. 54 | } -------------------------------------------------------------------------------- /provas/src/A2_2022_sol1.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: função poder; tamanho.} 2 | \textcolor{purple}{\textbf{Nível de dificuldade}: fácil.}\\ 3 | \textcolor{blue}{ 4 | \textbf{Resolução:} 5 | Para responder a), vamos lembrar que a função poder $\pi(\theta \mid \delta_c) = P_\theta\left(\textrm{Rejeitar}\: H_0\right)$. 6 | Sendo assim, temos 7 | \begin{align*} 8 | \pi(\theta \mid \delta_c) &= P_\theta\left(S \geq c\right),\\ 9 | &= 1 - P_\theta(S < c),\\ 10 | &= 1 - F_S\left(c; n, \theta \right), 11 | \end{align*} 12 | onde $F_S\left(x; a, b\right)$ é a f.d.a. de uma distribuição Gama com forma $a$ e taxa $b$ avaliada em $x \in \mathbb{R}$. 13 | Agora precisamos mostrar que $\pi(\theta \mid \delta_c)$ é não descrescente em $\theta$ de modo a responder b). 14 | Usando a dica, sabemos que 15 | \begin{equation*} 16 | \pi(\theta \mid \delta_c) = 1 - e^{-c/\theta}\sum_{j = k}^\infty \frac{1}{j!}\left(\frac{c}{\theta}\right)^j, 17 | \end{equation*} 18 | de modo que $\frac{\partial}{\partial \theta}\pi(\theta \mid \delta_c) \geq 0$. 19 | Outro bom argumento é esboçar o gráfico da função poder e mostrar que ela não pode decrescer. 20 | O tamanho de $\delta_c$ é dado por 21 | \begin{equation*} 22 | \alpha_0 := \sup_{\theta \in \Theta_0} \pi(\theta \mid \delta_c). 23 | \end{equation*} 24 | Como a função poder é não descrescente, temos que $\alpha_0 = \pi(\theta_0 \mid \delta_c)$, respondendo c). 25 | Em d), temos que o teste de fato é não-viesado, pois a função poder é não descrescente em $\theta$, de modo que para todo par $\theta \in \Theta \setminus \Theta_0$ e $\theta^\prime \in \Theta_0$ temos que $\pi(\theta^\prime \mid \theta) \leq \pi(\theta \mid \theta)$. 26 | $\blacksquare$\\ 27 | \textbf{Comentário:} Esta é uma questão parecida com a Q1 da A2 de 2020, mas neste caso Ivo mede os tempos entre as quedas dos poemas. Uma questão simples e conceitual para esquentar os músculos. 28 | } -------------------------------------------------------------------------------- /provas/src/A2_2022_sol2.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: quantidade pivotal; intervalo de confiança; equivalência entre ICs e testes.} 2 | \textcolor{purple}{\textbf{Nível de dificuldade}: fácil.}\\ 3 | \textcolor{blue}{ 4 | \textbf{Resolução:} 5 | Existem várias respostas possíveis para a), algumas mais úteis (para os itens subsequentes) que outras. 6 | Por exemplo, 7 | \begin{equation*} 8 | W_n := \bar{X}_n - \theta 9 | \end{equation*} 10 | é pivotal, com distribuição Normal com média $0$ e variância $\sigma^2/n$. 11 | Uma escolha um pouco mais sábia é 12 | \begin{equation*} 13 | Z_n := \sqrt{n}\frac{\left(\bar{X}_n - \theta\right)}{\sigma}, 14 | \end{equation*} 15 | que tem distribuição normal-padrão. 16 | Para responder b), temos, mais uma vez, algumas opções: podemos construir intervalos unilaterais ou bilaterais. 17 | A partir de $Z_n$, podemos construir um intervalo de confiança conseguimos construir intervalos usando a normal-padrão. 18 | Para um intervalo unilateral, podemos escolher $c_U = \Phi^{-1}(0.05)$ e fazer 19 | \begin{equation*} 20 | I_1(\bX_n) = \left(-\infty, \bar{X}_n + |c_U|\frac{\sigma}{\sqrt{n}}\right), 21 | \end{equation*} 22 | ou 23 | \begin{equation*} 24 | I_2(\bX_n) = \left(\bar{X}_n - |c_U|\frac{\sigma}{\sqrt{n}}, \infty\right). 25 | \end{equation*} 26 | Para construir um intervalo bilateral, fazemos $c_B = \Phi^{-1}(0.025)$ e então 27 | \begin{equation*} 28 | I_3(\bX_n) = \left(\bar{X}_n - |c_B|\frac{\sigma}{\sqrt{n}}, \bar{X}_n + |c_B|\frac{\sigma}{\sqrt{n}}\right), 29 | \end{equation*} 30 | é um intervalo com a cobertura desejada. 31 | A resposta de c) é sim: podemos, por exemplo, usar $I_2(\bX_n)$ e desenhar um teste da forma 32 | \begin{equation*} 33 | \delta_2 = 34 | \begin{cases} 35 | \textrm{Rejeitar}\: H_0, \: \textrm{se}\: \theta_0 \in I_2(\bX_n),\\ 36 | \textrm{Falhar em rejeitar}\: H_0 \: \textrm{caso contrário}. 37 | \end{cases} 38 | \end{equation*} 39 | Este teste tem tamanho $\alpha$ e é não-viesado. 40 | Se não soubéssemos o valor de $\sigma^2$, poderíamos construir a quantidade pivotal 41 | \begin{equation*} 42 | Q_n = \sqrt{n}\frac{\bar{X}_n - \theta_0}{\sqrt{\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}}}, 43 | \end{equation*} 44 | que tem distribuição t de Student com $n-1$ graus de liberdade. 45 | Isso nos leva a um novo intervalo da forma 46 | \begin{equation*} 47 | I_4(\bX_n) = \left(\bar{X}_n - |t_U|\frac{\sqrt{\frac{\sum_{i=1}^n (X_i-\bar{X}_n)^2}{n-1}}}{\sqrt{n}}, \infty\right), 48 | \end{equation*} 49 | onde $t_U$ é o quantil $\alpha$ de uma t de Student com $n-1$ graus liberdade. 50 | Com $I_4$ em mãos, desenhamos um teste como anteriormente: 51 | \begin{equation*} 52 | \delta_4 = 53 | \begin{cases} 54 | \textrm{Rejeitar}\: H_0, \: \textrm{se}\: \theta_0 \in I_4(\bX_n),\\ 55 | \textrm{Falhar em rejeitar}\: H_0 \: \textrm{caso contrário}. 56 | \end{cases} 57 | \end{equation*} 58 | A resposta de e) tem a ver com aceitar $H_0$ quando ela é falsa, isto é, quando $\theta > \theta_0$. 59 | Este é um erro do tipo II e acontece com probabilidade $1-\pi(\theta \mid \delta_4) = 0.975$. 60 | No mesmo ímpeto, poderiámos responder f) dizendo que é possível construir testes onde o erro do tipo II fica controlado. 61 | A consequência é, em geral, que a taxa de erro do tipo I (falsos positivos) tende a aumentar. 62 | $\blacksquare$\\ 63 | \textbf{Comentário:} Esta questão é bem conceitual e procura testar os conhecimentos sobre testes no caso normal. 64 | Havia várias maneiras de responder corretamente às questões. 65 | } -------------------------------------------------------------------------------- /provas/src/A2_2022_sol3.tex: -------------------------------------------------------------------------------- 1 | \textcolor{red}{\textbf{Conceitos trabalhados}: Regressão linear; desenho experimental; quantidades derivadas.}\\ \textcolor{purple}{\textbf{Nível de dificuldade}: médio.}\\ 2 | \textcolor{blue}{ 3 | \textbf{Resolução:} 4 | Para resolver a) vamos perceber que quando substituímos a covariável original $X$ por $X^\prime = X-\bar{x}$ temos $\bar{x}^\prime = 0$ e portanto $\operatorname{Cov}\left(\hat{\beta_0}, \hat{\beta_1} \right) = -\frac{\bar{x}^\prime \sigma^2}{s_x^2} = 0$. 5 | Para afirmarmos que $\hat{\beta_0}$ e $\hat{\beta_1}$ são independentes é preciso lembrar que estes estimadores têm distribuição conjunta Normal bivariada; quando a covariância é zero, sabemos que são independentes. 6 | A resposta de b) pode ser deduzida ao lembrar que no caso centrado, a variância de $\hat{\beta_0}$ é $\sigma^2/n$. 7 | Desta forma, precisamos apenas encontrar $n$ tal que $\sigma^2/n < v$, isto é $n > \sigma^2/v$. 8 | Como sabemos que os estimadores dos coeficientes são não-viesados, podemos encontrar $\hat{\theta} = a\hat{\beta_0} + b\hat{\beta_1} +c$ como nosso estimador não-viesado de $\theta$. 9 | O EQM de tal estimador é a sua variância: 10 | \begin{align*} 11 | E[(\hat{\theta}-\theta)^2] &= \vr(\hat{\theta}) = a^2 \vr(\hat{\beta_0}) + b^2\vr(\hat{\beta_1}) -ab \operatorname{Cov}(\hat{\beta_0}, \hat{\beta_1}),\\ 12 | &= a^2 \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{s_x^2} \right) + b^2\frac{\sigma^2}{s_x^2} + ab \frac{\bar{x}\sigma^2}{s_x^2},\\ 13 | &= \sigma^2 \left(\frac{a^2}{n} + \frac{a^2\bar{x}^2}{s_x^2} + \frac{b^2}{s_x^2} + \frac{ab\bar{x}}{s_x^2}\right). 14 | \end{align*} 15 | Por fim, vamos responder d). 16 | Note que a expressão necessária aqui é a do intervalo de predição: 17 | \begin{equation*} 18 | \hat{Y} \pm c(n, \alpha_0)\cdot\hat{\sigma}_r^\prime \cdot \sqrt{\left[ 1+ \frac{1}{n} + \frac{\left(x_{\text{pred}}-\bar{x}\right)^2}{s_x^2} \right]}, 19 | \end{equation*} 20 | onde 21 | \begin{equation*} 22 | c(n, \alpha_0) := T^{-1}\left(1-\frac{\alpha_0}{2}; n-2\right), 23 | \end{equation*} 24 | e 25 | \begin{equation*} 26 | \hat{\sigma}_r^\prime := \sqrt{\frac{\sum_{i=1}^n \left(Y_i - \hat{\beta_0} - \hat{\beta_1}x_i \right)^2}{n-2}}. 27 | \end{equation*} 28 | Quando $x_{\text{pred}} = \bar{x}$ a expressão se reduz um pouco e podemos deduzir que a largura do intervalo é 29 | \begin{equation*} 30 | \hat{l} = 2 \cdot c(n, \alpha_0) \cdot \hat{\sigma}_r^\prime \sqrt{\left[ 1+ \frac{1}{n}\right]}. 31 | \end{equation*} 32 | Desejamos, portanto, encontrar $n$ tal que 33 | \begin{align*} 34 | \pr\left(\hat{l} < l\right) &\geq \gamma,\\ 35 | \pr\left( \hat{\sigma}_r^\prime < \frac{l}{2 \cdot c(n, \alpha_0) \cdot \sqrt{\left[ 1+ \frac{1}{n}\right]} }\right) &\geq \gamma,\\ 36 | \end{align*} 37 | isto é conseguimos reduzir nossa afirmação probabilística a uma afirmação com respeito à f.d.a. (ou CDF) de $\hat{\sigma}_r^\prime$. 38 | Para completar nossos cálculos só precisamos nos lembrar que $n \hat{\sigma}_r^\prime/\sigma^2$ tem distribuição qui-quadrado com $n-2$ graus de liberdade (De Groot, Teorema 11.3.2) e, portanto, 39 | \begin{equation*} 40 | \pr\left(\hat{\sigma}_r^\prime \leq a \right) = F_\chi\left(\frac{\sigma^2}{n}a; n- 2\right). 41 | \end{equation*} 42 | $\blacksquare$\\ 43 | \textbf{Comentário:} Nesta questão, retirada \textit{ipsis litteris} da A2 2021, trabalhamos os efeitos de centrar a variável independente na distribuição dos estimadores dos coefficientes. 44 | Além disso, trabalhamos ideias de desenho experimental, determinando o tamanho amostral necessário para que a banda de predição na média da variável independente tenha uma certa largura com alta probabilidade. 45 | } -------------------------------------------------------------------------------- /provas/src/Q2_A1_2022_ests.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/src/Q2_A1_2022_ests.pdf -------------------------------------------------------------------------------- /provas/src/a2_2021.bib: -------------------------------------------------------------------------------- 1 | @article{Freeman1950, 2 | title={Transformations related to the angular and the square root}, 3 | author={Freeman, Murray F and Tukey, John W}, 4 | journal={The Annals of Mathematical Statistics}, 5 | pages={607--611}, 6 | year={1950}, 7 | publisher={JSTOR} 8 | } 9 | @article{VanDyk2014, 10 | title={The role of statistics in the discovery of a {H}iggs boson}, 11 | author={van Dyk, David A}, 12 | journal={Annual Review of Statistics and Its Application}, 13 | volume={1}, 14 | pages={41--59}, 15 | year={2014}, 16 | publisher={Annual Reviews} 17 | } 18 | -------------------------------------------------------------------------------- /provas/src/ests_Q4.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/src/ests_Q4.pdf -------------------------------------------------------------------------------- /provas/src/var_delta_1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/provas/src/var_delta_1.pdf -------------------------------------------------------------------------------- /scribbles/2021-09-27-Qui_quadrado.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/scribbles/2021-09-27-Qui_quadrado.pdf -------------------------------------------------------------------------------- /scribbles/2021-09-27_inferencia.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/scribbles/2021-09-27_inferencia.pdf -------------------------------------------------------------------------------- /scribbles/2021-09-29_inferencia.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/scribbles/2021-09-29_inferencia.pdf -------------------------------------------------------------------------------- /scribbles/2021-10-04_inferencia.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/scribbles/2021-10-04_inferencia.pdf -------------------------------------------------------------------------------- /scribbles/2021-10-06_inferencia.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/scribbles/2021-10-06_inferencia.pdf -------------------------------------------------------------------------------- /slides/README.md: -------------------------------------------------------------------------------- 1 | ## Compiling 2 | A few iterations of 3 | ```bash 4 | pdflatex -interaction=nonstopmode --shell-escape inferencia.tex 5 | ``` 6 | should get the job done. 7 | 8 | ## Note on other files needed for compilation 9 | - Style files from [beamer-torino](https://github.com/barisione/beamer-torino). 10 | - The School of Applied Mathematics Getulio Vargas Foundation's [logo](https://github.com/maxbiostat/Statistical_Inference_BSc/blob/master/slides/logo.jpg) shall not be used without prior consent. 11 | -------------------------------------------------------------------------------- /slides/aula_11.tex: -------------------------------------------------------------------------------- 1 | \section{Distribuição amostral e $\chi^2$} 2 | \begin{frame}{Distribuição amostral e $\chi^2$} 3 | \begin{itemize} 4 | \item Distribuição amostral de uma estatística; 5 | \item A família qui-quadrado de distribuições Gamma; 6 | \item Exemplos. 7 | \end{itemize} 8 | \end{frame} 9 | \begin{frame}{Distribuição amostral de uma estatística} 10 | Se $\bX = \{ \rs \}$ é uma amostra aleatória, $T = r(\rs)$ é uma variável aleatória, e portanto, faz sentido falar da distribuição de $T$. 11 | \begin{exemplo}[Distribuição amostral de uma proporção] 12 | (Exemplo 8.1.1 em DeGroot) 13 | 14 | Suponha que estamos interessados na proporção de pacientes que se recrudescem após tratamento com uma determinada droga. 15 | Para uma amostra de $n$ pacientes, podemos modelar os desfechos como variáveis aleatórias i.i.d. Bernoulli com parâmetro $\theta$ e computar $T = n^{-1}\sum_{i=1}^n X_i$ como estimativa de $\theta$. 16 | Deste modo, temos 17 | \begin{equation} 18 | \label{eq:sampling_distribution_binomial} 19 | \pr(T = t) = 20 | \begin{cases} 21 | \binom{n}{nt} \theta^{nt} (1-\theta)^{n(1-t)}, t = \frac{0}{n}, \frac{1}{n}, \ldots,\frac{n-1}{n} ,\frac{n}{n},\\ 22 | 0,\text{caso contrário}. 23 | \end{cases} 24 | \end{equation} 25 | Chamamos~(\ref{eq:sampling_distribution_binomial}) de~\textbf{distribuição amostral} de $T$. 26 | \end{exemplo} 27 | \end{frame} 28 | 29 | \begin{frame}{Fazendo afirmações probabilísticas sobre estimadores} 30 | Relembre o exemplo das lâmpadas de Astolfo: 31 | \[ \hat{\theta}_{\text{Bayes}} = \frac{\alpha + n}{\beta + S}; \: \hat{\theta}_{\text{EMV}} = \frac{n}{S}. \] 32 | Podemos perguntar, 33 | \[ \pr\left(|\hat{\theta} -\theta| < a\right) = ? \] 34 | \end{frame} 35 | 36 | \begin{frame}{Ilustrando} 37 | \begin{figure} 38 | \includegraphics[scale=0.6]{figures/probability_curves_DeGroot8.1.pdf} 39 | \end{figure} 40 | \end{frame} 41 | 42 | \section{Qui-quadrado} 43 | 44 | \begin{frame}{A distribuição qui-quadrado} 45 | \begin{defn}[Distribuição qui-quadrado] 46 | Dizemos que uma variável aleatória $Y$ tem distribuição~\textbf{qui-quadrado} com $m$ graus de liberdade quando 47 | \begin{equation} 48 | \label{eq:chi_square_density} 49 | f_Y(y) = \frac{1}{2^{m/2}\Gamma(m/2)} y^{m/2 - 1}e^{-y/2}, \: y >0. 50 | \end{equation} 51 | 52 | Vemos que $Y$ tem função geradora de momentos 53 | \[\psi(t) = \left( \frac{1}{1-2t}\right)^{m/2}, t < 1/2 .\] 54 | \end{defn} 55 | $E[Y] = ?$, $\vr(Y) =?$ 56 | \end{frame} 57 | 58 | \begin{frame}{Alguns resultados úteis} 59 | 60 | \begin{theo}[Soma de variáveis aleatórias qui-quadrado] 61 | \label{thm:sum_chisquare} 62 | Se $\rs$ são variáveis aleatórias independentes com graus de liberdade $m_i$, então $W = \sum_{i=1}^n X_i$ tem distribuição qui-quadrado com graus de liberdade $m = \sum_{i=1}^n m_i$. 63 | \end{theo} 64 | \textbf{Prova}: Segue da soma de variáveis aleatórias Gama. 65 | 66 | \begin{theo}[Distribuição do quadrado de uma variável aleatória Normal padrão] 67 | \label{thm:square_of_normal} 68 | Se $X \sim\operatorname{Normal}(0, 1)$, $Y = X^2$ tem distribuição qui-quadrado com $m=1$. 69 | \end{theo} 70 | \textbf{Prova}: Escrever a acumulada de $Y$, diferenciar e usar a regra da cadeia. 71 | 72 | \begin{obs}[Distribuição da soma de quadrados de normais padrão] 73 | \label{rmk:sum_squares_standard_normal} 74 | Se $\rs$ são variáveis aleatórias Normal padrão, então $Z = \sum_{i=1}^n X_i^2$ tem distribuição qui-quadrado com $n$ graus de liberdade. 75 | \end{obs} 76 | \textbf{Prova}: Imediato dos dois últimos teoremas. 77 | 78 | \end{frame} 79 | 80 | \begin{frame}{Distribuição do EMV da variância} 81 | Vamos a um exemplo motivador. 82 | No caso Normal, quando $\mu$ é conhecida, temos o estimador de máxima verossimilhança para a variância: 83 | \[ \hat{\sigma^2} = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2. \] 84 | Isso nos leva às duas próximas observações 85 | \begin{obs}[Uma transformação linear do EMV] 86 | \label{rmk:linear_transform_MLE_normal} 87 | \begin{equation*} 88 | \label{eq:linear_transform_MLE_normal} 89 | \frac{n\hat{\sigma^2}}{\sigma^2} \sim \operatorname{qui-quadrado}(n). 90 | \end{equation*} 91 | \end{obs} 92 | \textbf{Prova}: Notar que $Z_i = (X_i-\mu)/\sigma$ são Normal padrão e aplicar a observação~\ref{rmk:sum_squares_standard_normal}. 93 | 94 | \begin{obs}[Distribuição do EMV da variância] 95 | \label{rmk:sampling_distribution_normal_variance} 96 | \begin{equation*} 97 | \hat{\sigma^2} \sim \operatorname{Gama}\left(\frac{n}{2}, \frac{n}{2\sigma^2} \right). 98 | \end{equation*} 99 | 100 | \end{obs} 101 | \textbf{Prova}: Exercício 13 da seção 8.2 de DeGroot. 102 | \end{frame} 103 | 104 | \begin{frame}{Quem comeu o meu queijo?} 105 | \begin{exemplo}[Concentração de ácido no queijo] 106 | \label{ex:acid_concentration_cheese} 107 | Suponha que estamos interessados em medir a concentração de um certo ácido em pedaços de queijo produzidos por uma fábrica. 108 | Ao longo dos anos, grande acúmulo de dados permitiu afirmar que a distribuição populacional da concentração é Normal com parâmetros $\mu$ e $\sigma^2$. 109 | Suponha que amostramos $n$ pedaços e medimos as concentrações $\rs$. 110 | Então 111 | \[ Y = \frac{1}{n}\sum_{i=1}^n |X_i-\mu|^2 \] 112 | é uma medida de quanto estas amostras desviam da concentração típica $\mu$. 113 | Suponha que uma diferença de concentração $a$ é o suficiente para dar gosto diferente ao queijo. 114 | Podemos calcular $\pr(Y \leq a^2)$ para quantificar a probabilidade de isso acontecer. 115 | \end{exemplo} 116 | \end{frame} 117 | 118 | \begin{frame}{O que aprendemos?} 119 | \begin{itemize} 120 | 121 | \item[\faLightbulbO] Distribuição amostral; 122 | 123 | ``Estatísticas e estimadores são variáveis aleatórias e têm distribuições amostrais'' 124 | 125 | \item[\faLightbulbO] A distribuição qui-quadrado; 126 | 127 | ``A soma de quadrados de variáveis aleatórias gaussianas é um tipo especial de distribuição Gama'' 128 | 129 | \item[\faLightbulbO] Avaliação probabilística de estimadores; 130 | 131 | ``Podemos utilizar a distribuição amostral para fazer afirmações sobre quantidades como $|\hat{\theta}-\theta|$'' 132 | 133 | \end{itemize} 134 | \end{frame} 135 | 136 | \begin{frame}{Leitura recomendada} 137 | \begin{itemize} 138 | \item[\faBook] DeGroot seções 8.1 e 8.2; 139 | % \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 6.2. 140 | % \item[\faBook] $^\ast$ Schervish (1995), capítulo 7. 141 | \item[\faForward] Próxima aula: DeGroot, seções 8.3 e 8.4; 142 | \item {\large\textbf{Exercícios recomendados}} 143 | \begin{itemize} 144 | \item[\faBookmark] DeGroot. 145 | \begin{itemize} 146 | \item Seção 8.1: exercícios 1, 2, 3 e 9; 147 | \item Seção 8.2: exercícios 4, 7, 10 e 13. 148 | \end{itemize} 149 | \end{itemize} 150 | \end{itemize} 151 | \end{frame} 152 | -------------------------------------------------------------------------------- /slides/aula_12.tex: -------------------------------------------------------------------------------- 1 | \section{Distribuição de média e variância amostrais} 2 | \begin{frame}{Distribuição de média e variância amostrais} 3 | \begin{itemize} 4 | \item Distribuição conjunta de $\Sm$ e $\Sv$; 5 | \item No caso Normal, $\Sm \indep \Sv$ são independentes! 6 | \item Distribuição t de Student. 7 | \end{itemize} 8 | \end{frame} 9 | 10 | \begin{frame}{Distribuição de $\Sm$ e $\Sv$} 11 | \begin{itemize} 12 | \item $\Sm \sim \operatorname{Normal}\left(\mu, \frac{\sigma^2}{n}\right)$; 13 | \item $\Sv \sim \operatorname{Gama}\left(\frac{n-1}{2}, \frac{n}{2\sigma^2}\right)$ 14 | \end{itemize} 15 | \begin{figure}[!ht] 16 | \label{fig:sample_moments_normal} 17 | \begin{center} 18 | \includegraphics[scale=0.5]{figures/sample_moments_normal.pdf} 19 | \end{center} 20 | \end{figure} 21 | \end{frame} 22 | 23 | \begin{frame}{Um Teorema importante} 24 | Aqui vamos ver um caso especial do Teorema de Basu\footnote{Debabrata Basu (1924--2001) foi um importante estatístico indiano.}, que fala que os dois primeiros momentos amostrais da distribuição Normal são independentes. 25 | \begin{theo}[Independência da média e variância amostrais na Normal] 26 | \label{thm:independence_sample_mean_variance_normal} 27 | Seja $\rs$ uma amostra aleatória de uma distribuição Normal com parâmetros $\mu$ e $\sigma^2$. 28 | Então a média amostral, $\Sm$ e a variância amostral, $\Sv$, são independentes. 29 | Ademais, $\Sm \sim \operatorname{Normal}\left(\mu, \frac{\sigma^2}{n}\right)$ e $\Sv \sim \operatorname{Gama}\left(\frac{n-1}{2}, \frac{n}{2\sigma^2}\right)$. 30 | \end{theo} 31 | \textbf{Prova:} Troca de variáveis em duas dimensões; propriedades de matrizes ortogonais. 32 | Ver Teorema 8.3.1 em DeGroot (prova na pág. 476). 33 | \end{frame} 34 | 35 | \begin{frame}{Exemplo} 36 | Suponha que queremos determinar o tamanho de amostra, $n$, de modo que os EMVs da média $\mu$ e do desvio padrão $\sigma$ estejam ``perto'' dos seus valores verdadeiros. 37 | Formalmente, queremos encontrar $n$ tal que 38 | \[ \pr\left( \left|\hat{\mu} - \mu\right| \leq \frac{1}{5}\sigma \: \text{\underline{e}} \: \left|\hat{\sigma}-\sigma\right| \leq \frac{1}{5}\sigma \right) \geq \frac{1}{2} ,\] 39 | seja satisfeito. 40 | \end{frame} 41 | 42 | \begin{frame}{A distribuição $t$ de Student} 43 | Qual a distribuição de $\frac{\sqrt{n}\left(\Sm - \mu\right)}{\hat{\sigma}}$? 44 | A resposta é a distribuição t de ``Student''\footnote{William Sealy Gosset (1876--1937) foi um estatístico inglês que, em 1908, publicou o resultado acima sob o pseudônimo ``Student'', ou estudante/aluno.} 45 | 46 | \begin{defn}[A distribuição t] 47 | \label{def:Student_t_distribution} 48 | Considere duas variáveis aleatórias, $Y \sim\operatorname{Qui-quadrado}(m)$ e $Z \sim\operatorname{Normal}(0, 1)$ e defina a variável aleatória 49 | \[ X = \frac{Z}{\sqrt{\frac{Y}{m}}}. \] 50 | Dizemos que $X$ tem distribuição~\textbf{t de Student com $m$ graus de liberdade}. 51 | Sabemos ainda que 52 | \[f_X(x) = \frac{\Gamma(\frac{m + 1}{2})}{\sqrt{m\pi}\Gamma(\frac{m}{2})} \left(1 + \frac{x^2}{m}\right)^{-\frac{m+1}{2}},\: x \in (-\infty, \infty). \] 53 | \end{defn} 54 | Para $m>2$, $E[X] = 0$ (porquê?) e $\vr(X) = m/(m-2)$. 55 | \end{frame} 56 | 57 | \begin{frame}{Comparando a t com outras distribuições} 58 | \begin{figure}[!ht] 59 | \begin{center} 60 | \includegraphics[scale=.6]{figures/comparacao_t_Student.pdf} 61 | \end{center} 62 | \end{figure} 63 | \end{frame} 64 | 65 | \begin{frame}{Um exemplo} 66 | \begin{theo}[Distribuição amostral do estimador não-viesado da variância] 67 | \label{thm:unbiased_variance_estimator_StudentT} 68 | Considere o estimador 69 | \begin{equation*} 70 | \hat{\sigma}^\prime = \sqrt{\frac{\Delta^2}{n-1}}, 71 | \end{equation*} 72 | onde $\Delta^2 = \sum_{i=1}^n \left(X_i - \Sm\right)^2$. 73 | Então 74 | \begin{equation*} 75 | \frac{\sqrt{n}\left(\Sm - \mu\right)}{\hat{\sigma}^\prime} \sim \operatorname{Student}(n-1). 76 | \end{equation*} 77 | \end{theo} 78 | \textbf{Prova:} 79 | Ver Teorema 8.4.2 em DeGroot. 80 | Defina $Z = \sqrt{n}(\Sm - \mu)/\sigma$ e $Y = \Delta^2/\sigma^2$. 81 | Então $Z \sim\operatorname{Normal}(0,1)$ e $Y\sim\operatorname{Qui-quadrado}(n-1)$. 82 | Faça 83 | \begin{equation} 84 | U = \frac{Z}{\sqrt{\frac{Y}{n-1}}} = \frac{\sqrt{n}(\Sm-\mu)}{\sqrt{\frac{\Delta^2}{n-1}}}, 85 | \end{equation} 86 | e note que $U \sim \operatorname{T}(n-1)$ $\qed$ 87 | \end{frame} 88 | 89 | \begin{frame}{O que aprendemos?} 90 | \begin{itemize} 91 | 92 | \item[\faLightbulbO] Independência dos momentos amostrais da Normal; 93 | 94 | ``Numa amostra aleatória Normal, $\Sm$ e $\Sv$ são independentes e $\Sm \sim \operatorname{Normal}\left(\mu, \frac{\sigma^2}{n}\right)$ e $\Sv \sim \operatorname{Gama}\left(\frac{n-1}{2}, \frac{n}{2\sigma^2}\right)$.'' 95 | 96 | \item[\faLightbulbO] A distribuição t de Student; 97 | 98 | ``A diferença padronizada entre a média amostral e a média populacional ($\mu$) tem distribuição t de Student, que não depende de $\sigma^2$'' 99 | 100 | \end{itemize} 101 | \end{frame} 102 | 103 | \begin{frame}{Leitura recomendada} 104 | \begin{itemize} 105 | \item[\faBook] DeGroot seções 8.3 e 8.4; 106 | % \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 6.2. 107 | % \item[\faBook] $^\ast$ Schervish (1995), capítulo 7. 108 | \item[\faForward] Próxima aula: DeGroot, seção 8.5; 109 | \item {\large\textbf{Exercícios recomendados}} 110 | \begin{itemize} 111 | \item[\faBookmark] DeGroot. 112 | \begin{itemize} 113 | \item Seção 8.3: exercício 8; 114 | \item Seção 8.4: derivar a densidade da Distribuição t de Student. 115 | \end{itemize} 116 | \end{itemize} 117 | \end{itemize} 118 | \end{frame} 119 | -------------------------------------------------------------------------------- /slides/aula_15.tex: -------------------------------------------------------------------------------- 1 | \section{Testes de hipóteses II} 2 | \begin{frame}{Razões de verossimilhanças} 3 | \begin{itemize} 4 | \item Intervalos de confiança e testes; 5 | \item Razões de verossimilhanças 6 | \end{itemize} 7 | \end{frame} 8 | 9 | \begin{frame}{Intervalos de confiança $\equiv$ testes} 10 | De posse de um intervalo de confiança, podemos testar hipóteses sobre uma função dos parâmetros, $g(\theta)$, como mostra o seguinte teorema: 11 | \begin{theo}[Intervalos de confiança e testes são equivalentes] 12 | \label{thm:CIs_are_tests} 13 | Suponha que dispomos de dados $\bX = \{ \rs \}$ com f.d.p. comum $f(x \mid \theta)$, e estamos interessados em testar as hipóteses: 14 | \begin{align*} 15 | H_0 &: g(\theta) = g_0, \\ 16 | H_1&: g(\theta) \neq g_0, 17 | \end{align*} 18 | de modo que existe um teste $\delta_{g_0}$ com nível $\alpha_0$ destas hipóteses. 19 | Para cada $\bX = \bx$, defina 20 | \[ w(\bx) = \left\{g_0: \delta_{g_0} \text{\:não\: rejeita\:} H_0\text{\:dado\:que\:} \bX = \bx \right\}.\] 21 | Fazendo o nível de confiança do intervalo $\gamma = 1 -\alpha_0$, temos 22 | \[ \pr\left(g(\theta_0) \in w(\bX) \mid \theta = \theta_0 \right) \geq \gamma,\: \forall \theta_0 \in \Omega. \] 23 | \end{theo} 24 | \textbf{Prova:} Notar que $\pr\left(\delta_{g_0} \text{\: não\: rejeita\:} H_0 \mid \theta = \theta_0\right) \geq \alpha_0 = 1-\gamma$ e concluir que $w(\bX)$ é uma região de crítica para $\delta_{g_0}$. 25 | Ver Teorema 9.1.1 de DeGroot. 26 | \end{frame} 27 | 28 | \begin{frame}{Conjunto de confiança} 29 | O conjunto $w(\bX)$ definido acima pode ser entendido como um conjunto de confiança para $g(\theta)$. 30 | \begin{defn}[Conjunto de confiança] 31 | \label{def:confidence_set} 32 | Se um conjunto aleatório $w(\bX)$ satisfaz 33 | \[\pr\left(g(\theta_0) \in w(\bX) \mid \theta = \theta_0 \right) \geq \gamma, \] 34 | para todo $\theta_0 \in \Omega$, então chamamos $w(\bX)$ de um~\textbf{conjunto de confiança} para $g(\theta)$. 35 | \end{defn} 36 | Isso nos leva ao seguinte teorema 37 | \begin{theo}[Testando hipóteses a partir de conjuntos de confiança] 38 | \label{thm:testing_hypotheses_confidence_sets} 39 | Suponha que dispomos de dados $\bX = \{ \rs \}$ com f.d.p. comum $f(x \mid \theta)$ e que $w(\bX)$ é um conjunto de confiança para uma função de interesse $g(\theta)$. 40 | Então para todo valor $g_0$ assumido por $g(\theta)$ existe um teste $\delta_{g_0}$, de nível $\alpha_0$ que rejeita $H_0: g(\theta) = g_0 $ se e somente se $g(\theta_0) = g_0 \notin w(\bX)$. 41 | \end{theo} 42 | \textbf{Prova:} Trivial. 43 | Ver DeGroot, Teorema 9.1.2. 44 | \end{frame} 45 | 46 | \begin{frame}{Exemplo} 47 | Vamos aplicar os conceitos discutidos ao caso Normal com variância conhecida. 48 | \begin{exemplo}[Teste para média da Normal com variância conhecida] 49 | \label{ex:test_normal_mean} 50 | Suponha que $\bX = \{ \rs \}$ formam uma amostra aleatória de uma distribuição Normal com média $\mu$ e variância $\sigma^2$, conhecida. 51 | Considere testar a hipótese 52 | \begin{align*} 53 | H_0 &: \mu = \mu_0, \\ 54 | H_1&: \mu \neq \mu_0. 55 | \end{align*} 56 | Seja $\alpha_0 = 1-\gamma$. 57 | Lembre-se de que o teste de tamanho $\alpha_0$, $\delta_{\mu_0}$ é rejeitar $H_0$ se $|\Sm-\mu_0| \geq c$, $c := \Phi^{-1}\left(1-\alpha_0/2\right)\sigma/\sqrt{n}$. 58 | Esta última desigualdade pode ser manipulada algebricamente para obter o intervalo de confiança exato 59 | $$ (A(\bX), B(\bX)) = \left( \Sm - c, \Sm + c\right), $$ 60 | de modo que $\pr(A(\bX) < \mu_0 < B(\bX) | \mu = \mu_0) = \gamma$. 61 | \end{exemplo} 62 | \end{frame} 63 | 64 | \begin{frame}{Testes unicaudais e bi-caudais} 65 | Da mesma forma que intervalos de confiança podem ser uni- ou bilaterais. 66 | Considere testar a hipótese 67 | \begin{align*} 68 | H_0 &: g(\theta) \geq g_0, \\ 69 | H_1&: g(\theta) < g_0. 70 | \end{align*} 71 | Podemos testar esta hipótese a partir de um intervalo de confiança da forma $I_l = (A(\bX), \infty)$: se $g(\theta) \notin I_l$ então rejeitamos $H_0$. 72 | \end{frame} 73 | 74 | \begin{frame}{Testes de razão de verossimilhanças} 75 | Considere testar 76 | \begin{align*} 77 | H_0 &: \theta \in \Omega_0, \\ 78 | H_1&: \theta \in \Omega_1. 79 | \end{align*} 80 | Em certas situações, podemos utilizar a função de verossimilhança para quantificar a evidência em favor de $H_0$. 81 | \begin{defn}[Teste de razão de verossimilhanças] 82 | \label{def:LRT} 83 | A estatística 84 | \[ \Lambda(\bx) = \frac{\sup_{\theta \in \Omega_0} f_n(\bx \mid \theta) }{\sup_{\theta \in \Omega} f_n(\bx \mid \theta)}, \] 85 | é chamada uma~\textbf{estatística de razão de verossimilhanças}. 86 | Um~\textbf{um teste de razão de verossimilhanças}, $\delta_k$ é um teste que rejeita $H_0$ se $\Lambda(\bx) \leq k$ para uma constante $k$. 87 | \end{defn} 88 | \end{frame} 89 | 90 | \begin{frame}{Teste de razão de verossimilhanças para a binomial} 91 | \begin{exemplo}[Teste de razão de verossimilhanças para uma hipótese simples] 92 | \label{ex:LRT_simple_hypothesis} 93 | Suponha que $\rs$ são uma amostra aleatória de uma distribuição Bernoulli com parâmetro $p$. 94 | Assim, temos $Y = \sum_{i=1}^n X_i$ e $Y~\operatorname{Binomial}(n, p)$. 95 | Considere testar a hipótese $H_0 : p = p_0, H_1: p \neq p0$. 96 | Depois de observarmos $Y = y$, a função de verossimilhança é 97 | \[ f(\bx \mid p) = \pr(Y = y\mid p) = \binom{n}{y} p^y (1-p)^{n-y}. \] 98 | Como neste exemplo $\Omega_0 = \{p_0\}$ e $\Omega_1 = (0, 1)\setminus\{p_0\}$, 99 | \begin{equation*} 100 | \Lambda(\bx) = \frac{p_0^y (1-p_0)^{n-y}}{\sup_{p \in (0,1)} p^y (1-p)^{n-y}}. 101 | \end{equation*} 102 | O supremo no denominador é atingido no EMV, $\hat{p} = y/n$, de modo que 103 | \begin{equation*} 104 | \Lambda(\bx) = \left(\frac{np_0}{y}\right)^{y} \left(\frac{n(1-p_0)}{n-y}\right)^{n-y}. 105 | \end{equation*} 106 | Para mais detalhes, ver código no repositório do curso. 107 | \end{exemplo} 108 | \end{frame} 109 | 110 | \begin{frame}{Um teorema útil} 111 | Sob certas condições de regularidade, podemos fazer afirmações sobre a distribuição assintótica de $\log\Lambda(\bX)$. 112 | \begin{theo}[Teorema de Wilks\footnote{Em homenagem a Samuel Wilks (1906-1964), matemático estadounidense.}] 113 | \label{thm:Wilks} 114 | Suponha que temos um espaço de parâmetros com $k$ coordenadas, $\theta = (\theta_1, \theta_2, \ldots, \theta_k)$ e desejamos testar a hipótese (simples) da forma 115 | \begin{align*} 116 | H_0 &: \theta_j = \theta_0^{j}, j = 1, 2, \ldots, k, \\ 117 | H_1 &: \theta_j \neq \theta_0^{j}, j = 1, 2, \ldots, k. 118 | \end{align*} 119 | Então, sob condições de regularidade, temos que, à medida que $n \to \infty$, 120 | \begin{equation*} 121 | -2\log\Lambda(\bX) \xrightarrow{\text{d}} \chi^{2} (k), 122 | \end{equation*} 123 | \end{theo} 124 | \textbf{Prova:} Avançada, não será dada aqui. 125 | Ver Teorema 9.1.4 de DeGroot. 126 | Para a demonstração, ver Teorema 7.125 de Schervish (1995). 127 | \end{frame} 128 | 129 | \begin{frame}{O que aprendemos?} 130 | \begin{itemize} 131 | 132 | \item[\faLightbulbO] Intervalos de confiança podem ser utilizados para testar hipóteses; 133 | \item[\faLightbulbO] Testes podem ser bicaudais ($1-\alpha_0/2$) quando unicaudais ($(1 + \alpha_0)/2)$; 134 | \item[\faLightbulbO] Razões de verossimilhanças 135 | 136 | ``A razão entre o supremo da função de verossimilhança tomado no espaço em que $H_0$ é verdadeira ($\Omega_0$) e o mesmo supremo tomado sobre todo o espaço de parâmetros ($\Omega$)'' 137 | 138 | \item[\faLightbulbO] Teorema de Wilks; 139 | 140 | ``À medida que o tamanho de amostra aumenta, menos duas vezes o logaritmo da razão de verossimilhanças tende em distribuição para uma Qui-quadrado com $k$ graus de liberdade'' 141 | \end{itemize} 142 | \end{frame} 143 | 144 | \begin{frame}{Leitura recomendada} 145 | \begin{itemize} 146 | \item[\faBook] DeGroot seção 9.1; 147 | \item[\faBook] $^\ast$ Schervish (1995), capítulos 4.5.5 e 7.5 . 148 | \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 8.2. 149 | \item[\faForward] Próxima aula: DeGroot, seção 9.5; 150 | \end{itemize} 151 | \end{frame} 152 | -------------------------------------------------------------------------------- /slides/aula_17.tex: -------------------------------------------------------------------------------- 1 | \section{Testes para igualdade de variâncias} 2 | \begin{frame}{Testes para igualdade de variâncias} 3 | \begin{itemize} 4 | \item A distribuição F; 5 | \item Comparação de variâncias de duas normais; 6 | \item Propriedades; 7 | \item P-valor; 8 | \end{itemize} 9 | \end{frame} 10 | 11 | 12 | \begin{frame}{A distribuição F} 13 | Sejam $Y \sim\operatorname{Qui-quadrado}(m)$ e $W \sim\operatorname{Qui-quadrado}(n)$. 14 | Então 15 | \begin{equation*} 16 | X = \frac{Y/m}{W/n}, 17 | \end{equation*} 18 | tem distribuição $F$ com $m$ e $n$ graus de liberdade, com f.d.p. 19 | \begin{equation*} 20 | f_X(x) = \frac{\Gamma\left(\frac{m + n}{2}\right)m^{m/2} n^{n/2}}{\Gamma\left(\frac{n}{2}\right)\Gamma\left(\frac{m}{2}\right)} \cdot \frac{x^{m/2-1}}{(mx + n)^{(m + n)/2}}, \: x > 0. 21 | \end{equation*} 22 | \begin{theo}[Propriedades da distribuição F] 23 | \label{thm:F_distribution_properties} 24 | \begin{itemize} 25 | \item[i)] Se $X \sim F(m, n)$, então $\frac{1}{X} \sim F(n, m)$; 26 | \item[ii)] Se $Y \sim\operatorname{Student}(n)$, então $Y^2 \sim F(1, n)$. 27 | \end{itemize} 28 | \end{theo} 29 | \textbf{Prova:} Transformação de v.a.s padrão. 30 | Exercício para a leitora. 31 | \end{frame} 32 | 33 | \begin{frame}{Testando a igualdade de duas variâncias} 34 | Suponha $X_i \sim\operatorname{Normal}(\mu_1, \sigma_1^2), i = 1, 2, \ldots, m$ e $Y_j \sim\operatorname{Normal}(\mu_2, \sigma_2^2), j = 1, 2, \ldots, n$. 35 | Estamos interessados em testar 36 | \begin{align*} 37 | H_0 &: \sigma_1^2 \leq \sigma_2^2 , \\ 38 | H_1&: \sigma_1^2 > \sigma_2^2. 39 | \end{align*} 40 | Para isso, vamos computar a estatística de teste 41 | \begin{equation*} 42 | V = \frac{S_X^2/(m-1)}{S_Y^2/(n-1)}, 43 | \end{equation*} 44 | onde $S_X^2 = \sum_{i=1}^m (X_i-\bar{X}_m)^2$ e $S_Y^2 = \sum_{j=1}^n (Y_j-\bar{Y}_n)^2$. 45 | 46 | \begin{defn}[O teste F] 47 | \label{def:F_test} 48 | O teste F de homogeneidade (igualdade de variâncias) é o teste $\delta_c$ que rejeita $H_0$ se $V \geq c$, para uma constante positiva $c$. 49 | \end{defn} 50 | 51 | \end{frame} 52 | 53 | \begin{frame}{Propriedades do teste F} 54 | Em primeiro lugar, podemos fazer afirmações sobre a distribuição de (uma transformação de) $V$. 55 | \begin{theo}[A distribuição de $V$] 56 | \label{thm:V_distribution} 57 | Seja $V = \frac{S_X^2/(m-1)}{S_Y^2/(n-1)}$, então: 58 | \begin{equation*} 59 | \frac{\sigma_2^2}{\sigma_1^2} V \sim F(m-1, n-1). 60 | \end{equation*} 61 | Além disso, se $\sigma_1^2 = \sigma_2^2$, $V \sim F(m-1, n-1)$. 62 | \end{theo} 63 | \textbf{Prova:} Notar que $S_X^2/\sigma_1^2$ e $S_Y^2/\sigma_2^2$ tem distribuição qui-quadrado com $m-1$ e $n-1$ graus de liberdade, respectivamente. 64 | Ver Teorema 9.7.3 de DeGroot. 65 | \end{frame} 66 | 67 | \begin{frame}{P-valor} 68 | Seja $G(x; m-1, n-1)$ a f.d.a. de uma distribuição $F$ com $m-1$ e $n-1$ graus de liberdade. 69 | Da mesma forma, defina $G^{-1}(p; m-1, n-1)$ como a f.d.a. inversa. 70 | Então, se $V = v$: 71 | \begin{itemize} 72 | \item Para a hipótese $H_0: \sigma_1^2 \leq \sigma_2^2$, o p-valor vale $p = 1-G(v; m-1, n-1)$; 73 | \item Para a hipótese $H_0: \sigma_1^2 \geq \sigma_2^2$, o p-valor vale $p = G(v; m-1, n-1)$; 74 | \item Para a hipótese bicaudal $H_0: \sigma_1^2 \neq \sigma_2^2$, o p-valor vale $p = 2\min\left\{1-G(v; m-1, n-1), G(v; m-1, n-1)\right\}$; 75 | \end{itemize} 76 | \end{frame} 77 | 78 | \begin{frame}{Mais propriedades do teste F} 79 | Analogamente ao teste t, podemos enunciar o seguinte teorema sobre o teste F. 80 | \begin{theo}[Propriedades do teste F] 81 | \label{thm:F_test_properties} 82 | Suponha que estamos testando $H_0: \sigma_1^2 \leq \sigma_2^2$. 83 | Então 84 | \begin{itemize} 85 | \item [i)] $\pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2 \mid \delta_c) = 1 -G\left(\frac{\sigma_2^2}{\sigma_1^2}c; m-1, n-1\right)$; 86 | \item [ii)] $\sigma_1^2 = \sigma_2^2 \implies \pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2 \mid \delta_c) = \alpha_0$; 87 | \item [iii)] $\sigma_1^2 < \sigma_2^2 \implies \pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2 \mid \delta_c) < \alpha_0$ 88 | \item [iv)] $\sigma_1^2 > \sigma_2^2 \implies \pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2 \mid \delta_c) > \alpha_0$; 89 | \item [v)] $\lim_{\sigma_1^2/\sigma_2^2 \to 0} \pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2 \mid \delta_c) = 0$; 90 | \item [vi)] $\lim_{\sigma_1^2/\sigma_2^2 \to \infty} \pi(\mu_1, \mu_2, \sigma_1^2, \sigma_2 \mid \delta_c) = 1$; 91 | \item[vii)] $\delta_c$ é não-viesado e tem tamanho $\alpha_0$. 92 | \end{itemize} 93 | \end{theo} 94 | \textbf{Prova:} Omitida aqui. 95 | Ver Teorema 9.7.4 de DeGroot. 96 | \end{frame} 97 | 98 | \begin{frame}{O que aprendemos?} 99 | \begin{itemize} 100 | \item[\faLightbulbO] A distribuição F aparece quando tomamos a razão de variáveis aleatórias Qui-quadrado; 101 | \item[\faLightbulbO] Para comparação das variâncias de duas amostras a estatística teste tem distribuição $F$ com $m-1$ e $n-1$ graus de liberdade; 102 | \item O teste F, como seu primo o teste t, é não viesado e tem tamanho $\alpha_0$. 103 | \end{itemize} 104 | \end{frame} 105 | 106 | \begin{frame}{Leitura recomendada} 107 | \begin{itemize} 108 | \item[\faBook] DeGroot seção 9.7; 109 | \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 8. 110 | \item[\faForward] Próxima aula: DeGroot, seção 11; 111 | \item {\large\textbf{Exercícios recomendados}} 112 | \begin{itemize} 113 | \item[\faBookmark] Derivar a função de densidade de probabilidade de uma distribuição F (Teorema 9.7.1 de DeGroot). 114 | \item[\faBookmark] Derivar o teste F como um teste de razão de verossimilhanças. 115 | \end{itemize} 116 | \end{itemize} 117 | \end{frame} 118 | -------------------------------------------------------------------------------- /slides/aula_19.tex: -------------------------------------------------------------------------------- 1 | \section{Discussão de TSHN} 2 | \begin{frame}{Testes de hipótese: discussão} 3 | \begin{itemize} 4 | \item Como construir um teste que~\textbf{quase sempre} rejeita $H_0$; 5 | \item Significância estatística~\textit{vs} significância prática; 6 | \item Rapidinhas. 7 | \end{itemize} 8 | \end{frame} 9 | 10 | \begin{frame}{Um teste esquisito} 11 | 12 | Suponha que temos $\rs$ vindos de uma distribuição Normal com média $\theta$ e variância $1$ e queremos testar as hipóteses 13 | \begin{align*} 14 | H_0:& \theta = 0,\\ 15 | H_1:& \theta = 1. 16 | \end{align*} 17 | Seguindo o exemplo 9.2.5 de DeGroot, podemos escrever 18 | \begin{equation*} 19 | \eta(\bx) = \frac{f_1(\bx)}{f_0(\bx)}, 20 | \end{equation*} 21 | e compor um teste que rejeita $H_0$ quando $\eta(\bx) > c$. 22 | Isto é equivalente a construir um teste de tamanho $\alpha_0$, de modo que valha 23 | \begin{equation*} 24 | \pr(\Sm \geq c^\prime \mid \theta = 0) = \alpha_0, 25 | \end{equation*} 26 | o que nos leva a concluir que $c^\prime = \frac{1}{2} + \frac{\log(c)}{n}$ e que $c = \Phi^{-1}(1-\alpha_0)/\sqrt{n}$. 27 | \end{frame} 28 | 29 | \begin{frame}{Qual o problema?} 30 | Primeiro, vamos lembrar que, para um teste $\delta$, 31 | \begin{align*} 32 | \alpha(\delta)&:= \pr\left(\text{Rejeitar\:} H_0 \mid \theta = 0\right) ,\\ 33 | \beta(\delta)&:= \pr\left(\text{Não\, rejeitar\:} H_0 \mid \theta = 1\right). 34 | \end{align*} 35 | 36 | O problema aqui é que para este teste temos 37 | \begin{table} 38 | \begin{tabular}{cccc} 39 | n & $\alpha(\delta)$ & $\beta(\delta)$ & c \\ 40 | \hline 41 | 1 & 0.05 & 0.74 & 0.72 \\ 42 | 25 & 0.05 & 3.97 $\times 10^{-4}$ & 2.3 $\times 10^{-4}$ \\ 43 | 100 & 0.05 & 8 $\times 10^{-15}$ & 2.7 $\times 10^{-15}$\\ 44 | \hline 45 | \end{tabular} 46 | \end{table} 47 | Ou seja, quando temos $n=100$ observações, os dados podem ser trilhões de vezes mais prováveis sob $H_0$ e ainda assim vamos rejeitar a hipótese nula. 48 | \end{frame} 49 | 50 | \begin{frame}{Soluções} 51 | Podemos pensar em duas soluções (complementares) para o problema posto. 52 | \begin{ideia}[Ajustando o nível de significância com o tamanho da amostra] 53 | Em várias situações, por exemplo como a mostrada acima, faz sentido ajustar (diminuir) o nível de confiança do teste com o tamanho da amostra de modo a balancear os erros do tipo I e II. 54 | \end{ideia} 55 | 56 | \begin{ideia}[Minimizar uma combinação linear das probabilidades de erro] 57 | Poderíamos balancear os erros ao minimizar 58 | \[ a \alpha(\delta) + b \beta(\delta). \] 59 | Lehmann (1958)\footnote{Lehmann, Erich L. "Significance level and power." The Annals of Mathematical Statistics (1958): 1167-1176.} propôs a restrição $\beta(\delta) = c \alpha(\delta)$, que tem a vantagem de forçar que ambos os tipos de erro diminuam à medida que obtemos mais dados. 60 | \end{ideia} 61 | Ver seções 9.2 e 9.8 de DeGroot. 62 | \end{frame} 63 | 64 | \begin{frame}{Relevante?} 65 | Suponha que eu estou testando uma nova droga, e o parâmetro $\theta$ mede o efeito da droga. 66 | Em geral, estamos interessados em testar a hipótese 67 | \begin{align*} 68 | H_0: \theta \leq 0,\\ 69 | H_1: \theta \geq 0. 70 | \end{align*} 71 | Quando o tamanho de amostra é muito grande, seremos capazes de detectar, com alta probabilidade (poder) se $\theta = 0.000003$ ou $\theta = 0$. 72 | 73 | Acontece que uma droga com $\theta = 0.000003$ não oferece nenhuma vantagem prática. 74 | Portanto, ao se realizar um teste de hipótese e rejeitar $H_0$, não podemos concluir que ``a droga funciona'', pelo menos não num sentido médico. 75 | \begin{ideia}[Significância estatística não implica relevância prática] 76 | \end{ideia} 77 | \end{frame} 78 | 79 | \begin{frame}{Responda rápido} 80 | \begin{itemize} 81 | \item[a)] O que é a função poder de um teste de hipótese e o que esperamos observar em um teste não-enviesado? 82 | \item[b)] Se testarmos uma hipótese um número suficiente de vezes ela eventualmente será rejeitada. 83 | Explique esta afirmação e suas consequências. 84 | \item[c)] O que é o p-valor de um teste? 85 | \item[d)] É correto afirmar que uma hipótese nula é falsa se ela for rejeitada? 86 | É correto afirmar que uma hipótese alternativa é verdadeira se a nula for rejeitada? Justifique. 87 | \item[e)] Um intervalo de confiança nível de 95\% para $\theta$ é calculado a partir de $n$ observações. 88 | É correto afirmar que o parâmetro verdadeiro $\theta_0$ está dentro deste intervalo com probabilidade $95\%$? Justifique. 89 | \item[f)] Explique como podemos obter um conjunto de confiança a partir de um teste de hipótese. 90 | \end{itemize} 91 | \end{frame} 92 | 93 | 94 | \begin{frame}{O que aprendemos?} 95 | \begin{itemize} 96 | \item[\faLightbulbO] Rejeição eventual; 97 | ``Se coletarmos uma quantidade suficiente de dados, podemos rejeitar qualquer hipótese nula'' 98 | \item[\faLightbulbO] Significância estatística $\neq$ significância prática/científica! 99 | \end{itemize} 100 | \end{frame} 101 | 102 | \begin{frame}{Leitura recomendada} 103 | \begin{itemize} 104 | \item[\faBook] DeGroot seções 9.2, 9.3 e 9.9; 105 | % \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 11.3. 106 | \item {\large\textbf{Exercícios recomendados}} 107 | \begin{itemize} 108 | \item[\faBookmark] DeGroot, seção 9.9: exercícios 2 e 3. 109 | \end{itemize} 110 | \end{itemize} 111 | \end{frame} 112 | -------------------------------------------------------------------------------- /slides/aula_2.tex: -------------------------------------------------------------------------------- 1 | \section*{Inferência Estatística} 2 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 3 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 4 | \begin{frame}{O que é e para que serve Inferência Estatística?} 5 | 6 | \begin{itemize} 7 | \item[\faQuestion] Esta moeda é justa? 8 | \item[\faQuestion] Esta droga ``funciona''? 9 | \item[\faQuestion] Quantos casos de Dengue teremos mês que vem? 10 | \item[\faQuestion] Renda básica universal aumenta o PIB? 11 | \end{itemize} 12 | 13 | Todas essas perguntas podem ser abordadas com as ferramentas que a Estatística nos fornece. 14 | 15 | \begin{ideia}[A gramática da Ciência] 16 | \label{idea:statistics_grammar_science} 17 | \textbf{A Estatística é a gramática da Ciência}\footnote{Título do livro de Karl Pearson (1857--1936) (\href{https://en.wikipedia.org/wiki/The_Grammar_of_Science}{``The Grammar of Science''}), publicado em 1892.}. 18 | O mundo é incerto; medições são imperfeitas. 19 | A Estatística é a linguagem que nos permite expressar e quantificar as incertezas associadas às afirmações científicas através da teoria de probabilidades\footnote{Chamada por E.T. Jaynes (1922-1998) de lógica da Ciência (\href{https://www.cambridge.org/gb/academic/subjects/physics/theoretical-physics-and-mathematical-physics/probability-theory-logic-science}{``Probability Theory: The Logic of Science''}).}. 20 | \end{ideia} 21 | \end{frame} 22 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 23 | \begin{frame}{Modelo estatístico: definição informal} 24 | \begin{defn}[Modelo estatístico: informal] 25 | \label{def:statistical_model_informal} 26 | DeGroot, def 7.1.1, pág. 377 27 | Um modelo estatístico consiste na identificação de variáveis aleatórias de interesse (observáveis e potencialmente observáveis), na especificação de uma distribuição conjunta para as variáveis aleatórias observáveis e na identificação dos parâmetros ($\theta$) desta distribuição conjunta. 28 | Às vezes é conveniente assumir que os parâmetros são variáveis aleatórias também, mas para isso é preciso especificar uma distribuição conjunta para $\theta$. 29 | \end{defn} 30 | 31 | \end{frame} 32 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 33 | \begin{frame}{Modelo estatístico: definição formal} 34 | \begin{defn}[Modelo estatístico: formal] 35 | \label{def:statistical_model_formal} 36 | \href{https://projecteuclid.org/download/pdf_1/euclid.aos/1035844977}{McCullagh, 2002}. 37 | Seja $\mathcal{X}$ um espaço amostral qualquer, $\Theta$ um conjunto não-vazio arbitrário e $\mathcal{P}(\mathcal{X})$ o conjunto de todas as distribuições de probabilidade em $\mathcal{X}$. 38 | Um modelo estatístico~\underline{paramétrico} é uma função $P : \Theta \to \mathcal{P}(\mathcal{X})$, que associa a cada $\theta \in \Theta$ uma distribuição de probabilidade $P_\theta$ em $\mathcal{X}$. 39 | \end{defn} 40 | \textbf{Exemplos}: 41 | \begin{itemize} 42 | \item Faça $\mathcal{X} = \mathbb{R}$ e $\Theta = (-\infty, \infty)\times (0, \infty)$. 43 | Dizemos que $P$ é um modelo\footnote{Note o abuso de notação: estritamente falando, $P_\theta$ é uma~\textbf{medida} de probabilidade e não uma~\textit{densidade} como apresentamos aqui.} estatístico normal se para cada $\theta = \{\mu, \sigma^2\} \in \Theta$, 44 | $$P_{\theta}(x) \equiv \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \: x \in \mathbb{R}.$$ 45 | \item Faça $\mathcal{X} = \mathbb{N}\cup \{0\}$ e $\Theta = (0, \infty)$. 46 | $P$ é um modelo estatístico Poisson se para $\lambda \in \Theta$, 47 | $$P_{\lambda}(k) \equiv \frac{e^{-\lambda}\lambda^k}{k!}, \: k = 0, 1, \ldots$$ 48 | \end{itemize} 49 | \end{frame} 50 | 51 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 52 | \begin{frame}{Exemplo: como sempre, moedas.} 53 | \begin{pergunta}[Esta moeda é justa?] 54 | \label{qst:moeda_justa} 55 | Suponha que uma moeda tenha sido lançada dez vezes, obtendo o seguinte resultado: 56 | \begin{equation*} 57 | KKKCKCCCKC 58 | \end{equation*} 59 | \begin{itemize} 60 | \item[a)] Esta moeda é justa? 61 | \item[b)] Quanto eu espero ganhar se apostar R\$ 100,00 que é justa? 62 | \end{itemize} 63 | \end{pergunta} 64 | Podemos formalizar o problema ao, por exemplo, assumir que cada lançamento é uma variável aleatória Bernoulli com probabilidade de cara ($K$), $p$. 65 | Desta forma $X_i = 1$ se o lançamento deu cara e $X_i = 0$ caso contrário. 66 | E queremos saber se $p = 1/2$. 67 | Por ora, não temos as ferramentas necessárias para responder a essa pergunta, mas voltaremos a ela no futuro. 68 | \end{frame} 69 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 70 | \begin{frame}{Inferência Estatística} 71 | \begin{defn}[Afirmação probabilística] 72 | \label{def:probabilistic_assertion} 73 | Dizemos que uma afirmação é probabilística quando ela utiliza conceitos da teoria de probabilidade para falar de um objeto. 74 | Exemplos: 75 | \begin{itemize} 76 | \item $\pr( \bar{Y}_n \in (0, 1)) \leq 2^{-n}$; 77 | \item $E[X \mid Y = y] = 2y + 3$; 78 | \item $\vr(X) = 4p^2$. 79 | \item $\pr(\vr(X) \leq 4p^2 ) \leq p^2$ 80 | \end{itemize} 81 | \end{defn} 82 | \begin{defn}[Inferência Estatística] 83 | \label{def:statistical_inference} 84 | Uma inferência estatística é uma~\underline{afirmação probabilística} sobre uma ou mais partes de um modelo estatístico. 85 | Considerando o exemplo~\ref{qst:moeda_justa}, queremos saber: 86 | \begin{itemize} 87 | \item Quantos lançamentos até termos $80\%$ de certeza de que a moeda é justa? 88 | % \item Se $p$ é a probabilidade de obter cara num dado lançamento e $\hat{p}$ é nossa estimativa para $p$, quanto vale $E[\hat{p}]$? E $\vr(\hat{p})$? 89 | \item Quanto vale $E[\bar{X}_n]$; 90 | \item $\pr(X_{n} = 1 \mid X_{n-1} = 1)$. 91 | \end{itemize} 92 | \end{defn} 93 | \end{frame} 94 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 95 | \begin{frame}{Estatística} 96 | \begin{defn}[Estatística] 97 | \label{def:statistic} 98 | Suponha que temos uma coleção de variáveis aleatórias $\rs \in \boldsymbol X \subseteq \mathbb{R}^n$ e uma função $r: \boldsymbol X \to \mathbb{R}^m$. 99 | Dizemos que a variável aleatória $T = r(\rs)$ é uma~\textbf{estatística}. 100 | \end{defn} 101 | São exemplos de estatísticas: 102 | \begin{itemize} 103 | \item A média amostral, $\bar{X}_n$; 104 | \item A soma, $\sum_{i=1}^n X_i$; 105 | \item O mínimo, $\min(\rs)$; 106 | \item $r(\rs) = a, \: \forall \rs, \: \, a \in \mathbb{R}$. 107 | \end{itemize} 108 | \end{frame} 109 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 110 | \begin{frame}{Tipos de Inferência Estatística} 111 | \begin{itemize} 112 | \item \textbf{Predição}: prever o valor de uma variável aleatória (ainda) não observada; No exemplo~\ref{qst:moeda_justa}, qual será o valor do próximo lançamento, $X_{n+1}$; 113 | \item \textbf{Decisão Estatística}: Acoplamos o modelo estatístico a uma decisão a ser tomada. Devo emprestar esta moeda ao Duas-Caras? Aqui, temos a~\textit{noção} de~\textbf{risco}.; 114 | \item \textbf{Desenho experimental}: Quantas vezes é preciso lançar esta moeda para ter 95\% de certeza de que ela é (ou não) justa? Quantas pessoas precisam tomar uma droga para sabermos se ela funciona? Onde devemos cavar para procurar ouro/petróleo?; 115 | \end{itemize} 116 | \end{frame} 117 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 118 | \begin{frame}{O que aprendemos?} 119 | \begin{itemize} 120 | \item[\faLightbulbO] Modelo estatístico; 121 | \item[\faLightbulbO] Inferência Estatística; 122 | \item[\faLightbulbO] Estatística (amostral); 123 | \item[\faLightbulbO] Tipos de inferências: 124 | \begin{itemize} 125 | \item Predição; 126 | \item Decisão; 127 | \item Desenho experimental. 128 | \end{itemize} 129 | % \item[\faLightbulbO] Estimador: 130 | \end{itemize} 131 | \end{frame} 132 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 133 | \begin{frame}{Leitura recomendada} 134 | \begin{itemize} 135 | \item[\faBook] DeGroot seção 7.1; 136 | \item[\faFilePdfO] $^\ast$ \href{https://projecteuclid.org/download/pdf_1/euclid.aos/1035844977}{McCullagh, 2002}. 137 | \item[\faForward] Próxima aula: DeGroot, seção 7.2; 138 | \end{itemize} 139 | \end{frame} 140 | %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 141 | -------------------------------------------------------------------------------- /slides/aula_4.tex: -------------------------------------------------------------------------------- 1 | \section*{Prioris conjugadas} 2 | \begin{frame}{Prioris conjugadas} 3 | \begin{itemize} 4 | \item Prioris conjugadas 5 | \begin{itemize} 6 | \item Bernoulli; 7 | \item Poisson; 8 | \item Normal; 9 | \end{itemize} 10 | \item Interpretação dos hiperparâmetros. 11 | \end{itemize} 12 | \end{frame} 13 | 14 | \begin{frame}{Caso conjugado: variáveis Bernoulli} 15 | \begin{theo}[Posteriori Bernoulli] 16 | \label{thm:Bernoulli_posterior} 17 | Sejam $\rs$ uma amostra aleatórias de variáveis aleatórias Bernoulli com parâmetro $p$, $ 0 < p < 1$, desconhecido. 18 | Suponha que a distribuição~\textit{a priori} de $p$ é uma distribuição Beta com parâmetros $\alpha > 0$ e $\beta > 0$. 19 | Seja $y = \sum_{i=1}^n X_i$. 20 | Então 21 | \[ \xi(p \mid \rs) = \frac{1}{B(\alpha + y, \beta + n -y)} p^{\alpha + y- 1} \left(1-p\right)^{\beta + (n-y) - 1}.\] 22 | \end{theo} 23 | \textbf{Prova:} 24 | Escrever a conjunta condicional como produto das marginais condicionais e notar que se obtêm o núcleo de uma distribuição Beta. 25 | \end{frame} 26 | 27 | \begin{frame}{Prioris conjugadas} 28 | 29 | \begin{defn}[Hiperparâmetros] 30 | \label{def:hyperparameters} 31 | Seja $\xi(\theta \mid \phi)$ a distribuição~\textit{a priori} para o parâmetro $\theta$, indexada por $\phi \in \Phi$. 32 | Dizemos que $\phi$ é (são) o(s) \textbf{hiperparâmetro(s)} da priori de $\theta$. 33 | \end{defn} 34 | 35 | \begin{defn}[\textbf{Priori conjugada}] 36 | \label{def:conjugate_prior} 37 | Suponha que $\irs$ sejam condicionalmente independentes dado $\theta$, com f.d.p./f.m.p. $f(x \mid \theta)$. 38 | Defina 39 | \[ \boldsymbol{\Psi} = \left\{ f : \Omega \to (0, \infty) , \int_{\Omega} f\, dx = 1 \right\}, \] 40 | onde $\Omega$ é o espaço de parâmetros. 41 | Dizemos que $\boldsymbol{\Psi}$ é uma~\textbf{família de distribuições conjugadas} para $f(x \mid \theta)$ se para toda $f \in \boldsymbol{\Psi}$ e toda realização $\boldsymbol{x}$ de $\boldsymbol X = \boldsymbol{\rs}$, 42 | \[ \frac{f(\boldsymbol{x} \mid \theta) f(\theta)}{\int_{\Omega} f(\boldsymbol{x} \mid \theta) f(\theta)\,d\theta} \in \boldsymbol{\Psi}. \] 43 | \end{defn} 44 | Isto é, uma família de prioris é conjugada para uma determinada verossimilhança se a posteriori está na mesma família. 45 | \end{frame} 46 | 47 | \begin{frame}{Variância de uma posteriori Beta e critérios de parada} 48 | Se $X \sim \operatorname{Beta}(a, b)$, $\vr(X) = \frac{ab}{(a+b)^2(a + b+ 1)}$. 49 | Na situação do Teorema~\ref{thm:Bernoulli_posterior}, temos 50 | \begin{equation} 51 | \label{eq:beta_posterior_variance} 52 | V_n := \vr(p \mid \boldsymbol{x}) = \frac{(\alpha + y)(\beta + n - y)}{(\alpha + \beta + n)^2(\alpha + \beta + n + 1)}. 53 | \end{equation} 54 | Podemos usar a expressão em~(\ref{eq:beta_posterior_variance}) para desenhar um experimento. 55 | Por exemplo, podemos coletar dados até que $V_n \leq 0.01$ (ver exercício 2, seção 7.3 de DeGroot). 56 | \end{frame} 57 | 58 | \begin{frame}{Poisson e prioris Gamma} 59 | \begin{theo}[Posteriori para taxa da Poisson] 60 | \label{thm:Poisson_conjugate_inference} 61 | Suponha que $\rs$ formam uma amostra aleatória com distribuição Poisson com taxa $\theta > 0$, desconhecida. 62 | Suponha que a distribuição~\textit{a priori} para $\theta$ é uma distribuição Gama com parâmetros $\alpha >0$ e $\beta > 0$. 63 | Então 64 | \begin{equation} 65 | \xi(\theta \mid \boldsymbol{x}) = \frac{ (\beta + n)^{\alpha + S} }{\Gamma(\alpha + S)} \theta^{\alpha+S-1} e^{-(\beta+n)\theta}, 66 | \end{equation} 67 | onde $S = \sum_{i=1}^n x_i$. 68 | \end{theo} 69 | \textbf{Prova:} Análoga ao exemplo Bernoulli. 70 | \end{frame} 71 | 72 | \begin{frame}{Análise conjugada da normal com variância conhecida} 73 | \begin{theo}[Distribuição~\textit{a posteriori} da média de uma normal] 74 | \label{thm:posterior_normal_mean} 75 | Suponha que $\rs$ formam uma amostra aleatória com distribuição normal com média desconhecida $\theta$ e variância $\sigma^2 >0$, conhecida e fixa. 76 | Suponha que $\theta \sim \operatorname{Normal}(\mu_0, v_0^2)$~\textit{a priori}. 77 | Então 78 | \begin{equation} 79 | \xi(\theta \mid \boldsymbol{x}, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( \frac{(\theta-\mu_1)^2}{2v_1^2} \right), 80 | \end{equation} 81 | onde 82 | \begin{equation} 83 | \mu_1 := \frac{\sigma^2 \mu_0 + nv_0^2\bar{x}_n}{\sigma^2 + nv_0^2} \quad\text{e}\quad v_1^2 := \frac{\sigma^2v_0^2}{\sigma^2 + nv_0^2} 84 | \end{equation} 85 | \end{theo} 86 | \textbf{Prova:} Escrever as densidades relevantes sem as constantes de proporcionalidade, completar o quadrado (duas vezes) e notar que se obtem o núcleo de uma normal (Gaussiana). 87 | \end{frame} 88 | 89 | \begin{frame}{Interpretando a média~\textit{a posteriori}} 90 | Podemos reescrever $\mu_1$ como 91 | \begin{equation} 92 | \label{eq:posterior_mean_normal} 93 | \mu_1 = \frac{\sigma^2}{\sigma^2 + nv_0^2}\mu_0 + \frac{nv_0^2}{\sigma^2 + nv_0^2}\bar{x}_n. 94 | \end{equation} 95 | \begin{obs}[Média~\textit{a posteriori} como média ponderada] 96 | No caso normal, a média~\textit{a posteriori} pode ser vista como uma~\textbf{média ponderada} entre a média~\textit{a priori} e a média amostral, sendo os pesos dados pela variância (conhecida) da distribuição dos dados e a variância da priori, $v_0^2$. 97 | \end{obs} 98 | \end{frame} 99 | 100 | \begin{frame}{O que aprendemos?} 101 | \begin{itemize} 102 | \item[\faLightbulbO] Prioris conjugadas; 103 | \item[\faLightbulbO] Análise conjugada de 104 | \begin{itemize} 105 | \item Bernoulli; 106 | \item Poisson; 107 | \item Normal. 108 | \end{itemize} 109 | \end{itemize} 110 | \end{frame} 111 | 112 | \begin{frame}{Leitura recomendada} 113 | \begin{itemize} 114 | \item[\faBook] DeGroot seção 7.3; 115 | \item[\faForward] Próxima aula: DeGroot, seção 7.4; 116 | \item {\large\textbf{Exercícios recomendados}} 117 | \begin{itemize} 118 | \item[\faBookmark] DeGroot, seção 7.3: exercícios 2, 17, 19, 21. 119 | \end{itemize} 120 | \end{itemize} 121 | \end{frame} 122 | -------------------------------------------------------------------------------- /slides/aula_7.tex: -------------------------------------------------------------------------------- 1 | \begin{frame}{Comparando métodos de estimação} 2 | \begin{itemize} 3 | \item Estimadores de Bayes~\textit{vs} EMV; 4 | \item Método dos momentos. 5 | \end{itemize} 6 | \end{frame} 7 | 8 | \begin{frame}{Bayes~\textit{vs} EMV} 9 | Argumentos assintóticos: 10 | \begin{equation*} 11 | L(\theta) \approx \exp\left[-\frac{\left(\theta-\hat{\theta}\right)^2}{2V_n(\theta)/n} \right]. 12 | \end{equation*} 13 | \begin{exemplo}[ Exemplo 7.6.11 em DeGroot] 14 | $\rs \sim \operatorname{Exponencial}(\theta)$, 15 | \begin{itemize} 16 | \item $\hat{\theta}_{\text{EMV}} = \left(\bar{X}_n\right)^{-1} \implies E[\hat{\theta}_{\text{EMV}}] = \theta$ e $\vr[\hat{\theta}_{\text{EMV}}] = \theta^2$. 17 | Pelo método Delta, temos $\hat{\theta}_{\text{EMV}} \approx \operatorname{Normal}(\theta, \theta^2/n)$; 18 | \item Se escolhemos uma priori gama para $\theta$ com hiperparâmetros $\alpha > 0$ e $\beta > 0$, temos $E_{\theta \mid \boldsymbol{x}}[\theta] = (\alpha + n)/(\beta + S_n)$ e $\vr_{\theta \mid \boldsymbol{x}}(\theta) = (\alpha + n)/ (\beta + S_n)^2$. 19 | Fazendo $\alpha, \beta \ll n$, temos um argumento análogo para o estimador de Bayes. 20 | \end{itemize} 21 | \end{exemplo} 22 | \end{frame} 23 | 24 | 25 | \begin{frame}{EMV para taxa de uma exponencial (DG ex. 7.6.11)} 26 | \begin{figure}[!ht] 27 | \label{fig:mle_exponential_deltaMethod} 28 | \begin{center} 29 | \includegraphics[scale=0.6]{figures/exponential_mle_deltaMethod.pdf} 30 | \end{center} 31 | \end{figure} 32 | \end{frame} 33 | 34 | \begin{frame}{Inferência para uma Uniforme em $(0, \theta)$} 35 | \begin{exemplo}[Exemplo 7.6.14 em DeGroot] 36 | $\rs \sim \operatorname{Uniforme}(0, \theta)$. 37 | Definindo $Y = \max(\rs)$ temos 38 | \[ g_n(y \mid \theta) = n\frac{y^{n-1}}{\theta^n}. \] 39 | Como já discutido, temos $\hat{\theta}_{\text{EMV}} = \max(\rsd) = y_n$ e portanto 40 | \begin{itemize} 41 | \item $E[\hat{\theta}_{\text{EMV}}] = \frac{n}{n + 1}\theta$; 42 | \item $\vr(\hat{\theta}_{\text{EMV}}) = \frac{n}{(n + 1)^2(n+2)}\theta^2$. 43 | \end{itemize} 44 | Do lado bayesiano, vamos obter a posteriori (com uma priori imprópria): 45 | \begin{equation} 46 | \label{eq:uniform_reference_posterior} 47 | \xi(\theta \mid \boldsymbol{x})= 48 | \begin{cases} 49 | \frac{(n-1)y_n^{n-1}}{\theta^n}, y_n < \theta,\\ 50 | 0,\:\text{caso contrário}. 51 | \end{cases} 52 | \end{equation} 53 | Isto nos leva a 54 | \begin{itemize} 55 | \item $E[\hat{\theta}_{\text{Bayes}}] = \frac{n-1}{n-2}y_n$; 56 | \item $\vr(\hat{\theta}_{\text{Bayes}}) = \frac{n-1}{(n - 2)^2(n-3)}y_n^2$. 57 | \end{itemize} 58 | \end{exemplo} 59 | \end{frame} 60 | 61 | \begin{frame}{Método dos momentos (MM)} 62 | Algumas vezes, obter o EMV ou o estimador de Bayes envolve dificuldades numéricas (ex. estimar os parâmetros de uma distribuição Gama). 63 | Nestas situações, podemos encontrar um estimador para os parâmetros que relacione os momentos empíricos com os téoricos. 64 | 65 | \begin{defn}[Método dos momentos] 66 | \label{def:method_of_moments} 67 | Suponha que $\rs$ formam uma amostra aleatória com distribuição conjunta $f_n(\rs \mid \theta)$, $\theta \in \Omega \subseteq \mathbb{R}^k$ e que o $k$-ésimo momento existe. 68 | Defina $\mu_j(\theta) = E[X_1^j \mid \theta]$ e suponha que $\mu : \Omega \to \mathbb{R}^k$ é biúnivoca, de modo que sua inversa é 69 | \[ \theta = M(\mu_1(\theta), \ldots, \mu_k(\theta)).\] 70 | Dados os~\textit{momentos amostrais} $m_j := \frac{1}{n} \sum_{i=1}^n X_i^j$, $j = 1, \ldots, k$, o~\textbf{estimador de momentos} (EMM) de $\theta$ é 71 | \[ \hat{\theta}_{\text{EMM}} = M(m_1, \ldots, m_k). \] 72 | \end{defn} 73 | \end{frame} 74 | 75 | \begin{frame}{Exemplo} 76 | \begin{exemplo} 77 | $\rs \sim \operatorname{Gama}(\alpha, \beta)$, com $\alpha >0$ e $\beta>0$ desconhecidos. 78 | Para começar, 79 | \begin{itemize} 80 | \item $\mu_1(\theta) = \alpha/\beta$; 81 | \item $\mu_2(\theta) = (\alpha + 1)\alpha/\beta^2$. 82 | \end{itemize} 83 | Agora equacionamos com os momentos amostrais (``empíricos''): 84 | $\mu_1(\theta) = \bar{x}_n$ e $\mu_2(\theta) = \frac{1}{n}\sum_{i=1}^n x_i^2$ para obter 85 | \begin{itemize} 86 | \item $\hat{\alpha} = \frac{(\bar{x}_n)^2}{\frac{1}{n}\sum_{i=1}^n x_i^2 - (\bar{x}_n)^2} = \frac{(\bar{x}_n)^2}{\bar{s}^2}$ ; 87 | \item $\hat{\beta} = \frac{\bar{x}_n}{\frac{1}{n}\sum_{i=1}^n x_i^2 - (\bar{x}_n)^2} = \frac{\bar{x}_n}{\bar{s}^2}$. 88 | \end{itemize} 89 | \end{exemplo} 90 | \begin{obs} 91 | O método dos momentos também pode ser usado para obter chutes iniciais para procedimentos numéricos nos métodos mais avançados (EMV, Bayes). 92 | \end{obs} 93 | \end{frame} 94 | 95 | \begin{frame}{Consistência do EMM} 96 | \begin{theo}[Consistência do EMM] 97 | \label{thm:MME_consistency} 98 | Suponha que $\rs$ formam uma amostra aleatória com distribuição comjunta $f_n(\rs \mid \theta)$, $\theta \in \Omega \subseteq \mathbb{R}^k$ e que o $k$-ésimo momento existe. 99 | Mais uma vez, suponha que a inversa $M$ existe e é contínua. 100 | Então o EMM é consistente para $\theta$. 101 | \end{theo} 102 | \textbf{Prova}: Pela LGN, $m_i \xrightarrow{\text{p}} \mu_i(\theta)$. 103 | Assumindo que $M$ é contínua, temos que $M(m_1, \ldots, m_k) \xrightarrow{\text{p}} M(\mu_1(\theta), \ldots, \mu_k(\theta)) = \theta$ (DeGroot, Teorema 6.2.5). 104 | \end{frame} 105 | 106 | \begin{frame}{O que aprendemos?} 107 | \begin{itemize} 108 | \item[\faLightbulbO] EMV~\textit{vs} Bayes; 109 | 110 | ``Em várias situações, à medida que $n \to \infty$, os estimadores 'convergem' '' 111 | 112 | \item[\faLightbulbO] Nem sempre EMV $\approx$ Bayes; 113 | 114 | ``Verossimilhanças discontínuas e/ou pequenos tamanhos de amostra'' 115 | 116 | \item[\faLightbulbO] Método dos momentos (MM); 117 | 118 | ``Quando os momentos são funções inversíveis dos parâmetros, podemos obter estimadores em função dos momentos amostrais'' 119 | 120 | \item[\faLightbulbO] Consistência do MM; 121 | 122 | ``Sob condições brandas de regularidade, o EMM converge para valor verdadeiro à medida que $n \to \infty$'' 123 | 124 | \item[\faLightbulbO] Limitações do MM; 125 | 126 | ``Raras as situações em que tudo se alinha de modo que o EMM exista em forma fechada'' 127 | 128 | \end{itemize} 129 | \end{frame} 130 | 131 | \begin{frame}{Leitura recomendada} 132 | \begin{itemize} 133 | \item[\faBook] DeGroot seção 7.6; 134 | \item[\faBook] $^\ast$ Schervish (1995), capítulo 7. 135 | \item[\faForward] Próxima aula: DeGroot, seções 7.7 e 7.8; 136 | \item {\large\textbf{Exercícios recomendados}} 137 | \begin{itemize} 138 | \item[\faBookmark] DeGroot, seção 7.6: exercícios 20, 22 e 23. 139 | % \begin{itemize} 140 | % \item Seção 7.5: exercícios 1, 4, 9 e 10; 141 | % \item Seção 7.6: exercícios 3, 5, 11 e 20. 142 | % \end{itemize} 143 | \end{itemize} 144 | \end{itemize} 145 | \end{frame} 146 | -------------------------------------------------------------------------------- /slides/aula_9.tex: -------------------------------------------------------------------------------- 1 | \section*{Erro quadrático médio e Rao-Blackwell} 2 | \begin{frame}{EQM e Rao-Blackwell} 3 | 4 | Como avaliar um estimador? 5 | 6 | \begin{defn}[Notação conveniente] 7 | Para as próximas computações, é conveniente definir 8 | Para $g : \mathcal{X}^n \to \mathbb{R}$, escrevemos 9 | \[ E_{\theta} [g] = \int_{\mathcal{X}} \cdots \int_{\mathcal{X}} g(\bx)f_n(\bx \mid \theta)\, dx_1\cdots\,dx_n = \int_{\mathcal{X}^n} g(\bx)f_n(\bx \mid \theta) \,d\bx. \] 10 | \end{defn} 11 | 12 | Agora podemos definir o~\textbf{erro quadrático médio} (EQM) de um estimador $\delta(\bX)$: 13 | \begin{defn}[Erro quadrático médio] 14 | \label{def:MSE} 15 | \begin{equation*} 16 | R(\theta, \delta) := E_{\theta} \left[\left\{\delta(\bX) - \theta\right\}^2\right]. 17 | \end{equation*} 18 | \end{defn} 19 | \end{frame} 20 | 21 | \begin{frame}{Condicionando em uma estatística suficiente} 22 | Seja $\bT$ uma estatística suficiente. 23 | Podemos definir o seguinte estimador 24 | \begin{defn}[Estimador condicionado] 25 | \begin{equation*} 26 | \label{def:conditioned_estimator} 27 | \delta_0(\bT) := E_{\theta} \left[ \delta(\bX) \mid \bT \right]. 28 | \end{equation*} 29 | \end{defn} 30 | Como $\bT$ é suficiente, podemos escrever, simplesmente, 31 | \begin{equation*} 32 | \delta_0(\bT) = E \left[ \delta(\bX) \mid \bT \right]. 33 | \end{equation*} 34 | \end{frame} 35 | 36 | \begin{frame}{O Teorema de Rao-Blackwell} 37 | Com essas definições em mãos, estamos preparados para enunciar um dos teoremas mais importantes da Estatística: 38 | \begin{theo}[Teorema de Rao-Blackwell\footnote{O estatístico indo-estadunidense Calyampudi Radhakrishna Rao (1920-) e o estatístico estadunidense David Harold Blackwell (1919-2010) provaram o resultado independentemente no final dos anos 1940.}] 39 | \label{thm:Rao-Blackwell} 40 | Seja $\delta(\bX)$ um estimador, $\bT$ uma estatística suficiente para $\theta$ e seja $\delta_0(\bT)$ como na definição~\ref{def:conditioned_estimator}. 41 | Então vale que 42 | \begin{equation*} 43 | R(\theta, \delta_0) \leq R(\theta, \delta). 44 | \end{equation*} 45 | \end{theo} 46 | \end{frame} 47 | 48 | \begin{frame}{Prova do TRB} 49 | Primeiro, notemos que, para qualquer função $g$ e variáveis aleatórias $X$ e $Y$, valem os seguintes fatos: 50 | \begin{itemize} 51 | \item $\left(E[g(X) \mid Y] \right)^2 \leq E\left[\{g(X)\}^2 \mid Y\right]$; 52 | 53 | Desigualdade de Cauchy-Schwarz\footnote{Em homenagem ao matemático francês Augustin-Louis Cauchy (1789-1857) e ao matemático alemão Karl Hermann Amandus Schwarz (1843-1921).}, também obtida, nesse caso, rearranjando a expressão da variância. 54 | 55 | \item $E\left\{E[X\mid Y]\right\} = E[X]$ (lei da esperança total). 56 | \end{itemize} 57 | 58 | Fazendo $g(X) = \left( \delta(\bX)-\theta\right)^2$, obtemos 59 | \begin{equation} 60 | \label{eq:RB_ineq1} 61 | \left(E\left[\delta(\bX) \mid \bT \right] -\theta \right)^2 \leq E\left[\left( \delta(\bX) - \theta \right)^2 \mid \bT \right] 62 | \end{equation} 63 | Note que $\left(E\left[\delta(\bX) \mid \bT \right] -\theta \right)^2 = \left[\delta_0(\bT) -\theta \right]^2$. 64 | Agora, tomamos esperanças nos dois lados de~(\ref{eq:RB_ineq1}) para obter: 65 | \begin{align*} 66 | R(\theta, \delta_0) &= E\left[ \left(\delta_0(\bT) -\theta \right)^2 \right] \leq E\left\{E\left[\left\{ \delta(\bX) - \theta \right\}^2 \mid \bT \right]\right\} \\ 67 | &= E\left[ \left\{\delta(\bX) -\theta \right\}^2 \right] = R(\theta, \delta). \qed 68 | \end{align*} 69 | \end{frame} 70 | 71 | \begin{frame}{Admissibilidade} 72 | O conceito de admissibilidade diz respeito à relação entre estimadores. 73 | \begin{defn}[Admissibilidade] 74 | \label{def:admissibility} 75 | Um estimador $\delta$ é dito~\textbf{inadmissível} se existe outro estimador $\delta_0$ tal que $R(\theta, \delta_0) \leq R(\theta, \delta)$ para todo $\theta \in \Omega$ e existe $\theta^\prime \in \Omega$ tal que $R(\theta^\prime, \delta_0) < R(\theta^\prime, \delta)$. 76 | Nesse caso, dizemos que $\delta_0$~\textit{domina} $\delta$. 77 | O estimador $\delta_0$ é~\textbf{admissível} se (e somente se) não há nenhum estimador que o domine. 78 | \end{defn} 79 | 80 | \begin{obs}[Estimadores admissíveis e o Teorema de Rao-Blackwell] 81 | O Teorema de Rao-Blackwell diz que todo estimador condicionado em uma estatística suficiente é admissível. 82 | \end{obs} 83 | 84 | \begin{exemplo}[Estimadores no caso normal] 85 | \begin{itemize} 86 | \item Estimando $\mu$ através da mediana amostral; 87 | \item Estimando $\sqrt{\sigma^2}$. 88 | \end{itemize} 89 | \end{exemplo} 90 | 91 | \end{frame} 92 | 93 | 94 | \begin{frame}{O que aprendemos?} 95 | \begin{itemize} 96 | 97 | \item[\faLightbulbO] Teorema de Rao-Blackwell; 98 | 99 | ``Quando $\bT$ é uma estatística suficiente, todo estimador condicionado em $\bT$ tem menor EQM'' 100 | 101 | \item[\faLightbulbO] Estimador admissível; 102 | 103 | ``Um estimador é admissível quando domina todos os outros estimadores '' 104 | 105 | \item[\faLightbulbO] Caso normal; 106 | 107 | ``No caso normal, qualquer estimador de $\mu$ que não seja função de $\bar{X}_n$ é inadmissível. 108 | O mesmo vale para qualquer estimador de $\sqrt{\sigma^2}$ que não seja função de $\sum_{i=1}^n X_i$ e $\sum_{i=1}^n X_i^2$.'' 109 | 110 | 111 | \end{itemize} 112 | \end{frame} 113 | 114 | \begin{frame}{Leitura recomendada} 115 | \begin{itemize} 116 | \item[\faBook] DeGroot, seção 7.9; 117 | \item[\faBook] $^\ast$ Casella \& Berger (2002), seção 7.3. 118 | \item[\faBook] $^\ast$ Schervish (1995), Teorema 3.20. 119 | \item[\faForward] Próxima aula: DeGroot, seções 8.7 e 8.8; 120 | \item {\large\textbf{Exercícios recomendados}} 121 | \begin{itemize} 122 | \item[\faBookmark] DeGroot, Seção 7.9: exercícios 2, 3, 6 e 10. 123 | \end{itemize} 124 | \end{itemize} 125 | \end{frame} 126 | -------------------------------------------------------------------------------- /slides/beamercolorthemechameleon.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | \definecolor{chameleongreen1}{RGB}{98,189,25} 11 | \definecolor{chameleongreen2}{RGB}{188,225,141} 12 | \definecolor{chameleongreen3}{RGB}{51,149,48} 13 | \definecolor{chameleongreen4}{RGB}{0,98,90} 14 | 15 | \setbeamercolor*{palette primary}{fg=white,bg=chameleongreen2} 16 | \setbeamercolor*{palette secondary}{fg=white,bg=chameleongreen3} 17 | \setbeamercolor*{palette tertiary}{fg=white,bg=chameleongreen4} 18 | \setbeamercolor*{palette quaternary}{fg=white,bg=chameleongreen1} 19 | 20 | \setbeamercolor*{titlelike}{bg=chameleongreen3} 21 | \setbeamercolor*{frametitle}{bg=black,fg=black} 22 | \setbeamercolor*{part title}{bg=black,fg=black} 23 | \setbeamercolor*{item}{fg=chameleongreen3} 24 | 25 | \setbeamercolor*{separation line}{} 26 | \setbeamercolor*{fine separation line}{} 27 | 28 | \mode 29 | 30 | -------------------------------------------------------------------------------- /slides/beamercolorthemefreewilly.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | \setbeamercolor*{palette primary}{use=structure,fg=white,bg=structure.fg!70!black} 11 | \setbeamercolor*{palette secondary}{use=structure,fg=white,bg=structure.fg!90!black} 12 | \setbeamercolor*{palette tertiary}{use=structure,fg=white,bg=structure.fg!90!white} 13 | \setbeamercolor*{palette quaternary}{use=structure,fg=structure.fg!70!black,bg=structure.fg!40!white} 14 | 15 | \setbeamercolor*{sidebar}{use=structure,bg=structure.fg} 16 | 17 | \setbeamercolor*{palette sidebar primary}{use=structure,fg=structure.fg!10} 18 | \setbeamercolor*{palette sidebar secondary}{fg=white} 19 | \setbeamercolor*{palette sidebar tertiary}{use=structure,fg=structure.fg!50} 20 | \setbeamercolor*{palette sidebar quaternary}{fg=white} 21 | 22 | \setbeamercolor*{titlelike}{parent=palette primary} 23 | \setbeamercolor*{item}{use=structure,fg=structure.fg!50!black} 24 | 25 | \setbeamercolor*{separation line}{} 26 | \setbeamercolor*{fine separation line}{} 27 | 28 | \mode 29 | 30 | -------------------------------------------------------------------------------- /slides/beamercolorthemenouvelle.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | \usecolortheme{chameleon} 11 | 12 | \definecolor{nouvellebordeaux}{RGB}{195,2,36} 13 | 14 | \setbeamercolor*{palette primary}{fg=white,bg=chameleongreen2} 15 | \setbeamercolor*{palette secondary}{fg=white,bg=chameleongreen3} 16 | \setbeamercolor*{palette tertiary}{fg=white,bg=chameleongreen4} 17 | \setbeamercolor*{palette quaternary}{fg=white,bg=chameleongreen1} 18 | 19 | \setbeamercolor*{titlelike}{bg=nouvellebordeaux} 20 | \setbeamercolor*{item}{fg=nouvellebordeaux} 21 | 22 | \setbeamercolor*{separation line}{} 23 | \setbeamercolor*{fine separation line}{} 24 | 25 | \mode 26 | 27 | -------------------------------------------------------------------------------- /slides/beamerinnerthemefancy.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | % Use alternative title page style. 11 | \DeclareOptionBeamer{alternativetitlepage}[true]{\def\beamer@fancy@alternativetitlepage{#1}} 12 | 13 | % Logo to use in the alternative title page. 14 | \def\beamer@fancy@titlepagelogo{} 15 | \DeclareOptionBeamer{titlepagelogo}{\def\beamer@fancy@titlepagelogo{#1}} 16 | 17 | % Bullet shape. 18 | \DeclareOptionBeamer{bullet}{\def\beamer@fancy@bullet{#1}} 19 | 20 | \ExecuteOptionsBeamer{alternativetitlepage=false,bullet=square} 21 | \ProcessOptionsBeamer 22 | 23 | % Colors. 24 | \setbeamercolor*{lineup}{parent=palette primary} 25 | \setbeamercolor*{linemid}{parent=palette secondary} 26 | \setbeamercolor*{linebottom}{parent=palette tertiary} 27 | \setbeamercolor*{title page header}{parent=palette quaternary} 28 | 29 | % Lengths. 30 | \newlength{\beamer@fancy@lineup} 31 | \setlength{\beamer@fancy@lineup}{.025\paperheight} 32 | \newlength{\beamer@fancy@linemid} 33 | \setlength{\beamer@fancy@linemid}{.015\paperheight} 34 | \newlength{\beamer@fancy@linebottom} 35 | \setlength{\beamer@fancy@linebottom}{.01\paperheight} 36 | 37 | % Margins. 38 | \newlength{\beamer@fancy@normalmargin} 39 | \setlength{\beamer@fancy@normalmargin}{.06\paperwidth} 40 | \setbeamersize{text margin left=\beamer@fancy@normalmargin} 41 | \setbeamersize{text margin right=\beamer@fancy@normalmargin} 42 | \setlength\leftmargini{.6\beamer@fancy@normalmargin} 43 | \setlength\leftmarginii{.6\beamer@fancy@normalmargin} 44 | \setlength\leftmarginiii{.6\beamer@fancy@normalmargin} 45 | 46 | % Normal title page. 47 | \defbeamertemplate*{title page normal}{fancy theme}[1][] 48 | { 49 | \vbox{} 50 | \vfill 51 | \begin{centering} 52 | \begin{beamercolorbox}[wd=\paperwidth,sep=8pt,center,#1]{title page header} 53 | \usebeamerfont{title}\inserttitle\par% 54 | \ifx\insertsubtitle\@empty% 55 | \else% 56 | \vskip0.25em% 57 | {\usebeamerfont{subtitle}\usebeamercolor[fg]{subtitle}\insertsubtitle\par}% 58 | \fi% 59 | \end{beamercolorbox}% 60 | \vskip1em\par 61 | \begin{beamercolorbox}[sep=8pt,center,#1]{author} 62 | \usebeamerfont{author}\insertauthor 63 | \end{beamercolorbox} 64 | \begin{beamercolorbox}[sep=8pt,center,#1]{institute} 65 | \usebeamerfont{institute}\insertinstitute 66 | \end{beamercolorbox} 67 | \begin{beamercolorbox}[sep=8pt,center,#1]{date} 68 | \usebeamerfont{date}\insertdate 69 | \end{beamercolorbox}\vskip0.5em 70 | {\usebeamercolor[fg]{titlegraphic}\inserttitlegraphic\par} 71 | \end{centering} 72 | \vfill 73 | } 74 | 75 | % Alternative title page, you should use this in a frame with the [plain] 76 | % option. 77 | \defbeamertemplate*{title page alternative}{fancy theme}[1][] 78 | { 79 | {\parskip0pt\offinterlineskip% 80 | \hbox{\hskip-\Gm@lmargin\hbox{\vbox{% 81 | \@tempdima=\textwidth\textwidth=\paperwidth\hsize=\textwidth\def\\{,}\vbox{}\vskip-1.5ex% 82 | % Title. 83 | \begin{beamercolorbox}[wd=\paperwidth,ht=.4\paperheight,center,#1]{title page header} 84 | \usebeamerfont{title}\inserttitle\par% 85 | \ifx\insertsubtitle\@empty% 86 | \else% 87 | \vskip0.25em% 88 | {\usebeamerfont{subtitle}\usebeamercolor[fg]{subtitle}\insertsubtitle\par}% 89 | \fi% 90 | \vspace{.125\paperheight}% 91 | \end{beamercolorbox}% 92 | \vbox{}\vskip-\beamer@fancy@lineup% 93 | \vbox{}\vskip-\beamer@fancy@linemid% 94 | % First line. 95 | \hbox{% 96 | \begin{beamercolorbox}[wd=.2\paperwidth,ht=\beamer@fancy@lineup,dp=0pt]{}% 97 | \end{beamercolorbox}% 98 | \begin{beamercolorbox}[wd=.8\paperwidth,ht=\beamer@fancy@lineup,dp=0pt]{lineup}% 99 | \end{beamercolorbox}% 100 | }% 101 | \vbox{}\vskip0ex% 102 | % Second line. 103 | \hbox{% 104 | \begin{beamercolorbox}[wd=.1\paperwidth,ht=\beamer@fancy@linemid,dp=0pt]{}% 105 | \end{beamercolorbox}% 106 | \begin{beamercolorbox}[wd=.9\paperwidth,ht=\beamer@fancy@linemid,dp=0pt]{linemid}% 107 | \end{beamercolorbox}% 108 | }% 109 | % Third line. 110 | \hbox{% 111 | \begin{beamercolorbox}[wd=.5\paperwidth,ht=\beamer@fancy@linebottom,dp=0pt]{}% 112 | \end{beamercolorbox}% 113 | \begin{beamercolorbox}[wd=.5\paperwidth,ht=\beamer@fancy@linebottom,dp=0pt]{linebottom}% 114 | \end{beamercolorbox}% 115 | }% 116 | \vskip0pt% 117 | }}% 118 | \hskip-\Gm@rmargin% 119 | }}\hfil% 120 | % 121 | \begin{columns} 122 | \ifx\beamer@fancy@titlepagelogo\@empty% 123 | \column{\textwidth} 124 | \else 125 | \column{.5\textwidth} 126 | % Logo. 127 | \begin{centering} 128 | \vbox{}\vfill 129 | \includegraphics[height=.4\paperheight]{\beamer@fancy@titlepagelogo} 130 | \vfill 131 | \end{centering} 132 | \column{.5\textwidth} 133 | \fi 134 | % Authors, institute and date 135 | \vskip1em\par 136 | \begin{beamercolorbox}[sep=8pt,center,#1]{author} 137 | \usebeamerfont{author}\insertauthor 138 | \end{beamercolorbox} 139 | \begin{beamercolorbox}[sep=8pt,center,#1]{institute} 140 | \usebeamerfont{institute}\insertinstitute 141 | \end{beamercolorbox} 142 | \begin{beamercolorbox}[sep=8pt,center,#1]{date} 143 | \usebeamerfont{date}\insertdate 144 | \end{beamercolorbox}\vskip0.5em 145 | {\usebeamercolor[fg]{titlegraphic}\inserttitlegraphic\par} 146 | \end{columns} 147 | } 148 | 149 | \defbeamertemplate*{title page}{fancy}[1][] 150 | { 151 | \def\beamer@fancy@truetext{true}% 152 | \ifx\beamer@fancy@alternativetitlepage\beamer@fancy@truetext% 153 | \usebeamertemplate{title page alternative}% 154 | \else% 155 | \usebeamertemplate{title page normal}% 156 | \fi% 157 | } 158 | 159 | % Items. 160 | \defbeamertemplate{itemize item}{squarealt}% 161 | {\tiny\raise.5ex\hbox{\donotcoloroutermaths$\blacksquare$}} 162 | \defbeamertemplate{itemize subitem}{squarealt}% 163 | {\tiny\raise.4ex\hbox{\donotcoloroutermaths$\square$}} 164 | \defbeamertemplate{itemize subsubitem}{squarealt}% 165 | {\tiny\raise.3ex\hbox{\donotcoloroutermaths$\blacksquare$}} 166 | 167 | \defbeamertemplate{itemize item}{circlealt}% 168 | {\small\raise.2ex\hbox{\donotcoloroutermaths$\bullet$}} 169 | \defbeamertemplate{itemize subitem}{circlealt}% 170 | {\small\raise.1ex\hbox{\donotcoloroutermaths$\circ$}} 171 | \defbeamertemplate{itemize subsubitem}{circlealt}% 172 | {\scriptsize\raise.1ex\hbox{\donotcoloroutermaths$\bullet$}} 173 | 174 | \def\circletext{circle} 175 | \ifx\beamer@fancy@bullet\circletext 176 | \setbeamertemplate{items}[circlealt] 177 | \else 178 | \setbeamertemplate{items}[squarealt] 179 | \fi 180 | 181 | \mode 182 | 183 | -------------------------------------------------------------------------------- /slides/beamerouterthemedecolines.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | % String used between the current page and the total page count. 11 | \def\beamer@decolines@pageofpages{/} 12 | \DeclareOptionBeamer{pageofpages}{\def\beamer@decolines@pageofpages{#1}} 13 | 14 | % Show a line below the frame title. 15 | \DeclareOptionBeamer{titleline}[true]{\def\beamer@decolines@titleline{#1}} 16 | 17 | % Image used for the watermark. 18 | \def\beamer@decolines@watermarkorig{} 19 | \DeclareOptionBeamer{watermark}{\def\beamer@decolines@watermarkorig{#1}} 20 | 21 | % Height of the watermark. 22 | \def\beamer@decolines@watermarkheight{100px} 23 | \DeclareOptionBeamer{watermarkheight}{\def\beamer@decolines@watermarkheight{#1}} 24 | 25 | % The original image height is watermarkheightmult * watermarkheight. 26 | \def\beamer@decolines@watermarkheightmult{1} 27 | \DeclareOptionBeamer{watermarkheightmult}{\def\beamer@decolines@watermarkheightmult{#1}} 28 | 29 | \ExecuteOptionsBeamer{titleline=false} 30 | \ProcessOptionsBeamer 31 | 32 | % Enable/disable the watermark. 33 | \def\watermarkon{% 34 | \def\beamer@decolines@watermark{\beamer@decolines@watermarkorig}% 35 | } 36 | \def\watermarkoff{\def\beamer@decolines@watermark{}} 37 | 38 | % Initially enable the watermark. 39 | \watermarkon 40 | 41 | % Colors. 42 | \setbeamercolor*{lineup}{parent=palette primary} 43 | \setbeamercolor*{linemid}{parent=palette secondary} 44 | \setbeamercolor*{linebottom}{parent=palette tertiary} 45 | \setbeamercolor*{page header}{parent=titlelike} 46 | 47 | % Lengths 48 | \newlength{\headerheight} 49 | \setlength{\headerheight}{.045\paperheight} 50 | \newlength{\beamer@decolines@lineup} 51 | \setlength{\beamer@decolines@lineup}{.025\paperheight} 52 | \newlength{\beamer@decolines@linemid} 53 | \setlength{\beamer@decolines@linemid}{.015\paperheight} 54 | \newlength{\beamer@decolines@linebottom} 55 | \setlength{\beamer@decolines@linebottom}{.01\paperheight} 56 | 57 | % The height of the watermark part below the 3 bottom lines. 58 | \newlength{\beamer@decolines@watermarkheightbottom} 59 | \addtolength{\beamer@decolines@watermarkheightbottom}{\beamer@decolines@lineup} 60 | \addtolength{\beamer@decolines@watermarkheightbottom}{\beamer@decolines@linemid} 61 | \addtolength{\beamer@decolines@watermarkheightbottom}{\beamer@decolines@linebottom} 62 | 63 | % The height of the watermark part over the 3 bottom lines before shrinking. 64 | \newlength{\beamer@decolines@watermarkheightupperorig} 65 | \setlength{\beamer@decolines@watermarkheightupperorig}{\beamer@decolines@watermarkheight} 66 | \addtolength{\beamer@decolines@watermarkheightupperorig}{-\beamer@decolines@watermarkheightbottom} 67 | \multiply\beamer@decolines@watermarkheightupperorig by \beamer@decolines@watermarkheightmult 68 | 69 | % Footer. 70 | \defbeamertemplate*{footline}{decolines theme} 71 | { 72 | \leavevmode% 73 | % Page number. 74 | \hbox{% 75 | \begin{beamercolorbox}[wd=.2\paperwidth,ht=0ex,dp=0ex,center]{}% 76 | \usebeamerfont{palette primary}\insertframenumber{} \beamer@decolines@pageofpages{} \inserttotalframenumber% 77 | \end{beamercolorbox}% 78 | \begin{beamercolorbox}[wd=.8\paperwidth,ht=0ex,dp=0ex]{}% 79 | \end{beamercolorbox}% 80 | } % 81 | % First line. 82 | \hbox{% 83 | \begin{beamercolorbox}[wd=.2\paperwidth,ht=\beamer@decolines@lineup,dp=0pt]{}% 84 | \end{beamercolorbox}% 85 | \begin{beamercolorbox}[wd=.8\paperwidth,ht=\beamer@decolines@lineup,dp=0pt]{lineup}% 86 | \end{beamercolorbox}% 87 | } % 88 | % Second line. 89 | \hbox{% 90 | \begin{beamercolorbox}[wd=\paperwidth,ht=\beamer@decolines@linemid,dp=0pt]{linemid}% 91 | \end{beamercolorbox}% 92 | } % 93 | % Third line. 94 | \hbox{% 95 | \begin{beamercolorbox}[wd=.1\paperwidth,ht=\beamer@decolines@linebottom,dp=0pt]{}% 96 | \end{beamercolorbox}% 97 | \begin{beamercolorbox}[wd=.9\paperwidth,ht=\beamer@decolines@linebottom,dp=0pt]{linebottom}% 98 | \end{beamercolorbox}% 99 | }% 100 | % This seems to fix some alignment problems with the watermark. It has to be 101 | % always applied if you do not want to see the footer moving up and down when 102 | % moving from a page with watermark to a page without or vice versa. 103 | \vskip-.5px% 104 | % Watermark. 105 | \if\beamer@decolines@watermark\@empty\else% 106 | \vskip-\beamer@decolines@watermarkheightbottom% 107 | \llap{\includegraphics[height=\beamer@decolines@watermarkheightbottom,clip=true,% 108 | trim=0pt 0pt 0pt \beamer@decolines@watermarkheightupperorig]{\beamer@decolines@watermark}\hskip-\paperwidth}% 109 | \fi% 110 | } 111 | 112 | \defbeamertemplate*{headline}{decolines theme} 113 | { 114 | \leavevmode% 115 | \hbox{% 116 | \begin{beamercolorbox}[wd=\paperwidth,ht=\headerheight,dp=0pt]{page header}% 117 | \end{beamercolorbox}% 118 | } % 119 | \vskip0pt% 120 | } 121 | 122 | \defbeamertemplate*{frametitle}{decolines theme}[1][left] 123 | { 124 | \ifbeamercolorempty[bg]{frametitle}{}{\nointerlineskip}% 125 | \@tempdima=\textwidth% 126 | \advance\@tempdima by\beamer@leftmargin% 127 | \advance\@tempdima by\beamer@rightmargin% 128 | \vbox{}\vskip-.5\beamer@leftmargin% 129 | \begin{beamercolorbox}[sep=\beamer@leftmargin,#1,wd=\the\@tempdima]{} 130 | \usebeamerfont{frametitle}\usebeamercolor[bg]{framesubtitle}% 131 | \vbox{}\vskip0ex% 132 | \if@tempswa\else\csname beamer@fte#1\endcsname\fi% 133 | \strut\insertframetitle\strut\par% 134 | {% 135 | \ifx\insertframesubtitle\@empty% 136 | \else% 137 | {\usebeamerfont{framesubtitle}\usebeamercolor[bg]{framesubtitle}\insertframesubtitle\strut\par}% 138 | \fi 139 | }% 140 | \vskip-1ex% 141 | \if@tempswa\else\vskip-\beamer@leftmargin\fi 142 | \end{beamercolorbox}% 143 | \def\beamer@decolines@truetext{true}% 144 | \ifx\beamer@decolines@titleline\beamer@decolines@truetext% 145 | \vskip-.5\beamer@leftmargin% 146 | \begin{beamercolorbox}[wd=\textwidth,ht=.1ex,dp=0ex]{linemid}% 147 | \end{beamercolorbox}% 148 | \fi 149 | } 150 | 151 | % Frame title continuations, default 152 | \defbeamertemplate*{frametitle continuation}{decolines theme}{(\insertcontinuationcount)} 153 | 154 | \defbeamertemplate*{sidebar right}{decolines theme} 155 | { 156 | \vskip.1\beamer@leftmargin% 157 | \llap{\insertlogo\hskip.5\beamer@leftmargin}% 158 | \vfill% 159 | \if\beamer@decolines@watermark\@empty\else% 160 | \llap{\includegraphics[height=\beamer@decolines@watermarkheight]{\beamer@decolines@watermark}}% 161 | \vskip-\beamer@decolines@watermarkheightbottom% 162 | \fi 163 | } 164 | 165 | \mode 166 | 167 | -------------------------------------------------------------------------------- /slides/beamerthemeTorino.sty: -------------------------------------------------------------------------------- 1 | % Copyright 2007 by Marco Barisione 2 | % 3 | % This file may be distributed and/or modified 4 | % 5 | % 1. under the LaTeX Project Public License and/or 6 | % 2. under the GNU Public License. 7 | 8 | \mode 9 | 10 | \DeclareOptionBeamer{alternativetitlepage}[true]{\PassOptionsToPackage{alternativetitlepage=#1}{beamerinnerthemefancy}} 11 | \DeclareOptionBeamer{titlepagelogo}{\PassOptionsToPackage{titlepagelogo=#1}{beamerinnerthemefancy}} 12 | \DeclareOptionBeamer{bullet}{\PassOptionsToPackage{bullet=#1}{beamerinnerthemefancy}} 13 | \DeclareOptionBeamer{pageofpages}{\PassOptionsToPackage{pageofpages=#1}{beamerouterthemedecolines}} 14 | \DeclareOptionBeamer{titleline}[true]{\PassOptionsToPackage{titleline=#1}{beamerouterthemedecolines}} 15 | \DeclareOptionBeamer{watermark}{\PassOptionsToPackage{watermark=#1}{beamerouterthemedecolines}} 16 | \DeclareOptionBeamer{watermarkheight}{\PassOptionsToPackage{watermarkheight=#1}{beamerouterthemedecolines}} 17 | \DeclareOptionBeamer{watermarkheightmult}{\PassOptionsToPackage{watermarkheightmult=#1}{beamerouterthemedecolines}} 18 | 19 | \ProcessOptionsBeamer 20 | 21 | \useinnertheme{fancy} 22 | \useoutertheme{decolines} 23 | \usecolortheme{chameleon} 24 | 25 | \setbeamertemplate{navigation symbols}{} 26 | 27 | \mode 28 | 29 | -------------------------------------------------------------------------------- /slides/figures/Bayes_Theorem_MMB_01.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/Bayes_Theorem_MMB_01.jpg -------------------------------------------------------------------------------- /slides/figures/anscombe.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/anscombe.png -------------------------------------------------------------------------------- /slides/figures/anscombe_mod.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/anscombe_mod.pdf -------------------------------------------------------------------------------- /slides/figures/bayesian_inference.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/bayesian_inference.jpg -------------------------------------------------------------------------------- /slides/figures/beta_3_2_LGN.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/beta_3_2_LGN.pdf -------------------------------------------------------------------------------- /slides/figures/bilateral.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/bilateral.pdf -------------------------------------------------------------------------------- /slides/figures/blood_pressure.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/blood_pressure.pdf -------------------------------------------------------------------------------- /slides/figures/comparacao_t_Student.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/comparacao_t_Student.pdf -------------------------------------------------------------------------------- /slides/figures/defeituosos.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/defeituosos.pdf -------------------------------------------------------------------------------- /slides/figures/exponential_mle_deltaMethod.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/exponential_mle_deltaMethod.pdf -------------------------------------------------------------------------------- /slides/figures/freq_meme.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/freq_meme.jpg -------------------------------------------------------------------------------- /slides/figures/gamma_1_2.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/gamma_1_2.pdf -------------------------------------------------------------------------------- /slides/figures/hypothesis_testing_funny.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/hypothesis_testing_funny.jpeg -------------------------------------------------------------------------------- /slides/figures/poder_palmirinha.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/poder_palmirinha.pdf -------------------------------------------------------------------------------- /slides/figures/posterior_componentes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/posterior_componentes.pdf -------------------------------------------------------------------------------- /slides/figures/pressure_data.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/pressure_data.pdf -------------------------------------------------------------------------------- /slides/figures/pressure_model.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/pressure_model.pdf -------------------------------------------------------------------------------- /slides/figures/probability_curves_DeGroot8.1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/probability_curves_DeGroot8.1.pdf -------------------------------------------------------------------------------- /slides/figures/sample_moments_normal.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/sample_moments_normal.pdf -------------------------------------------------------------------------------- /slides/figures/sequential_Bayes_componentes.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/sequential_Bayes_componentes.pdf -------------------------------------------------------------------------------- /slides/figures/wrong_pvalue_funny.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/figures/wrong_pvalue_funny.jpeg -------------------------------------------------------------------------------- /slides/inferencia.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/inferencia.pdf -------------------------------------------------------------------------------- /slides/inferencia.tex: -------------------------------------------------------------------------------- 1 | \documentclass[9pt]{beamer} 2 | \usepackage{amsmath, amssymb, amsthm, mathtools, graphicx, float, amssymb, subfigure, booktabs, enumitem} 3 | \usepackage{hyperref} 4 | \usepackage{enumitem} 5 | \usepackage{minted} 6 | \usepackage{pifont} 7 | \usepackage{xcolor} 8 | \usepackage[utf8]{inputenc} % usually not needed (loaded by default) 9 | \usepackage[T1]{fontenc} 10 | \hypersetup{colorlinks=true,citecolor=blue} 11 | \usepackage{tikz} 12 | \usepackage{fontawesome} 13 | \usetikzlibrary{calc,shapes} 14 | \usepackage[normalem]{ulem} 15 | \setbeamertemplate{theorems}[numbered] 16 | \usepackage[authoryear,round]{natbib} 17 | \usepackage[portuguese]{babel} 18 | \usetheme[pageofpages=of,% String used between the current page and the 19 | % total page count. 20 | bullet=circle,% Use circles instead of squares for bullets. 21 | titleline=true,% Show a line below the frame title. 22 | alternativetitlepage=true,% Use the fancy title page. 23 | %titlepagelogo=logo-fiocruz,% Logo for the first page. 24 | %watermark=watermark-polito,% Watermark used in every page. 25 | %watermarkheight=100px,% Height of the watermark. 26 | %watermarkheightmult=4,% The watermark image is 4 times bigger 27 | % than watermarkheight. 28 | ]{Torino} 29 | \usecolortheme{chameleon} 30 | %%%% Box options 31 | \newcommand{\tikzmark}[1]{\tikz[overlay,remember picture] \node (#1) {};} 32 | %%%% Background settings 33 | % \setbeamercolor{normal text}{fg=white,bg=black!90} 34 | % \setbeamercolor{structure}{fg=white} 35 | % \setbeamercolor{alerted text}{fg=red!85!black} 36 | % \setbeamercolor{item projected}{use=item,fg=black,bg=item.fg!95} 37 | % \setbeamercolor*{palette primary}{use=structure,fg=structure.fg} 38 | % \setbeamercolor*{palette secondary}{use=structure,fg=structure.fg!95!black} 39 | % \setbeamercolor*{palette tertiary}{use=structure,fg=structure.fg!90!black} 40 | % \setbeamercolor*{palette quaternary}{use=structure,fg=structure.fg!95!black,bg=black!80} 41 | % \setbeamercolor{title}{fg=white} 42 | % \setbeamercolor{frametitle}{bg=white} 43 | % \setbeamercolor*{framesubtitle}{fg=white} 44 | % \setbeamercolor*{block title}{parent=structure,bg=black!95} 45 | % \setbeamercolor*{block body}{fg=black,bg=black!10} 46 | % \setbeamercolor*{block title alerted}{parent=alerted text,bg=black!95} 47 | % \setbeamercolor*{block title example}{parent=example text,bg=black!95} 48 | 49 | %%%% Maths crap 50 | \DeclareMathOperator*{\argmin}{arg\,min} 51 | \DeclareMathOperator*{\argmax}{arg\,max} 52 | \newtheorem{remark}{Remark}[] 53 | \newtheorem{theo}{Teorema}[] 54 | \newtheorem{exemplo}{Exemplo} 55 | \newtheorem{defn}{Defini\c{c}\~ao}[] 56 | \newtheorem{pergunta}{Pergunta}[] 57 | \newtheorem{ideia}{Ideia}[] 58 | \newtheorem{obs}{Observa\c{c}\~ao}[] 59 | \newtheorem{property}{Property}[] 60 | %%%% Itemize settings 61 | \setlist[itemize,1]{label=$\bullet$} 62 | \setlist[itemize,2]{label=$\diamond$} 63 | 64 | \setbeamercolor{block title}{use=structure,fg=white,bg=structure.fg!75!black} 65 | \setbeamercolor{block body}{parent=normal text,use=block title,bg=block title.bg!10!bg} 66 | 67 | %%%%%%%%%%%%%%%%%%%% Notation stuff 68 | \newcommand{\indep}{\perp \!\!\! \perp} %% indepence 69 | \newcommand{\pr}{\operatorname{Pr}} %% probability 70 | \newcommand{\vr}{\operatorname{Var}} %% variance 71 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 72 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 73 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 74 | \newcommand{\Sm}{\bar{X}_n} %% sample mean, random variable 75 | \newcommand{\sm}{\bar{x}_n} %% sample mean, realised 76 | \newcommand{\Sv}{\bar{S}^2_n} %% sample variance, random variable 77 | \newcommand{\sv}{\bar{s}^2_n} %% sample variance, realised 78 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 79 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 80 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 81 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 82 | \newcommand{\emv}{\hat{\theta}_{\text{EMV}}} 83 | 84 | \usepackage{url} 85 | %%%% Hyperref stuff 86 | \hypersetup{ 87 | colorlinks = true, %Colours links instead of ugly boxes 88 | urlcolor = cyan, %Colour for external hyperlinks 89 | linkcolor = cyan, %Colour of internal links 90 | citecolor = red %Colour of citations 91 | } 92 | %%%% To create without the 'Figure' prefix. Remove if you need'em 93 | \usepackage{caption} 94 | \captionsetup[figure]{labelformat=empty} 95 | %%%% 96 | \author{ 97 | \underline{Luiz Max de Carvalho}[lmax.fgv@gmail.com]\linebreak 98 | } 99 | \title{ 100 | \Huge Inferência Estatística 101 | } 102 | \institute{ 103 | Disciplina da graduação em Matemática Aplicada\\ 104 | Escola de Matemática Aplicada (EMAp/FGV), Rio de Janeiro. 105 | } 106 | \date{\today} 107 | \logo{\includegraphics[scale=.15]{logo.jpg}} 108 | \begin{document} 109 | \include{aula_1} 110 | \include{aula_2} 111 | \include{aula_3} 112 | \include{aula_4} 113 | \include{aula_5} 114 | \include{aula_6} 115 | \include{aula_7} 116 | \include{aula_8} 117 | \include{aula_9} 118 | \include{aula_10} 119 | \include{aula_11} 120 | \include{aula_12} 121 | \include{aula_13} 122 | \include{aula_14} 123 | \include{aula_15} 124 | \include{aula_16} 125 | \include{aula_17} 126 | \include{aula_18} 127 | \include{aula_19} 128 | \end{document} 129 | -------------------------------------------------------------------------------- /slides/logo.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/slides/logo.jpg -------------------------------------------------------------------------------- /trabalhos/refs.bib: -------------------------------------------------------------------------------- 1 | @article{Kim2008, 2 | title={Why gaussianity?}, 3 | author={Kim, Kiseon and Shevlyakov, Georgy}, 4 | journal={IEEE Signal Processing Magazine}, 5 | volume={25}, 6 | number={2}, 7 | pages={102--113}, 8 | year={2008}, 9 | publisher={IEEE} 10 | } 11 | 12 | @BOOK{Blitzstein2019-qi, 13 | title = "Introduction to probability, second edition", 14 | author = "Blitzstein, Joseph K and Hwang, Jessica", 15 | publisher = "CRC Press", 16 | series = "Chapman \& Hall/CRC Texts in Statistical Science", 17 | edition = 2, 18 | month = feb, 19 | year = 2019, 20 | address = "London, England" 21 | } 22 | 23 | 24 | -------------------------------------------------------------------------------- /trabalhos/trabalho_I.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/trabalhos/trabalho_I.pdf -------------------------------------------------------------------------------- /trabalhos/trabalho_I.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage[portuguese]{babel} 8 | 9 | 10 | % Title Page 11 | \title{Trabalho I: Análise bayesiana no caso Normal.} 12 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 13 | 14 | \begin{document} 15 | \maketitle 16 | 17 | \textbf{Data de Entrega: 24 de Agosto de 2022.} 18 | 19 | \section*{Orientações} 20 | \begin{itemize} 21 | \item Enuncie e prove (ou indique onde se pode encontrar a demonstração) de~\underline{todos} os resultados não triviais necessários aos argumentos apresentados; 22 | \item Lembre-se de adicionar corretamente as referências bibliográficas que utilizar e referenciá-las no texto; 23 | \item Equações e outras expressões matemáticas também recebem pontuação; 24 | \item Você pode utilizar figuras, tabelas e diagramas para melhor ilustrar suas respostas; 25 | \item Indique com precisão os números de versão para quaisquer software ou linguagem de programação que venha a utilizar para responder às questões\footnote{Não precisa detalhar o que foi usado para preparar o documento com a respostas. Recomendo a utilização do ambiente LaTeX, mas fique à vontade para utilizar outras ferramentas.}; 26 | \end{itemize} 27 | 28 | 29 | \section*{Introdução} 30 | 31 | A distribuição Normal (ou gaussiana) é largamente utilizada na prática estatística, por uma série de razões matemáticas e históricas~\citep{Kim2008}. 32 | No campo da estatística bayesiana, algumas manipulações simples permitem a análise do caso gaussiano em forma fechada. 33 | Neste trabalho, vamos derivar os principais resultados de uma análise bayesiana conjugada de dados normalmente distribuídos. 34 | Para tal, começamos com uma reparametrização. 35 | Em particular, fazemos $\tau = 1/\sigma^2$, de modo que os parâmetros de interesse $\theta = (\mu, \sigma^2)$ se tornem $\phi = (\mu, \tau)$. 36 | O parâmetro $\tau$ é chamado de~\textit{precisão}. 37 | Suponha que observamos uma amostra aleatória $X_1, \ldots, X_n$ com distribuição normal com parâmetros $\mu$ e $\tau$, ambos desconhecidos. 38 | 39 | \section*{Questões} 40 | \begin{enumerate} 41 | \item Escreva a distribuição conjunta condicional dos dados sob a nova parametrização; 42 | \item A partir da densidade do item anterior, deduza que a distribuição~\textit{a priori} conjugada conjunta para $\phi = (\mu, \tau)$ é da forma: 43 | \begin{equation} \label{eq:prior} 44 | \begin{aligned} 45 | \tau &\sim \operatorname{Gama}(\alpha_0, \beta_0),\\ 46 | \mu \mid \tau &\sim \operatorname{Normal_2}(m_0, \lambda_0\tau), 47 | \end{aligned} 48 | \end{equation} 49 | onde $\operatorname{Normal_2}$ se refere à distribuição normal parametrizada em termos de média e precisão. 50 | \item A partir dos itens anteriores, derive a distribuição~\textit{a posteriori} conjunta de $\mu$ e $\tau$ e a distribuição condicional de $\mu$ dado $\tau$, assim como a distribuição marginal~\textit{a posteriori} de $\tau$; 51 | \item Interprete as expressões obtidas no item anterior; o que as formas funcionais obtidas revelam sobre a interação entre os hiperparâmetros e os dados? 52 | \item Derive a distribuição marginal~\textit{a posteriori} de $\mu$ (Dica: leia o capítulo 8.4 de De Groot); 53 | \item Palmirinha anda preocupada com a concentração de amido em sua pamonha. 54 | Ela pede para Valciclei, seu assistente, amostrar $n=10$ pamonhas e medir sua concentração de amido. 55 | 56 | Ele, muito prestativo, rapidamente faz o experimento, mas, porque comeu todas as amostras depois que foram medidas, precisou fazer uma visita de emergência ao banheiro. 57 | Desta feita, apenas teve tempo de anotar em um papel a média e variância amostrais, $\bar{x}_n = 8.307849$ e $\bar{s}^2_n = 7.930452$. 58 | 59 | Palmirinha tem uma reunião com investidores em pouco tempo, então decide voltar aos seus tempos de bayesiana~\textit{old school} e analisar os dados utilizando prioris conjugadas. 60 | Ela supõe que a concentração de amido segue uma distribuição normal com parâmetros $\mu$ e $\tau$ e que as observações feitas por Valciclei são independentes entre si. 61 | Ela suspeita que a concentração de amido na pamonha fique em torno de $10$ mg/L, com desvio padrão de $2$ mg/L. 62 | Com sua larga experiência na confecção de pamonhas, ela suspeita ainda que o coeficiente de variação da concentração de amido seja em torno de $1/2$. 63 | Palmirinha tem um quadro em seu escritório, que diz 64 | \[ \operatorname{cv} = \frac{\sigma}{\mu}. \] 65 | 66 | Agora, 67 | \begin{enumerate} 68 | \item Elicite uma distribuição a priori conjugada consistente com as suspeitas de Palmirinha. Para isso, interprete-as como valores esperados a priori dos parâmetros\footnote{As leis de esperança e de variância totais podem ser adequadas; veja \cite[Seção 9.6]{Blitzstein2019-qi}.} -- isto é, $\mathbb{E}[\mu] = 10$, $\mathrm{Var}(\mu) = 4$ e $\mathbb{E}[\sqrt{\tau} \mu] = 2$ -- e compute os hiperparâmetros $\beta_{0}$, $m_{0}$ e $\lambda_{0}$ da Equação~\eqref{eq:prior}. Suponha também que $\alpha_{0} = 2$. 69 | \item Com os dados anotados por Valciclei, é possível computar a distribuição~\textit{a posteriori} de $\mu$ e $\tau$? Justifique. 70 | \item Em caso afirmativo, ajude Palmirinha a encontrar $a, b \in \mathbb{R}$, $a < b$ de modo que $\operatorname{Pr}(\mu \in (a, b) \mid \boldsymbol{x}) = 0.95$. 71 | \end{enumerate} 72 | 73 | 74 | \end{enumerate} 75 | 76 | 77 | 78 | \bibliographystyle{apalike} 79 | \bibliography{refs} 80 | 81 | \end{document} 82 | -------------------------------------------------------------------------------- /trabalhos/trabalho_II.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/trabalhos/trabalho_II.pdf -------------------------------------------------------------------------------- /trabalhos/trabalho_II.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage[portuguese]{babel} 8 | 9 | 10 | % Title Page 11 | \title{Trabalho II: o algoritmo EM.} 12 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 13 | 14 | \begin{document} 15 | \maketitle 16 | 17 | \textbf{Data de Entrega: 28 de Setembro de 2022.} 18 | 19 | \section*{Orientações} 20 | \begin{itemize} 21 | \item Enuncie e prove (ou indique onde se pode encontrar a demonstração) de~\underline{todos} os resultados não triviais necessários aos argumentos apresentados; 22 | \item Lembre-se de adicionar corretamente as referências bibliográficas que utilizar e referenciá-las no texto; 23 | \item Equações e outras expressões matemáticas também recebem pontuação; 24 | \item Você pode utilizar figuras, tabelas e diagramas para melhor ilustrar suas respostas; 25 | \item Indique com precisão os números de versão para quaisquer software ou linguagem de programação que venha a utilizar para responder às questões\footnote{Não precisa detalhar o que foi usado para preparar o documento com a respostas. Recomendo a utilização do ambiente LaTeX, mas fique à vontade para utilizar outras ferramentas.}; 26 | \end{itemize} 27 | 28 | 29 | \section*{Introdução} 30 | 31 | O estimador de máxima verossimilhança (EMV) possui uma gama de propriedades atraentes, como consistência, invariância e normalidade asintótica. 32 | Em muitas situações práticas, no entanto, este estimador é difícil de obter, especialmente quando parte dos dados está faltando (``\textit{missing data}''). 33 | Por exemplo, podemos estar interessados em estudar a relação entre peso e altura, mas na nossa amostra temos os pesos de alguns indivíduos e alturas de outros. 34 | 35 | O algoritmo EM (``Expectation Maximisation'') é um método iterativo para aproximar o EMV em situações com dados faltantes. 36 | Começamos com um valor inicial $\theta^{(0)}$ e depois para ir do passo $j$ para o passo $j + 1$, escrevemos a~\textit{verossimilhança dos dados completos}, que é a log-verossimilhança dos dados se os tivéssemos observado completos. 37 | 38 | O passo ``E'' (``esperança'') do algoritmo consiste em computar a distribuição condicional das observações faltantes dadas as observações existentes se o parametro tivesse o valor $\theta^{(j)}$, e tomar a esperança destes dados faltantes tratando $\theta$ como fixo -- e os dados faltantes como variáveis aleatórias. 39 | Já o passo ``M'' (``marginalização'') envolve escolher $\theta^{(j+1)}$ que maximize a distribuição condicional obtida no passo E. 40 | 41 | \section*{Questões} 42 | \begin{enumerate} 43 | \item Defina claramente todos os passos do algoritmo EM (faça um glossário de termos se precisar); 44 | \item \textbf{Um exemplo motivador:} Suponha que temos duas moedas, Moeda $1$ e Moeda $2$ de modo que $\operatorname{Pr}(\text{Cara} \mid \text{Moeda} = 1) = p_1$ e $\operatorname{Pr}(\text{Cara} \mid \text{Moeda} = 2) = p_2$; 45 | Suponha agora que fazemos o seguinte experimento: 46 | \begin{itemize} 47 | \item[(i)] Selecionamos uma moeda aleatóriamente com probabilidade $1/2$; 48 | \item[(ii)] Lançamos a moeda selecionada $m$ vezes; 49 | \item[(iii)] Repetimos (i) e (ii) $n$ vezes. 50 | \end{itemize} 51 | Podemos representar os dados advindos deste experimento como 52 | \begin{center} 53 | \begin{tabular}{ c c c c c} 54 | $X_{11}$ & $\ldots$ & $X_{1m}$ & & $M_1$ \\ 55 | $X_{21}$ & $\ldots$ & $X_{2m}$ & & $M_2$ \\ 56 | $\vdots$ & $\ldots$ & $\vdots$ & & $\vdots$ \\ 57 | $X_{n1}$ & $\ldots$ & $X_{nm}$ & & $M_n$ ¨ 58 | \end{tabular} 59 | \end{center} 60 | 61 | onde os $X_{ij}$ são variáveis Bernoulli que guardam o resultados do lançamento da moeda e $M_i \in \{ 1, 2\}$ é a variável aleatória que guarda qual moeda foi selecionada na $i$-ésima rodada do experimento. 62 | 63 | \textbf{Desenvolva} um esquema EM para obter o EMV para $\theta = (p_1, p_2)$ quando desconhecemos os valores de $M_i$, isto é, quando não sabemos que moeda foi escolhida em cada uma das $n$ rodadas. 64 | 65 | \item Mostre que a sequência $\theta^{(j)}$ é monotônica e não descrescente com respeito à verossimilhança, isto é, 66 | \[ L\left(\theta^{(j + 1)}\right) \geq L\left(\theta^{(j)}\right) \] 67 | Dica (fortemente aconselhado): ver exercício 7.31 de Casella \& Berger (2002). 68 | \item Discuta a importância do método EM: quando ele é aplicável? Vale sempre a pena? O que o item anterior demonstra sobre o método? 69 | \end{enumerate} 70 | 71 | 72 | %\bibliographystyle{apalike} 73 | %\bibliography{refs} 74 | 75 | \end{document} 76 | -------------------------------------------------------------------------------- /trabalhos/trabalho_III.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/trabalhos/trabalho_III.pdf -------------------------------------------------------------------------------- /trabalhos/trabalho_III.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage[portuguese]{babel} 8 | 9 | 10 | % Title Page 11 | \title{Trabalho II: o método Delta.} 12 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 13 | 14 | \begin{document} 15 | \maketitle 16 | 17 | \textbf{Data de Entrega: 26 de Outubro de 2022.} 18 | 19 | \section*{Orientações} 20 | \begin{itemize} 21 | \item Enuncie e prove (ou indique onde se pode encontrar a demonstração) de~\underline{todos} os resultados não triviais necessários aos argumentos apresentados; 22 | \item Lembre-se de adicionar corretamente as referências bibliográficas que utilizar e referenciá-las no texto; 23 | \item Equações e outras expressões matemáticas também recebem pontuação; 24 | \item Você pode utilizar figuras, tabelas e diagramas para melhor ilustrar suas respostas; 25 | \item Indique com precisão os números de versão para quaisquer software ou linguagem de programação que venha a utilizar para responder às questões\footnote{Não precisa detalhar o que foi usado para preparar o documento com a respostas. Recomendo a utilização do ambiente LaTeX, mas fique à vontade para utilizar outras ferramentas.}; 26 | \end{itemize} 27 | 28 | 29 | \section*{Introdução} 30 | 31 | Algumas vezes estamos interessados em estimar funções de variáveis aleatórias, em particular funções da média amostral. 32 | O método Delta permite, sob certas condições, aproximar a distribuição assintótica de funções de variáveis aleatórias. 33 | Este resultado é extremamente útil em Estatística porque permite obter aproximações sob condições bastante gerais, muitas vezes quando estimadores explícitos não estão disponíveis em forma fechada. 34 | 35 | \section*{Questões} 36 | \begin{enumerate} 37 | \item Enuncie e prove o método Delta; 38 | \item Discuta sob quais condições o método funciona e porque; 39 | \item \textbf{Definição 1: transformações estabilizadoras da variância}. 40 | Suponha que $E[X_i] = \theta$ é o parâmetro de interesse. 41 | O Teorema central do limite diz que 42 | \begin{equation} 43 | \sqrt{n}\left(\bar{X}_n - \theta \right) \xrightarrow{d} \textrm{Normal}\left(0, \sigma^2(\theta)\right), 44 | \end{equation} 45 | ou seja, a variância da distribuição limite é função de $\theta$. 46 | Idealmente, gostaríamos\footnote{Por razões que ficarão claras mais à frente no curso. 47 | Se sua curiosidade não puder esperar, pesquise ``estatística ancilar'' ou ``ancillar statistics''.} que essa distribuição não dependesse de $\theta$. 48 | Podemos utilizar o método Delta para resolver esse problema. 49 | Em particular, você demonstrou acima que 50 | \begin{equation} 51 | \sqrt{n}\left(g(\bar{X}_n) - g(\theta) \right) \xrightarrow{d} \textrm{Normal}\left(0, \sigma^2(\theta)g^\prime(\theta)^2\right). 52 | \end{equation} 53 | O que desejamos então é escolher $g$ de modo que $g^\prime(\theta)\sigma(\theta) = a$ para todo $\theta$. 54 | Dizemos que $g$ é uma~\textbf{transformação estabilizadora da variância}. 55 | 56 | \textbf{Aplicação:} Sejam $X_1, X_2, \ldots, X_n$ uma amostra i.i.d. de uma distribuição normal com média $\mu = 0$ e variância $\sigma^2$,~\textbf{desconhecida}. 57 | Defina $Z_i = X_i^2$ e $\tau^2 = \operatorname{Var}(Z_i)$. 58 | \begin{itemize} 59 | \item[(i)] Mostre que $\tau^2 = 2\sigma^4$. 60 | \item[(ii)] É possível mostrar que 61 | \begin{equation} 62 | \sqrt{n}\left(\bar{Z}_n - \sigma^2 \right) \xrightarrow{d} \textrm{Normal}\left(0, 2\sigma^4\right). 63 | \end{equation} 64 | Proponha uma transformação estabilizadora da variância para este problema\footnote{Note que, como não conhecemos $\sigma^2$, $g$ não pode depender de $\sigma^2$.} 65 | \textit{Dica}: Encontre $g$ tal que 66 | \begin{equation*} 67 | \sqrt{n}\left(g(\bar{Z}_n) - g(\sigma^2) \right) \xrightarrow{d} \textrm{Normal}\left(0, 2\right). 68 | \end{equation*} 69 | \end{itemize} 70 | \end{enumerate} 71 | 72 | % \bibliographystyle{apalike} 73 | % \bibliography{refs} 74 | 75 | \end{document} 76 | -------------------------------------------------------------------------------- /trabalhos/trabalho_IV.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/trabalhos/trabalho_IV.pdf -------------------------------------------------------------------------------- /trabalhos/trabalho_IV.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage[portuguese]{babel} 8 | 9 | \newcommand{\indep}{\perp \!\!\! \perp} %% indepence 10 | \newcommand{\pr}{\operatorname{Pr}} %% probability 11 | \newcommand{\vr}{\operatorname{Var}} %% variance 12 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 13 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 14 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 15 | \newcommand{\Sm}{\bar{X}_n} %% sample mean, random variable 16 | \newcommand{\sm}{\bar{x}_n} %% sample mean, realised 17 | \newcommand{\Sv}{\bar{S}^2_n} %% sample variance, random variable 18 | \newcommand{\sv}{\bar{s}^2_n} %% sample variance, realised 19 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 20 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 21 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 22 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 23 | \newcommand{\emv}{\hat{\theta}_{\text{EMV}}} 24 | 25 | % Title Page 26 | \title{Trabalho IV: Testes uniformemente mais poderosos.} 27 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 28 | 29 | \begin{document} 30 | \maketitle 31 | 32 | \textbf{Data de Entrega: Junto com a A2.} 33 | 34 | \section*{Orientações} 35 | \begin{itemize} 36 | \item Enuncie e prove (ou indique onde se pode encontrar a demonstração) de~\underline{todos} os resultados não triviais necessários aos argumentos apresentados; 37 | \item Lembre-se de adicionar corretamente as referências bibliográficas que utilizar e referenciá-las no texto; 38 | \item Equações e outras expressões matemáticas também recebem pontuação; 39 | \item Você pode utilizar figuras, tabelas e diagramas para melhor ilustrar suas respostas; 40 | \item Indique com precisão os números de versão para quaisquer software ou linguagem de programação que venha a utilizar para responder às questões\footnote{Não precisa detalhar o que foi usado para preparar o documento com a respostas. Recomendo a utilização do ambiente LaTeX, mas fique à vontade para utilizar outras ferramentas.}; 41 | \end{itemize} 42 | 43 | 44 | \section*{Introdução} 45 | 46 | Vimos que os testes de hipótese fornecem uma abordagem matematicamente sólida para traduzir hipóteses científicas sobre o processo gerador dos dados em decisões sobre os dados -- isto é, traduzir afirmações sobre particões do espaço de parâmetros, $\Omega$, em afirmações testáveis sobre o espaço amostral $\mathcal{X}^n$. 47 | 48 | Um teste $\delta(\bX)$ é uma decisão (binária) de rejeitar ou não uma hipótese nula ($H_0$) sobre $\theta \in \Omega$ com base em uma amostra $\bX$. 49 | A capacidade de um teste de rejeitar $H_0$ quando ela é falsa é medida pela função poder, $\pi(\theta |\delta)$. 50 | Nem todos os testes, no entanto, são criados iguais. 51 | Em certas situações, é possível mostrar que um procedimento $\delta_A$ é~\textit{uniformemente} mais poderoso que outro procedimento $\delta_B$ para testar a mesma hipótese. 52 | 53 | Neste trabalho, vamos definir e aplicar o conceito de~\textbf{teste uniformemente mais poderoso}. 54 | 55 | \section*{Questões} 56 | Dica: ler o capítulo 9.3 de DeGroot. 57 | \begin{enumerate} 58 | \item Defina precisamente o que é um teste uniformemente mais poderoso (UMP) para uma hipótese; 59 | \item Defina precisamente o que é uma razão de verossimilhanças monotônica (RVM); 60 | \item Considere uma hipótese nula da forma $H_0: \theta \leq \theta_0$, $\theta_0 \in \Omega$. 61 | Suponha que vale o Teorema da Fatorização e a distribuição de $\bX$ tem razão de verossimilhanças monotônica. 62 | Mostre que se existem $c$ e $\alpha_0$ tais que 63 | \begin{equation} 64 | \pr\left(r(\bX) \geq c \mid \theta = \theta_0\right) = \alpha_0, 65 | \end{equation} 66 | então o procedimento $\delta^\ast$ que rejeita $H_0$ se $r(\bX) \geq c$ é UMP para $H_0$ ao nível $\alpha_0$; 67 | 68 | \item \textbf{Qual é dessa moeda aí?} 69 | 70 | Suponha que você encontra o Duas-Caras na rua e ele não vai com a sua... cara. 71 | Ele decide jogar a sua famosa moeda para o alto para decidir se te dá um cascudo. 72 | Se der cara ($C$), você toma um cascudo. 73 | Você, que sabe bem Estatística, pede que ele pelo menos jogue a moeda umas $n=10$ vezes antes de tomar a decisão derradeira. 74 | 75 | Surpreendentemente, ele concorda. 76 | Lança a moeda e obtém 77 | $$ \text{KCKCKCCKKK} $$ 78 | 79 | Você agora deve decidir se foge, se arriscando a tomar dois cascudos ao invés de um, ou se fica e possivelmente não toma cascudo nenhum. 80 | Se $p$ é a probabilidade de dar cara, estamos interessados em testar a hipótese 81 | \begin{align*} 82 | H_0 &: p \leq \frac{1}{2},\\ 83 | H_1 &:p > \frac{1}{2}. 84 | \end{align*} 85 | 86 | \begin{enumerate} 87 | \item Escreva a razão de verossimilhanças para esta situação; 88 | \item Nesta situação, é do seu interesse encontrar um teste UMP. 89 | Faça isso e aplique o teste desenvolvido aos dados que conseguiu arrancar do Duas-Caras. 90 | \end{enumerate} 91 | \item (Bônus) Mostre que, no item anterior, não é possível atingir qualquer nível $\alpha_0$, isto é, que $\alpha_0$ toma um número finito de valores. 92 | Proponha uma solução para que seja possível atingir qualquer nível em $(0, 1)$. (Dica: Ler a seção 9.2 de DeGroot). 93 | \end{enumerate} 94 | 95 | % \bibliographystyle{apalike} 96 | % \bibliography{refs} 97 | 98 | \end{document} 99 | -------------------------------------------------------------------------------- /trabalhos/trabalho_V.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/maxbiostat/Statistical_Inference_BSc/913a816c6d6f868b5e0c1401be96e7655c959f4c/trabalhos/trabalho_V.pdf -------------------------------------------------------------------------------- /trabalhos/trabalho_V.tex: -------------------------------------------------------------------------------- 1 | \documentclass[a4paper,10pt, notitlepage]{report} 2 | \usepackage[utf8]{inputenc} 3 | \usepackage{natbib} 4 | \usepackage{amssymb} 5 | \usepackage{amsmath} 6 | \usepackage{enumitem} 7 | \usepackage{xcolor} 8 | \usepackage{cancel} 9 | \usepackage{mathtools} 10 | \usepackage[portuguese]{babel} 11 | 12 | \newcommand{\indep}{\perp \!\!\! \perp} %% indepence 13 | \newcommand{\pr}{\operatorname{Pr}} %% probability 14 | \newcommand{\vr}{\operatorname{Var}} %% variance 15 | \newcommand{\rs}{X_1, X_2, \ldots, X_n} %% random sample 16 | \newcommand{\irs}{X_1, X_2, \ldots} %% infinite random sample 17 | \newcommand{\rsd}{x_1, x_2, \ldots, x_n} %% random sample, realised 18 | \newcommand{\Sm}{\bar{X}_n} %% sample mean, random variable 19 | \newcommand{\sm}{\bar{x}_n} %% sample mean, realised 20 | \newcommand{\Sv}{\bar{S}^2_n} %% sample variance, random variable 21 | \newcommand{\sv}{\bar{s}^2_n} %% sample variance, realised 22 | \newcommand{\bX}{\boldsymbol{X}} %% random sample, contracted form (bold) 23 | \newcommand{\bx}{\boldsymbol{x}} %% random sample, realised, contracted form (bold) 24 | \newcommand{\bT}{\boldsymbol{T}} %% Statistic, vector form (bold) 25 | \newcommand{\bt}{\boldsymbol{t}} %% Statistic, realised, vector form (bold) 26 | \newcommand{\emv}{\hat{\theta}_{\text{EMV}}} 27 | \DeclarePairedDelimiter\ceil{\lceil}{\rceil} 28 | \DeclarePairedDelimiter\floor{\lfloor}{\rfloor} 29 | \newcommand{\rpl}{\mathbb{R}_+} 30 | % Title Page 31 | \title{Trabalho V: Desenho amostral para controlar as probabilidades de erro de testes de hipótese.} 32 | \author{Disciplina: Inferência Estatística \\ Professor: Luiz Max de Carvalho} 33 | 34 | \begin{document} 35 | \maketitle 36 | 37 | \textbf{Data de Entrega: 30 de Novembro de 2022.} 38 | 39 | \section*{Orientações} 40 | \begin{itemize} 41 | \item Enuncie e prove (ou indique onde se pode encontrar a demonstração) de~\underline{todos} os resultados não triviais necessários aos argumentos apresentados; 42 | \item Lembre-se de adicionar corretamente as referências bibliográficas que utilizar e referenciá-las no texto; 43 | \item Equações e outras expressões matemáticas também recebem pontuação; 44 | \item Você pode utilizar figuras, tabelas e diagramas para melhor ilustrar suas respostas; 45 | \item Indique com precisão os números de versão para quaisquer software ou linguagem de programação que venha a utilizar para responder às questões\footnote{Não precisa detalhar o que foi usado para preparar o documento com a respostas. Recomendo a utilização do ambiente LaTeX, mas fique à vontade para utilizar outras ferramentas.}; 46 | \end{itemize} 47 | 48 | 49 | \paragraph{Notação:} Como convenção adotamos $\mathbb{R} = (-\infty, \infty)$, $\rpl = (0, \infty)$ e $\mathbb{N} = \{1, 2, \ldots \}$. 50 | 51 | \paragraph{Motivação: Entre os vários fatores a serem considerados na construção de um teste estatístico, a capacidade de detectar um efeito caso ele esteja presente é um das mais importantes. 52 | Em algumas situações é possível determinar o tamanho de amostra necessário para controlar as probabilidades de erro do teste em questão. 53 | E é exatamente isso que faremos neste exercício. 54 | } 55 | 56 | \section*{É pra medir \textit{quantos} mesmo, chefe ?!} 57 | 58 | Suponha que os seus dados vêm de uma distribuição normal com parâmetros $\mu$ e $\sigma^2$. 59 | Você tem acesso à média amostral, $\bar{X}_n = n^{-1} \sum_{i=1}^n X_i$ e à variância amostral, $S_2 = (n-1)^{-1} \sum_{i=1}^n (X_i - \bar{X}_n)^2$. 60 | Você recebeu a tarefa de desenhar um teste estatístico para testar as hipóteses 61 | \begin{align*} 62 | H_0 &: \mu = \mu_0,\\ 63 | H_1 &: \mu \neq \mu_0. 64 | \end{align*} 65 | \begin{enumerate} 66 | \item Suponha que $\sigma^2$ é \underline{conhecida} e considere o teste 67 | \begin{equation*} 68 | \delta_c = \begin{cases} 69 | \textrm{Rejeitar} \: H_0 \: \textrm{quando} \: |\bar{X}_n - \mu_0|/\sigma \geq c,\\ 70 | \textrm{Falhar em rejeitar} \: H_0 \: \textrm{caso contrário}. 71 | \end{cases} 72 | \end{equation*} 73 | Determine o valor de $c$ para que o tamanho de $\delta_c$ seja $\alpha = 0.01$. 74 | \item Vamos agora supor $\sigma^2$ \underline{desconhecida}. 75 | Defina $\hat{\sigma}^\prime = \sqrt{S_2}$ e considere o teste \begin{equation*} 76 | \delta_k^\prime = \begin{cases} 77 | \textrm{Rejeitar} \: H_0 \: \textrm{quando} \: |\sqrt{n}(\bar{X}_n - \mu_0)/\hat{\sigma}^\prime| \geq k,\\ 78 | \textrm{Falhar em rejeitar} \: H_0 \: \textrm{caso contrário}. 79 | \end{cases} 80 | \end{equation*} 81 | Determine o valor de $k$ para que o tamanho de $\delta_k^\prime$ seja $\alpha = 0.01$. 82 | \item Para cada um dos testes acima ($\delta_c$ e $\delta^\prime_k$), determine o tamanho amostral ($n$) tal que o teste tenha poder de $0.95$ em $\mu + \sigma$, isto é $\pi(\mu + \sigma | \delta_c) = 0.95$ e $\pi(\mu + \sigma | \delta_k) = 0.95$. 83 | Compare os tamanhos amostrais necessários e discuta se são diferentes e por quê. 84 | \end{enumerate} 85 | 86 | % \bibliographystyle{apalike} 87 | % \bibliography{refs} 88 | 89 | \end{document} 90 | --------------------------------------------------------------------------------