class: center, middle, inverse background-image: url("figs/hca.jpg") background-position: center background-size: cover # Haciendo Ciencia Abierta ## Dia 2 ### Ignacio Sarmiento-Barbieri --- class: middle ### Agenda - Hoy: - Control de Versión: `Git` and `Github` - Experimentos y Plan Pre Experimental - Cálculos de Poder - Ejemplos en `R` con `DeclareDesign` --- # Control de Versión con Git(Hub) <div align="center"> <img src="http://phdcomics.com/comics/archive/phd101212s.gif" height=500> </div> --- # Control de Versión con Git(Hub) ### Motivación - `Git` es un sistema de control de versión que permite evitar situaciones descritas en el comic. - Podemos pensar en `Git` como la mezcla óptima entre Dropbox y la función “seguimiento de cambios” de Word. - Es importante resaltar que `Git` y `GitHub` no son lo mismo. - Mientras que `Git` es el sistema de control de versión, - `GitHub` es una companía que permite el alojamiento en linea de `Git`. --- ## Demostración <img src="figs/baticomputer_meme.jpg" width="700" style="display: block; margin: auto;" /> --- # Momento de Colaborar Voy a dividirlos en pares - Luego de que se presenten, decidan quien es P1 y P2 - P1: invite a P2 a unirse a usted como colaborador en el repositorio de GitHub de "prueba" que creó anteriormente. (Haga clic en la pestaña *Settings* de su repositorio. Luego *Manage Access* -> *Invite teams of people*). - P2: clone el repositorio de P1 en su máquina local.<sup>1</sup> Realice algunas ediciones en el README (por ejemplo, elimine líneas de texto y agregue las suyas propias). Organice, confirme e impulse estos cambios. --- # Momento de Colaborar - P1: Realice sus propios cambios en el README en su máquina local. Stage, commit y trate de push (*despues* de pulling del repositorio de GitHub). .footnote[<sup>1</sup> Cambie primero a un nuevo directorio o asígnele un nombre diferente para evitar conflictos con su propio repositorio de "prueba". No se preocupe, el seguimiento de Git seguirá funcionando si cambia el nombre del repositorio localmente.] --- # Conflictos El P1 encontró un error de `merge conflict`? - Bien, eso es lo que estábamos tratando de generar - Ahora, aprendamos cómo solucionarlos. --- # Conflictos Bien, veamos qué está pasando aquí abriendo el archivo README.<sup>1</sup> Deberías ver algo como: ```bash # README Texto <<<<<<< HEAD Texto agregado por el compañero 2. ======= Texto agregado por el compañero 1. >>>>>>> 814e09178910383c128045ce67a58c9c1df3f558. mas texto. ``` --- # Conflictos Que significa esto? ```bash # README Texto <<<<<<< HEAD Texto agregado por el compañero 2. ======= Texto agregado por el compañero 1. >>>>>>> 814e09178910383c128045ce67a58c9c1df3f558. mas texto. ``` --- count: false # Conflictos Que significa esto? ```bash # README Texto <<<<<<< HEAD Texto agregado por el compañero 2. ======= Texto agregado por el compañero 1. >>>>>>> 814e09178910383c128045ce67a58c9c1df3f558. mas texto. ``` - `<<<<<<< HEAD` Indica el inicio del conflicto --- count: false # Conflictos Que significa esto? ```bash # README Texto <<<<<<< HEAD Texto agregado por el compañero 2. ======= Texto agregado por el compañero 1. >>>>>>> 814e09178910383c128045ce67a58c9c1df3f558. mas texto. ``` - `<<<<<<< HEAD` Indica el inicio del conflicto - `=======` Indica el punto de quiebre de la comparacion --- count: false # Conflictos Que significa esto? ```bash # README Texto <<<<<<< HEAD Texto agregado por el compañero 2. ======= Texto agregado por el compañero 1. >>>>>>> 814e09178910383c128045ce67a58c9c1df3f558. mas texto. ``` - `<<<<<<< HEAD` Indica el inicio del conflicto - `=======` Indica el punto de quiebre de la comparacion - `>>>>>>> <hash>` Indica el final del conflicto. --- # Conflictos Solucionar estos conflictos es una simple cuestión de editar (manualmente) el archivo README. - Borren las líneas que no quieren. - Luego, eliminan los símbolos especiales de conflicto de fusión de `Git`. Una vez hecho esto, debería poder organizar, confirmar, extraer y finalmente enviar sus cambios al repositorio de GitHub sin ningún error. --- # Conflictos Advertencias - P1 puede decidir qué conservar porque solucionaron el conflicto de fusión. - Se conserva el historial de confirmación completo, por lo que P2 siempre puede recuperar sus cambios si lo desea. --- # PAP - Experimentos: Porqué experimentos? - Análisis Pre-experimentos - ¿Qué incluimos? - ¿Cómo usamos `DeclareDesign`? - Aplicación: Productos sanitarios --- ## Porqué hacer Experimentos? La ciencia considera que los .hi-slate[experimentos son el "gold standard"] en la investigación. *Pero ¿por qué?* Los costos pueden ser sustanciales. .hi-slate[Costos] - lento y caro - fuertemente regulado por juntas de revisión (¿con aversión al riesgo?) - puede abstraerse de la pregunta/entorno real .hi-slate[Beneficios] Entonces, los beneficios deben ser bastante grandes, ¿verdad? --- # El experimento ideal ## Ejemplo: Hospitales y Salud Imaginemos que queremos conocer el .hi[efecto causal de los hospitales en la salud] -- .hi-slate[Pregunta (Inquiry)] Dentro de la población de ancianos pobres, ¿la visita al hospital mejora la salud? -- .hi-slate[Ejercicio Empírico] - Recopilamos datos sobre el *estado de salud* y las *visitas al hospital*. - Resumimos estado de salud por grupo de visitas al hospital. --- ## Ejemplo: Hospitales y Salud Tenemos entonces los siguientes datos de la 2005 National Health Inteview Survey: <table class="table" style="font-size: 22px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Grupo </th> <th style="text-align:center;"> Tamaño Muestral </th> <th style="text-align:center;"> Estado de Salud Promedio </th> <th style="text-align:center;"> Std. Error </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: #314f4f !important;background-color: white !important;"> Hospital </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 7,774 </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 3.21 </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 0.014 </td> </tr> <tr> <td style="text-align:left;color: #314f4f !important;background-color: white !important;"> No hospital </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 90,049 </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 3.93 </td> <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 0.003 </td> </tr> </tbody> </table> -- Tenemos un estadístico `\(t\)` de 58.9 del test de diferencia de media (0.72). -- .hi[Conclusión?] Los hospitales hacen que la gente este peor? -- .hi[Conclusión Alternativa:] Quizás estamos haciendo un error en nuestro análisis .... -- <br> quizás la gente enferma va al hospital? --- name: framework ## Potential outcomes framework Desarrollemos un marco/modelo para poder discutir mejor el problema -- - Una variable binaria de tratamiento (e.g.,hospitalizado, no hospitalizado): `\(\text{D}_i = {0,1}\)` - Resultado (Outcome) para el individuo `\(i\)` (e.g., salud): `\(\text{Y}_i\)` --- ## Potential outcomes framework .hi-slate[Pregunta de investigación:] `\(\text{D}_i\)` afecta a `\(\text{Y}_i\)`? -- Para cada individuo `\(i\)`, hay dos .b[resultados potenciales] (con `\(\text{D}_i\)` binario) -- 1. `\(\color{#e64173}{\text{Y}_{1i}}\)` .pink[if] `\(\color{#e64173}{\text{D}_i = 1}\)` <br> .pink[ Resultado si va al hospial] -- 1. `\(\color{#6A5ACD}{\text{Y}_{0i}}\)` .purple[if] `\(\color{#6A5ACD}{\text{D}_i = 0}\)` <br> .purple[ Resultado si no va al hospital] -- La diferencia entre los dos resultados nos da .hi-orange[el efecto causal del tratamiento de ir al hospital], _i.e._, $$ `\begin{align} \color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \end{align}` $$ --- ## #problemas Esta ecuación simple: $$ `\begin{align} \color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \end{align}` $$ nos lleva al .hi-slate[problema fundamental de inferencia causal.] -- > Nunca podemos observar simultáneamente `\(\color{#e64173}{\text{Y}_{1i}}\)` y `\(\color{#6A5ACD}{\text{Y}_{0i}}\)`. --- ## Solución? .hi-slate[Problema:] No podemos calcular `\(\color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}\)`. -- .hi-slate[Solución Propuesta] <br> Comparamos .pink[resultados para los que van al hospital] `\(\left( \color{#e64173}{\text{Y}_{1i}\mid \color{#e64173}{\text{D}_{i}=1}} \right)\)` <br>a .purple[resultados para los que **no** van al hospital] `\(\left( \color{#6A5ACD}{\text{Y}_{0j}\mid \color{#6A5ACD}{\text{D}_{j}=0}} \right)\)`. -- $$ `\begin{align} \mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right] \end{align}` $$ que nos da la *diferencia observada en los resultados de salud* -- .hi-slate[Q] Es decir, esta comparación nos da **una** respuesta, pero es esta **la** respuesta que queremos? --- name: Selección ## Selección .hi-slate[Q] Entonces, qué nos dice esta `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` ecuación? -- .hi-slate[A] Primero notemos que podemos escribir `\(\text{Y}_{i}\)` como $$ `\begin{align} \text{Y}_{i} &= \color{#6A5ACD}{\text{Y}_{0i}} + \text{D}_{i} \underbrace{\left( \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \right)}_\color{#FFA500}{\tau_i} \end{align}` $$ Usando esperanzas y matemática creativa tenemos `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] + \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` --- ## Selección .hi-slate[Q] Entonces, qué nos dice esta `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` ecuación? .hi-slate[A] Primero notemos que podemos escribir `\(\text{Y}_{i}\)` como $$ `\begin{align} \text{Y}_{i} &= \color{#6A5ACD}{\text{Y}_{0i}} + \text{D}_{i} \underbrace{\left( \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \right)}_\color{#FFA500}{\tau_i} \end{align}` $$ Usando esperanzas y matemática creativa tenemos `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` <br> `\(= \underbrace{\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]}_\text{Average treatment effect on the treated 😀} + \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` --- ## Selección .hi-slate[Q] Entonces, qué nos dice esta `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` ecuación? .hi-slate[A] Primero notemos que podemos escribir `\(\text{Y}_{i}\)` como $$ `\begin{align} \text{Y}_{i} &= \color{#6A5ACD}{\text{Y}_{0i}} + \text{D}_{i} \underbrace{\left( \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \right)}_\color{#FFA500}{\tau_i} \end{align}` $$ Usando esperanzas y matemática creativa tenemos `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` <br> `\(= \underbrace{\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]}_\text{Average treatment effect on the treated 😀} + \underbrace{\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]}_\text{Sesgo de Seleccion 😞}\)` --- ## Selección El .b[primer término] es la *variación buena* que es la respuesta que queremos <br> `\(\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- <br> `\(=\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- <br> `\(=\mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- <br>The .hi-orange[efecto causal promedio] de la hospitalización para los *individuos hospitalizados* (ATT). -- El .b[segundo término] es la *variación mala* que no nos dejan obtener la respuesta que queremos <br> `\(\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` -- <br>La diferencia en el promedio de resultados para los no tratados entre el tratamiento y el control. -- .hi-slate[*Sesgo de selección*] cuán malo es el grupo de control como contra factual. --- ## Selección Angrist and Pischke (MHE, p. 15), > The goal of most empirical economic research is to overcome selection bias, and therefore to say something about the causal effect of a variable like `\(\text{D}_{i}\)`. -- .hi-slate[Q] Como los experimentos que sol el **gold standard** nos ayudan a superar el sesgo de selección? --- name: experiments ## Back to experiments .hi-slate[Q] Cómo hacen los experimentos para resolver el sesgo de selección? -- <br>.hi-slate[A] Los experimentos rompen el link entre los resultados potenciales y el tratamiento *En otras palabras:* asignando aleatoriamente `\(\text{D}_{i}\)` hace que `\(\text{D}_{i}\)` sea independiente de que resultado observamos (es decir `\(\color{#e64173}{\text{Y}_{1i}}\)` or `\(\color{#6A5ACD}{\text{Y}_{0i}}\)`). --- ## Back to experiments .hi-slate[Diferencia de medias] con asignación aleatoria `\(\text{D}_{i}\)` <br> `\(\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- de la asignación aleatoria de `\({\text{D}_{i}}\)` -- <br> `\(= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#FFA500}{\tau_i}\mid \color{#e64173}{\text{D}_{i}=1} \right]\)` -- <br> `\(= \mathop{E}\left[ \color{#FFA500}{\tau_i} \right]\)` -- La asignación aleatoria de `\(\text{D}_{i}\)` rompe el sesgo de seleccióm --- ## Randomly assigned treatment La clave para evitar el sesgo de selección es la : .hi-slate[ asignación aleatoria] -- <br>(or .slate[*as-good-as random assignment*], _e.g._, experimentos naturales). -- Asignación aleatoria nos da $$ `\begin{align} \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right] \end{align}` $$ El grupo de control nos da un buen contrafactual para la media del grupo de tratamiento -- En otras palabras, desaparece el sesgo de selección, _i.e._, <br><center>Sesgo de selección `\(=\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = 0\)`</center> --- ## Randomly assigned treatment Beneficio adicional de la aleatorización El *average treatment effect* es ahora representativo del *promedio de la población*, y no solo del *grupo de tratamiento*. -- $$ `\begin{align} \mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#e64173}{\text{D}_{i}=1} \right] = \mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = \mathop{E}\left[ \color{#FFA500}{\tau_i} \right] \end{align}` $$ --- # PAP - Con esto claro podemos volver a los PAPs - Ciclo de vida del plan de preanálisis (pre-experimental) - Desarrollo - Registro público “ex ante” (cerrado o no cerrado) - PAP poblado - Reconciliación --- # PAP: Registro <img src="figs/AeaReg.png" width="700" style="display: block; margin: auto;" /> --- # Desarrollo <img src="figs/baru.png" width="700" style="display: block; margin: auto;" /> --- # Desarrollo - En la etapa de Desarrollo - Es clave calcular el poder estadístico del experimento. --- class: center, middle, inverse background-image: url("figs/hca.jpg") background-position: center background-size: cover # Haciendo Ciencia Abierta ## Gracias!!! ### Ignacio Sarmiento-Barbieri