HCA: Planes de Análisis Pre-experimentos

class: center, middle, inverse
background-image: url("figs/hca.jpg")
background-position: center
background-size: cover

# Haciendo Ciencia Abierta

## Dia 2
### Ignacio Sarmiento-Barbieri
---

class: middle

### Agenda

- Hoy: 
  
- Control de Versión: `Git` and `Github`
  
- Experimentos y Plan Pre Experimental
    - Cálculos de Poder
    - Ejemplos en `R` con `DeclareDesign`
  
---

# Control de Versión con Git(Hub)

---
# Control de Versión con Git(Hub)
### Motivación

- `Git` es un sistema de control de versión que permite evitar situaciones  descritas en el comic.

- Podemos pensar en `Git` como la mezcla óptima entre Dropbox y la  función “seguimiento de cambios” de  Word.

- Es importante resaltar que `Git` y `GitHub` no son lo mismo.
    - Mientras que `Git` es el sistema de control de versión, 
    - `GitHub` es una companía que permite el alojamiento en linea de `Git`.

---
## Demostración
<img src="figs/baticomputer_meme.jpg" width="700" style="display: block; margin: auto;" />

---
# Momento de Colaborar

Voy a dividirlos en pares

- Luego de que se presenten, decidan quien es P1 y P2

- P1: invite a P2 a unirse a usted como colaborador en el repositorio de GitHub de "prueba" que creó anteriormente. (Haga clic en la pestaña *Settings* de su repositorio. Luego *Manage Access* -> *Invite teams of people*).

- P2: clone el repositorio de P1 en su máquina local.<sup>1</sup> Realice algunas ediciones en el README (por ejemplo, elimine líneas de texto y agregue las suyas propias). Organice, confirme e impulse estos cambios.

---
# Momento de Colaborar

- P1: Realice sus propios cambios en el README en su máquina local. Stage, commit y trate de push  (*despues* de pulling del repositorio de GitHub).

.footnote[<sup>1</sup> Cambie primero a un nuevo directorio o asígnele un nombre diferente para evitar conflictos con su propio repositorio de "prueba". No se preocupe, el seguimiento de Git seguirá funcionando si cambia el nombre del repositorio localmente.]

---
# Conflictos

El P1 encontró un error de `merge conflict`?

- Bien, eso es lo que estábamos tratando de generar
- Ahora, aprendamos cómo solucionarlos.

---

# Conflictos

Bien, veamos qué está pasando aquí abriendo el archivo README.<sup>1</sup>

Deberías ver algo como:
```bash
# README
Texto
<<<<<<< HEAD
Texto agregado por el compañero 2.
=======
Texto agregado por el compañero 1.
>>>>>>> 814e09178910383c128045ce67a58c9c1df3f558.
mas texto.
```

---

# Conflictos

Que significa esto?

```bash
# README
Texto
<<<<<<< HEAD
Texto agregado por el compañero 2.
=======
Texto agregado por el compañero 1.
>>>>>>> 814e09178910383c128045ce67a58c9c1df3f558.
mas texto.
```

---
count: false

# Conflictos

Que significa esto?

```bash
# README
Texto
<<<<<<< HEAD
Texto agregado por el compañero 2.
=======
Texto agregado por el compañero 1.
>>>>>>> 814e09178910383c128045ce67a58c9c1df3f558.
mas texto.
```

- `<<<<<<< HEAD` Indica el inicio del conflicto

---
count: false
# Conflictos

Que significa esto?

```bash
# README
Texto
<<<<<<< HEAD
Texto agregado por el compañero 2.
=======
Texto agregado por el compañero 1.
>>>>>>> 814e09178910383c128045ce67a58c9c1df3f558.
mas texto.
```

- `<<<<<<< HEAD` Indica el inicio del conflicto
- `=======` Indica el punto de quiebre de la comparacion

---
count: false

# Conflictos

Que significa esto?

```bash
# README
Texto
<<<<<<< HEAD
Texto agregado por el compañero 2.
=======
Texto agregado por el compañero 1.
>>>>>>> 814e09178910383c128045ce67a58c9c1df3f558.
mas texto.
```

- `<<<<<<< HEAD` Indica el inicio del conflicto
- `=======` Indica el punto de quiebre de la comparacion
- `>>>>>>> <hash>` Indica el final del conflicto.

---

# Conflictos

Solucionar estos conflictos es una simple cuestión de editar (manualmente) el archivo README.
- Borren las líneas  que no quieren.
- Luego, eliminan los símbolos especiales de conflicto de fusión de `Git`.

Una vez hecho esto, debería poder organizar, confirmar, extraer y finalmente enviar sus cambios al repositorio de GitHub sin ningún error.

---

# Conflictos

Advertencias
- P1 puede decidir qué conservar porque solucionaron el conflicto de fusión.
- Se conserva el historial de confirmación completo, por lo que P2 siempre puede recuperar sus cambios si lo desea.

---

# PAP
  
  - Experimentos: Porqué experimentos?
  
  - Análisis Pre-experimentos
  
     - ¿Qué incluimos?
    
     - ¿Cómo usamos `DeclareDesign`?
     
     - Aplicación: Productos sanitarios
   
---     
## Porqué hacer Experimentos?

La ciencia considera que los .hi-slate[experimentos son el "gold standard"] en la investigación.

*Pero ¿por qué?* Los costos pueden ser sustanciales.

.hi-slate[Costos]

- lento y caro
- fuertemente regulado por juntas de revisión (¿con aversión al riesgo?)
- puede abstraerse de la pregunta/entorno real

.hi-slate[Beneficios]

Entonces, los beneficios deben ser bastante grandes, ¿verdad?
---
# El experimento ideal
## Ejemplo: Hospitales y Salud

Imaginemos que queremos conocer el .hi[efecto causal de los hospitales en la salud]
--

.hi-slate[Pregunta (Inquiry)]

Dentro de la población de ancianos pobres, ¿la visita al hospital mejora la salud?

.hi-slate[Ejercicio Empírico]

- Recopilamos datos sobre el *estado de salud* y las *visitas al hospital*. 
  - Resumimos estado de salud por grupo de visitas al hospital.

---
## Ejemplo: Hospitales y Salud

Tenemos entonces los siguientes datos de la 2005 National Health Inteview Survey:

<table class="table" style="font-size: 22px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Grupo </th>
   <th style="text-align:center;"> Tamaño Muestral  </th>
   <th style="text-align:center;"> Estado de Salud Promedio </th>
   <th style="text-align:center;"> Std. Error </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;color: #314f4f !important;background-color: white !important;"> Hospital </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 7,774 </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 3.21 </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 0.014 </td>
  </tr>
  <tr>
   <td style="text-align:left;color: #314f4f !important;background-color: white !important;"> No hospital </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 90,049 </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 3.93 </td>
   <td style="text-align:center;color: #314f4f !important;background-color: white !important;"> 0.003 </td>
  </tr>
</tbody>
</table>

Tenemos un estadístico `$t$` de  58.9 del  test de diferencia de media (0.72).

.hi[Conclusión?]   Los hospitales hacen que la gente este peor?

.hi[Conclusión Alternativa:] Quizás estamos haciendo un error en nuestro análisis ....

--
<br>  quizás la gente enferma va al hospital?
---
name: framework

## Potential outcomes framework

Desarrollemos un marco/modelo para poder discutir mejor el problema

- Una variable binaria de tratamiento (e.g.,hospitalizado, no hospitalizado): `$\text{D}_i = {0,1}$`
- Resultado (Outcome) para el individuo `$i$` (e.g., salud):  `$\text{Y}_i$`

---

## Potential outcomes framework

.hi-slate[Pregunta de investigación:]  `$\text{D}_i$` afecta a `$\text{Y}_i$`?

--
Para cada individuo `$i$`, hay dos .b[resultados potenciales] (con `$\text{D}_i$` binario)

1. `$\color{#e64173}{\text{Y}_{1i}}$` .pink[if] `$\color{#e64173}{\text{D}_i = 1}$`
<br> .pink[ Resultado si va al hospial]

1. `$\color{#6A5ACD}{\text{Y}_{0i}}$` .purple[if] `$\color{#6A5ACD}{\text{D}_i = 0}$`
<br> .purple[ Resultado si no va al hospital]

La diferencia entre los dos resultados nos da  .hi-orange[el efecto causal del tratamiento de ir al hospital], _i.e._,

$$
`\begin{align}
  \color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}
\end{align}`
$$
---

## #problemas

Esta ecuación simple:
$$
`\begin{align}
  \color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}
\end{align}`
$$
nos lleva al .hi-slate[problema fundamental de inferencia causal.]

> Nunca podemos observar simultáneamente `$\color{#e64173}{\text{Y}_{1i}}$` y `$\color{#6A5ACD}{\text{Y}_{0i}}$`.

---

## Solución?

.hi-slate[Problema:] No podemos calcular `$\color{#FFA500}{\tau_i} = \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}$`.

.hi-slate[Solución Propuesta]
<br>
Comparamos .pink[resultados para los que van al hospital] `$\left( \color{#e64173}{\text{Y}_{1i}\mid \color{#e64173}{\text{D}_{i}=1}} \right)$`
<br>a .purple[resultados para los que **no** van al hospital] `$\left( \color{#6A5ACD}{\text{Y}_{0j}\mid \color{#6A5ACD}{\text{D}_{j}=0}} \right)$`.

$$
`\begin{align}
  \mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]
\end{align}`
$$

que nos da la *diferencia observada en los resultados de salud*
--

.hi-slate[Q] Es decir, esta comparación nos da  **una** respuesta, pero es esta  **la** respuesta que queremos?

---
name: Selección

## Selección

.hi-slate[Q] Entonces, qué nos dice esta `$\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$` ecuación?

.hi-slate[A] Primero notemos que podemos escribir  `$\text{Y}_{i}$` como
$$
`\begin{align}
  \text{Y}_{i}
  &= \color{#6A5ACD}{\text{Y}_{0i}} + \text{D}_{i} \underbrace{\left( \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \right)}_\color{#FFA500}{\tau_i}
\end{align}`
$$

Usando esperanzas y matemática creativa tenemos

`$\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] + \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`

---
## Selección

Usando esperanzas y matemática creativa tenemos

`$\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
<br>  `$= \underbrace{\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]}_\text{Average treatment effect on the treated 😀} + \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`

---
## Selección

Usando esperanzas y matemática creativa tenemos

`$\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
<br>  `$= \underbrace{\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]}_\text{Average treatment effect on the treated 😀} + \underbrace{\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]}_\text{Sesgo de Seleccion 😞}$`
---
## Selección

El .b[primer término] es la *variación buena* que es la respuesta que queremos

<br>
  `$\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
<br>   `$=\mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
<br>   `$=\mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
<br>The .hi-orange[efecto causal promedio] de la hospitalización para los  *individuos hospitalizados* (ATT).

El .b[segundo término] es la *variación mala* que no nos dejan obtener la respuesta que queremos
<br>
  `$\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
--
<br>La diferencia en el promedio de resultados para los no tratados entre el tratamiento y el control.

.hi-slate[*Sesgo de selección*]   cuán malo es el grupo de control como contra factual.
---

## Selección

Angrist and Pischke (MHE, p. 15),
> The goal of most empirical economic research is to overcome selection bias, and therefore to say something about the causal effect of a variable like `$\text{D}_{i}$`.

.hi-slate[Q] Como los experimentos que sol el **gold standard** nos ayudan a superar el sesgo de selección?

---
name: experiments

## Back to experiments

.hi-slate[Q] Cómo hacen los experimentos para resolver el sesgo de selección?

<br>.hi-slate[A] Los experimentos rompen el link entre los resultados potenciales y el tratamiento

*En otras palabras:*  asignando aleatoriamente  `$\text{D}_{i}$` hace  que `$\text{D}_{i}$` sea independiente de que resultado observamos (es decir `$\color{#e64173}{\text{Y}_{1i}}$` or `$\color{#6A5ACD}{\text{Y}_{0i}}$`).

---

## Back to experiments

.hi-slate[Diferencia de medias] con asignación aleatoria `$\text{D}_{i}$`

<br>
`$\mathop{E}\left[ \text{Y}_{i} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \text{Y}_{i}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}}\mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
  de la asignación aleatoria de `${\text{D}_{i}}$`
--
<br>  `$= \mathop{E}\left[ \color{#e64173}{\text{Y}_{1i}} - \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#FFA500}{\tau_i}\mid \color{#e64173}{\text{D}_{i}=1} \right]$`
--
<br>  `$= \mathop{E}\left[ \color{#FFA500}{\tau_i} \right]$`
--
        La asignación aleatoria de `$\text{D}_{i}$` rompe el sesgo de seleccióm
---

## Randomly assigned treatment

La clave para evitar el sesgo de selección es la : .hi-slate[ asignación aleatoria]
--
<br>(or .slate[*as-good-as random assignment*], _e.g._, experimentos naturales).

Asignación aleatoria nos da
$$
`\begin{align}
   \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right]
\end{align}`
$$
El grupo de control nos da un buen contrafactual para la media del grupo de tratamiento

En otras palabras, desaparece el sesgo de selección, _i.e._,
<br><center>Sesgo de selección `$=\mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}} \mid \color{#e64173}{\text{D}_{i}=1} \right] - \mathop{E}\left[ \color{#6A5ACD}{\text{Y}_{0i}}\mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = 0$`</center>
---

## Randomly assigned treatment

Beneficio adicional de la aleatorización

El *average treatment effect*  es ahora representativo del *promedio de la población*, y no solo del *grupo de tratamiento*.

$$
`\begin{align}
  \mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#e64173}{\text{D}_{i}=1} \right] = \mathop{E}\left[ \color{#FFA500}{\tau_i} \mid \color{#6A5ACD}{\text{D}_{i}=0} \right] = \mathop{E}\left[ \color{#FFA500}{\tau_i} \right]
\end{align}`
$$

---
# PAP

- Con esto claro podemos volver a los PAPs

-  Ciclo de vida del plan de preanálisis (pre-experimental)

- Desarrollo
  
  - Registro público “ex ante” (cerrado o no cerrado)
  
  - PAP poblado
  
  - Reconciliación

---
# PAP: Registro

---
# Desarrollo
<img src="figs/baru.png" width="700" style="display: block; margin: auto;" />

---
# Desarrollo

- En la etapa de Desarrollo

- Es clave  calcular el poder estadístico del experimento.

---

class: center, middle, inverse
background-image: url("figs/hca.jpg")
background-position: center
background-size: cover

# Haciendo Ciencia Abierta

## Gracias!!!
### Ignacio Sarmiento-Barbieri