HCA: Planes de Análisis Pre-experimentos

class: center, middle, inverse
background-image: url("figs/hca.jpg")
background-position: center
background-size: cover

# Haciendo Ciencia Abierta

## Dia 3
### Ignacio Sarmiento-Barbieri

---

class: middle

### Agenda

- Hoy:

- Experimentos y Plan Pre Experimental
    - Cálculos de Poder
    - Ejemplos en `R` con `DeclareDesign`

- Datos
  - Zenodo

---
# Disclaimer

Este curso es posible gracias a un Catalyst grant proveniente de The Berkeley Initiative for Transparency in the Social Sciences (BITSS), managed by the Center for Effective Global Action (CEGA).

Estas slides se basan en el tutorial de [Lars Vilhuber](https://www.vilhuber.com/lars/) disponible en https://zenodo.org/record/5417476

---
# PAP
  
  - Experimentos: Porqué experimentos?
  
  - Análisis Pre-experimentos
  
     - ¿Qué incluimos?
    
     - ¿Cómo usamos `DeclareDesign`?
     
     - Aplicación: Productos sanitarios
   
     
---
## Asignación aleatoria

- Los experimentos son el "gold standard"
- La .hi-slate[ asignación aleatoria] evita el sesgo de selección

---
# Desarrollo
<img src="figs/baru.png" width="700" style="display: block; margin: auto;" />

---
# Desarrollo

- Desarrollo de un experimento en Barú para medir el efecto de productos sanitarios.

- Antes de comenzar necesitamos planear

- Para ello	es clave  calcular el poder estadístico del experimento.

---
##  Qué es el poder estadístico?

- Queremos separar señal de ruido

- Poder = probabilidad de rechazar la hipótesis nula de que no hay efecto del tratamiento, dado que el efecto verdadero `\(\ne\)` 0.

- En otras palabras, la habilidad de detectar que existe un efecto

- El poder está entre (0, 1).

- Comúnmente el limite que queremos: 0.8 or 0.9.

---
## Punto de partida del análisis de poder

- El análisis de poder es algo que hacemos *antes* de realizar un experimento

- Nos ayuda a determinar la muestra que necesitamos para detectar un tamaño de efecto determinado.

- O nos ayuda a descubrir una diferencia mínima detectable dado un tamaño de muestra establecido.

- Puede tambien ayudarnos a decidir si queremos realizar un estudio.

- Es difícil aprender de un hallazgo nulo con poca potencia.

- ¿Hubo algún efecto, pero no pudimos detectarlo? o no hubo efecto? No podemos decir nada.

- Sin embargo, el análisis de poder requiere algunas conjeturas: el investigador debe proporcionar valores de parámetros desconocidos, como por ejemplo el tamaño del ATE real.

---
## Poder

- Digamos que realmente hay un efecto de tratamiento y ejecutamos el experimento muchas veces. ¿Con qué frecuencia obtendremos un resultado estadísticamente significativo?

- Hay que hacer algunas conjeturas

- Cuán grade es el efecto del tratamiento?

- Cuantas unidades van a ser tratadas, etc

- How much noise is there in the measurement of your outcome?

---
## Aproximaciones para cálculos de poder

- Cálculos analíticos

- Simulaciones

---
## Herramientas  para cálculos de poder

- Interactivos

- [EGAP Power Calculator](https://egap.shinyapps.io/power-app/)

- [rpsychologist](https://rpsychologist.com/d3/NHST/)

- R Packages

- [pwr](https://cran.r-project.org/web/packages/pwr/index.html)

- [DeclareDesign](https://cran.r-project.org/web/packages/DeclareDesign/index.html), see also <https://declaredesign.org/>

---

## Cálculos analíticos
- Formula:

`\begin{align*}
  \text{Power} &= \Phi\left(\frac{|\tau| \sqrt{N}}{2\sigma}- \Phi^{-1}(1- \frac{\alpha}{2})\right)
\end{align*}`

- Componentes:
  - `\(\phi\)`: standard normal CDF es monotonicamente creciente
  - `\(\tau\)`: el tamaño del efecto
  - `\(N\)`: el tamaño de muestra
  - `\(\sigma\)`: el desvio estandard del resultado 
  - `\(\alpha\)`: el nivel de significancia (typically 0.05)

---
## Cálculos analíticos

```r
# Poder de un estudio con 80 pbservaciones
# efecto de tamaño 0.25
library(pwr)
pwr.t.test(n = 40, d = 0.25, sig.level = 0.05,
           power = NULL, type = c("two.sample"))
```

```
## 
##      Two-sample t test power calculation 
## 
##               n = 40
##               d = 0.25
##       sig.level = 0.05
##           power = 0.1971831
##     alternative = two.sided
## 
## NOTE: n is number in *each* group
```

---
## Limitaciones de los cálculos analíticos

- Solo derivado para algunos estadísticos  (diferencias de medias)

- Hace supuestos específicos sobre el proceso de generación de datos.

- Incompatible con diseños más complejos

---
## Enfoque de simulación

- MIDA y [DeclareDesign](https://declaredesign.org/)

- Definimos el modelo y creamos el mundo

- Definimos la pregunta

- Definimos la estrategia de datos, asignacion a tratamientos

- Estimamos los efectos

- Repetimos

---
# Desarrollo
<img src="figs/baru.png" width="700" style="display: block; margin: auto;" />

---
# Desarrollo
<img src="figs/ghana.png" width="750" height="500" style="display: block; margin: auto;" />

---

# Desarrollo
<img src="figs/thorton.png" width="700" style="display: block; margin: auto;" />

---
## Demostración
<img src="figs/baticomputer_meme.jpg" width="700" style="display: block; margin: auto;" />

---
class: center, middle

# Datos!

---

# Necesitamos Datos

- Vayan completando la siguiente encuesta  [https://tinyurl.com/etn2me5s](https://tinyurl.com/etn2me5s)

---
# Preservación de datos

.pull-left[- Método antiguo: enviar al journal/revista un archivo ZIP

- Fuente: Tu computador

- Destino: algún lugar de del sitio web del journal]

.pull-right[Preguntas/¿Y si?:

- los datos no están en su computadora portátil?
  - demasiado grande
  - en el servidor
  - una base de datos
- los datos no son tuyos para enviar
  - confidencialidad
  - propiedad
  - otros problemas de licencia
  ]

---
# Meta 1: Elementos: Datos (cuando sea posible)

.pull-left[- Método antiguo: enviar al journal/revista un archivo ZIP

- **Fuente: Tu computador**

- Destino: algún lugar de del sitio web del journal]

.pull-right[ Preguntas/¿Y si?:

- ¿Cómo llegaron los datos a su computadora portátil?
- ¿Cómo se generaron los datos?

Estas son preguntas de **procedencia**.]

---
# Meta 1: Elementos: Datos (cuando sea posible)

.pull-left[- Método antiguo: enviar al journal/revista un archivo ZIP

- Fuente: Tu computador

- **Destino: algún lugar de del sitio web del journal**]

.pull-right[ Preguntas/¿Y si?:

- ¿Está completo el archivo ZIP?
- ¿Están curados (preservados) los contenidos del archivo ZIP?
- ¿Se pueden reutilizar los datos?
- ¿Se pueden atribuir correctamente los datos al creador?
- ¿Se pueden encontrar los datos independientemente del artículo?

Estas son preguntas **FAIR**.]

---
# Principios **FAIR**

---
# El punto de los principios **FAIR**

.pull-left["Good data management is not a goal in itself, but rather is the key conduit leading to knowledge discovery and innovation, and to subsequent data and knowledge integration and reuse by the community after the data publication process."
]

.pull-right["FAIR Principles put specific emphasis on enhancing the ability of machines to automatically find and use the data, in addition to supporting its reuse by individuals."

([Wilkinson et al, 2016](https://doi.org/10.1038/sdata.2016.18))
]

---
# Ciclo de vida de los datos

--
.pull-left[
- No hay mucho consenso
- Puede ser que se **destruyan**
  - Cuál es el valor de los datos?
  - Qién decide este valor?
]
--
.pull-right[
Ciclo de vida propuesto por la industria:

<img src="figs/cycle0.png" width="400" height="400" style="display: block; margin: auto;" />
]

---
# Ciclo de vida de los datos

--
.pull-left[
- No hay mucho consenso
- Puede ser que se **destruyan**
- Puede ser que se **re-utilicen**
  
]

--
.pull-right[

<img src="figs/cycle1.png" width="400" height="400" style="display: block; margin: auto;" />
]

---
# Ciclo de vida de los datos

.pull-left[
- No hay mucho consenso
- Puede ser que se **destruyan**
- Puede ser que se **re-utilicen**
  - Lo que inicia un nuevo ciclo
  
]

--
.pull-right[

<img src="figs/cycle1-2.png" width="650" height="400" style="display: block; margin: auto;" />
]

---
# Flujos de trabajo modificados

.pull-left[
Consideremos la parte de preservación por separado:
]

.pull-right[
<img src="figs/cycle2.png" width="450" height="400" style="display: block; margin: auto;" />

]

---
# Flujos de trabajo modificados

.pull-left[
Guardamos a medida que avanzamos

]

.pull-right[

]

---
# Flujos de trabajo modificados

- Mejoramos la preservación y la consistencia

- Podemos compartirlos antes (varios proyectos con los mismos datos)

---
# Pero me preocupa la ética de otros:

<div style="text-align: center; font-size: 150%;">
No quiero que me roben la idea!
<br />
<br/>
Entonces, no voy a publicar todavía mis datos!
</div>

---
#  Qué es preservación?

- Preservar != publicar

- De hecho, preservar puede significar que no esta accesible a otros!!

- Preservar implica que los datos se guarden por los proximos 10 o 1000 años

- Preservación implica tambien la curación: transormar los datos para que la gente pueda acceder a ellos.
  
---
#  Qué es publicación de los datos?

Publicar los datos implica no sólo publicar los datos mismos sino también los metadatos. Pero en algunos casos

- Publicación puede significar inicialmente que sólo se publican **metadatos** .

- En algunos casos, puede ser que **sólo** se publiquen metadatos

- Pero siempre metadatos señalarán cómo acceder a los datos, cuánto tiempo se conservarán los datos, y otra información útil.

---
# Principios FAIR

Ser **F**indable:

- F1. **A los (meta)datos se les asigna un identificador globalmente único y eternamente persistente.**
- F2. los datos se describen con metadatos enriquecidos.
- F3. **Los (meta)datos se registran o indexan en un recurso de búsqueda.**
- F4. Los metadatos especifican el identificador de datos.

---
# Principios FAIR

Para ser **A**ccesible:

- A1 **(meta)datos** son recuperables por su identificador utilizando un protocolo de comunicaciones estandarizado.
- A2 Los **(meta)datos**  son accesibles, incluso cuando los datos ya no están disponibles.

---
# Principios FAIR

Para ser **I**nteroperable:

- I1. **(meta)datos utilizan un lenguaje formal, accesible, compartido y ampliamente aplicable para la representación del conocimiento.**
- I2. **Los (meta)datos usan vocabularios que siguen los principios FAIR.**
- I3. Los (meta)datos incluyen referencias cualificadas a otros (meta)datos.

---
# Principios FAIR

Para ser **R**e-usable:

- R1. Los **meta(datos)** tienen una pluralidad de atributos precisos y relevantes.
- R1.1. Los **(meta)datos** se publican con una licencia de uso de datos clara y accesible.**
- R1.2. Los **(meta)datos** están asociados con su procedencia.
- R1.3. Los **(meta)datos** cumplen con los estándares relevantes

---
# FAIR Metadata

**I**nteroperable: metadatos estructurados sobre los datos

---
# FAIR Metadata

**A**ccessible: metadata estructurada

---
# FAIR Metadata

**F**indable: identificador persistente, indexado

---
# FAIR Metadata

- Re-usable: si la licencia lo permite
- Acceso tiene condiciones (Pero la información de como poder acceder (=metadata) esta accesible)

---
# Esto parace super complicado

- ¡Necesito conservar mis datos durante décadas!

- ¿Cómo hago para que Google indexe mis datos?

**Algunos Repositorios Confiables**

-  [Dryad Digital Repository](http://datadryad.org/)
-  [figshare](http://figshare.com/)
-  [Harvard Dataverse](https://dataverse.harvard.edu)
-  [ICPSR](https://www.icpsr.umich.edu/icpsrweb/) and [OPENICPSR](https://www.openicpsr.org/openicpsr/)
-  [Open Science Framework](http://osf.io/)
-  [Zenodo](http://zenodo.org/)

---
# Cuáles NO son opciones para la preservación

- Github, Gitlab, Bitbucket, etc.

- Dropbox, Box.com, Google Drive, etc.

- Tu pagina personal

- La página de la universidad

---
# Opciones para la preservación

Vamos a usar: el Sandbox de Zenodo

---

## Fuente de Datos

- La siguiente encuesta  [https://tinyurl.com/etn2me5s](https://tinyurl.com/etn2me5s)

---
## Demostración
<img src="figs/baticomputer_meme.jpg" width="700" style="display: block; margin: auto;" />

---

class: center, middle,