Software libre y codigo

  • Los programas libres y de código abierto permiten a las usuarias inspeccionar, modificar y mejorar su diseño mediante la disponibilidad de su código fuente

  • Código abierto es ideal para la investigación reproducible porque los scripts pueden contener todos los pasos del análisis (auto-documentación)

  • El código en general permite a los colegas ver lo que hemos hecho y volver a ejecutar o incluso modificar nuestros análisis

  • Las herramientas disponibles gratuitamente las puede usar cualquiera al contrario de las herramientas comerciales

  • El código abierto permite entender en detalle las herramietas de analisis

 

¿Porqué R?

por q R

www.traininginbangalore.com

 

Herramientas para la programación reproducible

 

Programación literaria (‘literate programming’)

  • Consiste en documentar en detalle en qué consiste el problema, cómo se resuelve, cómo y por qué se adoptó cierto flujo de análisis, cómo se optimizó (si se optimizó) y cómo se implementó en el lenguaje de programación

  • Los informes dinámicos en R facilitan el uso de programación literaria para documentar el manejo de datos y análisis estadísticos (este archivo que lee en este momento es un reporte dinámico creado en R)

  • La forma principal en que R facilita la investigación reproducible es utilizando un documento que es una combinación de contenido y código de análisis de dato

  • Hablaremos luego de reportes dinámicos como una herramienta para facilitar la programación literaria

 

Ambientes reproducibles

  • La reproducibilidad también se trata de asegurarse de que otra persona pueda reutilizar su código para obtener los mismos resultados

  • Para esto se debe proporcionar más que el código y los datos

  • Documentar y administrar las dependencias de su proyecto correctamente puede ser complicado. Sin embargo, incluso documentación simple que ayude a otros a comprender la configuración que utilizó puede tener un gran impacto.

  • Idealmente se debe documentar las versiones exactas de todos los paquetes y software que utilizó y el sistema operativo

 

Información de la sesión

La forma mas sencilla de documentar el ambiente (R + paquetes y sus versiones) con el que se hizo un análisis es usando la función sessionInfo:

## R version 4.0.2 (2020-06-22)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 20.04 LTS
## 
## Matrix products: default
## BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
## LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0
## 
## locale:
##  [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=es_CR.UTF-8        LC_COLLATE=pt_BR.UTF-8    
##  [5] LC_MONETARY=es_CR.UTF-8    LC_MESSAGES=pt_BR.UTF-8   
##  [7] LC_PAPER=es_CR.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=es_CR.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] compiler_4.0.2  magrittr_1.5    tools_4.0.2     htmltools_0.5.0
##  [5] yaml_2.2.1      stringi_1.4.6   rmarkdown_2.3   knitr_1.29     
##  [9] stringr_1.4.0   xfun_0.16       digest_0.6.25   rlang_0.4.7    
## [13] evaluate_0.14

 

Sin embargo, esta documentación no necesariamente hace los análisis replicables ya que las versiones de los paquetes suelen actualizarse e inclusive algunos paquete pueden no estar disponibles luego de un tiempo.

 

Packrat: manejo reproducible de paquetes en R

Los paquetes de R (y sus versiones específicas) usados en un análisis pueden ser difíciles de replicar:

  • ¿Alguna vez ha tenido que usar prueba y error para averiguar qué paquetes de R necesita instalar para hacer que el código de otra persona funcione?

  • ¿Alguna vez ha actualizado un paquete para que el código de uno de sus proyectos funcione, solo para descubrir que el paquete actualizado hace que el código de otro proyecto deje de funcionar?

Con el paquete packrat los proyectos tienen varias características útiles en términos de reproducibilidad:

  • Aislamiento: la instalación de un paquete nuevo o actualizado para un proyecto no afectará a sus otros proyectos y viceversa. Eso es porque packrat le da a cada proyecto su propia biblioteca de paquetes privada.

  • Portable: mueva fácilmente sus proyectos de una computadora a otra, incluso en diferentes plataformas. packrat facilita la instalación de los paquetes en los que depende su proyecto.

  • Reproducible: packrat registra las versiones exactas del paquete de las que depende y se asegura de que esas versiones exactas sean las que se instalen dondequiera que vaya.

Usando packrat

  1. Por supuesto, primero debemos instalar el paquete packrat en R:
# instalar paquete
install.packages("packrat")

 

  1. Ahora, creemos un proyecto de R nuevo (en un directorio nuevo).

  2. Luego de crear un proyecto (o moverse a uno existente) podemos iniciar el monitoreo y manejo de paquetes con packrat así:

# iniciar packrat en proyecto
packrat::init(path = "/directorio/del/proyecto")

 

Si el directorio de trabajo esta definido como el directorio del proyecto no es necesario definir el ‘path’:

# iniciar packrat en proyecto
packrat::init()

 

Luego de esto el uso de paquetes en este proyecto sera manejado por packrat (verán algunas diferencias en lo que imprime la consola de R cuando instalen paquetes). Osea ya estamos usando packrat. Un proyecto packrat contiene algunos archivos y directorios adicionales. La función init() crea estos archivos y directorios si aún no existen:

  • packrat/packrat.lock: enumera las versiones precisas del paquete que se utilizaron para satisfacer las dependencias, incluidas las dependencias de las dependencias (¡nunca debe editarse a mano!).
  • packrat/packrat.opts: Opciones de packrat específicas del proyecto. Estos se pueden consultar y configurar con get_opts y set_opts; consulte “packrat-options” para obtener más información.
  • packrat/lib/: biblioteca de paquetes privada para este proyecto.
  • packrat/src/: paquetes fuente de todas las dependencias de las que se ha informado a packrat.
  • .Rprofile: indica a R que utilice la biblioteca de paquetes privada cuando se inicia desde el directorio del proyecto.

La única diferencia con otros proyectos es que los proyectos que usan packrat tienen su propia biblioteca de paquetes. Esta se encuentra en /directorio/del/proyecto/packrat/lib. Por ejemplo instalemos un par de paquetes nuevos, pueden ser algunos con que estén familiarizados o estos que tenemos acá como ejemplo:

install.packages("fun")

 

Cada vez que instalamos uno o mas paquetes es necesario tomar actualizar el estado del rastreo de packrat. Esto lo hacemos asi:

# revisar estado actual
packrat::status()

# actualizar packrat en proyecto
packrat::snapshot()

 

Con este paquete podemos jugar en R:

# ejemplo de un juego X irrelevante
library(fun)

if (.Platform$OS.type == "windows")
         x11() else x11(type = "Xlib")

mine_sweeper()

 

O tomar una prueba de Alzheimer:

# otro juego un poco menos irrelevante
x = alzheimer_test()

 

Si removemos un paquete que utilizamos en el proyecto lo podemos reinstalar usando restore():

# remover
remove.packages("fun")

# ver estado actual
packrat::status()

# restaurar
packrat::restore()

Nuevos paquetes pueden ser instalados:

# instalar
install.packages("cowsay")

# cargar
library(cowsay)

# diagrama
say("Hello world!")

# echo aleatorio
say("rms")
## 
##  -------------- 
## Hello world! 
##  --------------
##     \
##       \
##         \
##             |\___/|
##           ==) ^Y^ (==
##             \  ^  /
##              )=*=(
##             /     \
##             |     |
##            /| | | |\
##            \| | |_|/\
##       jgs  //_// ___/
##                \_)
## 
# echo aleatorio
say("rms")

 

## 
##  -------------- 
## Richard Stallman is licensed under GPL, so you can clone him and redistribute copies so you can help your neighbor. For example a version that take a bath more often. 
##  --------------
##     \
##       \
##         \
##             |\___/|
##           ==) ^Y^ (==
##             \  ^  /
##              )=*=(
##             /     \
##             |     |
##            /| | | |\
##            \| | |_|/\
##       jgs  //_// ___/
##                \_)
## 

 

…y deben ser “referenciados” en la misma forma:

# revisar estado actual
packrat::status()

# actualizar packrat en proyecto
packrat::snapshot()

 

En este repositorio de github hay un proyecto de R con packrat. Lo podemos clonar solo para ver como funciona sin necesidad de instalar los paquetes:

git clone https://github.com/maRce10/ejemplo_packrat_repo.git

Información de la sesión

## R version 4.0.2 (2020-06-22)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Ubuntu 20.04 LTS
## 
## Matrix products: default
## BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
## LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0
## 
## locale:
##  [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C              
##  [3] LC_TIME=es_CR.UTF-8        LC_COLLATE=pt_BR.UTF-8    
##  [5] LC_MONETARY=es_CR.UTF-8    LC_MESSAGES=pt_BR.UTF-8   
##  [7] LC_PAPER=es_CR.UTF-8       LC_NAME=C                 
##  [9] LC_ADDRESS=C               LC_TELEPHONE=C            
## [11] LC_MEASUREMENT=es_CR.UTF-8 LC_IDENTIFICATION=C       
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] cowsay_0.8.0
## 
## loaded via a namespace (and not attached):
##  [1] compiler_4.0.2  magrittr_1.5    rmsfact_0.0.3   tools_4.0.2    
##  [5] htmltools_0.5.0 yaml_2.2.1      crayon_1.3.4    stringi_1.4.6  
##  [9] rmarkdown_2.3   knitr_1.29      stringr_1.4.0   xfun_0.16      
## [13] digest_0.6.25   rlang_0.4.7     evaluate_0.14   fortunes_1.5-4