Ir al contenido principal

Gestión de datos de investigación

Esta guía permite conocer a los investigadores y comunidad educativa de la Universidad Distrital Francisco José de Caldas y en general en qué consiste la gestión de datos de investigación, sus procesos y las prácticas alrededor de la misma.

¿Qué son los datos de investigación?

Los datos de investigación

En el contexto científico, los datos de investigación son los materiales necesarios o recolectados durante el proceso de investigación. A continuación, se citan autores e instituciones que describen el concepto de datos de investigación:

  • League of European Research University "los datos creados por investigadores en el desarrollo de su trabajo investigativo y sobre los cuales la institución tiene una responsabilidad curatorial". (LERU, 2013)
  • RMIT University: "los datos de investigación son la información, los registros y los archivos que se recopilan o utilizan durante el proceso de investigación. Los datos pueden ser numéricos, descriptivos, visuales, crudos, analizados, experimentales u observacionales. Algunos ejemplos:
    • Laboratorio cuadernos 
    • Cuadernos de campo
    • Datos primarios de los experimentos, observaciones de campo, cuestionarios, grupos focales, encuestas, grabaciones de sonido y video, imágenes.
    • Fotografías
    • Módelos
    • Artefactos de excavación arqueológica
    • Códigos de software." (RMIT University, 2023)
  • Universidad del Área Andina "los datos son la fuente para gestionar y poner en marcha procesos investigativos orientados al fortalecimiento de las empresas y por ende la investigación es sinónimo de desarrollo, dinamismo y movilidad hacia un futuro que se construye en sincronía con la solución de problemas en el presente." (Peña, 2017)

 

¿Que es gestionar los datos de investigación?

La gestión de datos de investigación

La gestión de datos de investigación involucra un conjunto de procesos orientados a la planeación, diseño, colección, creación, análisis, almacenamiento, gestión, archivo, preservación, difusión, acceso y reuso de los datos de investigación. Existen diferentes modelos alrededor del mundo que integran los procesos anteriormente descritos.

Las claves y beneficios de gestionar los datos de investigación pasa por:

  • Documentación y organización de los datos.
  • Necesario como requisito para la financiación y búsqueda de recursos.
  • Incrementa el impacto de nuestros investigadores y de la institución.
  • Transparencia en el proceso de la investigación.
  • Asegura que nuestros datos sean localizables, accesibles, interoperables y reutilizables. 
  • Facilita la protección y preservación de los mismos.

 

La gestión de datos de investigación es cíclico de tal manera que existen unos procesos que iteran una y otra vez sobre los datos. Uno de los ciclos de vida de la gestión de datos de investigación representativos es el siguiente:

 

Figura 1

Ciclo de vida de la gestión de datos de investigación

Otros ciclos de vida de la gestión de datos de investigación de universidades alrededor del mundo integran y modifican estos procesos acotados para las necesidades investigativas de las mismas. 

Figura 2

Gestión de datos de investigación en Harvard Biomedical Data Lifecycle

 

Ahora bien, y de manera general, los procesos pueden ser diversos pero comprenden unos mínimos que son materia de atención en nuestras instituciones:

  1. Planear la gestión de datos: involucra las decisiones para gestionar los datos durante todo el ciclo de vida de los datos. Aquí se define el Plan de datos de investigación y los mecanismos de documentación.
  2. Coleccionar y adquirir los datos: involucra las decisiones para la obtención y creación de datos que jurídica y éticamente cumplan con las recomendaciones internacionales, políticas y normatividad nacional e incluso, las recomendaciones institucionales sobre las mismas.
  3. Almacenar, asegurar y analizar los datos: involucra las decisiones para organizar y analizar los datos, para lo cual, requiere identificar la seguridad de los datos, visualización y analítica de datos, lab notebooks, etc.
  4. Difundir, diseminar y preservar los datos: la razón de ser de los datos pasa por su difusión. Aquí es importante reconocer los principios de la ciencia abierta, los repositorios de datos, los principios FAIR, archivado de datos, preservación y demás aspectos que aseguren la mayor longevidad de los mismos.

Principios FAIR

¿Qué son los principios FAIR?

En el año 2016, se publicaron los principios para la gestión y tratatmiento de los datos. Los principios fueron publicados en FAIR Guiding Principles for scientific data management and stewardship y describe que los autores e investigadores promueven que los datos sean Findability, Accessibility, Interoperability, and Reuse of digital assets.

 

Figura 3

Principios FAIR

A continuación, se describen el paso a paso:

Findable (Encontrables) 

El primer paso para (re)utilizar datos es encontrarlos. Los metadatos y los datos deben ser fáciles de encontrar tanto para humanos como para computadoras. Los metadatos legibles por máquina son esenciales para el descubrimiento automático de conjuntos de datos y servicios, por lo que este es un componente esencial del proceso de FAIRificación.

  • F1 . A los (meta)datos se les asigna un identificador global único y persistente (DOI por ejemplo).
  • F2 . Los datos se describen con metadatos enriquecidos.
  • F3 . Los metadatos incluyen de forma clara y explícita el identificador de los datos que describen.
  • F4 . Los (meta)datos se registran o indexan en un recurso de búsqueda.

Figura 4

Proceso de FAIRificación

Accesible (Accesibilidad)

Una vez que el usuario encuentra los datos requeridos, necesita saber cómo puede acceder a ellos, posiblemente incluyendo autenticación y autorización .

  • A1 . Los (meta)datos son recuperables por su identificador utilizando un protocolo de comunicaciones estandarizado.
    • A1.1  El protocolo es abierto, gratuito y universalmente implementable.
    • A1.2  El protocolo permite un procedimiento de autenticación y autorización, cuando sea necesario.
  • A2 . Los metadatos son accesibles, incluso cuando los datos ya no están disponibles.

Interoperable (Interoperabilidad)

Los datos normalmente necesitan integrarse con otros datos. Además, los datos deben interoperar con aplicaciones o flujos de trabajo para su análisis, almacenamiento y procesamiento.

  • I1. Los (meta)datos utilizan un lenguaje formal, accesible, compartido y ampliamente aplicable para la representación del conocimiento.
  • I2. Los (meta)datos usan vocabularios que siguen los principios FAIR.
  • I3. Los (meta)datos incluyen referencias cualificadas a otros (meta)datos.

Reusable (Reusabilidad)

El objetivo final de FAIR es optimizar la reutilización de los datos. Para lograr esto, los metadatos y los datos deben estar bien descritos para que puedan replicarse y/o combinarse en diferentes entornos.

  • R1 . Los (meta)datos se describen detalladamente con una pluralidad de atributos precisos y relevantes.
    • R1.1 . Los (meta)datos se publican con una licencia de uso de datos clara y accesible.
    • R1.2 . Los (meta)datos están asociados con la procedencia detallada.
    • R1.3 . Los (meta)datos cumplen con los estándares comunitarios relevantes para el dominio.

 

Política Nacional de Ciencia Abierta

Los datos de investigación en la Política Nacional de Ciencia Abierta

En agosto del 2022, el Ministerio de Ciencias, Tecnologías e Innovación de Colombia, publicó la Política Nacional de Ciencia Abierta, en la cual se menciona lo siguiente respecto a los datos de investigación:

5.3.5 Objetivo específico 5: Optimizar el uso y potenciar las infraestructuras colombianas disponibles para adelantar prácticas y procesos de Ciencia Abierta, así como para comunicar y acceder a los resultados científicos, tecnológicos y de innovación de interés para Colombia.

Meta 33: En el año 2024, se deben difundir en abierto los datos de la investigación financiada con recursos públicos, de acuerdo con las condiciones de cada investigación y siempre que sea posible, logrando incrementar el acceso un 10% anual a partir de la línea de base identificada, hasta completar el 100% en el año 2034. Minciencias a través de la Red Colombiana de Información Científica debe generar las condiciones técnicas para garantizar la reutilización de datos, así como las directrices, lineamientos para repositorios de datos, plan de gestión de datos y plataforma gubernamental para tal fin.

 

Referencias bibliográficas

Referencias bibliográficas

Ayris, P., & Research Data Working Group. (2013). LERU Roadmap for Research Data. Recuperado de https://discovery.ucl.ac.uk/id/eprint/130535/2/AP14_LERU_Roadmap_for_Research_data_final.pdf

GOFAIR. (2016). FAIR Principles. Recuperado de https://www.go-fair.org/fair-principles/

Ministerio de Ciencias, Tecnologías e Innovación de Colombia. (2022). Política Nacional de Ciencia Abierta. Recuperado de https://minciencias.gov.co/pdf/pdfreader?url=https://minciencias.gov.co/sites/default/files/politica_nacional_de_ciencia_abierta_-2022_-_version_aprobada.pdf

Peña, S. (2017). Análisis de datos. Recuperado de https://core.ac.uk/download/pdf/326425169.pdf

Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., ... & Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific data, 3(1), 1-9. Recuperado de https://www.nature.com/articles/sdata201618