Movimiento Open Data se consolida internacionalmente

Movimiento Open Data se consolida internacionalmente

 Transcribimos este artículo publicado  en SciELO en perspectiva. Lo difundimos también aquí porque su temática será abordada en el Ciclo de Encuentros sobre Gestión de Repositorios en Instituciones Científicas y Tecnológicas llevado adelante por CAICYT. Este tema se tratará el día 4/09/2014. Para inscribirse: secretaria-caicyt@conicet.gov.ar

Fuente del artículo: http://blog.scielo.org/es/2014/07/14/el-movimiento-open-data-se-consolida-internacionalmente/#.U9JnFmPSRWE – Fuente de la imagen: JulieBeck. 70-452 pdf

El primer número de la revista en acceso abierto Scientific Data2 acaba de ser publicada el día 24 de junio por el Nature Publishing Group, el grupo editorial responsable por la prestigiosa colección Nature. La nueva publicación es un espacio para la publicación formal de descripciones de conjuntos de datos (datasets), denominados Data Descriptors³.

La revista es revisada por pares y publicada solamente en la versión electrónica. Los autores pagan una tasa de publicación (a partir de US$ 900, de acuerdo con el tipo de licencia o país de afiliación), lo que asegura su inmediata disponibilidad en Acceso Abierto, con su contenido 70-453 bajo licencia Creative Commons Attribution (CC-BY) y cuyos metadatos de los datasets quedan disponibles en formato legible por computadores (machine readable).

El lanzamiento de la revista es el producto de la creciente concientización por parte de la academia, instituciones de investigación, agencias de desarrollo, sector privado, gobiernos y la sociedad civil de la importancia en hacer disponibles los datos experimentales provenientes de la investigación científica y proporcionar la interoperabilidad de éstos con los artículos que los originaron. La capacidad de la ciencia en progresar a partir de los estudios realizados, y de la auto-corrección continua, encuentra uno de sus pilares en la disposición abierta de los datos.

El mundo asistió hace pocas décadas a un cambio de paradigma en la comunicación científica a través de Internet y las tecnologías digitales con la publicación digital en línea de revistas y de nuevas formas de diseminación, evaluación, y comunicación entre autores, editores, revisores y lectores. Una consecuencia natural de este proceso – y posiblemente un nuevo paradigma – considera que los datos que fueron usados para generar un artículo científico deben estar disponibles en repositorios de acceso abierto, de la misma forma que un número cada vez mayor de artículos se hacen disponibles en acceso abierto, transcurrido el período de embargo impuestos por los editores (vía verde), si no es del caso que sean inmediatos, en el caso de la vía dorada.

Según el editorial del primer número (2014) de Scientific Data, “la cuestión no es si los datos de la investigación deban ser compartidos, sino cómo hacer que ese hecho de compartir sea efectivamente una parte común y digna de reconocimiento de la cultura de la investigación” (traducción libre). Con la nueva revista se abre un espacio a los investigadores para que describan formalmente un conjunto de datos originales (datasets) y las técnicas usadas para obtenerlos, y referenciar a los lectores a artículos que ya han incorporado esos datos. También permite dar el crédito debido a los investigadores responsables por la producción de datos que los califican como autores en una publicación tradicional.

Con este nuevo cambio de paradigma – el intercambio de datasets, que sean debidamente arbitrados y citables – se espera que la comunidad científica responda a fin de reconocer y dar crédito a los autores de estos datos, de la misma manera que hoy ocurre con la publicación en revistas sometidas a la revisión por pares.

Compartir datasets encuentra particular relevancia en las ciencias que estudian el cambio climático y la salud, en la opinión del editor en jefe de Nature, Philip Campbell. Campbell visitó Brasil en marzo de 2014, cuando participó en la conferencia “Science as an open enterprise: open data for open Science4 realizada en la sede de FAPESP, en San Pablo. En la ocasión, el editor de Nature destacó la necesidad de considerar los costos y las consecuencias de la gestión de grandes cantidades de datos, y citó el informe5 de la Royal Society que tiene el título de la conferencia, publicada en 2012 – un compendio escrito por expertos del Reino Unido analiza el impacto de las nuevas tecnologías que dominan la comunicación científica y orienta sobre cómo los investigadores se deben adaptar a los cambios que se avecinan. El informe hace una serie de recomendaciones sobre cómo almacenar, entregar, compartir e interoperar los datos de investigación para una mejor utilización y reutilización.

Además del interés en los datasets, por las razones expuestas, es necesario considerar que esta práctica deberá aumentar la reproducibilidad de los resultados de la investigación. Cuanto más investigadores hagan disponibles abiertamente sus datos en repositorios de acceso abierto, será mayor la probabilidad de que otros puedan replicar su trabajo, con beneficios evidentes para todos. Como ya se ha comentado en este blog6, la falta de reproducibilidad en los resultados de la investigación es un tema que preocupa no solamente a la comunidad científica, sino al sector privado, los gobiernos y a la sociedad.

Una razón particularmente importante por la cual es importante adoptar políticas de almacenamiento y la puesta en común de los datasets está ligada a la preservación digital de éstos en forma permanente. Una investigación realizada por investigadores de Canadá7 evaluó el mantenimiento de datos por los autores de los artículos que les dieron origen, publicados entre dos y 22 años atrás. Los resultados indican que la pérdida de datos es mayor cuanto más antigua es la publicación. La probabilidad de que los datos de un artículo hayan sido conservados por el autor caen por un factor de 17% al año. A esto se suma la dificultad de localizar a los autores, ya que las publicaciones más antiguas no incluyen direcciones electrónicas o están desactualizadas. La probabilidad de ponerse en contacto con un autor cae a razón de 7% al año. De esta forma, se estima que el 80% de los datos no estarán disponibles después de 20 años de su generación.

Las agencias de financiación son socios importantes que están apoyando – y financiando iniciativas como repositorios para el almacenamiento, recuperación y compartir los datos. La National Science Foundation de Estados Unidos, por ejemplo, implementó una política detallada sobre el depósito de datos de investigación para investigaciones financiadas por la institución8.

Las agencias federales de financiación del Canadá están desarrollando una iniciativa conjunta para mejorar el acceso a la investigación financiada con recursos públicos – y los datos relativos a las mismas – de acuerdo con normas y estándares internacionales. Los términos del Tri-Council Open Access Policy están disponibles en la página de la Universidad de Waterloo9.

Los datasets, como hemos dicho, son contenidos arbitrados, constituyendo una fuente de referencia por la cual los autores reciben el crédito, tal como sucede con las publicaciones tradicionales en las revistas. Además, se proporcionará DOI (digital object identifier), pudiendo ser citados. En este sentido, se espera que las citas del artículo aumenten mediante hacer disponibles sus datos en forma abierta.

En vista de esta amplia fuente de citas, la mayor y más prestigiosa base internacional de revistas científicas del mundo – el Web of Science (Thomson Reuters) creó el Data Citation Index, complementando los ya existentes Science Citation Index, Social Science Citation Index y el SciELO Citation Index, que comenzó a operar en el inicio de 2014.

El Data Citation Index10, inaugurado a principios de 2013, permitirá a los investigadores acceder en una sola base de datos a numerosos repositorios de datasets, exponiendo el impacto de la investigación además de los contenidos publicados. Mediante la estandarización de la práctica de citas a datos, los investigadores tendrán más oportunidad en ganar reconocimiento por su trabajo. De la misma forma, las instituciones de financiación ganarán mayor visibilidad e impacto de la investigación que financian permitiendo, inclusive, que los resultados obtenidos puedan ser usados por otros investigadores.

Teniendo en cuenta el avance el movimiento opendata, muchos editores ya avanzaron en la elaboración de políticas y metodologías para el almacenamiento y recuperación de datos. A continuación veremos algunos ejemplos:

PLoS

Como una de las iniciativas pioneras más importantes en la publicación en acceso abierto, la Public Library of Science – PloS publicó en diciembre de 2013 la Data Access for the Open Access Literature: PLOS’s Data Policy11 (Política de Acceso a Datos para la Literatura en Acceso Abierto), en vigor desde el 1º de marzo de 2014.

El editor jefe de PloS Biology, Theo Blom, explica que en consonancia con la política de acceso abierto de la colección, los datos básicos deben ser de libre acceso a los investigadores para la replicación, revisión, interpretación, o inclusión en metanálisis, de forma de facilitar la reproducibilidad de la investigación y el progreso científico. Las revistas PloS solicitaron la disponibilidad de los datos desde su inicio, pero recién en 2013 fue elaborado un conjunto de metodologías y políticas para el almacenamiento.

De acuerdo con esta política, para presentar un manuscrito en línea, los autores deben proporcionar una Declaración de Disponibilidad de Datos (Data Availability Statement) que se publicará después de la aprobación del manuscrito. La negativa a compartir los datos y metadatos relacionados proporciona una razón para el rechazo del artículo. PloS recomienda el depósito de los datos en repositorios públicos como Dryad Dygital Repository. Las secuencias génicas, estructuras de proteínas, ensayos clínicos y modelos biológicos pueden ser depositados en bases específicas, como GenBank, Protein Data Bank, y Clinical Trials.gov, respectivamente, y define además como minimal dataset al conjunto de datos utilizados para llegar a las conclusiones que constan en el manuscrito y que deben estar disponibles debidamente.

Taylor and Francis

Este editor todavía no definió políticas para compartir datasets procedentes de los artículos publicados en sus revistas (algunos de acceso abierto vía dorada, otros híbridos), sin embargo especifica en su portal12, que los autores que usan datasets de otros en sus artículos deben indicar cómo fueron seleccionados estos datos e informar la URL de la fuente de los datos para permitir que sus resultados sean pasibles de reproducción por otros autores.

Springer

El editor informa en su portal13 que la presentación de un manuscrito a una revista de acceso abierto de la colección (Springer Open) implica que los materiales reproducibles descritos en el manuscrito, incluyendo datos básicos relevantes, deben estar a disposición para cualquier investigador que los quiera usar para fines no comerciales. El editor no dispone de un repositorio o políticas específicas para este procedimiento, pero informa que repositorios con esta finalidad están ampliamente disponibles tales como bancos de datos para secuencias de ácidos nucleicos y proteínas, y repositorios de agencias de financiación. Una lista completa de estos está disponible14.

SciELO

El Programa SciELO ha seguido de cerca la tendencia mundial referente a compartir datos de investigación. En la Conferencia SciELO 15 Años, la preservación y compartir datos fue el tema de la conferencia dada por Todd Vision15, biólogo e investigador de la University of North Carolina at Chapel Hill y co-fundador de Dryad Digital Repository, iniciativa que se ocupa de la preservación y disponibilidad en acceso abierto de datasets provenientes de la literatura científica y médica, en colaboración con revistas, sociedades científicas y editores.

SciELO pretende, a partir de 2015, dar inicio a la política de solicitar a los autores que publican en las revistas de la colección la disponibilidad de los datos de la investigación en repositorios. El Programa está colaborando con la iniciativa DataFAIRport – Find, Access, Interoperatele & Re-use. La iniciativa FAIRport, fundada en enero de 2013, tiene por objetivo mejorar los datos de la investigación que está siendo desarrollada por una red de especialistas e instituciones.

Por lo tanto, uno de los programas más importantes de publicación de revistas en acceso abierto del hemisferio sur – y del mundo – una vez más se destaca por adoptar el estado del arte en políticas y metodologías a favor del acceso abierto bajo todos los aspectos.

Notas

¹Scientific Data: Nature Publishing Group avanza la comunicación de datos científicos con nueva publicación online en acceso abierto. SciELO en Perspectiva. [viewed 01 June 2014]. Available from: http://blog.scielo.org/es/2014/02/04/scientific-data-nature-publishing-group-avanza-la-comunicacion-de-datos-cientificos-con-nueva-publicacion-online-en-acceso-abierto/

² YU, Y., et al. Comprehensive RNA-Seq transcriptomic profiling across 11 organs, 4 ages, and 2 sexes of Fischer 344 rats. Scientific Data. 2014. Available from: http://www.nature.com/articles/sdata201413

³Data Descriptors – http://www.nature.com/sdata/

⁴ CAMPBELL, P. Conferencia Science as an Open Enterprise: open data for open Science. 2013. Available from: http://www.fapesp.br/eventos/scienceOpenEnterprise

⁵ Science as an open enterprise. The Royal Society Science Policy Centre report. 2012, n. 02. Available from: http://royalsociety.org/uploadedFiles/Royal_Society_Content/policy/projects/sape/2012-06-20-SAOE.pdf

6La reproducibilidad en los resultados de investigación: la punta del iceberg. SciELO en Perspectiva. [viewed 01 June 2014]. Available from: http://blog.scielo.org/es/2014/02/27/la-reproducibilidad-en-los-resultados-de-investigacion-la-punta-del-iceberg/

7 Vines, T. H., et al. The Availability of Research Data Declines Rapidly with Article Age. Curr. Biol. 2014, vol. 24, n. 1. Available from: http://www.cell.com/current-biology/abstract/S0960-9822%2813%2901400-0

8 Dissemination and Sharing of Research Results. NSF Data Sharing Policy. Available from: http://www.nsf.gov/bfa/dias/policy/dmp.jsp

9 Open data Guide. University of Waterloo. Available from: http://subjectguides.uwaterloo.ca/content.php?pid=333963&sid=3122909

10 Citation Index – http://wokinfo.com//products_tools/multidisciplinary/dci/

11 Data Access for the Open Access Literature: PLOS’s Data Policy. Plos. Available from: http://www.plos.org/data-access-for-the-open-access-literature-ploss-data-policy/

12 Datasets. Taylor & Francis Author Services. Available from: http://journalauthors.tandf.co.uk/preparation/writing.asp#link21

13 Availability of supporting data. Springer One. Available from: http://www.springeropen.com/about/supportingdata

14 DataCite. Repositórios para dados de pesquisa – http://www.datacite.org/repolist/

15 Conferencia SciELO 15 anos – http://www.scielo15.org/todd-vision/

Vídeo da apresentação (em inglês) – https://www.youtube.com/watch?v=-4xshxMqZsU

Referencia

More bang for your byte. Editorial. Scientific Data. 2014. Available from: http://www.nature.com/articles/sdata201410

Links externos

Dryad Digital Repositort – http://datadryad.org/

BioModels database – http://clinicaltrials.gov/

GenBank – http://www.ncbi.nlm.nih.gov/Genbank/

Protein Data Bank – http://www.rcsb.org/pdb/

ClinicalTrials.gov – http://clinicaltrials.gov/

Data FAIRport initiative – http://www.datafairport.org/

DTL – http://www.dtls.nl/

ELIXIR – http://www.elixir-europe.org/

Force11 Data Citation Principles – https://www.force11.org/datacitation

Nature – Available from: http://www.nature.com/

 

Traducido del orginal en portugués por Ernesto Spinak.