Lenguaje para las revistas SciELO: XML

SciELO avanza en la calidad de publicación, con la incorporación del lenguaje XML (eXtensible Markup Languaje) para el procesamiento de todas las revistas a partir de 2015.  Aquellas pertenecientes al área de ciencias de la salud ya están incursionando en este lenguaje a partir de este año.

 ¿Qué es XML?

Es un lenguaje de marcado más plástico que los iniciales de la web, como el HTML, porque permite definir reglas y especificar la forma de marcar partes significativas de un texto (abarcando palabras, frases, números, fórmulas, etc.)

A partir de los textos marcados, es posible extraer metadatos del artículo (como título, autores, resumen, palabras claves, revista, volumen, número, paginación, fecha de presentación, fecha de aprobación y otros) y así formar su referencia bibliográfica. Esta extracción asegura que la referencia bibliográfica sea fiel al texto del artículo.

La particularidad especial que tiene el uso del XML es la capacidad de tener su estructura y componentes identificados, pudiendo ser procesados por los programas de la computadora. De este modo, los textos marcados son aptos para su almacenamiento en bases de datos, para ser interoperados y también para ser presentados en diferentes formatos.

 SciELO y su marcación hasta hoy.

 El Portal SciELO utiliza etiquetas de textos desde la creación de su metodología en 1997. En la época del surgimiento del proyecto SciELO, el lenguaje estándar de marcación de textos era el  Standard Generalized Markup Language (SGML).  SciELO adoptó este lenguaje a partir del DTD norma ISO para la marcación de textos identificada como ISO 12083-1994. El uso del DTD se restringió a la marcación de los elementos bibliográficos de la parte frontal del artículo para generar la referencia bibliográfica, y de la parte final para identificar las referencias bibliográficas. Esta marcación se hace a partir del texto final del artículo convertido previamente a HTML.

Con el correr del tiempo, esta metodología de marcación ya no responde a las demandas actuales que tienen que ver con la estructuración, el intercambio y la presentación de los textos de los artículos y demás tipos de documentos científicos. Por este motivo, SciELO inició en 2012 la promoción de la adopción del nuevo sistema de marcación XML.

 Nueva etapa de SciELO

 Con el XML se pueden precisar diferentes estructuras de marcación de textos de artículos. La posibilidad de incorporar nuevas etiquetas es una de las características más importantes del XML. Estas nuevas etiquetas describen en detalle los diferentes niveles de afiliación de los autores como por ejemplo la universidad y la facultar de pertenencia. SciELO incorporó dos modificaciones: agregó otra etiqueta que está vinculada a identificar a las agencias financiadoras de la investigación y por otro lado,  sumó la especificación detallada de las referencias bibliográficas necesarias para el montaje de la base de datos bibliométricos.

Los artículos de SciELO en XML, son intercambiados con los índices bibliográficos y otros sistemas de procesamiento de información científica, cada uno con sus propios sistemas informáticos y diferentes estructuras de textos. Otra característica importante de los textos en XML es la capacidad de ser presentados en diferentes formatos (lectura, tamaños de letras, líneas, páginas, navegación entre secciones, etc.) Esta capacidad es importante en la actualidad dados los diferentes dispositivos de lectura con los que se cuenta, como la pantalla tradicional, la tablets hasta los teléfonos celulares.  

En resumen, podemos decir que los archivos en XML, son los más adecuados para la preservación digital ya que, en un futuro,  serán capaces de ser procesados en las nuevas tecnologías de almacenamiento, transferencia y presentación.

Fuente:http://blog.scielo.org/es/2014/04/04/porque-xml/#.U7K22ZSSy30

SciELO.AR-CAICYT-CONICET