¿Qué es Open Data? – Tecnologías web para servicios de información

El movimiento Open engloba desde una forma de entender la difusión de la información (tanto en forma documentos, como de software, como de conocimiento) hasta una forma de ver la vida, y todo ello enmarcado dentro de cierto interés hacia el servicio público y el trabajo por la comunidad y el bien común.

El Movimiento Open, en general, engloba a una serie de actividades que se caracterizan por facilitar la accesibilidad a la información y/o productos, sin condiciones restrictivas y favoreciendo la diseminación del conocimiento. Dentro de esta corriente encontramos al Open Source como primer y principal abanderado de esta filosofía que, en 1998, incitaba a la creación de programas informáticos libres, adaptables a las necesidades de cada momento. A partir de ahí surgieron otras ramificaciones centradas en la promoción del acceso a la documentación científica (Open Access), el fomento en el uso de materiales docentes (OpenCourseWare), la reutilización de los datos científicos y su uso transparente (Open Science), o que una gran empresa comparta sus recursos para que otros socios generen negocios nuevos (Open Business[1]). Y todo ello, articulado por medio de conceptos como Creative Commons[2], Public Domain[3] o Public Knowledge[4], sirve de sustento a los cuatro pilares en torno a los que se cimenta el movimiento: Open (entendido como apertura), Free (libre/libertad), Commons (primar el bien común) y Public (carácter eminentemente público de las acciones).

Uno de los conceptos desarrollados bajo estas premisas, Open Data (OD en adelante), es, posiblemente, el que más impacto está teniendo en la gestión de la información, ya que ha logrado calar en administraciones públicas de todos los niveles, bibliotecas, empresas, etc. Se trata de datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos al requerimiento de atribución y de compartirse de la misma manera que aparecen, tal y como explica el Manual de Open Data[5], uno de los proyectos de la Open Knowledge Foundation[6], dedicada a promover la creación de conocimiento y que éste se comparta.

La definición de OD implica que los datos deben estar disponibles, lo que conlleva que sean tanto accesibles sin dificultad (preferiblemente en Internet) como no almacenados en formatos propietarios, que obliguen a los usuarios a depender de un software determinado. Además deben ser reutilizables, lo que supone que se puedan gestionar individualmente, o integrados dentro de otros conjuntos de datos extraídos de diferentes fuentes. Por último, la distribución de estos datos debe ser universal, en el sentido más amplio de la palabra. Es decir, que no pueden existir restricciones a personas o instituciones para acceder a dichos datos, ni límites impuestos por los programas informáticos empleados, ni usos limitados (educación o investigación sólo).

Evidentemente en ningún caso estamos hablando de datos personales. Generalmente, y a partir de la experiencia de lo que se está compartiendo en la actualidad, esos datos están centrados en información económica (volumen de negocios en determinados sectores, el uso del comercio electrónico, presupuestos de países, distribución de gasto…), administración local o grandes cantidades de información (registros de bibliotecas, bases de datos de publicaciones científicas…). Una visión bastante acertada de la realidad en el uso de OD lo podemos encontrar en The Web Index[7], gestionado por la Fundación World Wide Web[8] y que recoge el impacto de determinadas políticas en la Web, distribuyendo los datos por países, periodos de tiempo y usos. En concreto, el índice tiene un apartado denominado “apertura de datos en manos de los poderes públicos” que evalúa el uso de licencias abiertas por parte de las Administraciones, la transparencia (si los datos –fiscales, de salud, educación, criminalidad, censo y cartografía- se publican convenientemente, si el país en concreto dispone de una política específica centrada en fomentar el OD, la facilitad del acceso a los datos) y la interactividad con el ciudadano.

Los resultados presentados por The Web Index en octubre de 2012 presentaban un panorama muy activo en lo que a Open Data se refiere a nivel mundial.

Ilustración 1. Los resultados presentados por The Web Index en octubre de 2012 presentaban un panorama muy activo en lo que a Open Data se refiere a nivel mundial.

La información gubernamental ha sido clave en la evolución de OD. Tanto es así que ha facilitado la creación de un nuevo movimiento, Open Government (Gobierno Abierto o también oGov) que establece una nueva manera de entender la relación que debe tener la Administración hacia el exterior (otras Administraciones, empresas, organizaciones) y, muy especialmente, con los ciudadanos. La base del oGov se centra en el siguiente principio: un buen gobierno es aquel que pone a disposición pública todos sus datos. Con esto se aumenta en transparencia, fomentado el espíritu crítico y se permitiendo que los administrados puedan crear servicios nuevos a partir de esos datos.

Desde 2009 el Consorcio W3C cuenta con un borrador que explica los principios de actuación que deben seguir los gobiernos para publicar sus datos[9]. Y le presta tanta atención al tema, que el quinto congreso de la W3C España tuvo como principal protagonista el Open Government Data. También cuenta con una sección en su servidor web donde aglutina iniciativas, manuales de buenas prácticas, información de congresos, etc[10]. Otras instituciones o grupos de interés, como Open Government Data[11] o Linking Open Government Data[12], publican continuas actualizaciones sobre el impacto de este modelo de comunicación administración/ciudadano, sirviendo de altavoz a nuevas propuestas, nuevos gobiernos que se unen a esta filosofía, nuevos catálogos de datos disponibles[13], etc.

Es tal la unión entre OD y oGov que en muchas ocasiones se habla de ambos conceptos como sinónimos. En realidad esto no es del todo cierto, ya que podríamos decir que OD es la forma de actuar, y oGov es un ejemplo de actuación. En cualquier caso, hay una serie de directrices que se deben cumplir para que tenga sentido que los datos, ya sean procedentes de la administración o de cualquier otra fuente, se compartan. Para empezar, se debe intentar la difusión de la mayor cantidad de datos. Esto está relacionado con lo que se comentaba anteriormente de qué tipo de datos se pueden compartir. En principio, ni los personales, ni aquellos que, por motivos de seguridad o cuestiones legislativas, estén regulados por procedimientos de uso privado de la información, podrán ponerse en abierto. Es importante destacar que los datos no pueden estar sujetos a derechos de autor, ya que esto limitaría su uso e impondría las trabas que se desea superar[14].

Otra de las recomendaciones se centra en la gestión: es fundamental que los datos se publiquen directamente por la fuente que los produce. Generalmente el hecho de que existan intermediarios suele afectar a asuntos relacionados tanto con la confiabilidad de la información como con su nivel de detalle. Aspectos ambos que podrían cuestionar el correcto uso de estos datos. De ahí precisamente la importancia de contar con catálogos de conjuntos de datos publicados (Public Datasec Catalog). Es lógico pensar que si es importante cuidar la fuente, no menos lo es el periodo temporal con el que se trabaje. Parece que no tiene mucho sentido que una administración, o una empresa, publicite datos de hace 10 años. A no ser que el objeto sea realizar estudios afectados por la temporalidad, trabajar con datos pretéritos le quita valor a lo publicado.

Una vez que se decide hacer públicos unos datos (porque se consideran de interés, porque pueden proporcionar valor añadido a otros servicios, por utilidad pública, etc.) es preciso que se escoja un sistema que facilite la gestión de esa información. Por un lado será necesario que el formato sea fácilmente manipulable, que se pueda indexar. Por otro, que el marco legal empleado para la utilización de dichos datos permita su readaptación y redifusión[15]. Lo que se consigue con esto es facilitar la parte Open de Open Data, es decir, favorecer el trabajo con estos datos por medio de estándares que propicien la interoperabilidad.

Aunque, evidentemente, no se trate de un concepto nuevo, no es menos cierto que la proliferación en su uso en la literatura –especialmente la informática- viene casi de la mano de la Web Semántica. La clave en todo el trabajo relacionado con la Web Semántica está en hacer las cosas para que se puedan compartir con proyectos similares, de tal forma que el producto de un trabajo no se limita a un área de actuación concreta, sino que puede ser reutilizado para otras muchas cosas. La interoperabilidad denota la habilidad que poseen los sistemas (no sólo informáticos), las personas y las organizaciones por trabajar juntos. En el caso que nos ocupa, esta interoperabilidad sería la cualidad de la información (los datos) que le otorga la capacidad para ser empleada en diversas bases de datos, o para distintos usos, o en situaciones diferentes. La idea, en esencia, es que diferentes componentes (de nuevo, los datos) creados por organizaciones distintas, puedan integrarse para alcanzar un objetivo concreto.

La manera en la que los datos son representados depende del tipo de formato escogido. Entre los sistemas habituales encontramos a Json, XML, RDF y CSV. El primero de ellos, Json[16] (JavaScript Object Notation) es un formato pensado para el intercambio de datos independientemente del lenguaje de programación con el que se desee trabajar. Es texto plano (de hecho, ocupa menos espacio que el mismo documento en formato XML), lo que facilita su escritura, gestión y almacenamiento y, como gran ventaja, no requiere de la utilización de parsers para comprobar sintácticamente el documento creado. El ejemplo que se muestra a continuación es una representación de la información de dos libros.

…Var myJSONObject={“libro”:[

{

“autor.nombre”:”Camilo José”,

“autor.apellidos”:”Cela”,

“titulo”:”La Colmena”,

“fecha”:”2001”

{

“autor.nombre”:”Arturo”,

“autor.apellidos”:”Perez Reverte”,

“titulo”:”El capitán Alatriste”,

“fecha”:”2010”

}

]

Tabla 1. Ejemplo de uso de Json

Como se puede apreciar en el ejemplo, los datos almacenados en Json son fácilmente reconocibles y bastante limpios, en el sentido de que no tienen códigos o marcas que impidan la rápida lectura de la información y/o su procesamiento automático pero, a cambio, ésta se encuentra lo suficientemente estructurada como para poder gestionarla de manera eficaz. La estructuración es también la clave del XML. En el ejemplo 2 se puede observar cómo sería una posible codificación para los mismos datos en este lenguaje.

<?xml version=»1.0″ encoding=»UTF-8″?><libro>

<id=»1″>

<nombre>Camilo José</nombre>

<titulo>La colmena</titulo>

</id>

<id=»2″>

<autor>Arturo</autor>

<apellido>Pérez Reverte</apellido>

<titulo>El capitán Alatriste</titulo>

</id>

</libro>

Tabla 2. Ejemplo de uso de XML

Aunque existen muchas variantes para esta misma descripción[17], el ejemplo es lo suficientemente descriptivo. Aunque la tendencia actual es almacenar la información en RDF, que mezcla la flexibilidad del XML con la robustez que le otorga la posibilidad de emplear etiquetas creadas para otros sistemas de descripción de recursos. En el ejemplo 3 se puede observar la codificación de los mismos datos con los que hemos trabajado en los anteriores ejemplos, pero trabajando junto al sistema de metadatos Dublin Core.

<rdf:Description rdf:about=»http://datos.bne.es/autor/XX829232.html»><dc:creator>Camilo José Cela</dc:creator>

<dc:title>La colmena</dc:title>

<dc:date>2001</dc:date>

</rdf:Description>

<rdf:Description rdf:about=»http://datos.bne.es/autor/XX955194.html»>

<dc:creator>Arturo Pérez Reverte</dc:creator>

<dc:title>El capitán Alatriste</dc:title>

<dc:date>2010</dc:date>

</rdf:Description>

Tabla 3. Ejemplo de uso de RDF

CSV (Comma-Separated Values), por último, representa los datos en forma de tabla en la que las columnas se separan por punto y coma y las filas por saltos de líneas. Dentro del entorno de trabajo OD se suele emplear este formato para documentos contables (presupuestos, hojas de gasto), ya que se puede importar sin muchos problemas y es fácilmente procesable por una hoja de cálculo.

Nombre;Título;FechaCamilo José Cela;La Colmena;2001

Arturo Pérez Reverte;El capitán Alatriste;2010

Tabla 4. Ejemplo de uso de CSV

Otros formatos que se suelen emplear son RSS[18], SHP[19], ODS[20] o KML[21]. Por supuesto, el formato también puede ser propietario, como PDF, Word, XLS (hoja de cálculo de Excel), etc.

Una vez liberados los datos en el formato que más interese, tan sólo queda hacerlos visibles. Para ello se pueden publicar en una web propia o, lo más recomendable, integrarlos dentro de un catálogo central (Dataset Catalog) para que otros puedan usarlos, enlazarlos, vincularlos…

Aunque en muchas ocasiones la visión europea (y especialmente la española) sobre compartir datos públicos se centra principalmente en que también sean otras instituciones públicas las que usen dichos datos, la idea global no se debe circunscribir a eso. En la mayoría de los casos, los datos que se ponen en abierto han sido generados gracias a que un grupo de personas ha pagado, con sus impuestos, por la creación de dicha información. A partir de ahí, y una vez abiertos, pueden ser tanto instituciones públicas como empresas privadas las que hagan con esos datos lo que deseen. Los norteamericanos, que generalmente suelen ser pioneros en esto de gestionar la información, han sido capaces de adoptar y adaptar esta información para aportar valor añadido a sus productos. Existen cientos de ejemplos, así que enumerarlos todos aquí supondría páginas y páginas de información escasamente útil, así que destacaremos sólo uno: Trulia[22]. Se trata de una inmobiliaria que ofrece sus servicios de alquiler y compra de locales y casas por todo Estados Unidos. Para facilitar a sus clientes tomar la difícil decisión de dónde ir a vivir han capturado los datos abiertos que ofrece de la Secretaría de Estado[23] y el Departamento de Justicia de los EUA sobre delitos, y con ellos han realizado un mapa que permite, fácilmente, conocer cuáles son las zonas menos conflictivas y, por lo tanto, más propicias para iniciar una nueva vida o negocio. Esta información la ofrecen junto a su listado de ofertas, de tal manera que se le aporta al posible cliente la mayor cantidad de datos posibles sobre el emplazamiento escogido.

Ilustración 2. Mapa de delitos, distribuido por barrios, del centro de San Francisco. A partir de los datos en bruto ofrecidos por la Administración americana, la empresa Trulia ofrece un mapa donde se puede obtener información detallada del nivel de crimen en cada zona de los Estados Unidos. Se trata de un buen ejemplo de uso de los datos abiertos ofrecidos por la administración pública y gestionados por la empresa privada para aportar valor añadido a sus productos. Fuente: http://www.trulia.com/crime/

2.1.- Fuentes de datos

Los datos pueden proceder tanto de fuentes públicas como de privadas, aunque la tendencia habitual es que sea el ámbito público el que más información genere ya que, tradicionalmente, trabaja con grandes cantidades de datos. Dentro de este apartado se encuentra el oGov, como principal proveedor de datos, a causa de la exigencia, por parte de los ciudadanos, de que la gestión –principalmente económica- sea cada vez más transparente. Al mismo tiempo, son muchos los gobiernos de diferentes ámbitos que sienten la necesidad de rendir cuentas a sus administrados sobre qué es lo que se hace con sus impuestos. Pero si ya es importante, y un logro desde el punto de vista de la democracia, este hecho, no lo es menos lo que supone. No hay que ver los datos abiertos como el final de un proceso, sino como el inicio de una cadena: esta difusión de datos se convierte también en generadora de riqueza, ya que cualquier persona o empresa podrá, con esos datos, generar nuevos servicios, productos, tal y como hemos visto anteriormente con el ejemplo de Trulia.

En el ámbito nacional, la mayoría de Comunidades Autónomas tienen un dataset con los datos que ofrecen, aunque es evidente que no todas ofrecen la misma cantidad de información, ni la misma calidad. Dado que es imposible poner en abierto toda la información con la que cuenta la administración pública, lo que habitualmente suelen hacer la Comunidades es establecer prioridades para, en función del previsible impacto que pueda tener la apertura de unos datos sobre otros, priorizar y dar más difusión a aquellos que puedan tener más repercusión social, o pueda generar nueva riqueza, o puedan aportar luz sobre algún aspecto concreto.

Comunidad Autónoma	Dataset
Andalucía	http://www.juntadeandalucia.es/datosabiertos/portal.html
Asturias	http://risp.asturias.es/
Baleares	http://www.caib.es/caibdatafront/
Castilla y León	http://www.datosabiertos.jcyl.es/
Castilla La Mancha	http://opendata.jccm.es/
Cataluña	http://www20.gencat.cat/portal/site/dadesobertes
Extremadura	http://www.extremadurareutiliza.es/
Galicia	http://abertos.xunta.es/portada
Navarra	http://www.navarra.es/home_es/Open-Data/
País Vasco	http://opendata.euskadi.net

Tabla 5. Relación de datasets por Comunidades Autónomas

Las licencias escogidas por cada Comunidad son variadas, y oscilan entre Creative Commons con reutilización comercial hasta derechos de autor más restringidos. A nivel local también existen ayuntamientos que publican sus datos, al igual que a nivel estatal, que aglutina toda la información en el repositorio ubicado en http://datos.gob.es/ aunque, de manera separada, diferentes organismos estatales tienen sus propios conjuntos de datos, como la Biblioteca Nacional[24],

El caso español es paradigmático, ya que se produce algo muy frecuente dentro del mundo OD: la falta de normalización. En España cada Comunidad Autónoma ha optado por un tipo de formato diferente para publicar sus datos, una licencia de uso distinta e, incluso en algunos casos, no permitir realizar procesos automatizados con los datos ofrecidos. Pensamos que la tendencia debería ser optar por la normalización global, tanto de formatos como de licencias y usos, dentro de las administraciones públicas. Todo eso se consigue con un mayor nivel de coordinación, que se puede conseguir por medio de una normativa global consensuada con todas las partes implicadas. De esa manera el camino para compartir presenta menos obstáculos y se sirve mejor a los intereses que propiciaron este movimiento.

El segundo grupo de fuentes de datos procede del sector privado, incluyendo tanto a entidades sin ánimo de lucro, como empresas comerciales. Sus datos son exactamente igual de fiables que los de cualquier administración pública pero, en la mayoría de ocasiones, son menos voluminosos o con menos nivel de detalle. A nivel internacional destaca, por ejemplo, el Banco Mundial[25] que ofrece, agrupado en 18 temas (desde agricultura hasta sector financiero, energía, educación, etc.) más de 2000 indicadores diferentes para analizar diversos aspectos de estas áreas temáticas.

Si lo que se busca es información empresarial, lo mejor es acudir a Open Corporates[26], repositorio que recoge información sobre más de 50 millones de empresas de todo el mundo que comparte este tipo de información. Las compañías, agrupadas por países, ofrecen sus datos por medio de una API[27] o de un widget[28].

Pero la fuente privada más empleada en todo el mundo es, sin duda alguna, la DBpedia[29]. Esta iniciativa surgió en 2007 gracias a la colaboración entre la Free University of Berlin[30] y OpenLink Software[31] con la idea de extraer información estructurada de la Wikipedia[32] para publicarla de forma abierta. Realmente este tipo de publicación es ya un clásico ejemplo de gestión de Big Data[33], pero añadiendo varias peculiaridades, como son la versatilidad (el carácter enciclopédico de la Wikipedia hace que la información sea multidisciplinar y en muchos formatos, tales como biografías, definiciones, relación entre conceptos…) y la reutilización (ese tratamiento de la información tienes una finalidad: que se pueda reutilizar en muchos proyectos/programas diferentes).

La DBpedia aprovecha la información estructurada que ofrece la Wikipedia, usando sus categorías, imágenes, hipervínculos, coordenadas geográficas, los infoboxes[34], etc. a los que se accede por medio de módulos de acceso para Sparql Endpoints (se explicará más adelante) y distintos interfaces. Adquirir la información de esta fuente conlleva que también se empleen sus mecanismos para las inconsistencias, el tratamiento de la ambigüedad de términos y la posibilidad de gestionar el conocimiento que, implícitamente, se encuentra plasmado en esta fuente. Evidentemente, también se heredan sus errores: temas muy desarrollados frente a otros tratados con menos profundidad, actos vandálicos que acarrean información errónea, entradas con claros objetivos publicitarios, etc.

2.2.- Ejemplo de uso

Existen gran cantidad de sitios web que emplean datos liberados como base para alimentar sus aplicaciones, posiblemente más de los que pensemos. Una vez que los datos se integran en los sitios web forman parte de éstos, aportando valor a la información que se ofrece. Y en muchas ocasiones es esa integración la que nos permite darnos cuenta de la procedencia de los datos.

Abrelibros[35] emplea la información proporcionada por las Bibliotecas Públicas de la Comunidad de Madrid para proporcionar un servicio de alerta cada vez que un libro marcado como favorito se encuentra disponible para su préstamo. En muchos países se emplean los datos proporcionados por el Ministerio de Economía correspondiente para hacer comparativas sobre el gasto presupuestario[36]. Repostator[37] localiza en un mapa las gasolineras españolas indicando el precio del carburante publicado por el Ministerio de Industria, Energía y Turismo de España… El listado de páginas web y aplicaciones es inmenso.

Como se ha mostrado al final del apartado 2, los datos se pueden ofrecer en múltiples formatos. Dependiendo del tipo de formato, el procesado de la información podrá ser más o menos automatizable. En el caso de encontrarnos con información en html o csv (los más habituales dentro de la administración pública), cualquier hoja de cálculo nos permitirá, por medio de simples fórmulas, extraer la información para poder integrarla en cualquier documento. Si, por el contrario, los datos aparecen en formatos menos manipulables (pdf, Word, etc.) habrá que emplear técnicas más sofisticadas. Aunque en este caso siempre se podrán utilizar soluciones propuestas por otras personas. En este sentido, ScraperWiki[38], que recoge códigos aportados de manera gratuita por diferentes desarrolladores para capturar datos con estas características, puede ser una solución. Las técnicas de scraping[39] son muy socorridas ante este tipo de problemas.

Si, por ejemplo, los datos se han compartido en formato RSS, una de las soluciones más empleadas es el uso de Yahoo Pipes[40]. Se trata de una aplicación web gratuita que sirve para procesar, mezclar, manipular o filtrar uno o varios canales de información en RSS con el objeto de crear un único canal RSS que contenga la información que más nos interese de los canales escogidos. Básicamente permite seleccionar varios RSS y manipularlos, por medio de diversas reglas y filtros, para generar un RSS derivado de ellos.

Este sistema es realmente útil y presenta varias ventajas, como poder filtrar los datos que se desea mostrar, seleccionar más de una fuente de datos para generar una única salida, ordenarlos en función a diferentes criterios, incluir un mapa si el RSS contiene datos de geolocalización y, por último, contar con una URL donde se pueda consultar el producto resultante. Dicha URL está preparada para ser compartida en WordPress, Bloger o incluso embeber en cualquier otro sistema. EL principal inconveniente: que el formato RSS no es el mayoritario a la hora de compartir OD, con lo que su uso es muy limitado.

Si los datos se comparten en cualquier otro formato, o bien podemos gestionarlos directamente para integrarlos en el sitio web que más interese, o se pueden emplear aplicaciones concretas. Realmente hay poco software que, de manera específica, se dedique a la captura y reutilización de datos. En la mayoría de los casos son entornos de trabajo globales que, aunque también sirven para ese propósito, resultan complejos de gestionar si el objeto que se persigue es tan sólo capturar datos para reutilizarlos. De este grupo de programas destaca CKAN[41] (herramienta open source que permite publicar, compartir y reutilizar datos de cualquier origen), Open Data Kit[42] (se trata de un conjunto de herramientas open source que facilita el proceso de construcción de una colección de datos, gestionarlos y agregarlos a servidores en diferentes formatos) o Talend[43] (pensado principalmente para la gestión de big data).

Para practicar un poco vamos a escoger Tablets[44] (Tabular Cells). Es una herramienta que sirve para tratar datos con formato tabular, tales como Excel, OpenOffice, tablas en HTML, ficheros CVS, ficheros de análisis estadístico PX, o ficheros de intercambio de información geográfica (ESRI). Está desarrollada por la Fundación CTIC[45] puede probar de forma gratuita y que se puede probar de manera gratuita desde mediados de noviembre de 2012.

La gran ventaja de esta herramienta es que, además de permitir la transformación de datos, ofrece vistas para trabajar con los datos que se han procesado por medio de gráficos estadísticos, mapas interactivos, vistas facetadas, Sparql endpoint[46] o servicios REST[47]. El gran inconveniente: que los datos se quedan almacenados en el servidor de Tabels, no pudiendo ser exportados para ser integrados en otros servicios, tal y como sí ocurría con Yahoo Pipes, por ejemplo.

[1] Open business Una gran empresa comparte sus recursos para que otros socios generen negocios nuevos. Ejemplo clásico de esto es Amazon, que permite que cualquiera anuncie productos de esta empresa norteamericana en sus blogs o páginas web personales a cambio de una comisión si alguien ha adquirido un producto concreto pinchando en el enlace que aparece en dicho blog o página web (https://afiliados.amazon.es/).

[2] Corporación sin ánimo de lucro orientado a otorgar al autor el poder de decidir los límites de uso y explotación de su trabajo.

[3] Conjunto de bienes y derechos de titularidad pública destinados al uso y/o servicios público.

[4] Iniciativa enfocada en potenciar la importancia de hacer los resultados de las investigaciones públicas y gratuitas, buscando mejorar la calidad de la investigación por medio del desarrollo del trabajo colaborativo.

[5] http://opendatahandbook.org

[6] http://okfn.org

[7] http://thewebindex.org

[8] http://www.webfoundation.org/ No confundir con el Consorcio World Wide Web (W3C)

[9] http://www.w3.org/TR/gov-data/

[10] http://www.w3.org/egov/

[11] http://opengovernmentdata.org/

[12] http://logd.tw.rpi.edu/

[13] También conocido como Public Dataset Catalog. Se trata de bases de datos que recopilan información sobre dónde se encuentran los datos que cada administración hace públicos, en qué formato, qué tipo de información se puede encontrar, etc. Entre los más importantes y actualizados destacamos tres. Por un lado el catálogo de la Fundación CTIC (http://datos.fundacionctic.org/sandbox/catalog/faceted/), el de TWC LOGD (http://logd.tw.rpi.edu/demo/international_dataset_catalog_search) y el de the Data Hub (http://thedatahub.org/es/).

[14] En este sentido hay que recordar que lo recomendable es publicitar los datos abiertos bajo algún tipo de licencia encargada de gestionar los derechos de autor. De esa manera queda claro cuál es el alcance del uso de esa información, liberando a la organización que ha creado esos datos de posibles problemas. Una revisión bastante completa del tipo y alcance de licencias se puede encontrar en la página web de Open Definition, con un listado (http://opendefinition.org/licenses/) y una guía de uso (http://opendefinition.org/guide/data/).

[15] Un sistema muy habitual suele ser el empleo de licencias Creative Commons, en cualquiera de sus variedades. En http://creativecommons.org/choose/, y por medio de un sencillo cuestionario, orientan a los usuarios sobre cuál es la mejor opción de licencia en función de lo que se desee hacer con los datos.

[16] Viene definido por la RFC 4627 (http://www.ietf.org/rfc/rfc4627.txt)

[17] Se podría poner una etiqueta de autor que incluyera las subetiquetas de nombre y apellido. El campo de fecha podría ser una etiqueta vacía…

[18] RSS (Really Symple Sindication), formato XML para la distribución de contenidos de páginas web. Facilita la publicación de información actualizada a los usuarios suscritos a la fuente RSS sin necesidad de usar un navegador.

[19] SHP (Shapefile), formato propietario estándar de datos espaciales, desarrollado por la compañía ESRI, que almacena tanto la geometría como la información alfanumérica. Este formato no está preparado para almacenar información topológica.

[20] ODS (Operational Data Store). Es un contenedor de datos activos, es decir datos que ayudan al soporte de decisiones y a la operación. Es un formato de archivo abierto y estándar para el almacenamiento de hojas de cálculo que muestra información en celdas organizadas en filas y columnas, y cada celda contiene datos o fórmulas, con referencias relativas o absolutas a otras celdas.

[21] KML (Keyhole Markup Language). Es una gramática XML y un formato de archivo para la creación de modelos y el almacenamiento de funciones geográficas como puntos, líneas, imágenes, polígonos y modelos que se mostrarán principalmente en aplicaciones de mapas. KML es utilizado para compartir lugares e información entre aplicaciones.

[22] http://www.trulia.com

[23] Todos los datos abiertos ofrecidos por el gobierno norteamericanos se encuentran centralizados en el dataset ubicado en: https://explore.data.gov/

[24] http://datos.bne.es

[25] http://datos.bancomundial.org/catalogo-de-datos

[26] http://opencorporates.com/

[27] Interfaz para la Programación de Aplicaciones

[28] Pequeños trozos de código fuente que se insertan en una página web y permiten interactuar desde ahí con el servicio que proporciona los datos.

[29] http://dbpedia.org cuenta desde mediados de 2012 con su versión en español en: http://es.dbpedia.org

[30] http://www.fu-berlin.de/en/

[31] http://www.openlinksw.com/

[32] La Wikipedia se enmarca dentro del modelo de trabajo definido como Crowdsourcing basado en la Web, es decir, un producto creado por una multitud (crowd) que tiene un objetivo común. Aunque no es habitual dentro del mundo OD, sí existen iniciativas que generan datos a partir del trabajo colectivo de muchas personas. http://www.wikipedia.org. Otro ejemplo de este tipo de creación es MusicBrainz (http://musicbrainz.org/).

[33] Tratamiento y análisis de repositorios formados por cantidades enormes de datos. Precisamente esa inmensa cantidad de datos hace que sea difícil su gestión y procesamiento.

[34] Pequeños recuadros informativos que se insertan en cualquier parte de una entrada de la Wikipedia con el fin de añadir alguna información relacionada con la entrada principal pero sin romper la retórica da la explicación principal.

[35] http://abrelibros.tecnilogica.com/

[36] Para España: http://dondevanmisimpuestos.es/, en el Reino Unido: http://wheredoesmymoneygo.org/… En general OpenSpending recoge la mayoría de iniciativas (a nivel mundial http://openspending.org/).

[37] http://repostator.com/

[38] https://scraperwiki.com/

[39] Data Scraping es una técnica de programación que permite capturar los datos incluidos en una aplicación. Su variante más empleada, el Screen Scraping, es una técnica que se usa para la extracción automática de texto, obviando la información binaria (imágenes, multimedia, etc.). Los scrapers son programas capaces de trabajar con cualquier texto para procesarlo y estructurarlo. De hecho, son muy empleados por los buscadores de internet como anexo al trabajo realizado por sus arañas. Scroogle (http://www.scroogle.org/), por ejemplo, utilizaba esta técnica para hacer búsquedas en Google sin que salgan los molestos anuncios alrededor de los resultados hasta que fue bloqueado por el buscador para impedir este servicio. El navegador semántico Piggy Bank emplea también estas técnicas para facilitar el proceso de etiquetado de información semántica de sitios web (http://simile.mit.edu/wiki/Piggy_Bank).

[40] http://pipes.yahoo.com/pipes/

[41] http://ckan.org/

[42] http://opendatakit.org/

[43] http://www.talend.com/

[44] http://idi.fundacionctic.org/tabels/

[45] http://www.fundacionctic.org

[46] Sparql (Protocol and RDF Query Language) es un lenguaje de consulta para consultar bases de datos que almacenan la información en formato RDF. Los endpoints de Sparql son URI a las que se envían las peticiones (generalmente consultas, pero también pueden ser actualizaciones, listados, etc.) a realizar en la base de datos.

[47] REST (Representational State Transfer) es una arquitectura que se emplea para la creación de programas en el que los clientes pueden efectuar peticiones de servicios a los servidores. Es una forma de implementar la arquitectura cliente-servidor.

2.1.- Fuentes de datos

2.2.- Ejemplo de uso

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta