• Saltar al contenido principal
  • Saltar a la barra lateral principal
Universidad de Granada

Tecnologías web para servicios de información

Las cosas de las que se me ocurre hablar en clase, pero que luego nunca me da tiempo.

Usted está aquí: Inicio / Arquitectura de la información web / Sácale partido a los datos: los ficheros log

Sácale partido a los datos: los ficheros log

28 julio, 2015 por Jose A. Senso Deja un comentario

Una de las claves para diseñar (o mantener) un sitio web está en escuchar qué es lo que el usuario espera de él. Evidentemente, no podemos ir a preguntarle a cada uno de ellos. Pero si tuviéramos una herramienta que permitiera saber cómo se mueve, qué palabras clave emplea para buscar dentro del sitio, cuánto tiempo está en cada página, cómo interactúa con los elementos que le ofrecemos… tendremos un mecanismo perfecto para conocer su comportamiento y sus necesidades de información y, con eso, poder adaptar el diseño, la estructura e, incluso, el contenido, a lo que espera encontrarse.

Una solución podría pasar por la realización de cuestionarios. Pero en un entorno tan complejo como la web, con usuarios de diversas procedencias, con diferentes intereses (aunque el sitio trate de un tema monográfico, habría que considerar las diferentes vertientes) esta solución tiene poco sentido. Además, siempre he pensado que la gente no suele contestar de manera sincera. Lo ideal es contar con una herramienta que no interfiera con el proceso natural de consulta o navegación, algo que permanezca latente, recogiendo datos, pero que el usuario desconozca. Eso existe, y se llama fichero log.

 

View image | gettyimages.com

 

A estas alturas seguro que alguien piensa: para eso, emplea Google Analytics o alguna herramienta similar. A esa persona yo le diría: existe una gran diferencia entre los datos con los que trabaja uno y con los que trabaja otro. Y, sobre la base de esa diferencia, podemos decir que los datos de los logs son más puros y directos. Por cierto, una actualización de un trabajo como el de Systemadmin sería un gran TFG.

 

Analítica web en tiempo real vs ficheros log

La vertiente más empleada en el análisis de transacciones de sitios web es la analítica web en tiempo real. Es una técnica que permite monitorizar la información e indicadores del sitio web en el mismo momento en el que se producen. Sirve, entre otras muchas cosas, para descubrir cuáles son las tendencias actuales dentro de un sitio web.

Lo normal es que estas herramientas analicen indicadores relevantes, tales como la tasa de conversión (algo muy de marketing, que se refiere al cálculo de la cantidad de personas que cumplen el objetivo), tasa de rebote (cuando un usuario abandona tu sitio rápidamente), lealtad de los visitantes (algo complejo con las IPs dinámicas, por lo que cada vez más se emplean perfiles de usuario) o las páginas por visita (el clásico: la página más visitada/compartida/impresa…). Los reyes de la analítica web en tiempo real, a día de hoy, son Clicky, Woopra y Google Analytics.

El uso que se hace de estas técnicas está orientado, fundamentalmente, a analizar el comportamiento del usuario desde el punto de vista del marketing. Es decir, descubrir cuánto tiempo pasa un usuario en el sitio, qué le gusta más y cómo ha llegado hasta allí. Por estos motivos es muy importante que este proceso se realice en tiempo real.

El trabajo con ficheros log no requiere tanta inmediatez. No es necesario el tiempo real para el análisis que se produce. ¿Más diferencias? Para empezar, la cantidad de datos con los que se trabaja son mayores. Hay que tener en cuenta que se pueden combinar todos los ficheros log que se generan para sacar conclusiones. Los programas de analítica web en tiempo real sólo acceden a una pequeña porción de estos.

El trabajo con los ficheros log sólo se puede realizar con el visto bueno del administrador del sistema, ya que es el único que debería poder acceder a las entrañas del sitio web para capturarlos. Sin embargo, los programas de analítica web capturan los datos de manera remota por medio de rastreadores con ID de seguimiento, o por etiquetas..

La cantidad de datos recogidos en los ficheros logs los convierten en herramientas muy potentes para gestionar, no solo la navegabilidad del sitio, o conocer cómo busca el usuario, si no también la seguridad del sitio.

Hay un gran artículo, algo antiguo ya pero muy bueno para los que están empezando, que habla de esto: las diferencias de medición por logs y tags.

Cómo funcionan

Realmente no creo que haya que ponerse en plan fundamentalista con esto. Lo más probable es que todas las herramientas ayuden, y aporten su granito de arena en el proceso de evaluar el uso que se le da a un sitio web.

Los ficheros log se encargan de almacenar las transacciones que se realizan en un sistema. Hoy en día prácticamente todo genera un fichero log (sistema operativo, programas, apps del móvil…) y siempre queda un rastro escrito en algún sitio. El problema es que no todo el mundo puede acceder a ese sitio. En una web, por ejemplo, los ficheros log sólo serán accesibles para el administrador del sistema. Eso es lo que los convierte en herramientas importantes para cualquier análisis.

El análisis de un fichero log nos permitirá conocer quién nos visita y con qué frecuencia, cuánto tiempo está en cada página, qué necesidades de información tienen, si la estructura del sitio es la correcta o no, si el usuario tiene que desplazarse mucho o poco hasta llegar a donde quiere llegar, qué palabras clave emplea en las búsquedas internas… Un sin fin de opciones que ningún arquitecto de la información debería desdeñar.

Como mínimo, cualquier servidor web cuenta con la posibilidad de trabajar con tres ficheros logs diferentes pero, como veremos a continuación, pueden ser muchos más:

  • El servidor web. Si trabajamos con Apache lo normal es que tengamos el log del sistema Access.log (su presencia se configura en el fichero httpd.conf) y el que almacena los errores: error.log (muy importante para conocer los mensajes 404, 301, 302, 303… y resolver los problemas).
  • Si se usa un CMS (Drupal, WordPress…) es posible instalar algún módulo para la creación y gestión de estos ficheros. En Drupal, por ejemplo, a partir de la versión 7 existe Watchdog para gestionar los logs de sistema y de errores; en WordPress existen varios plugins para visualizar los ficheros de error y debug…
  • Si se instala un sistema de búsqueda, es posible que cuente también con un querylog que almacena, entre otras cosas, las palabras clave empleadas por el usuario para consultar los documentos almacenados en el sitio.

Mención especial merece el log de la base de datos. Si se está utilizando MySQL hay que decir que es posible activar varios registros, todos ellos fundamentales: el de errores, el general de consultas, el binario y el de consultas lentas (las que han superado un tiempo determinado). Pero debes tener en cuenta algo importante: esos ficheros no paran de alimentarse, así que debes controlar su crecimiento. Para eso es bueno revisarlos con frecuencia, hacer copias de seguridad y eliminar los copiados, emplear las opciones SQL para reducir su tamaño…

 

Cómo trabajar con estos ficheros

La gran ventaja que tienen los logs es que son ficheros ASCII, con lo que su gestión es muy sencilla. Hay que tener en cuenta que, al dejar constancia de todas las transacciones del sitio, y dadas las características de la versión 1.1 del protocolo HTTP (recuerda, no existe el concepto de sesión), cada línea del fichero corresponderá a una petición realizada al servidor por parte del cliente.

Como desventaja tenemos que se trata de ficheros de gran tamaño (pero poco peso) y que es necesario preprocesarlos antes de sacar datos de ellos, ya que se suele cometer el error de analizar el fichero entero, cuando este suele incluir muchas líneas que no son relevantes. Al ser un proceso algo tedioso, lo mejor es automatizarlo.

Ejemplo de un fichero log
Fuente: http://www.webempresa.com

La entrada típica de un fichero log es algo parecido a esto:

150.214.XX.XXX – – [07/Oct/2013:15:20:02 +0200] “GET /module/CLNEWMSG/css/bubble.css?1251290622 HTTP/1.1” 304 136 “http://cursos.jsenso.es/index.php?logout=true” “Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0”

Donde se puede ver una consulta realizada desde una IP concreta (que he enmascarado por razones de seguridad, pero que en el log se vería entera), la fecha y la hora de la consulta (la del servidor) el tipo de acción que se realiza GET (empleado en el http para obtener información, traer datos que se encuentran en el servidor en forma de archivo, base de datos…) o POST (empleado para enviar información desde el cliente para que la procese el servidor), los datos del recurso empleado, la versión del protocolo HTTP, el estatus, la respuesta, la versión del navegador e, incluso, la del sistema operativo.

Como se puede observar, la cantidad de información que se puede extraer es realmente muy valiosa, aunque hay que tener cuidado con varias cuestiones. Dado que en el protocolo HTTP no se trabaja con el concepto de sesión cada línea se trata como una petición independiente. Esto implica que, por ejemplo, si desde el cliente se usa el botón “atrás”, el navegador suele cargar una copia de la cache con el fin de ir más rápido y ahorrarse una petición al servidor. Esa acción no aparece en el log y la impresión que nos llevaremos es que el usuario va dando tumbos, sin seguir una línea de navegación clara.

La posible solución a este tipo pasa por establecer una serie de reglas de asociación con el fin de establecer vinculaciones entre las operaciones realizadas por un mismo usuario (que se identifican con la IP) durante un periodo de tiempo determinado y saber, de esta manera, el comportamiento dentro de una sesión “virtual”. El proceso lo explican muy bien Ortega y Aguillo (Ortega, José-Luis; Aguillo, Isidro F. “Minería del uso de webs”. El profesional de la información, 2009, enero-febrero, v. 18, n. 1, pp. 19-25). Pero claro, eso requiere de un conocimiento muy preciso del sito web y de su estructura. Y aún así, habría algún problema de identificación si el cliente está trabajando desde varios ordenadores a la vez.

 

Software

En realidad, al tratase de ficheros ASCII, el trabajo con log es bastante sencillo. Es muy fácil crear macros en cualquier procesador de textos que se encargue de hacer las depuraciones que se han comentado en este texto, más las propias de cada servidor, meter el contenido en una base de datos y, a partir de consultas sobre ella, obtener los datos que se necesitan.

No obstante, siempre es bueno conocer algunos programas específicos para el trabajo con estos ficheros. Aquí tenéis un listado de alguno de los que yo suelo recomendar:

  • AWStats. Herramienta gratuita que sirve para analizar logs de servidores web, de correo electrónico y de ftp. Realiza un análisis muy bueno de los visitantes únicos y de las visitas que hacen los robots, que suelen generar cierto descontrol en los resultados.
  • Free-SA. Está más pensado para la evaluación del rendimiento del servidor y su seguridad, pero da una resultados muy relevantes.
  • Web Expert Lite. Es el que solemos usar en clase. Tiene cuatro versiones, pero par al trabajo diario es suficiente con la lite.
  • W3Perl. Aplicación gratuita que se instala en el servidor. Está preparada para trabajar con Linux (Tarball, RPM, SRPM y Debian/Ubuntu), Windows (IIS, Apache, Abyss) y Mac. Tiene una versión para funcionar sin servidor (offline).
  • Visitors. Es una forma diferente de trabajar con ficheros log, ya que lo que hace es generar un grafo con las conexiones realizadas por los usuarios. Aunque también ofrece un análisis estadístico y varios tipos de informes.
  • The Webalizer. Algo desactualizado, pero sus informes son bastante buenos.
  • AlterWind. Cuenta con dos versiones, la estándar, que contiene gran cantidad de análisis, y la professional, que dejan probarla durante 30 días.
  • Si vas a trabajar en linux, un blog muy interesante sobre cómo trabajar con logs en este sistema operativo es: http://www.websecurity.es/analisis-los-ficheros-logsparte-iv
Fuente: http://www.hping.org/visitors
Imagen del grafo generado por Visitor. Fuente: http://www.hping.org/visitors/graph2.png

 

Publicado en: Arquitectura de la información web, Arquitectura de los sistemas de información basados en la web, Herramientas SEO, Necesidades de información y comportamiento del usuario, Posicionamiento SEO, Sistemas de búsqueda y resultados, Sistemas de etiquetado, Sistemas de navegación, Software de clase, Usabilidad web Etiquetado como: administrador del sitio, analítica web, Apache, CMS, Drupal, servidores web, webmaster

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Barra lateral principal

Buscar

Categorías

Etiquetas

administrador del sitio agentes analítica web análisis de sitios web Apache archivos arquitectura web CMS derechos de autor diseño pensado en el usuario dominio Drupal Dspace el arquitecto de la información gestión de proyectos Google hosting hosting gratuito http linked data mapas de calor microdatos MySQL OAI-PMH OJS open access open source posicionamiento RDF redirecciones repositorios revistas electrónicas robots.txt SEO servidores web Sistemas de información software trabajo colaborativo uniform server uniserver universidad usabilidad web webmaster web semántica

Estadísticas

  • 3.280

Copyright © 2022 · Corporativo Magazine Pro en Genesis Framework · WordPress · Acceder

En BlogsUGR utilizamos cookies propias con finalidad técnica y para personalizar su experiencia de usuario. Algunos blogs de BlogsUGR pueden utilizar cookies de terceros para fines analíticos.

 

Puede aprender más sobre qué cookies utilizamos o desactivarlas en los ajustes.

Tecnologías web para servicios de información
Powered by  GDPR Cookie Compliance
Resumen de privacidad

BlogsUGR utiliza cookies propias para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a BlogsUGR, haces algún comentario o seleccionas el idioma de un blog. Rechazar las cookies propias podría suponer la imposibilidad de acceder como usuario a BlogsUGR.

Algunos blogs de BlogsUGR utilizan cookies de terceros con fines analíticos para recabar estadísticas sobre la actividad del usuario en dicho blog y la actividad general del  mismo.

Cookies estrictamente necesarias

Las cookies estrictamente necesarias tiene que activarse siempre para que podamos guardar tus preferencias de ajustes de cookies.

Si desactivas esta cookie no podremos guardar tus preferencias. Esto significa que cada vez que visites esta web tendrás que activar o desactivar las cookies de nuevo.

Cookies de terceros

Algunos blogs de BlogsUGR utilizan Google Analytics para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.

También algunos blogs de BlogsUGR utilizan cookies de twitter.com que se utilizan para la visualización de esta red social en el blog.

¡Por favor, activa primero las cookies estrictamente necesarias para que podamos guardar tus preferencias!

Política de cookies

La presente política de cookies tiene por finalidad informarle de manera clara y precisa sobre las cookies que se utilizan en los blogs del servicio BlogsUGR de la Universidad de Granada.

¿Qué son las cookies?

Una cookie es un pequeño fragmento de texto que los sitios web que visita envían al navegador y que permite que el sitio web recuerde información sobre su visita, como su idioma preferido y otras opciones, con el fin de facilitar su próxima visita y hacer que el sitio le resulte más útil. Las cookies desempeñan un papel muy importante y contribuyen a tener una mejor experiencia de navegación para el usuario.

Tipos de cookies

Según quién sea la entidad que gestione el dominio desde dónde se envían las cookies y se traten los datos que se obtengan, se pueden distinguir dos tipos: cookies propias y cookies de terceros.

Existe también una segunda clasificación según el plazo de tiempo que permanecen almacenadas en el navegador del cliente, pudiendo tratarse de cookies de sesión o cookies persistentes.

Por último, existe otra clasificación con cinco tipos de cookies según la finalidad para la que se traten los datos obtenidos: cookies técnicas, cookies de personalización, cookies de análisis, cookies publicitarias y cookies de publicidad comportamental.

Para más información a este respecto puede consultar la Guía sobre el uso de las cookies de la Agencia Española de Protección de Datos.

Cookies utilizadas en la web

A continuación se identifican las cookies que están siendo utilizadas en este portal así como su tipología y función:

Todos los blogs de BlogsUGR utilizan cookies técnicas y propias, necesarias para la personalización de su experiencia de usuario y para el mantenimiento de sesión.

Algunos blogs de BlogsUGR pueden utilizar cookies de Twitter para personalizar la visualización de dicha red social en el blog.

Algunos blogs de BlogsUGR pueden utilizar Google Analytics, un servicio de analítica web desarrollada por Google, que permite la medición y análisis de la navegación en las páginas web. En su navegador podrá observar cookies de este servicio. Según la tipología anterior se trata de cookies  de terceros, de sesión y de análisis.

A través de esta analítica web se obtiene información relativa al número de usuarios que acceden a la web, el número de páginas vistas, la frecuencia y repetición de las visitas, su duración, el navegador utilizado, el operador que presta el servicio, el idioma, el terminal que utiliza y la ciudad a la que está asignada su dirección IP. Información que posibilita un mejor y más apropiado servicio por parte de este portal.

Para garantizar el anonimato, Google convertirá su información en anónima truncando la dirección IP antes de almacenarla, de forma que Google Analytics no se usa para localizar o recabar información personal identificable de los visitantes del sitio. Google solo podrá enviar la información recabada por Google Analytics a terceros cuanto esté legalmente obligado a ello. Con arreglo a las condiciones de prestación del servicio de Google Analytics, Google no asociará su dirección IP a ningún otro dato conservado por Google.