1. Que es un log y partes que lo componen.
El log de visitas es una fuente de información que debemos tener presente para valorar el rendimiento de nuestro site asà como
el extraer información sobre nuestros productos. El log nos dará información sobre que información están solicitando los usuarios, que información
les resulta más interesante, cuando la necesitas, rutas de información…
Es muy importante que esta fuente de información este accesible por todos los departamentos en un formato sencillo de entender y fácil
de usar. Es esencial que la comunicación entre los departamentos (o individuos) que tienen la información del log y aquellos que la pueden
necesitar sea fluida para no desaprovechar la riqueza de información que se puede extraer del log.
Técnicamente el "log de visitas" es un archivo creado por el servidor donde se registran las acciones que los usuarios generan en la web.
El archivo en bruto presenta un formato bastante espeso y su tamaño puede ser un problema a la hora de manejarlo (un log de
20.000 visitas puede pesar 3 megas).
-
Ejemplo de linea de un log:
200.66.196.132 – – [03/Mar/2002:23:59:20 +0100] "GET /directorio/16.html HTTP/1.1" 304 – "http://www.dominio.com/directorio/index.html" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"
El formato de los logs varia dentro de cada servidor y dentro de cada servidor de la configuración del mismo.
Cada vez que se produce una llamada a un archivo dentro de nuestra web, el servidor escribirá una linea como esta. Cada visita, cada HTML,
cada imagen dentro de ese HTML generara una linea. Es esta "redundancia" de información lo que hace que el log sea bastante difÃcil de manejar
en bruto.
Explicación de cada elemento dentro del log | |
200.66.196.132 | I.P. del usuario (numero de identificación del ordenador desde el que el usuario accede) |
– | Usuario – para sites con identificación |
– | Password |
[03/Mar/2002:23:59:20 +0100] | Fecha |
"GET /directorio/16.html HTTP/1.1" | Archivo pedido |
304 | ID de contestación (2xx es OK | 3xx son de redirección | 4xx son de autentificación | 5xx son de errores de servicio) |
– | Numero de bytes enviados |
"http://www.dominio.com/ directorio/index.html" |
página desde la que se pide el archivo |
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Información sobre versión del navegador, terminal del usuario… |
2. Como extraer información. Excel puede ser un primer paso muy útil.
Extraer información de un log de visitas en crudo usando una herramienta como excel no es fácil y presenta muchos problemas, pero nos puede ayudar a
entender mejor como funciona el proceso de representación de un log.
- Un primer paso es eliminar la información "redundante". Las peticiones de gráficos, hojas de estilo, flash… pueden tener su utilidad, pero
para analizar el trafico de nuestra web los documentos "HTML" serán la referencia valida. Eliminado las lineas que no nos interesan, el tamaño
del archivo se puede reducir hasta x6 (un archivo de 20 megas paso a 3 eliminando las lineas de información "no útil"). Al final de
este artÃculo se incluyen enlaces a programas que nos pueden ayudar a limpiar el log. - Teniendo un archivo limpio, podemos importarlo en Excel. A la hora de abrir un log, Excel presenta un "wizard" que nos
ayudara a tabular la información creando un documento con la información separada por celdas. Excel presenta una limitación de unas 65,000 filas. - Dentro de Excel ordenaremos la información para extraer conclusiones sobre nuetro log.
Resultados que se obtienen ordenado el log. | ||
Si ordenamos por… | … obtenemos | |
200.66.196.132 | I.P. del usuario | numero de usuarios únicos, rutas de dicho usuarios, páginas de salida… |
– | Usuario – para sites con identificación | Numero de usuarios registrado frente a usuari anónimos, ratio de conversión… |
– | Password | Numero de errores a la hora de introducir el password, longitud de password preferida… |
[03/Mar/2002:23:59:20 +0100] | Fecha | Fechas con más visitas, duración de la visita (combinado con el IP), identificación geográfica (global) de los visitantes… |
"GET /directorio/16.html HTTP/1.1" | Archivo pedido | páginas más vistas – si lo combinamos con IPs sacamos las rutas. |
304 | ID de contestación (2xx es OK | 3xx son de redirección | 4xx son de autentificación | 5xx son de errores de servicio) | Errores de peticiones, movimiento de archivos… |
– | Numero de bytes enviados | EnvÃo total de datos (transferencia), El tiempo de visita se puede ver afectado por el peso de los archivos solicitados. |
"http://www.dominio.com/ directorio/index.html" |
página desde la que se pide el archivo | que páginas están dirigiendo el trafico, que enlaces dentro de que páginas son los más usados, resultado de búsquedas (internos y externos), páginas externas con enlaces a nuestro site… |
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Información sobre versión del navegador, terminal del usuario… | EstadÃstica sobre versiones, target real del site… |
La idea de abrir un log en crudo requiere dedicación y algo de tiempo, pero nos ayudara a entender de forma más clara la información que estamos
manejando y como pedir los resultados que realmente nos ayudaran a mejorar nuestro site.
Como alternativa siempre podemos disponer de alguna aplicación de análisis de logs. Disponibles en una amplia gama (gratuitos, de pago, caros, baratos,
buenos, malos….) el uso de estas herramientas suele requerir algo de dedicación para poder extraer los datos en un formato que nos
ofrezca resultados validos. Por lo general todos los fabricantes ofrecen un tiempo de prueba o versiones demo con lo que podemos comparar antes de
comprar. Al final de este artÃculo se ofrecerán algunas recomendaciones.
3. Que hacer con los resultados. Presentación de datos, pruebas, confirmar teorÃas.
Para valorar los resultados de nuestro log, debemos comparar. Lo más normal es comparar los datos de forma interna viendo la evolución
en el tiempo (comparando el numero de visitas mes a mes, numero de páginas vistas, duración de las visitas). Esta comparación nos dará
una idea sobre la evolución del site, como cambios en la portada pueden afectar al numero de páginas vistas, reducción del peso del site
y la evolución de tiempo de permanencia, etc…
A la hora de comparar debemos seleccionar elementos que presenten equivalencias. A parte de comparar valores absolutos en distintos periodos de tiempo,
debemos ser capaces de comparar los resultados de páginas similares. páginas de menú, fichas de producto, formularios… deben ser extraÃdas del log
para ver información sobre el tiempo de permanencia, siguente página, página de referencia, etc… Esta comparación
resultara más sencilla cuanto más homogéneo sea nuestro site (ya que podremos aislar las variables). Un ejemplo sencillo de comparación es
crear X plantillas de resultados de búsquedas, lanzar las páginas en el site y estudiando el log identificar virtudes y debilidades
en los diferentes modelos.
Otra forma de utilizar el log es para monitorizar campañas. Comprobar la eficacia de una oferta, comparación de productos… el log es una
fuente de información valida para poder realizar test de forma rápida y económica en el desarrollo de productos. Al ser información que se colecta
sin ser solicitada de forma directa, presenta algo más de validez que datos recogidos bajo formularios o encuestas.
El ser capaz de representar los datos de forma comprensible para nuestra audiencia es un paso muy importante para mostrar la validez del sistema
y poder justificar el desarrollo de esta fuente de información.
- Usar capturas de pantalla. Un problema que tienen los programas que analizan los logs es que no enlazan de forma visual los resultados
con las pantallas de nuestra web. Para ello, a la hora de presentar los resultados se deben usar capturas de pantalla y gráficas de tal forma que
se puedan ver las modificaciones en la web y el resultado que han generado. - Información visual. En anteriores artÃculos hemos explicado como utilizar gráficas para mejorar la representación de datos. Ahora
tenemos la fuente de información idónea para crear representaciones que ayudaran a entender y analizar las mejoras y cambios dentro de
nuestro web asà como de la información expuesta.
Ejemplo de representación de un path. Los path de un usuario a través de nuesta web son difÃciles de identificar y representar. Creando un frame con "thumbnails" con las páginas vistas durante la visita indicando el tiempo de estancia en cada página y enlazando estos thumbnails a la página real (en el frame inferior) podemos crear un sistema bastante sencillo que presenta la información de forma clara y útil ya que cualquier persona puede recrear la visita del usuario. |
|
Comparación de menús. A la hora de comparar modelos, debemos ser capaces de enlazar la información con el producto. En este ejemplo se representan los hits en cada enlace a modo de gráfica de tarta.
Antes de lanzar una campaña nacional, un test en la web te |
- Distribuir la información de forma "publica". Ya sea a través de la intranet o en memos, es importante que el personal involucrado
en el proyecto conozca los datos del log de visitas. También es importante explicar la validez de los datos y que información se puede extraer de
ellos. Diferente departamentos pueden encontrar nuevas utilidades (conocer que puestos de trabajo son los más vistos, preguntas más
frecuentes…), debe servir como incentivo y objetivo.
4. El análisis de log no es una ciencia exacta (pero se acerca).
Como todo método de recogida de información el log presenta una tolerancia en su precisión. El principal problema que tiene el
log es que nos puede dar menos visitas de las que realmente se están produciendo. La cache (del navegador
o del servidor proxy) harán que múltiples visitas cuenten como una única vista y que movimientos de avance y retroceso puedan no quedar
registrados en el log.
El otro problema es el no poder contar con la velocidad de conexión del usuario. Al no tener esta referencia, el tiempo de conexión se convierte en
un parámetro algo incierto. Del tiempo de conexión, cuanto se dedica a la bajada de datos y cuanto a tiempo de lectura? DifÃcil de adivinar, pero
de nuevo la comparación nos deberÃa dar algún indice sobre el que poder crear una referencia.
Estos problemas están comentados de forma precisa en este artÃculo.
5. Agradecimientos y algunos enlaces de interés.
Agradecimientos a Colman López por su ayuda a la hora de preparar este artÃculo y a Jose Manuel Suárez y Jeff Miller por la información aportada.
Enlaces de interés:
http://usability.gov/serverlog/index.html
http://www.microsoft.com/usability/webconf/fuller/fuller.htm
– http://www.analog.cx/docs/webworks.html. Errores comunes a la hora
de leer un log de visitas. Un tono algo negativo.
– http://www.infovis.net/Revista/num_65.htm. artÃculo dentro de
infovis.net sobre visualización de logs.
http://directory.google.com/Top/Computers/Software/Internet/Site_Management/Log_Analysis/
http://www.acm.org/archives
Ver opiniones.