Alzado.org

Representación visual de datos I

Disponer de buenos datos sobre un tema, no garantiza automáticamente buenas decisiones. Los datos solo revelan su significado cuando son representados de manera adecuada.

Con una representación visual poco clara los oyentes desconfiarán del análisis y las conclusiones. Será difícil convencerlos aunque los datos sean inequívocos.

En este artículo tomamos ideas y ejemplos de Edward Tufte, un especialista en representación de datos.

El accidente del Challenger

En el accidente del Challenger los ingenieros no convencieron a los responsables de la peligrosidad del lanzamiento porque no mostraron de manera adecuada los datos de los que disponia.

La causa del accidente fue que ciertos componentes de los cohetes sufrían mayor desgaste a bajas temperaturas. El lanzamiento se efectuó en un día especialmente frío, con el resultado que todos conocemos.



El problema es que los ingenieros no demostraron claramente a los responsables del lanzamiento, que la baja temperatura había sido la causa del desgaste en lanzamientos anteriores.

Este gráfico creado por los ingenieros responsables de la fabricación del cohete no dejaba claro la relación entre daños en el cohete y baja temperatura.



No se asocia causa y efecto porque:

  • Los datos están ordenados según una variable no relevante, el orden temporal de los lanzamientos. Hubiera afectado si los cohetes fueran reutilizados, pero los cohetes eran siempre nuevos.
  • Dibujar pequeños cohetes solo distrae a la audiencia del análisis de los datos y dificulta su comprensión. Sobrecarga el gráfico.
  • Las temperaturas están escritas sentido vertical, lo que dificulta la lectura de un dato clave.
  • La leyenda no se muestra próxima a los datos lo que obliga a recordar el significado de cada trama.
  • La leyenda no es clara, el significado de cada trama no es obvio. Aunque podemos ver fácilmente un dato individual concreto, es imposible una percepción de conjunto que nos permita asociar baja temperatura a mayor desgaste de la pieza.
  • La leyenda original utilizada:




    Una buena leyenda por el contrario hubiera revelado esta relación de manera más clara. Leyenda modificada:


    Una ordenación por temperaturas (no temporal) hubiera dejado clara la relación entre baja temperatura y desgaste. En este gráfico ordenado por temperaturas, vemos como los mayores desgastes se acumulan en temperaturas más bajas, aunque el gráfico sigue incluyendo la mayoría de problemas comentados antes.



    Principios para la buena representación de datos:

    ¿Qué queremos mostrar?

    ¿Cuál es el objetivo de nuestra representación? Antes de plantear la forma que queremos dar a los datos, debemos tener claro que queremos mostrar.

    Nuestro objetivo puede ser mostrar como una variable explica las variaciones en otra. Otro objetivo puede ser alertar claramente cuando la evolución de un dato no es la prevista. Cada objetivo requiere de una representación distinta.

    Información que valga la pena

    Muestra solo información que sea interesante, no se debe mostrar información solo por el mero hecho de disponer de ella.

    Aumentar el volumen de información oscurece la información realmente relevante.

    Hacer comparaciones.

    Un dato no significa nada a menos que se compare con otro. Saber el volumen de las ventas de hoy no significa nada si no tenemos un dato anterior con el que compararlas.

    Pero cualquier comparación no es válida, la comparación debe aportar algo y tener en cuenta los ciclos, desviaciones, etc. que nos pueden llevar a engaño.

    Importancia de los ciclos

    Si tenemos ciclos semanales (dentro de la semana), no es válida una comparación con el día anterior, sino con la semana anterior. Si tenemos ciclos mensuales, deberemos comparar el dato con el mes anterior.

    Desviaciones + o –

    Cuando lo importante es monitorizar la evolución de unos datos, mostrar directamente el valor de la desviación sobre las previsiones o el mes anterior, permite ver de manera rápida el ajuste de los datos, sin necesidad de comparar el dato real con el previsto.

    De este modo la alerta salta rápidamente en caso de grandes desviaciones.

    Mostrar causalidad

    Es importante que quede clara cual es la razón de la variación en los datos, por eso se debe incluir en la representación la variable causante de estas variaciones.

    Mostar sólo variables puramente descriptivas no nos permite saber qué pasa y cuándo pasa, pero no por qué pasa.

    Mostrar tendencias

    Pequeñas variaciones diarias pueden esconder una tendencia. Introducir datos acumulados de cierto periodo nos muestra la tendencia general que siguen nuestros datos.

    Muchas variaciones diarias acentuadas pueden esconder una tendencia general al alza o a la baja. En estos casos esconder datos individuales ayuda a ver claramente la tendencia.

    Mostrar juntos datos relacionados

    Para facilitar las comparaciones los datos a comparar deben estar próximos. Si están separados por mucho espacio porque entonces hay que memorizar un dato mientras se busca el otro y la comparación no es tan evidente. La Ley de la Proximidad (Gestalt) explica este efecto.

    Otras ideas de Tufte:

    – Ratio datos/tinta (Tufte): relación entre el volumen de datos que contiene un gráfico y la tinta usada para dibujarlo. A ratio más alto, mayor calidad del gráfico, es decir, cuanto menos tinta, mayor simplicidad, mejor gráfico. Aplicado a la web, tinta podrían ser píxeles.

    – La más pequeña diferencia efectiva: se refiere a hacer todas las distinciones visuales tan sutiles como sea posible. Esto permite al gráfico contener más datos sin quedar recargado y difícil de leer.

    – No mostrar el "0" si no es relevante. Si el rango de datos está lejos de "0" y se incluye, el espacio donde los datos varían será más pequeño y será menos claro.

    Salir de la versión móvil