Este artículo es un resumen de los aspectos más destacables de usabilidad y diseño para interfaces de voz IVR (Interactive Vocal Response) impartidos durante un seminario organizado por Infospeech los pasados 7 y 8 de Abril. En el artículo se resumen, las características de este tipo de interfaces, las recomendaciones de diseño de menús, formularios y mensajes de error y la gestión del turno de palabra.

Tecnologías en interfaces de voz

En las interfaces de voz intervienen diversas tecnologías, las más frecuentes son:

Detección de tonos (DTMF):
El usuario oye una voz que le da las instrucciones y pulsa el teclado del terminal para escoger las opciones. El sistema reconoce la opción dada por el usuario a partir del tono pulsado.

Reconocimiento de voz (ASR):
El usuario oye una voz que le da las instrucciones y responde con la voz para escoger las opciones. El sistema reconoce lo que dice el usuario.

Síntesis de voz (TTS):
La voz que oye el usuario no está pregrabada, es voz sintetizada. �til para dar respuestas con valores variables.

Verificación de la persona que habla (SV):
Es la vertiente biométrica del reconocimiento de voz que permite reconocer a la persona a través de las características de su voz (no se trata en este artículo).

Causas de rechazo

La mayor parte de las veces no se trata de problemas tecnológicos sino de problemas usabilidad.

  • Los usuarios se pierden, no encuentran lo que necesitan.
  • No entienden cómo deben utilizar el sistema.
  • Los comportamientos inesperados del sistema.
  • Los errores continuos en el reconocimiento de la voz provocan fatiga y frustración.

Limitaciones de las interfaces de voz

Los puntos clave del diseño de las interfaces de voz son el tiempo y la memoria.

  • Falta de persistencia: la información se presenta y desaparece.
  • Falta de espacialidad: el usuario no dispone de un espacio "visual" que escanear.
  • La presentación es necesariamente secuencial.
  • Es un proceso lento comparado con otros estilos de interfaz.

Recomendaciones de diseño:

Principios generales:

  • Los menús no tienen que reproducir la estructura organizativa o departamental de la empresa (eso es genérico para cualquier tipo de interfaz, sea de voz o no).
  • Si el servicio tiene alguna restricción, es preciso avisar al usuario primero de todo. Por ejemplo, en un servicio de compra de entradas de fútbol, si se requiere que el usuario sea socio, es preciso avisarle antes de nada.
  • Proporcionar sólo la información que se necesita y de la forma más simple posible.
  • Diseñar para la mayoría de los usuarios evitando que tengan que recorrer opciones que sólo interesan a unos pocos.
  • Hacer que el sistema trabaje por el usuario, por ejemplo, no pidiendo el mismo dato varias veces y evitando preguntar información que el sistema puede conocer.
  • Ser consistente y no cambiar a menudo las opciones de los menús.

Saludo inicial:

  • Debe haber una bienvenida breve: buenos días, buenas tardes…
  • No repetirlo si en algún momento el usuario vuelve al inicio.
  • Es preciso evitar:
    o Mensajes promocionales: poner sólo si el usuario los puede encontrar justificados y, sobretodo, han que ser breves permitiendo acceder a la información en aquel mismo momento.
    o Tener que pulsar la tecla * para saber si el terminal es de tonos o no.
    o Remitir al usuario a otro servicio.

Menú principal:

  • El primer menú debe ser el principal a no ser que se tenga que pedirse identificación.
  • Máximo 20 segundos de duración toral contando el saludo inicial y el menú principal.

Identificación:

  • Pedir identificación sólo cuando sea necesaria.
  • Pedir el identificador más fácil de recordar: teléfono, DNI…
  • Aceptar que el usuario dé cadenas variables de dígitos (ex.: el DNI puede tener 7 u 8 dígitos) sin causarle un error.
  • Gestionar el final de la entrada de datos por medio de timeout, no solicitar ningún tecleo adicional.

Menús:

  • Debe estar provistos de una entradilla: título del menú que indica al usuario donde ha ido a parar y de qué tratan las opciones que escuchará.

    Ejemplo: "Información de mercados financieros"

  • Máximo 4 opciones por menú, si se utiliza la respuesta por tonos.
  • Máximo 5 opciones por menú, si se utiliza respuesta por reconocimiento de voz.
  • Máximo 3 pasos para hacer una tarea.
  • Poner las opciones de navegación al final de todo.
  • Las opciones de navegación recomendables son:
    o Volver atrás
    o Menú principal
    o Repetir
    o Ayuda (sólo si lo necesita la aplicación)
  • Si existe una opción de paso al operador, debe ser la última.
  • No hay que cortar nunca la comunicación si el usuario se equivoca. Es preciso dar caminos alternativos.
  • Ordenar las opciones de las más específicas a las más generales. Por ejemplo:

    Orden incorrecto:
    Noticias
    Deportes
    Economía

    Orden correcto:
    Deportes
    Economía
    Noticias

  • En menús de reconocimiento de voz, no repetir las opciones:

    Incorrecto:
    Para deportes, diga deportes.
    Para economía, diga economía.
    Para noticias, diga noticias.

    Correcto:
    Por favor, elija una opción:
    Deportes
    Economía
    Noticias

Preguntas Sí/No:
Se usan para recuperar errores y para confirmar acciones.

  • Hay que tener presente que en español los sistemas de reconocimiento de voz dan bastantes problemas para reconocer el Sí, por lo que siempre que sea posible, se evitará el uso de preguntas Sí/No.
  • Tienen que ser preguntas directas que induzcan a decir de forma natural sólo Sí o No:
  • Incorrecto:
    Por favor, confirme si su DNI es: XXXXXXXX

    Correcto:
    DNI: XXXXXXXX. ¿Es correcto?

  • Debe ser una única pregunta, no dos en una.
  • Si además de la pregunta hay texto informativo, poner la pregunta al final de la frase.

    Ejemplo: Para obtener más información sobre las condiciones del contrato, ¿desea que pase la llamada a un agente?

  • No abusar de este tipo de preguntas:

    o Evitar concatenaciones de preguntas Si/No.
    o Es mejor utilizar expresiones específicas en lugar de preguntas Sí/No.

    Ejemplo: Si quiere cancelar la suscripción diga: dar de baja.

Tratamiento de errores

Errores detectados por el sistema:
Son los causados por respuestas del usuario que el sistema no entiende o bien cuando el usuario de queda callado.

  • No culpar nunca al usuario.

    Ejemplo: hable más alto, hable más claro…

  • Explicarle qué ha sucedido.

    Ejemplo: Perdone, no le he entendido, inténtelo de nuevo.

  • Reformular la pregunta: ampliando la información o proporcionando algún ejemplo.

    Ejemplo: Diga la fecha de caducidad, por ejemplo, octubre de 2006.

  • Si es preciso, pediremos al usuario que nos de la respuesta a través de los tonos.

Errores de sustitución y falsa aceptación
Se trata de los errores que puede cometer el usuario al escoger una opción equivocada.

  • Para prevenir que estos errores puedan ser graves, es preciso que, en función de la criticidad de la aplicación, se pida confirmación y se permita cambiar de opción.
  • Confirmación explícita: cuando se le pide al usuario que confirme la acción que se está apunto de hacer. La aplicación no avanza sin un Sí o un No.

    Ejemplo: Por favor, confirme ¿quiere cambiar su tarifa?

  • Confirmación implícita: se avisa al usuario de lo que está haciendo el sistema a partir de lo que éste ha entendido y le permite el cambio de opción.

    Secuencia de ejemplo:
    Usuario: Correos nuevos
    Sistema: Recuperando correos antiguos
    Usuario: No, los nuevos
    Sistema: Perdone, ¿Desea pasar a los correos nuevos?
    Usuario: Sí
    Sistema: Recuperando correos nuevos

  • Confirmación interna: se aprovechan procesos internos para obtener la confirmación. Por ejemplo, el hecho de pedir una contraseña, ya supone una confirmación.
  • Sin confirmación: cuando el error que se puede producir no es importante. Aun así, la entradilla del paso siguiente también ayuda al usuario a saber si la opción que ha pedido es la correcta.

Turnos de palabra

Mecanismos de cesión del turno:

  • Por el significado del texto de la opción:

    Ejemplo: Diga el número de vuelo que desea reservar.

  • Inflexión:

    Ejemplo: ¿Código postal?

  • Con una pausa.
  • Es importante colocar la información clave de la frase al final, ya que los usuarios tienden a comenzar a hablar una vez la oyen, solapándose con la voz del sistema.
  • Ser generoso con el tiempo de espera que dejamos para que el usuario responda.

Agradecimientos

Debo agradecer a Infospeech las facilidades prestadas para la publicación de este artículo.

Entradas relacionadas

Deja un comentario