Decenas de millones de personas usan altavoces inteligentes y su software de voz para jugar juegos, encontrar música o rastrear en busca de trivialidades y es por eso que Amazon.com Inc. emplea a miles de personas en todo el mundo para ayudar a mejorar el asistente digital Alexa que alimenta su línea de parlantes Echo.

El equipo escucha las grabaciones de voz capturadas en los hogares y oficinas de los propietarios de Echo. Las grabaciones se transcriben, se anotan y luego se devuelven al software como parte de un esfuerzo por eliminar las brechas en la comprensión de Alexa del lenguaje humano y ayudarlo a responder mejor a los comandos.

El proceso de revisión de voz de Alexa, descrito por siete personas que han trabajado en el programa, destaca el rol humano que a menudo se pasa por alto en la formación de algoritmos de software.

En los materiales de marketing, Amazon dice que Alexa “vive en la nube y siempre se está volviendo más inteligente”. Pero al igual que muchas herramientas de software creadas para aprender de la experiencia, los humanos están haciendo algo de la enseñanza.

Conversación constante

El equipo está compuesto por una combinación de contratistas y empleados de tiempo completo de Amazon que trabajan en puestos de avanzada de Boston a Costa Rica, India y Rumania, según la gente, que firmó acuerdos de no divulgación que les impiden hablar públicamente sobre el programa.

Trabajan nueve horas al día, y cada revisor analiza hasta 1,000 clips de audio por turno, según dos trabajadores de la oficina de Amazon en Bucarest, que ocupa los tres pisos superiores del edificio Globalworth en la prometedora capital de Rumania.

Las modernas instalaciones se destacan en medio de la infraestructura desmoronada y no tienen ningún letrero exterior que anuncie la presencia de Amazon.

El trabajo es sobre todo mundano. Un trabajador de Boston dijo que extrajo datos de voz acumulados para expresiones específicas como “Taylor Swift” y los anotó para indicar que el buscador se refería al artista musical.

De vez en cuando, los oyentes recogen cosas que los propietarios de Eco probablemente preferirían permanecer en privado: una mujer que canta mal en la ducha, por ejemplo, o un niño que grita por ayuda.

Los equipos utilizan salas de chat internas para compartir archivos cuando necesitan ayuda para analizar una palabra confusa o para encontrar una grabación divertida.

La tarea

A veces escuchan grabaciones que encuentran molestas, o posiblemente criminales. Dos de los trabajadores dijeron que recogieron lo que creen que fue un asalto sexual. Cuando algo así sucede, pueden compartir la experiencia en la sala de chat interna como una forma de aliviar el estrés.

Amazon dice que hay procedimientos establecidos para que los trabajadores los sigan cuando escuchan algo preocupante, pero dos empleados con sede en Rumania dijeron que, después de solicitar orientación para tales casos, se les dijo que no era tarea de Amazon interferir.

“Tomamos en serio la seguridad y privacidad de la información personal de nuestros clientes”, dijo un portavoz de Amazon en un comunicado enviado por correo electrónico. “Solo anotamos una muestra extremadamente pequeña de las grabaciones de voz de Alexa para mejorar la experiencia del cliente. Por ejemplo, esta información nos ayuda a entrenar nuestros sistemas de reconocimiento de voz y de lenguaje natural, para que Alexa pueda comprender mejor sus solicitudes y garantizar que el servicio funcione bien para todos.

“Tolerancia cero”, asegura Amazon

“Tenemos estrictas garantías técnicas y operativas, y tenemos una política de tolerancia cero para el abuso de nuestro sistema. Los empleados no tienen acceso directo a la información que puede identificar a la persona o cuenta como parte de este flujo de trabajo. Toda la información se trata con alta confidencialidad y utilizamos la autenticación de múltiples factores para restringir el acceso, el cifrado del servicio y las auditorías de nuestro entorno de control para protegerlo”.

Amazon, en sus materiales de política de marketing y privacidad, no dice explícitamente que los humanos están escuchando las grabaciones de algunas conversaciones recogidas por Alexa.

“Usamos sus solicitudes a Alexa para capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural”, dice la compañía en una lista de preguntas frecuentes.

En la configuración de privacidad de Alexa, Amazon ofrece a los usuarios la opción de desactivar el uso de sus grabaciones de voz para el desarrollo de nuevas funciones. La compañía dice que las personas que optan por no participar en ese programa aún pueden hacer que sus grabaciones se analicen en forma manual durante el proceso de revisión. Una captura de pantalla revisada por Bloomberg muestra que las grabaciones enviadas a los revisores de Alexa no proporcionan el nombre completo ni la dirección del usuario, sino que están asociadas con un número de cuenta, así como el nombre y el número de serie del dispositivo.

Condicionamientos

“No necesariamente piensa que otro ser humano esté escuchando lo que le está diciendo a su orador inteligente en la intimidad de su hogar”, dijo Florian Schaub, un profesor de la Universidad de Michigan que ha investigado temas de privacidad relacionados con los oradores inteligentes. “Creo que hemos estado condicionados a la suposición de que estas máquinas solo están haciendo el aprendizaje de la máquina mágica. Pero el hecho es que todavía hay procesamiento manual involucrado”.

“Si eso es un problema de privacidad o no, depende de cuán cautelosos sean en Amazon y otras compañías en cuanto al tipo de información que han anotado manualmente y cómo presentan esa información a alguien”, agregó.

Cuando el Echo debutó en 2014, el altavoz inteligente cilíndrico de Amazon popularizó rápidamente el uso de software de voz en el hogar. En poco tiempo, Alphabet Inc. lanzó su propia versión, llamada Google Home, seguida por HomePod de Apple Inc.

Demanda en ascenso

Varias compañías también venden sus propios dispositivos en China. Según el investigador Canalys, los consumidores compraron 78 millones de altavoces inteligentes el año pasado. Millones más usan software de voz para interactuar con asistentes digitales en sus teléfonos inteligentes.

El software de Alexa está diseñado para grabar continuamente fragmentos de audio, escuchando una palabra de alerta. Eso es “Alexa” de forma predeterminada, pero la gente puede cambiarlo a “Echo” o “computadora”.

Cuando se detecta la palabra de activación, el anillo de luz en la parte superior del Echo se vuelve azul, lo que indica que el dispositivo está grabando y transmitiendo un comando a los servidores de Amazon.

La mayoría de los sistemas modernos de reconocimiento de voz se basan en redes neuronales modeladas en el cerebro humano. El software aprende sobre la marcha, al detectar patrones en medio de vastas cantidades de datos.

Los algoritmos que impulsan el Echo y otros altavoces inteligentes utilizan modelos de probabilidad para realizar conjeturas informadas. Si alguien le pregunta a Alexa si hay un lugar griego cerca, los algoritmos saben que el usuario probablemente está buscando un restaurante, no una iglesia o centro comunitario.

Lee también: Dos estudiantes habrían estafado a Apple con iPhones falsos

Pero a veces Alexa se equivoca, especialmente cuando se enfrenta a una nueva jerga, coloquialismos regionales o idiomas distintos del inglés. En francés, “con su” o “con ella” puede confundir el software para que piense que alguien está usando la palabra de alerta de Alexa.

La palabra “hecho”, español para un hecho o hecho, a veces se malinterpreta como eco. Y así. Es por eso que Amazon reclutó ayudantes humanos para llenar los vacíos que los algoritmos no detectaron.

Siri de Apple también tiene ayudantes humanos, que trabajan para evaluar si la interpretación de las solicitudes del asistente digital se alinea con lo que dijo la persona. Las grabaciones que revisan carecen de información de identificación personal y se almacenan durante seis meses vinculados a un identificador aleatorio, según un documento de seguridad de Apple. Después de eso, los datos se eliminan de su información de identificación aleatoria, pero se pueden almacenar por períodos más largos para mejorar el reconocimiento de voz de Siri.

En Google, algunos revisores pueden acceder a algunos fragmentos de audio de su Asistente para ayudar a capacitar y mejorar el producto, pero no está asociado con ninguna información de identificación personal y el audio está distorsionado, según la compañía.

Con información de Bloomberg

 

Siguientes artículos

Antel se adelanta y lanza la primera red 5G de América Latina en Uruguay
Por

Hace tres meses en La Vegas, José Otero, vicepresidente para América Latina de 5G Americas, platicó con Forbes México so...