Alexa, por favor salva al mundo

Los niños de hoy crecerán pensando que un teclado es una herramienta antediluviana como un ábaco o una mantequera, la cual podrían encontrar solo porque está clavada a la pared de un TGI Fridays.

La voz está apoderándose de la manera en que interactuamos con la tecnología e introducimos palabras. En realidad, se suponía que se haría cargo hace mucho tiempo. De vuelta en 1998, escribí una columna para USA Today diciendo que “la tecnología de reconocimiento del habla ya parece lista para cambiar el mundo”, aunque también señalé que cuando traté de decir “dos tornamesas y un micrófono” en el más reciente y grandioso software de reconocimiento del habla, este pensó que dije algo como “dos torneadas mesas y un microbio tono”. Resultó que eso fue 20 años demasiado pronto.

Pero la tecnología funciona ahora. Microsoft, Google, Amazon, IBM, Baidu de China y un puñado de compañías incipientes han acometido intensamente para construir software de inteligencia artificial que puede entender el habla matizada y responder coherentemente. A finales del año pasado, Microsoft dijo que su tecnología de reconocimiento del habla había alcanzado el entendimiento humano. Su “índice de error de palabra” se redujo a 5.9 por ciento, más o menos lo mismo que la gente que había transcrito la misma conversación, y mucho mejor que el índice de error de palabra en cualquier conversación entre un padre y su hijo adolescente.

La tecnología de reconocimiento del habla de Google está aprendiendo idiomas humanos a un ritmo veloz. En agosto añadió 30 nuevos, incluidos el azerbaiyano y el javanés, poniendo el total en 119. La tecnología Watson de IBM se ha vuelto bien conocida por interactuar con humanos; probablemente has visto el comercial que muestra a Watson hablando con Bob Dylan. Está bien, es un anuncio. Pero incluso suponer que una máquina pueda entender lo que Dylan dice es revolucionario.

Las compañías están alineándose para estar listas para un raudal de comercio impulsado por el habla. La razón principal por la cual Amazon quiere meter a Alexa a tu hogar es para que te acostumbres a comprar con solo hablarle a la cosa. En agosto, Google y Walmart anunciaron una sociedad que les permitirá a los usuarios del dispositivo Google Home usar el habla para comprar directamente del minorista más grande del mundo. “Estamos tratando de ayudar a los clientes a comprar de maneras que quizás nunca han imaginado”, dijo Marc Lore, director ejecutivo de Walmart eCommerce U.S. (Lore se unió a Walmart cuando éste compró al minorista en línea que él fundó, Jet.com.) Entre todos los minoristas, la compra con bot de charla mediante aplicaciones como WeChat, Kik y Hipmunk es lo más moderno. La mayoría de los bots de compras de hoy día están basados en texto, pero están moviéndose hacia el habla. Según ComScore, la mitad de todas las búsquedas serán búsquedas de voz para 2020, y la búsqueda es el primer paso de la mayoría de los clientes al comprar.

Desde que Apple introdujo Siri en 2011, hemos llegado a esperar que nuestros teléfonos y aplicaciones entiendan consultas habladas, lo cual es un logro poco apreciado y monumental después de tantísimas décadas de intentarlo. Es como el punto de inflexión en la década de 1910, cuando la gente empezó a esperar que los aeroplanos en realidad volarían. IBM demostró la primera máquina con reconocimiento de voz, llamada Shoebox, en la Feria Mundial de 1962 en Seattle. El dispositivo podía entender 16 palabras: los números del cero al nueve e instrucciones como “más” y “menos”. Para hacerte saber que te entendió, Shoebox simplemente haría la operación e imprimiría el resultado.

En la década de 1970, la rama de investigación de las fuerzas armadas de EE UU, la Agencia de Proyectos Avanzados de Investigación de la Defensa (o DARPA, por sus siglas en inglés), financió un programa enorme de reconocimiento del habla que llevó el total de palabras entendidas por una máquina hasta 1,000; todavía lejos de ser práctica, pero más o menos el equivalente del vocabulario de nuestro actual presidente. En la década de 1980, James Baker, profesor en la Universidad Carnegie Mellon, cofundó Dragon Systems, basada en su investigación de reconocimiento del habla. En 1990, el primer producto de consumo para tomar dictado de Dragon costaba $9,000 dólares y más que nada solo frustró a los usuarios. En 1998, cuando pasé por IBM Research para revisar el progreso en el campo, el reconocimiento del habla todavía no era lo bastante bueno para el uso cotidiano.

¿Por qué la tecnología se ha hecho súbitamente tan buena? La arremetida desde 2007 de dispositivos móviles y computación en la nube ha permitido que centros enormes de datos operados por gigantes como Google y Amazon aprendan el idioma de cientos de miles de millones de conversaciones de todo el mundo. Cada vez que usted le pregunta algo a un Alexa o un Watson, el sistema aprende un poco más sobre cómo la gente dice las cosas. Como el software puede aprender, nadie tiene que perforar la información sobre cada palabra de jerga o acento. El software seguirá mejorando y pronto entenderá nuestra habla mejor que un humano típico.

Y eso podría cambiar radicalmente al mundo. Comprar podría ser una aplicación temprana, pero la tecnología incluso puede alterar la manera en que pensamos. Un par de generaciones aprendieron a pensar con un teclado y un ratón, una experiencia táctil. “El proceso creativo es cambiado”, me dijo un ejecutivo de Dragon llamado Joel Gould por allá de 1998, anticipando cambios. “Tendrás que aprender a pensar con tu boca”. De cierta manera, nos está regresando a la manera en que nuestros cerebros estaban diseñados para trabajar, la manera en que la gente pensó y creó por miles de años antes de las plumas, las máquinas de escribir y los procesadores de texto. Homero no necesitó teclear para fabular La Ilíada.

En un mundo de procesamiento del habla, el analfabetismo ya no será una barrera para una vida decente. Google está añadiendo vigorosamente idiomas de naciones en desarrollo porque ve un camino hacia consumidores que nunca pudo tocar: los 781 millones de adultos quienes no pueden leer ni escribir. Con solo hablarle a un teléfono barato, esta porción de la población podría hacer cosas básicas como suscribirse a servicios sociales, obtener una cuenta bancaria o por lo menos ver videos de gatos.

La tecnología también afectará las cosas de maneras raras y pequeñas. Un ejemplo: en una conferencia hace no mucho tiempo, escuché al director de Amazon Music, Steve Boom, hablar del impacto que tendrá Alexa en la industria. Las nuevas bandas empiezan a percatarse de que deben tener un nombre que la gente pueda pronunciar, al contrario de MGMT y Chvrches. Cuando me acerqué a mi Alexa y le pedí que tocara “Chu-ver-ches”, se rindió y tocó “Pulling Muscles From the Shell” de Squeeze.

De hecho, por buena que sea la tecnología hoy, todavía tiene mucho que aprender sobre contexto. Le pregunté a Alexa: “¿Qué es ‘dos tornamesas y un micrófono’?” En vez de responder con algo sobre Beck, ella solo dijo: “Hmm, no estoy segura”. Pero por lo menos no me señaló el microbio tono más cercano.

—

Publicado en cooperación con Newsweek / Published in cooperation with Newsweek