Cualquiera que haya visto Her de Spike Jonze en su idioma original asociará inmediatamente con Scarlett Johannson a Sky, una voz creada para ChatGPT. No solo el personaje, sino el propio timbre es muy parecido. Aunque fue publicada ya en diciembre pasado, la voz de la IA se convirtió últimamente en el símbolo de la última versión del modelo lingüístico de OpenAI, GPT-4o, que se hizo oficial hace unos días. Los vídeos en los que se oye al chatbot conversar con naturalidad y, hasta cierto punto, coquetería con los usuarios humanos obligaron a la comparación con la película. Sin embargo, para evitar problemas, OpenAI ha decidido retirar a Sky de ChatGPT.
Aunque hasta la fecha no se tiene constancia de que Scarlett Johansson haya emprendido acciones legales contra OpenAI, la actriz estadounidense ya lo hizo hecho en el pasado reciente contra una app llamada Lisa AI: 90s Yearbook & Avatar, que había utilizado su rostro y su voz de forma indebida. Por tanto, la medida de la empresa dirigida por Sam Altman es probablemente preventiva, para evitar futuros problemas. «Creemos que las voces de la IA no deben imitar deliberadamente el timbre distintivo de ninguna celebridad», reza un post en el blog oficial de la empresa. «Sky no es una imitación de Scarlett Johansson, sino que se deriva de las voces de varias actrices profesionales». En resumen, según OpenAI, se trata sólo de una coincidencia fortuita.
OpenAI no reveló las identidades de los actores y actrices que participaron en el desarrollo (las otras voces de IA se llaman Breeze, Cove, Ember y Juniper), pero afirmó que la paga era generosa y muy superior a la media del mercado. Por otra parte, el proyecto será a largo plazo, ya que la interacción en tiempo real a través del lenguaje natural será cada vez más frecuente. Ciertamente, en su corta vida, la voz de Sky facilitó el sugerente paralelismo entre GPT-4o y Her, ayudando a OpenAI a llegar a la audiencia mundial de su nueva criatura lista para debutar en todo el mundo.
El algoritmo es capaz de reconocer y procesar información en audio, texto e imágenes. La compañía promete que los agentes de servicio al cliente digitales que lo adopten podrán interpretar la intención y entonación de las consultas, identificar objetos, entregar información detallada sobre elementos del mundo real, resolver problemas matemáticos y establecer conversaciones más naturales. Además, ChatGPT ahora funcionará como un asistente de traducción en tiempo real.
Artículo publicado originalmente en WIRED Italia, adaptado por Manuel de León.