Tras una cirugía para extirparle un tumor cerca del cerebro, una paciente llamada Lexi Bogan, de 22 años y de Rhode Island, se despertó con sus cuerdas vocales dañadas. Los médicos del hospital le propusieron probar una nueva plataforma llamada Voice Engine y creada por OpenAI, la misma del ChatGPT.
Utilizando un video de 15 segundos que Lexi había hecho en su secundaria, la plataforma ahora le permite a ella escribir algo en su teléfono y leerlo instantáneamente en voz alta con su propia voz. Incluye risas y otros gestos, algo difícil para los sistemas de prótesis y otros dispositivos electro laríngeos comunes.
¿Usted está en el sector de hotelería? Jurny es una startup de inteligencia artificial (IA) que ayuda a administradores de propiedades (incluyendo a empresas o propietarios de hospedajes comercializados mediante Airbnb y Booking.com) a automatizar desde las reservas hasta los precios. El asistente responde a preguntas “informadas y precisas”. Sus clientes se quintuplicaron en un dos por tres y llegó a procesar más de $35 millones en reservas en poco tiempo.
LEA MÁS: Atrapados en la monotonía de su negocio o trabajo: vea cómo la inteligencia artificial le ayuda
Esos son dos ejemplos de lo que la IA y la inteligencia artificial generativa (IAGen) pueden hacer. Pero la semana pasada no estuvo convulsionada por este tipo de anuncios. Para quienes siguen un día sí y otro también los avances de esta tecnología, los últimos dos días fueron los más agotadores que viajar a Disneyworld con 15 sobrinos.
Los lanzamientos de OpenAI, de Google y el anuncio de que Apple está tanteando a una y a otra para renovar su Siri y entrar de lleno en el juego, se vieron empañados con el anuncio de que la primera deshizo su equipo de riesgo de IA a largo plazo, el cual se formó en 2023 para protegerse contra los riesgos existenciales planteados por esta tecnología en el futuro.
La decisión de dejar de tener este equipo independiente ocurrió después de la salida del cofundador y científico jefe de OpenAI, Ilya Sutskever, tras su participación en el intento fallido de derrocar al CEO, Sam Altman, y la renuncia del investigador Jan Leike, quien dijo en X que “la cultura y los procesos de seguridad pasaron a un segundo plano frente a los productos brillantes”.
¿Qué anunciaron OpenAI y Google?
Vamos con OpenAI
Si el primer día más importante de la IA fue el 30 de noviembre de 2022, cuando se lanzó comercialmente el ChatGPT, el segundo fue el 14 de marzo del 2023 (con el lanzamiento de ChatGPT-4) y el tercero fue el 13 de mayo recién pasado con el lanzamiento de ChatGPT-4o (Omni).
—El ChatGPT-4o sería una IA más rápida, eficiente, intuitiva, inteligente y multimodal hasta el momento, un todoterreno.
—Estará disponible de forma gratuita para todos como aplicación de escritorio pronto.
—Los usuarios de ChatGPT+ tendrán prioridad en GPT-4o con un uso 5 veces mayor.
—¿Qué es multimodal? Este nuevo ChatGPT viene con un coeficiente intelectual más alto.
Eso le da capacidad para hablar como si se estuviera conversando con una persona (no en forma robótica), pues captura tono, lenguaje y expresiones en tiempo real. ¡Hasta canta!
O puede funcionar como un traductor en tiempo real entre dos personas (lo que me sugiere que un anuncio sobre un programa de inglés en línea tendrá que actualizarse).
LEA MÁS: OpenAI lanza GPT-4o, la inteligencia artificial con nuevas capacidades de producción y comprensión
Las reseñas indican que en la nueva aplicación de escritorio, el modo de voz “será excelente” para escenarios que se explican mejor verbalmente que escritos.
No se queda ahí. También, la aplicación ve como una persona. O ve más que una persona (al menos en mi caso, con miopía y astigmatismo): el ChatGPT-4o tiene visión 20/20 en vivo.
¿En qué puede ayudar?
—Puede guiar a un presentador a través de una ecuación matemática que había escrito en una hoja de papel, analizar una página web llena de código y luego describir patrones climáticos a partir de un gráfico de temperaturas promedio.
—Puede comunicarse en diferentes estilos, desde hiperexpresivo hasta cantarín y robótico.
—Puede tomar una fotografía o una captura de pantalla y sugerir ajustes si está borrosa al insertarla en una presentación de Powerpoint o en un diseño.
—Puede guiarlo a uno a través de instrucciones visuales paso a paso para instalar o configurar productos.
—Puede reconocer las emociones humanas, incluido el tono de la voz de alguien, sus patrones de respiración y sus expresiones faciales.
—Puede generar múltiples gráficos y análisis en un solo mensaje con GPT-4o.
Tan simple como elegir la aplicación del menú desplegable en la parte superior de la pantalla, adjuntar una hoja de cálculo en el cuadro de chat (anonimizando los datos confidenciales), dele la instrucción (algo así como: “Analice esta hoja de cálculo. Realice un análisis técnico y estadístico profundo al respecto. Generar gráficos y visualizaciones”), haga clic derecho en los gráficos para guardarlos.
—Y puede recopilar la información en un PDF.
OpenAI dijo que GPT-4o es el doble más rápido y 50% más barato que GPT-4 Turbo.
Vamos con Google
Bueno, en realidad Alphabet, la firma omnipresente dueña de Google. Apenas OpenAI anunció todo eso, Alphabet salió respondón y reveló nuevos avances de su tecnología de AIGen denominada Gemini.
Alphabet anunció que la nueva versión Gemini 1.5 Pro permite:
—Cargar 1.500 páginas de texto y llegar a Gemini Advanced (que cuesta 20 dólares al mes).
—Resumir o dictar documentos grandes.
—Descubrir hechos oscuros enterrados en montones de texto con una precisión del 99%.
—Integración con las aplicaciones de oficina para generar resúmenes y respuestas de Gmail, encontrar información y compilar líneas de tiempo a partir de fotografías, y crear gráficos y analizar datos en las hojas de cálculo, por ejemplo.
—Integrar información de todas las aplicaciones (por ejemplo, podrá crear una base de datos con recibos recopilados de su bandeja de entrada)
—El prototipo del Proyecto Astra de Alphabet puede recibir información sobre tu entorno en tiempo real y ayudar con diversas tareas, desde descifrar códigos hasta hallar las gafas perdidas o adivinar en qué ciudad te encuentras. Además, procesa video también.
—Alphabet anunció actualizaciones para su último generador de fotografías con IA, Imagen 3, además de un nuevo competidor de video de Sora conocido como Veo y está en pruebas un creador musical.
LEA MÁS: Google ofrecerá resultados generados con IA en su motor de búsqueda: ¿cómo lo hará?
—Rapidez: Gemini 1.5 Flash es una versión más ágil y eficiente para clientes que dan prioridad a la velocidad (por ejemplo, una empresa que diseña un chatbot de servicio al cliente).
—Crear un GPT personalizado: Gemini cuenta con una nueva característica llamada Gems que permite crear un GPT personalizado y diseñado específicamente para el objetivo que se requiere (por ejemplo, un entrenador de carreras con IA motivador o un gurú de la gramática que brinde consejos de escritura).
—Teléfonos con IA: los teléfonos inteligentes con el sistema operativo Android se están integrando aún más con Gemini, incluidas algunas funciones exclusivas: se actualiza Circle to Search (la herramienta que permite rodear un objeto con el dedo para obtener más información sobre él), traducción de texto, identificación productos y resolución de ecuaciones matemáticas (¡ojo profes!).
—El chatbot Gemini Live puede mantener conversaciones naturales en tiempo real con el usuario.
—Integración con las búsquedas: genera más resúmenes en las búsquedas, facilitando obtener información o descripciones detalladas. Y este anuncio hace pensar a los SEO, medios y empresas que pagan publicidad en Google. ¿Por qué? Veamos.
Actualmente usted hace una búsqueda y tiene que lidiar con la maleza de anuncios y spam que se destacan por encima de la información que uno busca. ¡Es tedioso, cierto?
Con la IA, en lugar de un bombardeo de anuncios y spam, el buscador le entrega a uno un resumen al instante. ¿Y dónde queda el negocio de Alphabet o de Google o de Alphabet-Google?
Las reseñas predicen una combinación del resumen generado por IA y de anuncios. A las empresas y medios eso obligará a una mayor y mejor optimización de sus contenidos para obtener más visibilidad.
Algunos expertos esperan caídas entre 20% y 60% en el tráfico para los sitios web.
Al parecer, Google no será el único en aplicar la IA para los buscadores. El rumor es que OpenAI tiene en proceso su propia plataforma de búsquedas impulsada por IA.
Los más optimistas dicen que los usuarios, en lugar de buscar en las páginas de resultados de búsqueda, recibirán respuestas específicas y detalladas directamente. Para las empresas será un rompecabezas. Y esto que apenas estaban recuperándose de la eliminación de las cookies.
La semana se completó con otros anuncios:
—PolyAI, una startup de Londres que construye asistentes de voz con inteligencia artificial para centros de llamadas, obtuvo una valoración de casi $500 millones después de cerrar nueva financiación por $50 millones.
—Sona, la plataforma de gestión de personal de primera línea, recaudó $27,5 millones en una ronda de financiación Serie A.
—Weka, que se especializa en la creación de canales de datos para proyectos de IA, recaudó $140 millones en una ronda de financiación Serie E liderada por Valor Equity Partners.
—Rad AI, que ayuda a los radiólogos a completar informes de manera más eficiente, recaudó $50 millones en una ronda de financiación Serie B.
—Sonio, la startup francesa de ultrasonido con IA, fue adquiridad por Samsung Medison, la división de dispositivos médicos de Samsung, por casi $93 millones.
Los anuncios siguen a ritmo frenético. Y seguirán. Pronto necesitaremos que los futuros buscadores de Google o de OpenAI con inteligencia artificial nos den los resúmenes.
Como me dijo una investigadora de una farmaceútica ubicada en Costa Rica: “Es tanta información, que sin inteligencia artificial sería imposible procesarla”.