Primer dispositivo de AI de código abierto, nuevo desarrollo de Apple, clonación de voz: principales noticias de AI de la semana

Nuestro último resumen de AI cubre las noticias más importantes de AI de la semana. El líder comunitario de Anywhere Club, Aliaksei Kartynnik, comenta las historias claves.

IA03 abril 20242 min de lectura

En este articulo

#1 — Nuevo dispositivo de AI por Open Interpreter

— Los creadores de Open Interpreter han presentado su nuevo dispositivo O1 Light, que te permite controlar tu computadora a través de un asistente de AI. La empresa es conocida por organizar el mayor proyecto de código abierto para el lanzamiento local de varios LLMs y su interfaz. El proyecto ha evolucionado hasta volverse similar a un sistema operativo a gran escala que se ejecuta sobre el sistema operativo principal y que se puede usar para gestionar documentos, aplicaciones e incluso para escribir código. O1 Light permite que los usuarios interactúen con este sistema operativo mediante comandos de voz. El dispositivo solo está disponible en los Estados Unidos por u$100, pero todos los planos son de código abierto, por lo que los radioaficionados podrían intentar ensamblarlo por su cuenta. Bueno, tal vez sea el primer dispositivo de AI de código abierto en el mercado.

#2 — Apple se une a la carrera contra OpenAI

— En un nuevo artículo científico, los investigadores de Apple presentaron ReALM, un sistema de inteligencia artificial capaz de entender las tareas relacionadas con la pantalla, el contexto de la conversación y los procesos en segundo plano. Según el artículo, ReALM demuestra una alta precisión en todos los tipos de conjuntos de datos, superando al modelo GPT-3.5, especialmente en las tareas que le son nuevas. Según algunos datos, ReALM incluso supera a GPT-4. En esencia, este modelo podría convertirse en una piedra angular para la interfaz con iOS en futuras actualizaciones. Simplemente hay que decirle: “Siri, llama al número de la tarjeta de visita fotografiada en este sitio web”, y luego ReALM reconoce el número y se encarga del resto. Parece que Siri finalmente tiene una buena oportunidad de convertirse en un asistente inteligente.

#3 — Nuevo modelo de OpenAI para clonación de voz

— OpenAI presentó una versión preliminar de Voice Engine, un modelo que puede clonar la voz humana a partir de una muestra de audio de 15 segundos y generar un discurso natural. Sí, la clonación de voz no es algo completamente nuevo o sorprendente en estos días, ya que hemos visto trabajos similares de Meta y otras compañías en 2023. Sin embargo, aún no existen herramientas de acceso público que permitan una clonación de voz de alta calidad basada en una muestra tan corta. Según OpenAI, Voice Engine es capaz de retener el acento y las emociones del hablante original en el discurso generado. El acceso al modelo está limitado a unos pocos seleccionados, entre los cuales hay representantes de HeyGen, una compañía que se especializa en la producción comercial de avatares de video y clones de voz. Bueno, ¡estamos ansiosos por ver las nuevas ofertas de HeyGen!