OpenAI ha lanzado un modo de voz, Midjourney 6.1 se ha vuelto aún más realista y FLUX.1, de código abierto, ya es sensación en la generación de contenidos multimedia — las 3 noticias sobre IA más importantes de la semana
Nuestro último Resumen de IA cubre las noticias más importantes de la semana. El líder de la comunidad Anywhere Club, Viktar Shalenchanka, comenta las noticias clave.
#1 — OpenAI encuentra su voz
OpenAI ha empezado a concederles acceso a su modo avanzado de voz basado en GPT-4o a un grupo limitado de usuarios con suscripción al ChatGPT Plus. El acceso se expandirá a todos los usuarios Plus en otoño. La versión que se lanzó oficialmente se corresponde exactamente con la demo: el modelo es capaz de suspirar, reproducir sonidos, mantener una conversación con facilidad, percibir el estado emocional de su interlocutor y tener en cuenta esas emociones a la hora de formular respuestas. Un modo de voz realista y fácilmente accesible podría aumentar el interés y la participación en esta tecnología.
#2 — Midjourney 6.1 es aún más realista
Midjourney, líder en generación de imágenes mediante inteligencia artificial, ha lanzado de forma sorpresiva la versión 6.1, uno de los modelos más fotorrealistas. Esta versión mejora el renderizado de manos, personas y animales, aumenta la velocidad de generación de imágenes en un 25 % y mejora el detalle de los pequeños objetos de fondo. La versión 6.2 está prevista para septiembre.
#3 — El nuevo FLUX.1 puede competir con Midjourney 6 y Stable Diffusion XL
Black Forest Labs, fundado recientemente por antiguos empleados de Stability AI, ha presentado su modelo de código abierto FLUX.1, parte de su suite de modelos de texto a imagen para generar contenidos multimedia. Puede desplegarse localmente. Según las pruebas comparativas, FLUX.1 se acerca al nivel de Midjourney 6 y podría superar a Stable Diffusion XL. En el anuncio pueden verse ejemplos de generaciones.