Первое опенсорсное ИИ-устройство, новая разработка Apple, клонирование голоса — 3 топ-новости недели об AI
В свежем Ай-яй-яй AI дайджесте — самые яркие инфоповоды AI за неделю. Комментирует главное лидер комьюнити Anywhere Club Алексей Картынник.
Новость #1 — Новое AI-устройство от Open Interpreter
— Создатели Open Interpreter показали свое новое устройство O1 Light, которое позволяет управлять вашим компьютером через ИИ-ассистента. Компания знаменита тем, что создала крупнейший опенсорсный проект для локального запуска разнообразных LLM и взаимодействия с ними. Проект разросся до практически полномасштабной операционной системы, работающей поверх основной ОС, и с ее помощью можно управлять документами, приложениями и даже писать код. O1 Light позволяет взаимодействовать с этой операционкой голосом. Заказать устройство можно только в США за 100 долларов, но все чертежи лежат в открытом доступе, потому каждый радиолюбитель может попробовать собрать его самостоятельно. Пожалуй, это первое опенсорсное ИИ-устройство на рынке.
Новость #2 — Apple включается в гонку с OpenAI
— В новой научной статье исследователи Apple представили ReALM — систему искусственного интеллекта, способную понимать экранные задачи, контекст разговора и фоновые процессы. Если верить статье, ReALM демонстрирует высокую точность на всех типах датасетов, превосходя модель GPT-3.5, особенно в новых для нее задачах. По некоторым данным, ReALM даже опережает GPT-4. По сути, эта модель может стать основой для взаимодействия с операционной системой iOS в ее будущих обновлениях. Вы просто говорите: «Сири, позвони по номеру из визитки на фото на сайте», — а дальше ReALM распознает номер и сделает все за вас. Кажется, у Сири наконец есть все шансы стать умным ассистентом.
Новость #3 — Новая модель от OpenAI для клонирования голоса
— OpenAI представила предварительную версию Voice Engine — модели, которая может клонировать человеческий голос из 15-секундного аудиообразца и генерировать естественную речь. Да, клонирование голоса на сегодняшний день не нечто новое и удивительное, ведь мы видели похожие работы от Meta и других компаний в 2023 году. Однако в публичном доступе пока нет инструментов, позволяющих делать качественное клонирование по столь короткому образцу. По заверениям OpenAI, Voice Engine способна сохранять акцент и эмоции оригинального диктора в сгенерированной речи. Доступ к модели пока есть у ограниченного круга лиц, в том числе и у представителей компании HeyGen, которая занимается коммерческим созданием видеоаватаров и голосовых клонов. Что ж, ждем новых возможностей у HeyGen!