Нейросети и ИИ👁 0

Поделиться

TelegramВКонтакте

Разрабы TikTok представили SeedAudio 1.0 для клонирования речи и диалогов

ByteDance выпустила SeedAudio 1.0 — модель для клонирования речи с поддержкой диалогов, картинок и трех источников обучения. Доступна на Fal.ai.

Марина Волкова

Марина Волкова

Редактор и аналитик в сфере технологий. Пишет о нейросетях, компьютерном зрении и применении ИИ в бизнесе.

Разрабы TikTok представили SeedAudio 1.0 для клонирования речи и диалогов

Битва за голосовой клонинг: почему TikTok бьет ElevenLabs

Компания ByteDance, известная всем как создатель TikTok, выпустила новую модель SeedAudio 1.0, которая позиционируется как серьезный конкурент для лидера индустрии ElevenLabs. Разработчики обещают не просто пересказывать текст, а создавать полноценные диалоги с несколькими персонажами, каждый из которых будет звучать уникально. Это важный шаг, так как ранее такие модели часто выдавали монотонную речь или путали голоса в сценах с несколькими говорящими.

Три источника для идеального голоса

Главная фишка новой модели — возможность загружать сразу три источника для обучения. Раньше нейросети требовали сотни часов аудио, чтобы уловить нюансы. Теперь SeedAudio способна скопировать голос, эмоции и стиль речи, анализируя всего три примера. Это снижает порог входа для разработчиков и энтузиастов, которые хотят создать свой голосовой ассистент или дубляж без огромных затрат на сбор данных.

Модель умеет генерировать речь тремя способами:

  • По текстовому промпту: вы пишете сценарий, и ИИ подбирает голос.
  • По аудиореференсу: вы загружаете образец речи, и модель учится имитировать интонацию.
  • По картинке: самое интересное. Загрузив изображение персонажа, ИИ подберет голос, соответствующий его внешности и «вайбу».

Технические детали и доступ

Модель доступна через платформу Fal.ai, где можно протестировать её возможности. В отличие от закрытых API гигантов, здесь можно увидеть, как модель справляется с генерацией диалогов. Разработчики подчеркивают, что модель обучена на огромном массиве данных, что позволяет ей избегать типичных артефактов, когда голоса персонажей в диалоге начинают звучать одинаково.

Технически SeedAudio 1.0 использует подход, близкий к диффузионным моделям, но адаптированный для аудио. Это позволяет ей не просто подражать, а творчески интерпретировать запрос, добавляя звуковые эффекты, если это требуется по промпту. Например, можно попросить добавить звук шагов или фоновый шум, соответствующий сцене.

Как это использовать прямо сейчас

Если вы планируете делать подкасты, игры или обучающие видео, стоит зайти на страницу модели на Fal.ai и протестировать демо. Загрузите свои образцы речи и попробуйте сгенерировать диалог между двумя персонажами. Обратите внимание на то, насколько естественно звучит переход от одного голоса к другому. Это может сэкономить вам часы работы над озвучкой, особенно если у вас нет бюджета на работу с профессиональными дикторами.

Читайте также

#SeedAudio#ByteDance#ElevenLabs#клонирование голоса#генерация речи#AI аудио#Fal.ai#TikTok AI

Комментарии

Пока нет комментариев. Будьте первым!

Оставить комментарий

0/2000