Google запустил бесплатный генератор речи с Audio Tags

Компания Google объявила о запуске новой бесплатной модели синтеза речи — Gemini 3.1 Flash TTS. Этот инструмент доступен для использования через платформу Google AI Studio и предлагает возможности, которые ранее были доступны только в платных сервисах или у конкурентов, таких как ElevenLabs. Новая модель поддерживает более 70 языков, включая русский, и способна генерировать аудио высокого качества с естественной интонацией и выразительностью.

Ключевые возможности новой модели

Главным преимуществом Gemini 3.1 Flash TTS является поддержка Audio Tags — специальных метатегов, которые позволяют пользователю управлять звучанием голоса в реальном времени. Например, добавив в текст тег [cough], можно заставить голосового синтезатора имитировать кашель в нужном месте. Также модель умеет реагировать на паузы, смех и другие звуковые эффекты, что делает озвучку более живой и подходящей для подкастов, аудиокниг и видеоконтента.

По данным разработчиков, качество речи новой модели превосходит показатели популярных коммерческих решений. Это достигается за счёт использования передовых нейросетевых архитектур и обучения на огромных массивах аудиоданных. Google также оптимизировала модель для работы в облаке, что позволяет генерировать аудио быстро и без необходимости установки сложного программного обеспечения.

Бесплатный доступ: модель доступна всем пользователям Google AI Studio без подписки.
Многоязычность: поддержка более 70 языков, включая акцентированную русскую речь.
Управление эмоциями: возможность задавать интонацию, паузы и звуковые эффекты через текст.
Высокое качество: чистое аудио без артефактов, характерных для старых синтезаторов.

Инструмент уже доступен по ссылке https://aistudio.google.com/generate-speech?model=gemini-3.1-flash-tts-preview. Разработчики отмечают, что модель особенно полезна для создателей контента, которые хотят озвучивать видео, подкасты или книги без участия дикторов. Использование Audio Tags открывает новые возможности для сценаристов и звукорежиссёров, позволяя создавать сложные звуковые композиции прямо в текстовом редакторе.

Запуск бесплатного генератора речи от Google может изменить подход к созданию аудиоконтента. В отличие от платных аналогов, этот инструмент снимает финансовые барьеры для независимых авторов и стартапов. Если вы планируете записывать подкаст или озвучивать видео, стоит попробовать Gemini 3.1 Flash TTS — возможно, именно он станет вашим новым основным инструментом.

Google запустил бесплатный генератор речи с уникальными функциями

Ключевые возможности новой модели

Читайте также

Источники

Комментарии

Оставить комментарий