Как создать голос ИИ, который будет звучать как ваш собственный, с помощью ElevenLabs

Генеративный искусственный интеллект и дипфейки были глубоко интегрированы для разработки передовых аудиоинструментов. Идея проста: вы берете звук и манипулируете им так, чтобы модель произносила те слова, которые вы ей даете.

Технология изготовления голоса считается одним из самых выдающихся достижений в мире современных технологий, поскольку с помощью текстовых подсказок можно создать искусственный голос, невероятно похожий на человеческий. Среди инновационных инструментов и платформ, которые позволяют вам достичь этого впечатляющего результата, — ElevenLabs, который имеет бесплатный уровень использования наряду с некоторыми отличными платными опциями.

В этой статье мы подробно расскажем о том, как использовать технологию синтеза голоса с ElevenLabs и о преимуществах, которые она дает. Мы рассмотрим ключевые шаги по созданию аудио, которое может быть полезно в различных приложениях: от аудио и рекламы до приложений искусственного интеллекта и машинного обучения. Проверять Являются ли иммерсивные технологии выигрышем или проигрышем для кибербезопасности?

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

Что такое ElevenLabs?

ElevenLabs была основана бывшим инженером по машинному обучению в Google и бывшим стратегом в Palantir Technologies, исследовательской компании в области голосовых технологий. Речевая модель является ключевым компонентом ее стратегии, но конечная цель — создать инструмент, который «мгновенно преобразует разговорный звук между разными языками».

ElevenLabs Voice AI — это модель преобразования текста в речь на основе искусственного интеллекта, которая может создавать реалистично звучащий человеческий голос. На его сайте указано:

«Наша миссия — сделать реальностью многоязычную голосовую поддержку по запросу в сфере образования, потокового вещания, аудиокниг, игр, фильмов и даже чата в реальном времени».

Google Translate и его альтернативы уже представляют ценность, но можете ли вы представить себе инструмент, который может мгновенно переводить то, что вы слышите, в устную форму? Воспроизведение голоса говорящего так, чтобы вы могли слышать разговор так, как он говорит, является важной отправной точкой на пути к достижению этой цели.

Что такое генерация звука ИИ?

Проще говоря, генерация голоса с помощью искусственного интеллекта позволяет вам уловить голос и заставить его говорить то, что вы хотите, чтобы он услышал. Просто выберите голос и озвучьте диалог, а все остальное сделает собственный шаблон.

Вы можете сказать: «Ну, Microsoft Sam делал это в XNUMX-х», и вы будете абсолютно правы. Но Microsoft Sam и подобные инструменты выглядели как боты. Между тем, инструмент ElevenLabs выглядит гораздо ближе к человеку.

ElevenLabs предлагает три варианта речевого искусственного интеллекта: совершенно бесплатные «предустановленные» голоса, генератор голосов искусственного интеллекта (позволяет выбирать пол, возраст и акцент) и «клонированные» голоса, доступные только по подписке, которые вы можете загрузить.

Вот пример:

Уведомление: Использование ИИ в творческих целях сопряжено с некоторыми этическими обязанностями и ответственностью за интеллектуальную собственность, и создание голосов с помощью речевого инструмента искусственного интеллекта ElevenLabs не является исключением. Короче говоря, не используйте чей-либо голос без его разрешения. Хотя это не является противозаконным, они могут быть расстроены этим.

Прежде чем мы продолжим, помните, что на момент написания статьи инструмент речевого искусственного интеллекта ElevenLabs находится в стадии бета-тестирования. Это означает, что это не конечный продукт. Проверять Узнайте об захватывающих проектах искусственного интеллекта, которые можно реализовать с помощью Raspberry Pi..

Создайте базовый диалог ИИ

Самый простой способ начать — использовать бесплатный речевой инструмент ElevenLabs, управляемый искусственным интеллектом.

Чтобы использовать его, перейдите в beta.elevenlabs.io И создайте учетную запись (вы можете использовать свою электронную почту, учетную запись Google или Facebook).

Вот следующие шаги:

  • Нажмите Синтез речи.
  • В настройках выберите один из предустановленных голосов (доступны мужские и женские голоса).
  • Разверните «Настройки звука», чтобы установить ползунки «Стабильность» и «Четкость + усиление сходства» (более высокая стабильность обычно монотонна, более высокая четкость — ближе к желаемому звуку).

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

  • выберите Одиннадцать Одноязычный (Стандартный английский).
  • Введите текст, который вы хотите преобразовать в речь.
  • Нажмите построить.

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

  • После завершения процесса звук должен воспроизводиться автоматически; Если нет, нажмите трудоустройство.

Вы также можете скачать сгенерированный образец.

Как создать голос искусственного интеллекта с помощью ElevenLabs

Если вы предпочитаете создать новый голос, вы можете использовать кнопку «Добавить голос», чтобы перейти на экран VoiceLab. Чтобы создать новый звук на основе пресетов ElevenLabs:

  • Нажмите Добавить звук -> Звуковое оформление.

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

  • Задайте поля пола, возраста и диалекта.
  • Отрегулируйте ползунок силы фокусировки по желанию.
  • Введите текст, который вы хотите преобразовать.
  • Нажмите построить.

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

  • Когда закончишь, слушай.

В ходе тестирования я обнаружил, что как женский/молодой/австралийский, так и мужской/старый/австралийский акценты были явно «американскими». Эта проблема, вероятно, будет решена по мере совершенствования технологий.

Создайте свой собственный голос с искусственным интеллектом

Хотя предустановленные и настраиваемые параметры интересны, по-настоящему захватывающим элементом технологии ElevenLabs является опция «Мгновенное воспроизведение голоса».

В отличие от других опций, для мгновенного воспроизведения голоса требуется подписка. Доступно несколько вариантов, самый дешевый — 5 долларов в месяц. На момент написания это дает скидку 80% на первый месяц, что составляет всего XNUMX доллар.

Другие варианты стоят 22, 99 и 330 долларов в месяц с возможностью создания до 40 часов аудио в месяц.

Чтобы использовать транскрипцию голоса ElevenLabs, вам понадобится диалог и образец вашего голоса. Подойдет все, что угодно, лишь бы это было четко и в формате MP3. Чем длиннее образец, тем лучше, до 5 минут.

На экране VoiceLab:

  • Нажмите Добавить аудио -> Мгновенная транскрипция аудио.
  • В появившемся окне присвойте имя.
  • Щелкните или перетащите соответствующий файл, чтобы загрузить аудиосэмпл (для повышения точности можно добавить до 25 сэмплов).
  • Нажмите «Ярлыки» и выберите «Ключ + значение» (например, Accent/British) — повторите это до 5 раз.

Как создать голос ИИ, который будет звучать как ваш, с помощью ElevenLabs - Искусственный интеллект

  • Введите краткое описание аудио.
  • Установите флажок «Подтвердить согласие», а затем «Добавить звук».

После добавления звука вы можете настроить его на экране синтеза речи, как указано выше. Проверять Оценка использования технологии воспроизведения звука при создании масштабного контента.

Что вы можете сделать с помощью голоса AI?

AI Voice имеет множество предустановленных и воспроизведенных голосов с множеством возможностей. Как упоминалось ранее, конечной целью ElevenLabs является живая трансляция, но у компании есть и множество других применений.

Аудиокниги (возможно, прочитанные давно умершей кинозвездой) упоминаются наряду с видеоиграми (использование голоса ИИ позволит сэкономить деньги на актерах озвучивания). Но у него есть и другие применения: от музыки до сатиры и самопомощи, а возможно, и за его пределами.

Вы также можете создать подкаст, используя AI-аудио, хотя результаты могут показаться плоскими и скучными.

Вступление к этому эпизоду подкаста Really Helpful было создано с помощью ElevenLabs:

Хотя результаты оказались не совсем такими, на которые мы надеялись, они достаточно хороши для использования, и технология может стать только лучше.

Между тем, ElevenLabs планирует позднее внедрить функцию «Голосовой чат».

Общие вопросы

В1: Какова технология изготовления звуков?

Технология синтеза голоса — это технология, которая использует искусственный интеллект и методы обработки звука для создания искусственного голоса, напоминающего человеческий голос. Его можно использовать в различных приложениях, таких как аудио, реклама и приложения искусственного интеллекта.

Вопрос 2: Что такое ElevenLabs и что он предлагает?

ElevenLabs — это передовая платформа, основанная на надежных производственных технологиях. Он предоставляет пользователям мощные инструменты для создания синтетического голоса, который может быть похож на их личный голос. ElevenLabs помогает вам настраивать звуки и использовать их для различных целей.

Вопрос 3: Как мне начать использовать ElevenLabs?

Вы можете легко начать, зарегистрировавшись на платформе ElevenLabs и изучив ее простой и удобный интерфейс. Вы получите возможность создать и настроить свой собственный синтетический голос и использовать его в своем проекте.

В4: Существуют ли особые требования для использования надежных технологий производства?

Чтобы использовать ElevenLabs, вам не нужны глубокие технические знания, но полезно понять основные понятия обработки звука и использовать базовые технологии. Пользовательский интерфейс и инструкции просты в использовании и помогут вам начать работу.

Вопрос 5: Каковы наиболее распространенные применения технологии производства звука ElevenLabs?

Популярные приложения включают персонализированную аудиорекламу, персонализированные голосовые услуги и приложения искусственного интеллекта, которые манипулируют синтетическими голосами. ElevenLabs позволяет настраивать звуки так, чтобы они точно соответствовали вашему проекту.

Используйте свой голос по-новому с искусственным интеллектом от ElevenLabs

За последние несколько лет искусственный интеллект принес нам несколько удивительных новых инструментов. Chat-GPT можно использовать для создания текста, ответов на вопросы, планирования отчетов и многого другого. Середина пути Это удивительная модель, которая создает искусство, основанное на утверждениях.

Теперь инструмент Speech AI от ElevenLabs упрощает работу с голосом. Это похоже на подражание, но с копией оригинального звука.

Хотя существуют этические аргументы против использования голосов без согласия, это мощный инструмент с некоторыми интересными вариантами применения. И самое главное, он удивительно прост в использовании и дает потрясающие результаты. Теперь вы можете просмотреть Лучший генератор искусства AI для создания творческого искусства из фотографий.

Перейти к верхней кнопке