Como criar uma voz de IA que soe como a sua com ElevenLabs

IA generativa e deepfakes foram profundamente integrados para desenvolver ferramentas de áudio avançadas. A ideia é simples: você pega um som e o manipula para que o modelo fale as palavras que você dá.

A tecnologia de fabricação de voz é considerada um dos desenvolvimentos mais proeminentes no mundo da tecnologia moderna, pois é possível criar uma voz artificial incrivelmente semelhante à voz humana usando instruções de texto. Entre as ferramentas e plataformas inovadoras que permitem alcançar esse feito impressionante está o ElevenLabs, que apresenta um nível de uso gratuito junto com algumas ótimas opções pagas.

Neste artigo, aprofundaremos como usar a tecnologia de síntese de voz com ElevenLabs e os benefícios que a acompanham. Analisaremos as principais etapas para a criação de áudio que pode ser útil em uma variedade de aplicações, desde áudio e publicidade até aplicativos de IA e aprendizado de máquina. Verificar A tecnologia imersiva é um ganho ou uma perda para a segurança cibernética?

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

O que é ElevenLabs?

A ElevenLabs foi fundada por um ex-engenheiro de aprendizado de máquina do Google e ex-estrategista da Palantir Technologies, uma empresa de pesquisa de tecnologia de voz. Um modelo de fala é um componente chave de sua estratégia, mas o objetivo final é criar uma ferramenta que “converta instantaneamente o áudio falado entre diferentes idiomas”.

ElevenLabs Voice AI é um modelo de conversão de texto em fala baseado em IA que pode criar uma voz humana com som realista. Seu site afirma:

“Nossa missão é tornar o suporte de voz multilíngue sob demanda uma realidade em educação, streaming, audiolivros, jogos, filmes e até mesmo bate-papo em tempo real.”

O Google Translate e suas alternativas são algo que já oferece valor, mas você consegue imaginar uma ferramenta que pode traduzir instantaneamente o que você ouve para a forma falada? Reproduzir a voz do locutor para que você ouça a conversa conforme ele a diz é um ponto de partida importante para conseguir isso.

O que é geração de som AI?

Descrita de forma simples, a geração de voz por IA permite capturar uma voz e fazê-la dizer o que você deseja que ouça. Basta escolher uma voz e fornecer o diálogo, e o modelo personalizado fará o resto.

Você pode dizer “bem, o Microsoft Sam estava fazendo isso nos anos XNUMX” e estaria absolutamente certo. Mas o Microsoft Sam e ferramentas semelhantes pareciam bots. Enquanto isso, a ferramenta da ElevenLabs parece muito mais próxima dos humanos.

ElevenLabs oferece três opções de IA de fala: suas vozes “predefinidas” totalmente gratuitas, seu gerador de voz de IA (permite escolher sexo, idade e sotaque) e vozes “clone” somente por assinatura que você pode baixar.

Aqui está um exemplo:

Aviso prévio: O uso de IA para fins criativos acarreta algumas responsabilidades éticas e de propriedade intelectual, e criar vozes com a ferramenta de fala de IA da ElevenLabs não é diferente. Resumindo, não use a voz de ninguém sem sua permissão. Embora isso não seja ilegal, eles podem ficar chateados com isso.

Antes de continuarmos, lembre-se de que, no momento em que este artigo foi escrito, a ferramenta de IA de fala da ElevenLabs estava em beta. Isso significa que não é o produto final. Verificar Explore projetos interessantes de IA que podem ser realizados usando um Raspberry Pi.

Crie diálogos básicos de IA

A maneira mais simples de começar é usar a ferramenta de fala gratuita e baseada em IA da ElevenLabs.

Para usá-lo, acesse beta.elevenlabs.io E crie uma conta (você pode usar seu e-mail, conta do Google ou Facebook).

Aqui estão os próximos passos:

  • Clique Síntese de fala.
  • Selecione uma das vozes predefinidas nas configurações (vozes masculinas e femininas estão disponíveis).
  • Expanda as configurações de som para definir os controles deslizantes Estabilidade e Clareza + Melhorar similaridade (maior estabilidade geralmente é monótona, maior clareza está mais próxima do som pretendido).

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

  • Escolher Onze Monolíngue (Inglês padrão).
  • Digite o texto que deseja converter em fala.
  • Clique Criar.

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

  • Assim que o processo for concluído, o som deverá tocar automaticamente; Caso contrário, clique تشغيل.

Você também pode baixar a amostra gerada.

Como criar voz AI com ElevenLabs

Se preferir criar uma nova voz, você pode usar o botão Adicionar voz para visitar a tela do VoiceLab. Para criar um novo som baseado nas predefinições do ElevenLabs:

  • Clique Adicionar som -> Design de som.

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

  • Defina os campos de sexo, idade e dialeto.
  • Ajuste o controle deslizante de intensidade do foco conforme desejado.
  • Digite o texto que deseja converter.
  • Clique Criar.

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

  • Quando terminar, ouça.

Durante os testes, descobri que tanto o sotaque feminino/jovem/australiano quanto o masculino/velho/australiano eram distintamente “americanos”. Este problema provavelmente será resolvido à medida que a tecnologia melhorar.

Crie sua própria voz de IA

Embora as opções predefinidas e configuráveis ​​sejam interessantes, o elemento realmente interessante da tecnologia ElevenLabs é a opção “Reprodução instantânea de voz”.

Ao contrário de outras opções, a Reprodução Instantânea de Voz requer uma assinatura. Existem várias opções disponíveis, sendo a mais barata US$ 5 por mês. No momento em que este artigo foi escrito, isso vinha com um desconto de 80% no primeiro mês, totalizando apenas US$ XNUMX.

Outras opções custam US$ 22, US$ 99 e US$ 330 por mês, com capacidade de gerar até 40 horas de áudio por mês.

Para usar a transcrição de voz do ElevenLabs, você precisará de alguns diálogos e uma amostra de sua voz. Qualquer coisa serve, desde que esteja claro e em formato MP3. Quanto mais longa a amostra, melhor, até 5 minutos.

Na tela do VoiceLab:

  • Clique Adicionar áudio -> Transcrição instantânea de áudio.
  • Na janela resultante, atribua um nome.
  • Clique ou arraste o arquivo apropriado para carregar a amostra de áudio (até 25 amostras podem ser adicionadas para melhorar a precisão).
  • Clique em Rótulos e selecione Chave + Valor (por exemplo, Sotaque/Britânico) — faça isso até 5 vezes.

Como criar uma voz de IA que soe como a sua com ElevenLabs - Inteligência Artificial

  • Insira uma breve descrição do áudio.
  • Marque a caixa de seleção Confirmar consentimento e adicione um som.

Com o áudio adicionado, você pode ajustá-lo na tela de síntese de fala conforme mencionado acima. Verificar Avaliando o uso da tecnologia de reprodução de som na criação de conteúdo em grande escala.

O que você pode fazer com voz de IA?

AI Voice possui muitas vozes predefinidas e reproduzidas com muitas possibilidades. Conforme mencionado anteriormente, o objetivo final do ElevenLabs é a tradução ao vivo, mas observou muitos outros usos.

Audiolivros (talvez lidos por uma estrela de cinema falecida) são mencionados, junto com videogames (usar uma voz de IA economizaria dinheiro para dubladores). Mas tem usos além disso, da música à sátira e à autoajuda, e talvez além disso.

Você também pode criar um podcast usando áudio AI, embora os resultados possam parecer monótonos e enfadonhos.

A introdução deste episódio de podcast realmente útil foi produzida com ElevenLabs:

Embora os resultados não tenham sido exatamente o que esperávamos, eles são bons o suficiente para serem usados ​​e a tecnologia só pode melhorar.

Enquanto isso, a ElevenLabs planeja lançar o recurso “Voice Chat” posteriormente.

perguntas comuns

Q1: Qual é a tecnologia para fabricação de sons?

A tecnologia de síntese de voz é uma tecnologia que utiliza inteligência artificial e técnicas de processamento de som para criar uma voz artificial que se assemelha à voz humana. Ele pode ser usado em uma variedade de aplicações, como áudio, publicidade e aplicações de inteligência artificial.

P2: O que é ElevenLabs e o que ele oferece?

ElevenLabs é uma plataforma avançada baseada em tecnologias de fabricação sólidas. Ele fornece aos usuários ferramentas poderosas para criar uma voz sintética que pode ser semelhante à sua voz pessoal. ElevenLabs ajuda você a personalizar sons e usá-los para diversos usos.

Q3: Como posso começar a usar o ElevenLabs?

Você pode começar facilmente registrando-se na plataforma ElevenLabs e explorando sua interface simples e amigável. Você terá a possibilidade de criar e personalizar sua própria voz sintética e utilizá-la em seu projeto.

Q4: Existem requisitos especiais para o uso de tecnologia de fabricação sólida?

Você não precisa de conhecimento técnico avançado para usar o ElevenLabs, mas é útil entender conceitos básicos sobre processamento de áudio e usar tecnologias básicas. Você encontrará a interface do usuário e as instruções fáceis de usar e ajudarão você a começar.

P5: Quais são algumas aplicações comuns da tecnologia de fabricação de som da ElevenLabs?

Os aplicativos populares incluem anúncios de áudio personalizados, serviços de voz personalizados e aplicativos de inteligência artificial que manipulam vozes sintéticas. ElevenLabs permite que os sons sejam personalizados para se adequarem com precisão ao seu projeto.

Use sua voz de uma nova maneira com IA da ElevenLabs

A Inteligência Artificial nos trouxe algumas novas ferramentas incríveis nos últimos anos. O Chat-GPT pode ser usado para gerar texto, responder perguntas, planejar relatórios e muito mais. Meio da jornada É um modelo incrível que gera arte baseada em afirmações.

Agora, a ferramenta Speech AI da ElevenLabs facilita o trabalho com voz. É como uma representação, mas com cópia do áudio original.

Embora existam argumentos éticos contra o uso de vozes sem consentimento, esta é uma ferramenta poderosa com alguns usos interessantes. O melhor de tudo é que é surpreendentemente fácil de usar e oferece resultados surpreendentes. Você pode ver agora O melhor gerador de arte AI para criar arte criativa a partir de fotos.

DzTech

Sou um engenheiro estadual com vasta experiência nas áreas de programação, criação de sites, SEO e redação técnica. Sou apaixonado por tecnologia e me dedico a fornecer informação de qualidade ao público. Posso me tornar um recurso mais valioso para usuários que procuram informações precisas e confiáveis ​​sobre análises de produtos e aplicações especializadas em diversos campos. Meu compromisso inabalável com a qualidade e a precisão garante que as informações fornecidas sejam confiáveis ​​e úteis para o público. A busca constante pelo conhecimento me leva a acompanhar os mais recentes desenvolvimentos tecnológicos, garantindo que as ideias compartilhadas sejam transmitidas de forma clara e acessível.
Ir para o botão superior