A inteligência artificial generativa tem se concentrado, predominantemente, em interfaces baseadas em texto que permitem a geração de textos, imagens e muito mais. No entanto, a próxima fase está se aproximando rapidamente, com um foco crescente em vozes. Em um recente anúncio, o Google informou que integrará o modelo Chirp 3, que oferece conversão de fala em texto e texto em fala de alta definição, à sua plataforma de desenvolvimento Vertex AI a partir da próxima semana.
Na semana passada, a gigante da tecnologia revelou, de forma discreta, que o Chirp 3 estará lançando oito novas vozes, suportando 31 idiomas. As aplicações dessa plataforma são variadas, como na construção de assistentes de voz, criação de audiolivros, desenvolvimento de agentes de suporte e dublagens para vídeos. O anúncio foi feito durante um evento nas escritórios da DeepMind, em Londres.
Esse movimento do Google ocorre em um momento em que outras empresas também estão avançando rapidamente em suas iniciativas de IA vocal. Por exemplo, a startup Sesame, que é responsável pelos populares aplicativos de IA “Maya” e “Miles”, anunciou a disponibilização de seu modelo para que desenvolvedores criem aplicativos e serviços personalizados utilizando sua tecnologia.
É importante ressaltar que o Chirp 3 terá algumas restrições de uso para tentar prevenir possíveis abusos. "Estamos apenas trabalhando em alguns desses aspectos com nossa equipe de segurança", comentou Thomas Kurian, CEO do Google Cloud, durante um evento de imprensa hoje.
O ElevenLabs se destaca entre as grandes startups que levantaram centenas de milhões em financiamento para expandir suas operações em serviços de voz baseados em IA.
Com a integração do Chirp 3, ele se junta a versões mais recentes do modelo de linguagem principal do Google, o Gemini, que estão em fase de testes, assim como ao modelo de geração de imagens Imagen e à ferramenta de geração de vídeos, a Veo 2, que tem um custo elevado.
Ainda não se sabe se o que o Google está lançando com o Chirp 3 será tão "realista" quanto algumas das outras iniciativas de IA voltadas para a criação de vozes "humanas", especialmente considerando os avanços da Sesame. Porém, Demis Hassabis, CEO da DeepMind, enfatizou que essa é uma corrida de longa duração, e não uma disputa rápida.
“A curto prazo… essa ideia de que [IA] é uma solução para tudo nos próximos anos, eu não vejo isso acontecendo tão cedo. Acredito que ainda estamos bastante distantes de algo como AGI”, destacou. “As coisas vão mudar... ao longo da próxima década, então o médio e longo prazo. É um desses momentos interessantes no tempo.”
O Google lançou a Vertex AI em 2021, como uma plataforma para desenvolvedores que buscam construir serviços de aprendizado de máquina na nuvem. Isso ocorreu bem antes do grande interesse em IA, especialmente em IA generativa, que foi impulsionado pela introdução dos serviços GPT da OpenAI.
Desde então, a empresa tem se aprofundado na Vertex AI, em parte para acompanhar concorrentes como Microsoft e Amazon, que também estão desenvolvendo ferramentas de IA generativa para desenvolvedores. Além de construir tecnologias generativas com base no Gemini, os desenvolvedores podem usar a Vertex AI para classificar dados, treinar modelos e preparar modelos para produção. Resta saber se o Google continuará a expandir sua plataforma para incluir modelos além daqueles criados internamente.
O Google tem desenvolvido seus serviços de voz "Chirp" há anos, começando com a utilização do nome como código para seus esforços iniciais para competir com o serviço Alexa da Amazon.
Webcam Full HD Logitech C920s com Microfone Embutido e Proteção de Privacidadepara Chamadas e Gravações em Video Widescreen 1080p - Compatível com LogitechCapture
R$ 350,00
De R$ 430,00
Vendido na Amazon