
Embora grande parte da inteligência artificial atual seja focada em texto, o mercado caminha rapidamente para o uso de interfaces de voz.
A integração da fala surge como o próximo grande salto na experiência do cliente, especialmente em fluxos complexos, como a regulação de sinistros.
No entanto, adotar essa tecnologia no Brasil traz um enorme desafio técnico e cultural. Precisamos de sistemas de reconhecimento de voz (ASR) que entendam a nossa informalidade, a fala espontânea e, principalmente, a vasta diversidade de sotaques do país.
Além disso, o português brasileiro é cheio de palavras com o mesmo som, mas significados diferentes, os chamados homófonos. Isso exige que a IA compreenda o contexto para não errar em dados críticos, como números e termos de contratos.
Para descobrir qual inteligência artificial realmente dá conta desse recado, nosso time de Pesquisa e Desenvolvimento (P&D) conduziu um estudo aprofundado testando os melhores modelos do mercado.
O objetivo é descobrir qual deles entrega a melhor precisão, a maior velocidade e o melhor custo-benefício para a nossa língua, e vamos detalhar os principais resultados da pesquisa ao longo deste artigo.

A escolha do modelo ideal de inteligência artificial não se resume a "qual entende melhor". A pesquisa concluiu que o sucesso de um projeto de transcrição depende do equilíbrio entre três fatores.
A métrica WER mede a taxa de erro de palavras do sistema. Na prática, ela responde: a IA acerta os sotaques regionais? Ela consegue diferenciar homófonos, como "sessão" e "cessão"? Quanto menor o WER, mais precisa e confiável é a transcrição para o seu negócio.
O RTF indica se a inteligência artificial consegue processar o áudio mais rápido do que a pessoa fala. Um RTF menor que 1 significa que o sistema é veloz e ideal para aplicações em tempo real. Se for maior que 1, a ferramenta é mais lenta que a fala humana e gerará atrasos.
A decisão aqui é entre pagar conforme o uso (APIs em nuvem) ou ter servidores próprios dedicados (Self-Hosting). A pesquisa provou que manter infraestrutura própria só compensa financeiramente para volumes altíssimos, acima de 17.300 horas de áudio por mês. Para a grande maioria das empresas, usar APIs é consideravelmente mais eficiente e econômico.
No estudo, foi realizada uma avaliação sistemática com o objetivo de testar a estabilidade e a viabilidade técnica dessas inteligências artificiais em cenários do mundo real, avaliando desde a resistência a ruídos pesados até a sensibilidade aos sotaques brasileiros.
Os resultados trouxeram insights surpreendentes:
As APIs multimodais em nuvem são financeiramente imbatíveis para a grande maioria das operações. O modelo do Google, por exemplo, chegou a ser 91 vezes mais barato que a melhor solução hospedada em servidores próprios.
Manter uma infraestrutura interna (Self-Hosting) só compensa o investimento se a sua empresa transcrever volumes altíssimos, acima de 17.300 horas por mês.
Ter bons números no papel não significa que a IA entenda as nuances do nosso idioma na prática.
O sotaque do estado de Goiás foi o cenário mais crítico do teste: quase todas as inteligências artificiais falharam gravemente ou "alucinaram" textos sem sentido ao tentar transcrevê-lo.
O estudo comprovou que usar IA para remover ruídos de fundo antes da transcrição (denoising) é vital para o sucesso. Essa técnica inteligente limpa a sujeira do áudio preservando as características da voz, garantindo que o modelo receba um som nítido e não invente palavras onde só havia barulho.
O resumo acima traz apenas as principais conclusões da pesquisa. No paper completo, Anna Júlia de Souza Ferreira, nossa pesquisadora do time de P&D, detalha:
Na Tech for Humans (T4H), nós desenhamos e implementamos Jornadas Digitais fluidas e Agentes de IA.
Como donos da nossa própria tecnologia, não dependemos de soluções de prateleira: criamos projetos sob medida para resolver os desafios específicos do seu negócio com a agilidade que o mercado exige.
Grandes empresas como Porto, Allianz e MAPFRE já anteciparam essa tendência conosco, substituindo seus antigos chatbots por verdadeiros copilotos inteligentes, capazes de compreender, decidir e executar tarefas complexas. O resultado prático é mais retenção de clientes, maior eficiência operacional e uma experiência de atendimento elevada a um novo patamar.
E acesse, em primeira mão, nossos principais conteúdos diretamente do seu e-mail.