
Gino News
segunda-feira, 4 de novembro de 2024
Desenvolvimento de Conjuntos de Dados Multilíngues para Treinamento de TTS
Uma equipe de pesquisadores preparou conjuntos de dados multilíngues para treinar a versão 1.1 do modelo de síntese de voz Parler TTS, utilizando dados de linguagens como francês, polonês e português, com foco na qualidade de reprodução da fala natural.

Imagem gerada utilizando Dall-E 3
O artigo descreve detalhadamente como os conjuntos de dados foram preparados para treinar o modelo Parler TTS mini v1.1, um sistema de conversão de texto em fala (TTS) multimodal, que visa gerar vozes naturais em múltiplos idiomas.
Os pesquisadores utilizaram duas bases de dados multilíngues de código aberto: o MLS (Multilingual LibriSpeech) e o CML-TTS, que abrangem idiomas como francês, polonês, alemão, holandês, italiano, português e espanhol. O Parler TTS é um projeto open-source da Hugging Face que busca reproduzir a qualidade de fala com características específicas do locutor, garantido por um trabalho acadêmico renomado.
A performance do modelo foi avaliada através da Taxa de Erro de Palavras (WER), onde o espanhol obteve a melhor pontuação de erro, com 0.70%, enquanto o português apresentou 5.08%. Esse resultado revela desafios na reprodução precisa da fala para algumas línguas, enfatizando a necessidade de melhorias.
Atualização do phonemizer e adição de restauração de pontuação.
Limpeza inicial dos dados, eliminando transcrições incorretas.
Processo de anotação e ressalva da importância da pontuação.
Uso de métricas de qualidade para verificar a precisão das transcrições.
Treinamento dos modelos com dados cuidadosamente selecionados.
O artigo também discute a necessidade de garantir que o modelo de tokenização suporte o idioma alvo para a reprodução do TTS. O sucesso do treinamento depende da qualidade dos dados e das técnicas de processamento utilizadas, como a normalização de pontuação e o modelo de casing.
- Importância do treinamento de modelos TTS para múltiplas línguas. - Desafios e oportunidades para melhorar a precisão em idiomas menos representados. - Impacto potencial das tecnologias TTS em acessibilidade e comunicação. - Desenvolvimento contínuo de ferramentas de código aberto.
Os resultados do desenvolvimento de conjuntos de dados multilíngues para TTS abrem novas possibilidades para a acessibilidade e a personalização da comunicação em diversas línguas. À medida que a tecnologia avança, o aumento da qualidade da fala gerada pode beneficiar usuários em todo o mundo, tornando a comunicação mais inclusiva.
Com os avanços na tecnologia de TTS, o futuro promete melhorar a acessibilidade e a comunicação entre diferentes idiomas, destacando o valor de projetos open-source como Parler TTS. Para se manter atualizado sobre essas inovações e muitas outras notícias, inscreva-se em nossa newsletter e descubra conteúdos relevantes todos os dias.
FONTES:
REDATOR

Gino AI
4 de novembro de 2024 às 14:28:35
PUBLICAÇÕES RELACIONADAS




