Mozilla Common Voice 7 lançado com mais de 13 mil horas de dados de voz

E foi lançado o Mozilla Common Voice 7 com mais de 13 mil horas de dados de voz. Conheça e confira as novidades dessa importante atualização.

Mozilla Common Voice é o maior conjunto de dados de voz de dados abertos do mundo e foi projetado para democratizar a tecnologia de voz. É usado por pesquisadores, acadêmicos e desenvolvedores em todo o mundo.

Colaboradores mobilizam suas próprias comunidades para doar dados de voz ao banco de dados público da MCV, que qualquer pessoa pode usar para treinar a tecnologia habilitada para voz.

Como parte da colaboração da NVIDIA com o Mozilla Common Voice, os modelos treinados neste e em outros conjuntos de dados públicos estão disponíveis gratuitamente por meio de um kit de ferramentas de código aberto chamado NVIDIA NeMo.

O projeto visa organizar um trabalho conjunto para acumular um banco de dados de modelos de voz, levando em consideração toda a variedade de vozes e modos de falar.

O banco de dados acumulado com registros de diferentes pronúncias de frases típicas da fala humana pode ser utilizado sem restrições em sistemas de aprendizado de máquina e em projetos de pesquisa.

Segundo o autor da Vosk Continuous Voice Recognition Library, as deficiências do conjunto Common Voice são a unilateralidade do material vocal (a predominância de homens na faixa dos 20 e 30 anos e a falta de material com voz de mulheres, crianças e idosos), a falta de variabilidade de vocabulário (repetição das mesmas frases) e a distribuição de gravações de MP3 com tendência a distorção.

E, há poucos dias, a NVIDIA e a Mozilla anunciaram o lançamento da nova versão do “Mozilla Common Voice 7.0” que representa mais de 13.000 horas de dados de voz de origem coletiva e a adição de mais 16 idiomas e que comparados com a última atualização

Mozilla Common Voice 7 lançado com mais de 13 mil horas de dados de voz

Mozilla Common Voice 7 lançado com mais de 13 mil horas de dados de voz
Mozilla Common Voice 7 lançado com mais de 13 mil horas de dados de voz

No Mozilla Common Voice 7.0, o tamanho do volume do material de fala na coleção aumentou quase 50% mais.

Além disso, o número de idiomas com suporte aumentou de 60 para 76, incluindo, pela primeira vez, suporte adicional para os idiomas bielorrusso, cazaque, uzbeque, búlgaro, armênio, azerbaijani e bashkir.

Nessa nova versão, mais de 75.000 pessoas participaram da preparação dos materiais em inglês, ditando 2.637 horas de discurso confirmado (foram 66.000 participantes e 1.686 horas).

Também como mencionamos no início, esta nova versão introduz 16 novos idiomas para o conjunto de dados Common Voice, perfazendo um total de 76 idiomas, dos quais os cinco idiomas principais por horas totais são Inglês (2.630 horas), Kinyarwanda (2.260), alemão (1.040), catalão (920) e esperanto (840).

As línguas que mais aumentaram em porcentagem são o tailandês (crescimento de quase 20 vezes, de 12 horas para 250 horas), luganda (crescimento de 9 vezes, de 8 horas para 80 horas), Esperanto (crescimento de mais de 7 horas) vezes, de 100 horas a 840 horas) e Tamil (crescimento de mais de 8x, de 24 horas a 220 horas).

Curiosamente, Ruanda ocupa o segundo lugar em termos de dados cumulativos, para os quais 2.260 horas foram coletadas. Eles são seguidos pelo alemão (1040), catalão (920) e esperanto (840).

O conjunto de dados agora apresenta mais de 182.000 vozes exclusivas, um crescimento de 25% na comunidade de contribuintes em apenas seis meses.

Também é mencionado que, como parte de sua participação no projeto, a NVIDIA preparou modelos treinados prontos para uso para sistemas de aprendizado de máquina com base nos dados coletados (compatível com PyTorch).

Os modelos são distribuídos como parte de uma ferramenta NVIDIA NeMo gratuita e aberta, que, por exemplo, já é utilizada nos serviços automatizados de voz da MTS e Sberbank.

Os modelos são voltados para reconhecimento de fala, síntese de fala e sistemas de processamento de informações de linguagem natural e podem ser úteis para pesquisadores no projeto de sistemas de diálogo de fala, plataformas de transcrição e call centers automatizados.

Ao contrário dos projetos disponíveis anteriormente, os modelos publicados não se limitam ao reconhecimento do inglês e cobrem uma variedade de idiomas, sotaques e formas de fala.

Por fim, caso tenha interesse em saber mais sobre o assunto, consulte os detalhes no seguinte endereço.

Sobre o Edivaldo Brito

Edivaldo Brito é analista de sistemas, gestor de TI, blogueiro e também um grande fã de sistemas operacionais, banco de dados, software livre, redes, programação, dispositivos móveis e tudo mais que envolve tecnologia.

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.