关注列表
2026年IDEA研究院开源的一个名为LEMAS的大型多语言音频数据集及其相关模型,旨在解决非中英语种在语音生成中的口音和对齐问题。
- LEMAS-Dataset
- 数据集规模:15万小时,涵盖10种语言,包括英语、中文、俄语、西班牙语等。
- 数据来源:结合了Audiobook和In-the-wild(野生环境)的混合数据,确保模型既能适应播音腔,也能处理真实环境的底噪和混响。
- 时间戳:提供Word-level(字级)的时间戳,对训练语音编辑模型、字幕对齐等至关重要。
- 数据处理:通过MMS Aligner进行多语言对齐,使用Uroman工具将不同语言的文字转写成拉丁字符,进行统一音素空间处理。
- LEMAS-TTS
- 模型架构:基于Flow Matching架构,改进自F5-TTS,生成质量高,Zero-shot能力强。c
- 技术改进:统一音素空间、CTC Loss辅助对齐、口音对抗训练,解决口音泄露和对齐漂移问题。
- 效果实测:在多个语言上,LEMAS-TTS的WER(词错误率)和SIM(相似度)均优于同类模型。
- LEMAS-Edit
- 功能:基于VoiceCraft改进的语音编辑模型,允许用户像编辑文档一样编辑录音。
- 技术原理:利用精准时间戳进行掩码填充(Masked Token Infilling),实现高自然度的音频编辑。
- 重复控制:引入History-Aware Repetition Control,防止生成过程中的死循环。
相关
Your faithful, impartial partner for audio evaluation — know yourself, know your rivals. 真实评测,知己知彼。