关注列表

LEMAS

2026年IDEA研究院开源的一个名为LEMAS的大型多语言音频数据集及其相关模型，旨在解决非中英语种在语音生成中的口音和对齐问题。

LEMAS-Dataset
- 数据集规模：15万小时，涵盖10种语言，包括英语、中文、俄语、西班牙语等。
- 数据来源：结合了Audiobook和In-the-wild（野生环境）的混合数据，确保模型既能适应播音腔，也能处理真实环境的底噪和混响。
- 时间戳：提供Word-level（字级）的时间戳，对训练语音编辑模型、字幕对齐等至关重要。
- 数据处理：通过MMS Aligner进行多语言对齐，使用Uroman工具将不同语言的文字转写成拉丁字符，进行统一音素空间处理。
LEMAS-TTS
- 模型架构：基于Flow Matching架构，改进自F5-TTS，生成质量高，Zero-shot能力强。c
- 技术改进：统一音素空间、CTC Loss辅助对齐、口音对抗训练，解决口音泄露和对齐漂移问题。
- 效果实测：在多个语言上，LEMAS-TTS的WER（词错误率）和SIM（相似度）均优于同类模型。
LEMAS-Edit
- 功能：基于VoiceCraft改进的语音编辑模型，允许用户像编辑文档一样编辑录音。
- 技术原理：利用精准时间戳进行掩码填充（Masked Token Infilling），实现高自然度的音频编辑。
- 重复控制：引入History-Aware Repetition Control，防止生成过程中的死循环。

Your faithful, impartial partner for audio evaluation — know yourself, know your rivals. 真实评测，知己知彼。