修复由于抄本问题导致的口语数据删除错误过高的问题 #54
snsun
started this conversation in
Show and tell
Replies: 2 comments
-
感谢校长的实验结果!!和我们之前blank penalty的实验结论(删除问题的原因是训练数据本身存在很多删除错误)形成了double-check,训练数据的质量确实非常非常非常重要 |
Beta Was this translation helpful? Give feedback.
0 replies
-
update:Wenetspeech数据上conformer、whisper均已验证抄本修复的效果,结果参考: |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
由于抄本是有OCR生成,大量的口语化的词语、重复词、不流利等词语如果不影响理解,内嵌字幕中都会删掉,采用这样的标签训练出来的模型,在口语化场景下,会存在明显的删除错误,比如test_meeting测试数据,或者SpeechIO上的短视频测试数据。
我们对抄本进行了一些修复,主要是使用funasr的paraformer模型对训练数据进行了解码,然后和原始的抄本做对比,原始抄本中存在删除且发生删除错误的上下文和funasr模型的识别结果一致,则将删除错误进行补充,比如
原始抄本: 这个**我不知道
funasr抄本:这个呃我不知道
**表示删除。删除发生的左右上下文(“这个”和“我不”)在原始抄本和funasr的抄本都一致,则将“呃”填充到删除处。
经过修复,我们使用wenetspeech+一些开源数据训练的模型,在test_meeting和speechio上的测试数据上都有明显的删除错误的下降,test_meeting的CER为例:
原始wenetspeech文本训练的模型:Overall -> 14.27 % N=220326 C=191718 S=15503 D=13105 I=2828
修复wenetspeech文本训练的模型:Overall -> 11.14 % N=220326 C=197299 S=16315 D=6712 I=1523
(上述结果采用的训练数据不完全一致,修复后的过滤掉了300W条抄本和funasr paraformer识别不一致的数据,数据少了,但是效果更好了)
删除错误明显减少。另外,训练过程中,我们还对数据进行了筛选,只采用了funasr paraformer和修复后的文本完全一致的数据作为训练数据,大概采用了1100W条数据。有兴趣的朋友可以采用下面更新的文本进行训练,和原始的抄本训练的模型进行对比。
链接: https://pan.baidu.com/s/19HiH6gaLYGNgDKTlT_sLOQ 提取码: text 复制这段内容后打开百度网盘手机App,操作更方便哦
Beta Was this translation helpful? Give feedback.
All reactions