Skip to content

Conversation

@jsntcheng
Copy link

生产中发现一些模型可能会因为素材或者参考音频的原因,时不时推理出大段的无意义音频,排查发现是在AR的decode阶段有点问题,进行了优化,降低了一直推出同一个token的情况。对于一些恶意token(蹩脚的叫法),上一个修改依旧不能修复,会出现a,a,a,a,b,b,a,a,a,a这种情况,直接干掉。测试下来也没什么不妥,质量也没下降,稳定性肉眼可见的提升。人机交互产品出现那种大段的噪音真的不能接受,不是说抽卡就行的。

Added logic to handle bad tokens and adjust logits based on repeated tokens during decoding.
Added logic to handle bad tokens and prevent repetition in token generation.
@RVC-Boss
Copy link
Owner

RVC-Boss commented Nov 2, 2025

不错的建议,抽空测试下!

@RVC-Boss
Copy link
Owner

RVC-Boss commented Nov 2, 2025

能否提供一些比较稳定能复现同一个token反复的case?

@XXXXRT666
Copy link
Contributor

大量报错,还需修改

@jsntcheng
Copy link
Author

能否提供一些比较稳定能复现同一个token反复的case?

I'm all ears.

Hmm, "拉布布" sounds a bit mysterious!

@jsntcheng
Copy link
Author

大量报错,还需修改

修复了一下

@RVC-Boss
Copy link
Owner

@jsntcheng bad_tokens_list = [809, 207,411,679,676,25,23,7]这些bad tokens是如何得到的?

@RVC-Boss
Copy link
Owner

0.618 1.414和35这几个值是如何考虑的?

@jsntcheng
Copy link
Author

jsntcheng commented Dec 1, 2025

@RVC-Boss
bad tokens,用上面提到的两个经常出问题的句子多次推理,观察到有问题的情况下,这些token会大量出现。0.618 1.414这两个数值是为了让重复出现的token logits更低,至于为什么是这两个,是我平时使用习惯(黄金分割点的相关)。35 的话,我注意到,正常推理的情况下,logits不会超过30。但是出现重复token的情况下,logits会飙升到100+,那靠0.618就不够快速有效地降低重复token出现的概率,会导致生成的声音出现瑕疵(拖长音)

这个修补在我们这边已经运行到现在,运行良好😄

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants