为什么现在普遍基于RL去提升模型的推理能力，而不是通过构造数据做SFT的方式呢？

J

AI+留学专家菊叔

2026年2月15日

朗读

上次看了一个post吹某个大学的一篇论文，

说

强化学习已死

哈哈

谷歌说，

你把对gemini的提示重复一遍，它的准确率能从27%？提高到93%。

WTF

还说，如果你对gemini说出很残暴的提示，它的表现会更好。

我想大概是比如，

“如果你不好好解决这个问题，今晚我就要被黑手党割了鸡鸡。”

点击转发，手留余香