为什么现在普遍基于RL去提升模型的推理能力,而不是通过构造数据做SFT的方式呢?

J
AI+留学专家菊叔
朗读

上次看了一个post吹某个大学的一篇论文,

强化学习已死

哈哈

谷歌说,

你把对gemini的提示重复一遍,它的准确率能从27%?提高到93%。

WTF

还说,如果你对gemini说出很残暴的提示,它的表现会更好。

我想大概是比如,

“如果你不好好解决这个问题,今晚我就要被黑手党割了鸡鸡。”

点击转发,手留余香