为什么现在普遍基于RL去提升模型的推理能力,而不是通过构造数据做SFT的方式呢?JAI+留学专家菊叔2026年2月15日朗读开始上次看了一个post吹某个大学的一篇论文,说强化学习已死哈哈谷歌说,你把对gemini的提示重复一遍,它的准确率能从27%?提高到93%。WTF还说,如果你对gemini说出很残暴的提示,它的表现会更好。我想大概是比如,“如果你不好好解决这个问题,今晚我就要被黑手党割了鸡鸡。”点击转发,手留余香分享 / 复制链接微博微信/朋友圈小红书