不确定时更谨慎:浙江大学研究者提出SEED-GRPO,让AI通过自我认知不确定性学习更高效
作者:
荣耀王者@华南电子科技 阅读15 2025/05/25 01:44:25 文章 原创 公开
在人工智能飞速发展的今天,大型语言模型(LLMs)如GPT-4o、Gemini和Claude 3已成为我们生活中不可或缺的一部分。然而,尽管这些模型在回答问题时表现出惊人的能力,但它们并非完美无缺。有时它们会对某些问题充满信心,回答一致而准确;有时却会给出互相矛盾的答案,显得犹豫不决。这种现象背后隐藏着一个重要信号:模型对不同问题的"确定性"各不相同。
2025年5月,浙江大学ReLER实验室的陈明涵、陈贵坤、王文冠和杨易发表了一篇题为"SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization"的研究论文,提出了一种创新的方法,利用这种不确定性信号来改进人工智能模型的学习过程。这项研究已在arXiv预印本平台上公开(arXiv:2505.12346v1)。
声明:本网站部分内容来源于网络,版权归原权利人所有,其观点不代表本网站立场;本网站视频或图片制作权归当前商户及其作者,涉及未经授权的制作均须标记“样稿”。如内容侵犯了您相关权利,请及时联系责任编辑(Xinyu)
成员
荣耀王者
@华南电子科技 ,版权号: - 成交数 --
- 成交额 --
- 应答率
聊天 收藏 点赞
验证
二维码支付