最佳体验请使用Chrome67及以上版本、火狐、Edge、Safari浏览器 ×

创建银行
创建开票

    不确定时更谨慎:浙江大学研究者提出SEED-GRPO,让AI通过自我认知不确定性学习更高效

    作者: 荣耀王者@华南电子科技 阅读15 2025/05/25 01:44:25 文章 原创 公开

    在人工智能飞速发展的今天,大型语言模型(LLMs)如GPT-4o、Gemini和Claude 3已成为我们生活中不可或缺的一部分。然而,尽管这些模型在回答问题时表现出惊人的能力,但它们并非完美无缺。有时它们会对某些问题充满信心,回答一致而准确;有时却会给出互相矛盾的答案,显得犹豫不决。这种现象背后隐藏着一个重要信号:模型对不同问题的"确定性"各不相同。

    2025年5月,浙江大学ReLER实验室的陈明涵、陈贵坤、王文冠和杨易发表了一篇题为"SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization"的研究论文,提出了一种创新的方法,利用这种不确定性信号来改进人工智能模型的学习过程。这项研究已在arXiv预印本平台上公开(arXiv:2505.12346v1)。


    声明:本网站部分内容来源于网络,版权归原权利人所有,其观点不代表本网站立场;本网站视频或图片制作权归当前商户及其作者,涉及未经授权的制作均须标记“样稿”。如内容侵犯了您相关权利,请及时联系责任编辑(Xinyu)
    荣耀王者
    @华南电子科技 ,版权号:
    成员
    • 成交数 --
    • 成交额 --
    • 应答率
    聊天 收藏 点赞
    赏
    ¥0.00¥0.00¥0.00¥0.00¥0.00
     0  0
    
    
    分享

    微信扫一扫:分享

    微信里点“+”,扫一扫二维码

    便可将本文分享至朋友圈。

        0
      验证
      二维码支付