不确定时更谨慎：浙江大学研究者提出SEED-GRPO，让AI通过自我认知不确定性学习更高效

在人工智能飞速发展的今天，大型语言模型（LLMs）如GPT-4o、Gemini和Claude 3已成为我们生活中不可或缺的一部分。然而，尽管这些模型在回答问题时表现出惊人的能力，但它们并非完美无缺。有时它们会对某些问题充满信心，回答一致而准确；有时却会给出互相矛盾的答案，显得犹豫不决。这种现象背后隐藏着一个重要信号：模型对不同问题的"确定性"各不相同。

2025年5月，浙江大学ReLER实验室的陈明涵、陈贵坤、王文冠和杨易发表了一篇题为"SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization"的研究论文，提出了一种创新的方法，利用这种不确定性信号来改进人工智能模型的学习过程。这项研究已在arXiv预印本平台上公开（arXiv:2505.12346v1）。