DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了

鸭脖体育app官方下载

  • 首页
  • 鸭脖体育app官方下载介绍
  • 产品展示
  • 新闻动态
  • 你的位置:鸭脖体育app官方下载 > 新闻动态 > DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
    DeepSeek/o3的弱点找到了!三心二意 明明对了又改错了
    发布日期:2025-02-05 01:12    点击次数:171

    DeepSeek和o1/o3一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。

    最新研究揭示:

    在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为Underthinking(欠思考)。

    研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。

    通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。

    这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。

    “三心二意”是罪魁祸首

    这一现象在解决数学竞赛题等更为复杂任务时尤为明显。

    为了系统分析,团队在三个具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上,对类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

    下图比较了正确和错误回答中的token使用量和思维切换次数。平均来看,类o1模型在错误回答中比正确回答多消耗了225%的token,原因是思维切换频率增加了418%。

    为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。



    上一篇:历城区退役军人事务局开展春节走访慰问暨“双报到”活动
    下一篇:2025年体彩P3044期非常静距离定位复式_排列3