9月25日消息,来自亚利桑那州立大学的科研团队利用PlanBench基准,测试了OpenAIo1模型的规划能力。研究结果表明o1模型取得了长足的进步,但仍然存在很大的局限性。
PlanBench开发于2022年,用于评估人工智能系统的规划能力,包括600个来自Blocksworld领域的任务,其中积木必须按照特定顺序堆叠。
在Blocksworld任务中,OpenAI的o1模型准确率达到97.8%,大大超过了之前的最佳语言模型LLaMA3.1405B(准确率为62.6%)。
在更具挑战性的“MysteryBlocksworld”加密版本中,传统模型几乎全部失败,而OpenAI的o1模型准确率达到52.8%。
研究人员还测试了一种新的随机变体,以排除o1的性能可能源于其训练集中的基准数据。在这次测试中,O1的准确率降至37.3%,但仍远远超过了得分接近零的其它模型。
随着任务越来越复杂,o1的表现也急剧下降。在需要20到40个规划步骤的问题上,o1在较简单测试中的准确率从97.8%下降到只有23.63%。
该模型在识别无法解决的任务方面也很吃力,只有27%的时间能够正确识别。在54%的情况下,它错误地生成了完整但不可能完成的计划。
虽然o1在基准性能上实现了“量子改进”(Quantumimprovement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。
研究还强调了o1的高资源消耗,运行这些测试需要花费近1900美元,而经典算法在标准计算机上运行几乎不需要任何成本。
研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像o1这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。