自2022年思维链(CoT)概念崭露头角,各类高端模型持续涌现,思维链推理一度被视为提升模型性能的关键途径。但近期研究指出,在特定应用场景中,它可能带来一些不利影响,这一新发现已引起业界的广泛关注。
CoT兴起与使用感受
自2022年CoT问世以来,2.5 Pro、o3、-R1、Qwen3等顶级模型均展现出卓越性能,使得大众对“让模型先行思考”这一策略产生了信心。用户在实际应用中感受到模型变得更加智能,然而,它们却愈发难以驾驭。其中,GPT4o成为用户最频繁使用的模型,而推理型模型的使用频率则有所下降。这一现象揭示了模型实际表现与用户期望之间的差距。
研究团队与任务选择
研究团队由多家机构成员组成,包括纽约大学,他们投入了数月时间,在一个基础且对稳定性要求较高的场景中,将思考过程进行了应用。该场景的任务要求清晰,结果非对即错,不存在中间状态,从表面上看,这有利于推理模型的发挥,研究目标明确。
模型准确率变化
研究发现,LLaMA - 3 - 70B - 这一参数量庞大且训练完备的模型,在应用CoT技术时,其准确率出现了显著下降,从85.6%降至77.3%。模型在处理过程中表现出自主性,有时会擅自修改或增加解释,这一准确率的降低暴露了CoT在该特定场景中存在的缺陷。
注意力下降问题
无论是GPT-4o-mini还是3.7等不同型号的模型,在应用CoT思维链技术之后,生成答案时对任务描述中“关键限制”的关注度显著降低。这一现象反映出CoT技术可能对模型捕捉关键信息的效率产生了干扰,进而影响了答案的精确度。
模型推理表现特征
研究结果表明,该模型在召回率方面表现良好,具备一定的推理能力,能在推理有效的情况下给出答案;然而,其精确度相对较低,往往在不适当的时机启动推理机制。例如,当仅需对某个词进行修改时,它也会进行过度的推理。这些特征表明,在需要精确输出的场合,CoT模型并不适宜使用。
对智能的新思考
研究表明,强大的智能在于懂得何时将关注点聚焦于何处。大型模型往往存在思维资源分配不当的问题,在执行任务时可能会陷入对非必要内容的思考,就像在做决策时被繁琐的分析所束缚。高级智能应当具备对“应思考何事”的辨识能力,这或许将成为未来模型技术发展的趋势。
针对大模型所显现的这些不足,您如何看待对模型进行优化,使其具备对“应当思考何事”的辨识力?欢迎留下您的观点,参与讨论,并对本文给予点赞与转发!