学而思CTO田密：教育大模型创新的关键挑战是低容错率

导读经济观察网李静田进/文在人工智能大模型技术持续突破、不断拓展其应用边界之际，教育领域的垂直大模型正逐步融入多样化的教学场景中...

经济观察网李静田进/文在人工智能大模型技术持续突破、不断拓展其应用边界之际，教育领域的垂直大模型正逐步融入多样化的教学场景中。

作为一家成立了21年的教育企业，近几年，学而思利用自主研发的九章大模型开辟了多条应用路径，包括独立的大模型App、嵌入学而思现有的教育应用之中，同时通过智能硬件、学习服务及向第三方提供API和智能体接口等多元化形式，不断提升其教育生态的互动性与智能性。

7月24日，在专访中，学而思首席技术官（CTO）田密说，目前通用大模型在语言类任务上表现出色，但在数学和推理等任务上表现一般，如何提升大模型的逻辑推理能力是全球大模型公司共同面对的难题，而公众对教育行业的期望值和容错率都很低，所以教育领域的创新必须谨慎推进。

展望未来大模型在教育领域的应用图景，田密构想了一个类似自动驾驶技术逐步演进的过程。他预见，尽管自动驾驶技术尚未完全达到自动驾驶的理想状态，但已经可以在泊车、智能变道和高速巡航等特定场景中发挥作用。AI（人工智能）教师也将会逐步承担教师的部分工作，最终可能发展成一个全面的教育伙伴。

经济观察网：过去一年，包括教育企业在内的多行业企业自研开发了多款垂直领域的大模型，大模型及其背后的人工智能技术将如何深刻影响整个教育过程？

田密：大模型赋能教和学的过程是颠覆性的。传统认知中，“教”是信息和方法的传递过程，“学”是理解和模仿的过程，在大语言模型的赋能下，这两个环节均经历了迭代与重塑，并在这个过程中被完美结合。

大语言模型的学习过程以对话方式为主导。因此，学生下一步的学习内容是基于他对上一步内容的理解反馈而成。这种机制不仅确保了学生在遇到理解障碍时能够通过不断深入探讨解决问题，还促进了学生思维的拓展，为学生提供丰富的联想和扩展内容。

在追求教育普及与公平的道路上，我们必须正视一个现实：很难有一项技术、一些资源从发展之初就确保所有人都从中受益，但AI技术和大模型的发展方向是有助于教育平等和普惠。长远来看，AI能够促进教育资源分配更加平等。

经济观察网：大模型在落地教育场景中主要面临哪些挑战和问题，如何克服？

田密：教育追求准确性，需要给到用户一个准确的答案，但大模型存在幻觉，如何不断提高准确率是一个难题。

为此，我们需要对技术进行一系列的优化和改进，但这些细节较为复杂。由于大模型的技术基础核心是即时响应的计算模式，难免会出现问题解析的局限性。因此，学而思正在努力进行多方面的改进，但更重要的是在产品上要做一些保证。

产品上，我们采用了“RAG”（搜索召回增强）技术。AI老师在自我验证答案的正确性后，才会向用户进行讲解。我们通过在数据库中搜索并召回相关问题，设置约束条件，确保AI老师围绕正确答案进行讲解，避免给出错误的解答。这样，我们就能在保证用户得到准确信息的同时，减少错误发生的可能性。

在九章随时问中，大约80%以上的题目有过预先的解答，因此可以确保准确无误地进行讲解。如果AI无法解答那些复杂或未遇到的问题，我们会提示用户，并在几小时后由真人教师进行确认，以确保答案的正确性。因为教育产品的正确性至关重要，一旦出现错误，家长可能会非常不满。因此，确保低容错率是教育类AI产品成功落地的关键挑战。

经济观察网：以通用大模型为技术底座开发教育产品，会存在哪些不足？未来在更加垂直和细分的领域中，教育大模型应该如何寻找突破口？

田密：公众对教育行业的期望值和容错率都很低。就像自动驾驶技术一旦出现失误可能造成严重后果，如果AI教师讲错了知识点或过程，家长不会为此买单，而且会很愤怒。所以，教育领域的创新必须谨慎推进，这意味着它一定是个缓慢而长期的过程。

目前通用大模型在语言类任务上表现出色，但在数学和推理等任务上表现一般，如何提升大模型的逻辑推理能力是全球大模型公司共同面对的难题。

近期一个热门讨论话题是让大模型比较9.9和9.11的大小，很多媒体经过测试后发现，教育大模型都答对，但通用大模型的回答错误率非常高。这是因为教育大模型定向构造了很多数值计算和符号计算数据，提供给模型训练。比如，学而思的九章大模型就知道这是个数学题目，而通用大模型只能把它当成一个通用题目来处理。教育大模型有足够多、足够专业的数学数据训练，整个解析过程是模拟孩子学习数学的过程一步步推导，所以可以答对与数学相关的问题。

经济观察网：当时学而思为何要做一款基于数学的大模型，是希望通过这款大模型解决数学领域中的哪些实际问题？

田密：目前做大模型的企业有数百家，但学而思选择从数学切入。数学是攻克大模型技术的好场景。大模型从百亿级参数到千亿级参数过程中，数学能力会涌现出来。研究复杂科学的规律，实验素材的选择至关重要。

大模型目前主要依靠预测下一个词的方式来实现扩展（Scale），这从语言模型的角度来看是合理的。以高考填空题为例，即便清华和北大的学生也无法仅凭阅读题目就直接给出答案，这不是因为题目中的词汇之间没有联系，而是无法直接预测出完整的答案。大语言模型通常依赖互联网上的语料进行预训练。然而，互联网上的信息只是现实世界中适合电子化传播信息的一部分。以数学为例，小学生在数学学习中需要的大量练习题目在互联网上就相对较少。所以，数学是攻克大模型技术的好场景，也是我们的立身之本。

经济观察网：在商业化方面，除学习机之外，未来九章大模型还将与学而思哪些产品进行融合？

田密：九章大模型提供多种落地的应用方式，包括：独立的大模型App、嵌入学而思现有的App、智能硬件和学习服务、提供API和智能体接口等第三方服务。

第一，在独立的大模型App方面，学而思已经推出了“九章随时问”。用户可以通过图像输入题目并让AI老师进行题目讲解，整个讲解过程是基于对话互动逐步展开的。为了照顾不同的学习场景和学习习惯，我们还设计了两种讲解模式。其中模式1是通过提问和对话逐步引导使用者理解学会解题；模式2会将题目拆解到关键步骤，让用户可以对步骤进行自由提问。

第二，将九章大模型嵌入现有的App、智能硬件和学习服务方面，例如学而思旗下的ABC英语角App，里面的口语对话功能由九章大模型提供；学而思学习机里面的中英文作文批改、随时问、精准学等功能，学而思培优、彼芯等业务里面的作文批改、AI老师讲题等功能，也都是由九章大模型提供服务。

第三，提供API和智能体接口。例如，九章大模型的解题、讲题等API，已经上线到百度千帆、微软全球大模型API市场等重要平台；九章大模型的智能体也已经上线到联想AI PC等新产品上。

经济观察网：目前学界也有一种声音，大模型虽然极大地解放了生产力，提高了学生的学习效率，但一定程度也给喜欢偷懒的学生提供了便利，甚至限制和禁锢了一部分人的想象力，你如何看待这样的观点？

田密：教育大模型的目标应该是避免让孩子形成过度依赖，同时保持他们对学习的热爱和主动性。早期流行的AI应用往往是拍照搜答案，孩子们可能因为能直接抄写答案而过于依赖这类应用。虽然他们可能乐此不疲，但家长对此却深感忧虑。教育部也注意到这一问题，采取措施限制了这类应用，以防止孩子们过度依赖这种“快餐式”学习，避免他们的思维被简化和固化。

所以，学而思的目标是避免让孩子形成过度依赖，同时保持他们对学习的热爱和主动性。有了大模型之后，我们要做的不是“拍搜”，而是要拍照去讲解，或者是拍照批改。开展讲解不是让学生直接抄答案，而是让学生跟着AI老师一步步交互，最终自己学会解题目。并且AI老师会举一反三，比如孩子在做完习题之后，AI老师会追问是不是真的会了，此后再出三道与此相关的练习题进行测试，确保学生真的掌握了相关知识点。

在当前AI时代，我认为中国孩子面临的核心挑战是如何有效地与AI互动，即如何主动提问和自主学习。AI具备广泛的知识，但关键在于孩子如何学会提出问题。人工智能的引入让这个过程变得更加自然和轻松，有助于激发他们提问的勇气，这正是AI对教育的积极影响，它不是导致惰性的工具。我们的目标是通过拍照解释和持续追问，培养孩子的主动学习和思考能力，这才是教育的正确路径。

思考环节至关重要，虽然短期内大模型可能看似降低了问题解决的直接性，但长远来看，培养这种能力对于孩子的未来成长极具价值。

经济观察网：目前已有教育科技公司在打造人形学习机，你认为这会是未来学习机的终极形态吗？

田密：将家用机器人发展成为AI老师是一个具有很大发展潜力的方向。尽管这个领域目前还处于早期阶段，但AI在诸如数学、教学等特定教育领域内已经有所提升。诚然，现在的市场上尚未出现一款能够完全整合这些教育功能的产品，但就像自动驾驶技术的演进历程所示，尽管尚未达到自动驾驶的理想状态，可是它已经能在泊车、智能变道和高速巡航等特定场景中发挥作用。AI教师也会逐步发展，逐步承担起教师的部分工作，最终可能成为一个全面的教育伙伴。