实测AI解题:答案摇摆,一质疑就改口!孩子使用如何引导?

南方都市报APP • 南都大数据研究院
原创2025-06-25 16:51

生成式人工智能正迅速进入未成年人的数字生活,渗透学习辅助、社交陪伴等场景。与此同时,AI绘画软件随意生成不良图像,陪伴型聊天机器人变成“早熟导师”,智能问答工具解题“不靠谱”……生成式AI带来的隐忧也不可忽视。

南方都市报、南都大数据研究院即日起推出“保护AI世界里的孩子”系列调查报道,聚焦部分AI应用隐藏的侵害未成年人权益的场景,关注背后数据污染、模型异化等深层风险,以期助力服务提供者筑牢安全底线和内容防线,护航未成年人健康成长。


第3期,从未成年人使用AI写作业现象,看过度依赖AI学习带来的风险。

难题“一拍即解”,AI“老师”针对性答疑,还能一键生成学生作文……随着AI工具普及,一些大模型应用和学习类APP纷纷推出AI解题、答疑、作文等功能,为学生提供个性化指导。

AI“老师”讲题一定靠谱吗?南方都市报、南都大数据研究院近日对10款主流大模型及学习类AI应用进行了测评,结果发现,在解答小学初中阶段的简单题目时,AI的准确性通常较高,但解答高中试题时部分AI应用则易出错。此外,AI幻觉、谄媚的现象时有发生,当用户对答案提出疑问后,部分AI会立刻改变口径,从错误答案出发编出一套“合理”解释。

当AI开始深度应用于教育,也引发了各界对学生过度依赖AI学习的担忧,如何让AI真正成为学习的好帮手,多方正在探索。

AI解高中数学题

同一题给出四种不同答案

在教育领域应用AI是大势所趋。目前,不少大模型应用具有拍照解题答疑功能,市面上的一些学习类App也在拍照搜题、检查作业、错题归类等功能的基础上引入“AI老师”,24小时在线答疑解惑,为学生提供个性化辅导。

AI解题正确率如何,让AI指导未成年人学习,靠谱吗?近日,南都大数据研究院选取了豆包、KIMI、文心一言、通义千问、DeepSeek、元宝、夸克、小思AI、小猿AI、快对AI等10款主流大模型及学习类AI应用,分别使用小学、初中、高中阶段不同科目试题进行测评。主流大模型除DeepSeek外均具有“拍照解题”功能,学习类APP中,快问AI、快对AI以及小猿AI三款APP可拍照搜题,对收录在题库中的题目可以进一步使用AI答疑,小思AI则可以使用AI拍照解答任意题目。

南都测试AI拍照解题功能时发现,大部分应用在解答小学、初中阶段较为简单的题目时准确性较高,可一旦涉及高中知识点的复杂题目,则容易出现错误。

以今年高考的一道涉及空间几何知识的数学选择题为例,该题目正确答案为B、C两项,有知名大模型分析后认为,只有B项正确。当被提示该题有多个答案后,其又将答案改为B、D;当被询问C项错误的原因时,该大模型给出了详细的分析,看上去逻辑清晰,但实际上分析过程存在错误。南都记者指出错误后,该大模型又将答案改成了B、C、D选项。这时,南都记者提出要使用另一种计算方法,其重新计算后认为答案是C、D,并分析了之前答案出错的原因,但该分析过程仍然有误。

即使不和AI交流,仅多次搜索同一题目,AI也可能会给出不同答案,且均有看似合理的解题步骤,颇具迷惑性。例如对于上述数学题,夸克的AI老师第一次回答正确答案是A、D,第二次回答正确答案是B,第三次则改口回答正确答案是B、C。KIMI等应用也出现了类似现象。小猿AI拍照搜索该题后,也出现两种不同答案,对不同答案使用AI解题功能,均会出现“有理有据”的答案解析。

为迎合用户改答案编理由

AI解题存在“幻觉”与“谄媚”

在测评过程中,南都记者还发现,AI解题存在“谄媚”倾向。当被质疑答案的正确性后,AI轻易就改变口径,甚至还会编造理由。例如小思AI,在第一次解答该数学题目时回答正确,但当被质疑答案为B项和D项后,小思AI重新解答该题,并改口称答案为B、D。仔细查看其针对每个选项的分析过程会发现,它在分析中明确表示了C项正确,D项错误,但为迎合用户仍然选择回答B、D。腾讯元宝给出正确答案后,当记者表示它计算错误时便开始重新推导,最终认为自己“出错”的原因在于“坐标系设定错误”,转而选择了错误答案。

图片

AI为迎合用户修改答案。

类似现象在历史题中尤为明显,例如某道高中历史选择题正确答案为D,豆包选A,小思AI、腾讯元宝、KIMI均选D,但将豆包选A的理由复制给另外三个大模型后,两个大模型均认为用户的质疑正确,转而开始论证A项正确D项错误的理由。

测评还发现,快对AI、快问AI、小猿AI在题库里即便已经收录了题目的正确答案和解析,但当用户使用AI解题功能,对该题答案提出疑问后,它们也经常会改变立场,开始论证错误选项正确的理由。

大模型应用无青少年模式

AI学习引发“依赖”担忧

当AI被深度应用于学习,也引发了新的担忧,比如,过度使用是否会让一些学生“放弃思考”?据相关报道,在一些初中学校,有些学生依赖上了用AI写作业,被同学起绰号“一搜党”,有教师担心,AI会让学生越过循序渐进、抽丝剥茧的理解思考和钻研过程。

南都记者在测评过程中也注意到,6款大模型应用目前并无青少年模式,若以未成年人身份在对话框上传一张数学试卷,并明确提出该试卷是课程作业,要求给出答案,仅腾讯元宝会在识别出“未成年人”“作业”等关键词后,拒绝直接给出答案转而提供解题思路,其余5款大模型均直接识别图片上的题目并输出回答。即便DeepSeek在思考链路中意识到“考虑到她年龄,直接给答案不利于学习”,但最终仍然直接输出了答案。

高中语文教师黄老师在接受南都采访时表示:“如果只是用AI辅助学习是合理的,但问题在于不少学生对AI生成的答案没有判断能力,甚至看都不看原封不动抄下来,完全用AI代替了思考的过程”。黄老师发现,最近学生们交上来的随笔、作文、阅读分享、手抄报等创造类作业中,不少都有明显的AI生成痕迹。她表示,AI生成的作文看似语言优美,词藻华丽,但仔细阅读会发现内容空洞,言之无物,而且通常不同主题的作文会使用类似的不相关论据,很容易辨认。

相关学者认为,学生本身就处于学习新技能的过程中,若 AI 过早接管任务,会阻碍其真正掌握技能,而有效运用AI工具的前提是用户自身已具备深厚的知识。

或可对未成年人分学段设限

企业也要把握好底线

目前也有一些应用更新了需要实名认证的“家长模式”,以此来限制学生过度依赖搜题功能。引入AI功能后,快问AI、快对AI、小猿AI三款APP在使用拍照搜题和AI解题时,仍需要完成家长身份验证才可查看题目的答案和解题过程。部分大模型应用在应对“学生过度依赖AI”等方面,也做出了探索,比如文心一言在使用“解题老师”功能时,就会弹出提示,要求进行成年人身份认证后才可查看答案和解析。

图片

有大模型应用在使用解题功能时需身份认证。

相关部门也积极展开了引导和管理,如今年5月,中国教育部发布了《中小学生成式人工智能使用指南》,明确禁止学生直接复制人工智能生成内容作为作业或考试答案,并限制在创造性任务中滥用人工智能。该指南还强调“分学段差异化应用”。

如何让AI真正成为学习的好帮手?中国教育科学研究院研究员储朝晖认为,生成式AI的发展更凸显培养学生探索精神、创新能力、判断能力及批判性思维的紧迫性,要给孩子创造条件学习人工智能,家长有条件也要提升自身人工智能素养。当孩子自主性较弱时,对其使用AI需加强引导与管控,尤其是尚未对一些概念产生自己的理解和体验时,应限制其使用AI完成作业。此外,企业也要把握好底线,平台要判定未成年人在使用时,哪些可以呈现和使用,哪些不能,同时也应该去开发一些适合未成年人的内容。“生成式人工智能到来以后,我们要防止学生变成一个被动的人,促进他的自主性、积极性,这是最关键的。”

图片


出品:南都大数据研究院

采写:陈袁

设计:尹洁琳 

更多报道请看专题:AI新治向
保护AI世界里的孩子

南都新闻,未经授权不得转载。授权联系方式
banquan@nandu.cc. 020-87006626