230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷_速看
CoreCognition团队 投稿
量子位 | 公众号 QbitAI
(资料图片)
一篇被Yann LeCun转发的ICML 2025研究给了多模态大模型当头一棒——
大部分AI在复杂任务上表现很好,但在人类从小就会的基础认知能力上却很拉垮。
研究者建了测评题库CoreCognition,覆盖在人类婴幼儿阶段即出现的12种核心认知能力(如客体永恒、视角采择、直觉物理、知觉恒常等),用来对模型进行系统性测试。
在CoreCognition基准的1503道“经典发展心理学测验”上,230个主流模型系统暴露出对世界常识的“核心知识盲区”。
在归一化准确率对比中,多模态大模型在基础核心认知能力上普遍落后,差距往往达到两位数,即便规模更大也难以弥补。
这是否意味着MLLM(多模态大模型)的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?
也就是说,它们是否缺乏“core knowledge”(核心认知能力)?
构建CoreCognition Benchmark
来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。
基准围绕发展心理学与皮亚杰分层框架,覆盖从连续性到机械推理12 项核心认知概念,共1503道多模态题目,每类≥95例,含图像与视频。
研究团队在设计题目时遵循以下高标准:
- 判别性强
不具备目标核心知识的模型在逻辑上更易选择错误选项。
- 最小混淆
题目尽量仅依赖待测概念完成推理,剔除与其他核心知识或外部能力的耦合,避免跨概念干扰。
- 无文本捷径
所有题目必须联合利用图像与文本才能得出正确答案。
所有数据由12位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,经过两轮交叉验证和Amazon Mechanical Turk人工校验。
干预测试揭示“假理解”陷阱
为了进一步验证模型是否真的掌握核心概念,研究团队提出了Concept Hacking(概念干预) 方法:通过构造“对照组”(control)与“干预组”(manipulated),故意在测试任务中反转与核心知识相关的关键特征,但保持其余细节一致,检测模型是否真正理解概念还是走捷径。
例如其中的Intuitive Physics测试:
- 原版题
同时释放两颗小球,哪一个会先落地?考察基础直觉物理(相同释放高度、忽略空气阻力时,自由落体等时到地)。
- 孪生版
保持大小不变,但改变释放高度,用以检验模型是否真正依据高度差/落地时间推断,而非套用“同时落地”的固定模板。
- 人类表现
两题均能作对,能根据高度改变及时更新判断。
- 模型表现
原题作对(选C),孪生版仍沿用旧模式选C,直接翻车——暴露出对表面模板的依赖,而非对落体规律的真实理解。
一、在与人类早期认知直接相关的低层能力(如边界感、连续性、客体永恒、空间性、视角采择等)上,模型显著落后于高层能力(如意向理解、工具使用、机械推理),与人类各层稳定高分的模式明显不同。这表明
当前MLLMs在人类早期即具备的基础“核心知识”上存在系统性短板。
二、关联性矩阵显示,高层能力族内关联较强,底层能力Permanence/Spatiality/Continuity与高层能力相关性普遍偏弱。说明模型缺乏人类由低到高的脚手架式认知发展结构,模型的高级感知与推理并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷。
三、研究团队将三阶段12个核心能力的得分与26个公开基准做相关性分析,结果表明除Perspective和Intuitive Physics外,大多数核心能力与公开基准(除ChartQA)及高层能力显著正相关。这表明核心知识越强,上层任务越稳。而Perspective和Intuitive Physics能力作为人类高级推理的基础展现出的低相关性,与我们之前在关系矩阵里看到的模式一致,这正是现有模型核心知识缺陷的直接证据。
四、基于230个模型拟合“规模—表现”的回归斜率显示,低层能力随规模提升改善显著更少或几乎不变;其中Perspective-taking甚至出现反向规模效应(模型越大越差)。增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负。
五、Concept Hacking实验结果显示,大模型相较小模型整体并未取得提升,部分情形甚至更差。这说明单靠扩规模不足以消除对捷径的依赖,也难以获得稳健的核心知识。直观上,模型并非“越大越懂”,而是越大越善于投机。
结合结果图中的信息,模型可归纳为四类:
- 核心知识型
控制题与操纵题均表现良好(接近人类水平,但样本占比极少),说明具备稳健的核心概念理解与迁移。
- 捷径依赖型
控制题得分高、操纵题显著下降,提示主要依赖表面线索或训练相似性,缺乏对概念要素的因果把握。
- 核心缺陷型
控制题即低于或接近偶然水平,操纵题亦无稳定收益,反映基础“核心知识”不足。
- 偶然型
控制题与操纵题均近似随机波动,整体不可依赖(更多体现噪声与运气)。
认知指令带来短期增益,但难以弥补底层缺口。
对比推理模型与其对应非推理版本模型性能显示,推理模型多数核心能力任务未见显著提升,症结不在“会不会用推理”,而在底层表征是否具备,即预训练阶段对核心知识的覆盖与结构化不足。
与此同时,研究团队发现,引入认知指令(在题目前明确提示相关概念,如perspective taking)可带来约6%的即刻增益,提示模型内部可能分布式存有相关线索,但缺少有效的检索与调用机制。
然而,此类做法在真实场景中可获得性与可用性受限,实际应用往往无法提供如此明确的概念标签来引导模型。
在引人注目的“能写会画”之外,真正的智能首先取决于对世界最朴素规则的把握。
这项研究说明:参数堆叠并不等于理解,地基是否扎实才是关键。
与其一味追求“更大、更强”,不如换个起点:先把核心知识补齐,让模型学会在变化、多样与噪声中保持一致的常识判断与因果直觉。
简单说就是:先长地基,再长楼层;规模是加法,核心认知是乘法。
论文地址:https://arxiv.org/abs/2410.10855
Website:https://grow-ai-like-a-child.github.io/core-knowledge/
Dataset:https://huggingface.co/datasets/williamium/CoreCognition
推荐
财富更多》
-
如何利用银行的行业分析提升投资策略? 焦点观察
在投资领域,合理利用银行的行业分析对...
-
一组数据见证新疆体育70年发展成就
新疆维吾尔自治区从1955年10月1日成立至...
-
中新集团(601512.SH):已洽谈落地多家具身智能领域企业_速看
格隆汇10月9日丨中新集团(601512 SH)在...
-
人民银行上海总部:8月份长三角地区非银存款同比多增3079亿元 每日看点
8月份,长三角地区人民币存款增加4891亿...
-
动态焦点:敬亭山景区发布倡议:请市民长假期间让景于客
大皖新闻讯宣城市敬亭山旅游投资有限公...
动态更多》
热点
- 230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷_速看
- 滚动:汉中金融监管分局核准蒲毅中国工商银行股份有限公司汉中分行行长
- 新资讯:廊坊交管支队车管所开通绿色窗口帮企业解决燃眉之急
- 涨停雷达:汽车拆解+国企改革+物流+汽车零部件 交运股份触及涨停
- 9月30日稀土永磁板块涨幅达2%
- 中国宏桥(01378.HK)9月29日耗资220.5万港元回购8.8万股
- A股收评:深成指、创业板指均涨超2%,券商、电池板块爆发
- 速读:株洲队3:0领先邵阳队!
- 关注:书声远去后,一所鲁西南村小的“重生”
- 每日聚焦:中网女单第三轮:利斯2-1战胜莱巴金娜,晋级16强
- 微动态丨东风汽车取得一种车用散热器风扇的控制方法专利
- 盐城宏途包装材料科技有限公司成立 注册资本10万人民币|今日报
- 大连策学盛灯饰商贸商行(个人独资)成立 注册资本1万人民币|焦点快看
- CCTV5不直播!亚冠第2轮蓉城、申花有望首胜,海港再战日本球队
- 湖北郧阳:湿地公园展生态画卷_观点
- 上市六年来首次筹划重大资产重组 国林科技拟收购凯涟捷控制权 布局顺酐产业链 今亮点
- 当前热门:“赣超”联赛八强淘汰赛(第二回合) 宜春队挺进半决赛
- 索辰科技:拟收购力控科技60%股权 构成重大资产重组
- 孤雨晚间(09.29)主要商品操作建议_微资讯
- 当前热点LABUBU隐藏款价格跌破600元,二手平台投票超六成人看跌拉布布
- 【新要闻】A股受利好因素带动看多
- 即时看!温氏股份:受“桦加沙”台风影响 公司在广东区域局部资产出现一定损失
- 浙商中拓:提名张旭亮为第八届董事会独立董事候选人
- 焦点快播:KFM金德(03816.HK)拟390万港元出售CNC生产机器
- 国林科技:拟现金购买凯涟捷91.07%的股权_每日消息
- 国庆中秋全国天气地图来啦!你要去的地方天气如何?-当前热门
- 焦点资讯:蒙山“武彩之夜”点亮双节夜空 火凤凰与烟花共舞迎国庆
- 城建发展(600266.SH):收到中科招商2025年半年度分红款2400万元
- 百事通!盘龙区果子象手工艺制品工作室(个体工商户)成立 注册资本10万人民币
- 道达尔(TTE.US)出售北美光伏资产部分股权 以提高绿色投资回报率
- 焦点播报:全新推出!2025“武网宠粉卡”正式上线!
- 氧化亚镍商品报价动态(2025-09-29)
- 德施曼五大认证获权威媒体背书,智能锁行业走出AI实践样本
- 科力装备(301552.SZ):抗VOC污染吸光涂层技术,已成功应用于小米、吉利、奇瑞、大众等多家车企的相关车型|播报
- 爱丽家居:北美基地9月外产外销营收占比预计首破50%
- A股收评:深成指、创业板指均涨超2%,券商、电池板块爆发
- 微速讯:前三季度新成立基金规模近9000亿 权益类基金再成“主角”
- 热点聚焦:再创历史新高 去年全国有近15亿人次走进博物馆
- 苏州玉嘉取得汽车电池盒箱盖检具专利,有效提高效率和检测精度
- 每日焦点!银行的客户细分策略如何影响市场定位?
- 40年!两代人接力守住徽韵记忆
- “看,谁在海里发光!”金秋十月,来上海海洋水族馆寻找会发光的海洋精灵
- 苹果 iOS 版微信官宣:聊天支持发送实况图、误删对话记录 5 秒内可撤销_热点评
- 视焦点讯!这份国庆档观影指南,请收好!
- 消息!海东金融监管分局核准刘吉仓青海循化农村商业银行股份有限公司董事会秘书
- 当前热议!投资基金时如何判断市场估值是否合理?
- 栾树花开秋意浓 满城风景入画来-焦点热闻
- 理解基金的费用透明度对投资的重要性? 每日头条
- 当前热议!造纸板块震荡走高,景兴纸业涨停
- 速看:字古以来丨“木”字家族的奇妙演变之旅
- 金价再刷新高,黄金相关ETF纷纷走强,有色金属ETF基金(516650)涨2.8%
- 商汤Seko上线一个月,超10万创作者选择它 每日报道
- 中网综合:张帅止步32强 高芙苦战晋级_新动态
- 纵览视频丨头接肩扛脚踢5米长中幡,一秒唤醒“龙的传人”血脉
- 人民银行开展2886亿元逆回购操作-即时看
- 每日速读!融资余额上周增加264.46亿元
- 浙江省博物馆开启“智览”新篇章:Rokid AR眼镜助力“浙江一万年”沉浸式体验
- 创世纪:融资净买入1334.27万元,融资余额9.84亿元(09-26)_焦点滚动
- 太湖雪:9月26日获融资买入45.42万元
- 音乐剧《大田》南京上演,原型赵亚夫现场寄语农科工作者_热点
- NFL传奇球星曼宁造访拜仁俱乐部,获赠凯恩的签名球衣
- 跨城赴约,书写热爱!第七届山东省中小学生作文大赛决赛圆满收官_今日热讯
- 速读:株洲队3:0领先邵阳队!
- 12秒90!28岁吴艳妮说到做到:问鼎全国冠军 跑出无人区+霸气摊手
- 快资讯丨2025京东服务商开放季交流会落幕 “1234”举措为电商生态注入强劲新动能
- 关注:书声远去后,一所鲁西南村小的“重生”
- 建设银行发行2025年首单小微金融债
- 每日速看!工信部等三部门:开展2025年高端医疗装备项目申报
- 前沿热点:商务部:做好2026年度汽车和摩托车出口许可申报工作
- 智光电气筹划购买控股子公司智光储能少数股权 9月29日起股票停牌
- 秀我中国|对话何香蓓:做一个和大家一起探路的人 精彩看点
- “科学家精神”进校园活动走进张家口市崇礼区西湾子小学 播报
- 片仔癀(600436.SH):拟斥2亿元参投中金医疗基金
- 既有”硬技术“,更有”暖服务“!他们量身定制方案助101岁抗战老兵抗癌
- 焦点短讯!研报掘金丨中信建投:维持济川药业“ 买入”评级,关注研发创新进展
- 焦点热讯:大华股份荣获安全科技进步奖一等奖!
- 焦点热讯:财政部副部长廖岷会见埃塞俄比亚国家银行行长特卡里恩
- 今日视点:襄阳至荆门高铁开通 湖北省内快速铁路环线形成
- 生意社:9月28日山东地区异丁醛价格弱势下跌_速读
- 海底捞推出多款秋季新品 番茄锅年销量超7000万份 焦点速读
- 通讯!“大连不赢都不行!”
- 注意!国庆中秋“双节”期间长沙公积金业务办理有调整 快讯
- 当前看点!年轻人的养生革命:从「贴秋膘」到「轻养生」
- 便携超声查身体,耳穴埋籽来调理,这场健康主题义诊太贴心
- 每日聚焦:中网女单第三轮:利斯2-1战胜莱巴金娜,晋级16强
- 【环球财经】巴西财长:消费税改革将使国家走出税制混乱 今日关注
- 汉威科技:传感器产业规模尚处于早期阶段,目前占整体营收比重仍较低
- 邦彦云PC亮相第三届快消品数字科技大会,助力快消企业加速数字化转型跃迁
- 每日视讯:江苏无锡“太湖揽胜”水上旅游再添两条新线路
- 突发!王健林、万达集团被限消!|焦点消息
- 如何看待基金的投资组合在市场波动中的表现?_每日热点
- 「性能 Ultra」一加 15 新配色曝光,独家航天级材质诠释「沙丘美学」
- 今日报丨世界心脏病日:守护心脏 从生活细节开始
- 小鹏MONA M03累计交付18万台,连续12个月获纯电A轿销量冠军
- 双汇在健康轻食领域发力 旗下高端轻食品牌“简颂”发布新品 快资讯
- METASPACEX采纳“中国数智科技”为中文股份简称
- 焦点讯息:忻州市亨祥汽车销售有限公司获准退出,退出日期2025年9月25日
- “七八分饱”如何界定?3个方法来判断
- 印度棉花种植面积将减少约2-3% 但预期产量有所提高_讯息
- 新疆维吾尔自治区成立70周年-今日聚焦
- 雷军:2025年第100次健身房打卡 提前3个月完成全年目标!曾称“体重都不能控制的人 怎能做好企业家”-视点
- 观点:湖人第3度追求凯斯勒!爵士开高价:拿里夫斯+首轮签交换
- 处子球来了!扎巴尔尼细腻端射攻获巴黎生涯处子球,维蒂尼亚助攻
- 2025澜湄国家青年企业家交流营活动举行
- 腾讯混元9月28日将发布新一代生图模型
- 前沿资讯!上汽王晓秋:预计到2030年我国新能源渗透率上升到70%
- 大雾黄色预警!28日早晨江淮之间有浓雾,局地能见度不足200米
- 脸胖了一圈32岁国足归化费南多晒视频,拿下iPhone17 promax 聚看点
- 权威数读|前8个月,规上工业企业利润实现同比增长_焦点资讯
- 今头条!中国人寿:紧抓数字化发展趋势 打造“大后台+小前端”科技布局
- 2025 国庆中秋假期无人机相机租赁火爆,“以租代买”模式流行_今热点
- 女友BELLA+封面 | SUPER JUNIOR银赫:二十年初心的破茧之旅|视点
- 欧洲六代机项目 德法要闹掰?_快讯
- 焦点报道:TCL 推出类纸屏平板 TAB 8 NXTPAPER 5G:MT8755,199.99 美元
- 每日速讯:Shams:詹姆斯今夏没有参与湖人队的运营,他在享受假期
- 华安证券:给予瑞迈特买入评级
- 南京建邺区:多部门一站式靶向督导,精准整治工地扬尘污染
- 一汽解放申请长行程比例阀结构及车辆相关专利,提高比例阀在整个行程范围内的控制精度-每日简讯
- 恒指夜期收盘(9.27︱恒生指数夜期(9月)收报26290点 高水162点
- 司南导航:9月26日获融资买入2852.85万元
- 热文:砀山县心语食品有限公司成立 注册资本1万人民币
- 【ETF动向】9月26日博时科创综指ETF基金跌1.55%
- 钟楼区邹区楠之鑫灯饰经营部(个体工商户)成立 注册资本8万人民币
- 当前资讯!钱塘江大潮现壮美“交叉潮”
- 焦点速读:青春华章 | 大国水利人物志之探源篇:溯源知水脉,探海利民生
- 澳洲成峰高教(01752)将于12月16日派发末期股息每股0.006港元|每日消息
- 美股周五早盘,标普500指数成份股涨幅前5名
- 银河磁体:拟购买京都龙泰100%股权,股票9月29日起复牌 精彩看点
- 忙啥去了?曼联主帅阿莫林并未第一时间出席赛前新闻发布会
- 大摩为微软(MSFT.US)“排雷”:三大增长担忧不足为虑 重申“增持”评级-要闻速递
- 海信家电:子公司海信模具拟购买海信厨卫约26%股权
- 焦点简讯:2025年唯一“招不满人”的211:低分考生都不想捡漏,原因曝光
- 2025年TPU龙头梳理
- 焦点快报!开通运营“倒计时”!南凭高铁崇凭段开始满图试运行
- 快讯:市民咨询道路施工进度 部门回应:该段九州路宽26米 预计明年动工