苹果连发 3 项 AI 研究,推进空间计算与 Vision Pro 头显方向
本快讯为智晓科创2026年5月12日实时更新的科技行业最新资讯,第一时间为您带来互联网、数码、科技领域的前沿动态。

事件核心内容
<p data-vmark=”cb79″>IT之家 5 月 12 日消息,科技媒体 Appleinsider 昨日(5 月 11 日)发布博文,报道称基于最新公开的 3 项研究,<strong>苹果仍在积极推进空间计算和 Vision Pro 头显。</strong></p><p data-vmark=”f6a3″>IT之家 4 月援引 MacRumors 媒体报道,<a target=”_blank” href=”https://www.ithome.com/0/945/244.htm”>苹果公司内部已搁置研发新款 Vision Pro,团队重心转向 Siri 和 AI 智能眼镜</a>。</p><p data-vmark=”778c”>但从最新公示的研究论文来看,苹果公司并未放弃 Vision Pro 头显项目,本轮公开了 3 项研究,分别涉及多模态大模型空间推理评测、美式手语视频标注,以及 3D 头部重建。</p><p data-vmark=”dda7″>其中最直接的一项,是苹果在机器学习博客发布的《From Where Things Are to What They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》。</p><p data-vmark=”8c65″>这篇论文提出 SFI-Bench,用来测试多模态大模型是否既看懂空间布局,也理解物体“能做什么”。原文提到,这套视频基准包含 134 段室内视频扫描,并整理出 1555 道专家标注问题。</p><p data-vmark=”455d”>SFI-Bench 不只问模型“这是什么、在哪里”,还会追问“它怎么用、出了故障怎么办”。例如,模型可能需要从柜子里找出同品牌数量最多的一组瓶子,理解洗衣机当前程序如何取消,或者判断电视遥控器的用途。相比只测空间识别的旧方法,这更接近日常家庭场景,也更像未来空间助手需要处理的真实任务。</p><p style=”text-align: center;” data-vmark=”528b”><img src=”https://img.ithome.com/newsuploadfiles/2026/5/939e150c-9d77-44f1-bf60-d77da87cc102.jpg?x-bce-process=image/format,f_auto” w=”1312″ h=”738″ data-weibo=”0″ data-vmark=”1bf0″ class=”no-alt-img”></p><figcaption>苹果公司的人工智能研究人员测试了智能体(LLM)对周围世界的理解能力。图源:苹果公司</figcaption><p data-vmark=”904e”>测试结果显示,Google Gemini 3.1 Pro 总分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。</p><p data-vmark=”8ab9″>但论文也点出共同短板:几乎所有模型都不擅长“带条件的全局计数”,并且在空间记忆、功能知识整合,以及把眼前画面和外部知识连起来这几件事上仍有明显限制。</p><p data-vmark=”493d”>手语论文《Bootstrapping Sign Language Annotations with Sign Language Models》尝试用 AI 自动生成候选标注,减少数百小时手工标注成本。</p><p style=”text-align: center;” data-vmark=”ebc4″><img src=”https://img.ithome.com/newsuploadfiles/2026/5/8c850018-b257-4ff4-b30e-d1ff2e56cffb.jpg?x-bce-process=image/format,f_auto” w=”908″ h=”511″ data-weibo=”1″ data-vmark=”ece2″ class=”no-alt-img”></p><figcaption>苹果公司的研究人员探索了使用人工智能进行美国手语(ASL)标注的可能性。图源:苹果公司</figcaption><p data-vmark=”dce1″>原文称,团队建立了近 500 条人工英文字词到术语标注,并扩展到超过 300 小时 ASL STEM Wiki 和 7.5 小时 FLEURS-ASL 数据。其手指拼写模型在 FSBoard 上达到 6.7% CER,在 ASL Citizen 数据集上达到 74% top-1 准确率。</p><p data-vmark=”b5c7″>第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》则聚焦 3D 头像重建。</p><p style=”text-align: center;” data-vmark=”46f1″><img src=”https://img.ithome.com/newsuploadfiles/2026/5/70e2ee67-8b17-4947-8a38-5d6490c5432c.jpg?x-bce-process=image/format,f_auto” w=”1312″ h=”738″ data-weibo=”2″ data-vmark=”db6d” class=”no-alt-img”></p><figcaption>苹果公司的人工智能研究人员探索了如何利用 LLM(层级建模)技术,从多角度拍摄的图像中创建 3D 头部模型。图源:苹果公司。</figcaption><p data-vmark=”201d”>苹果提出 HeadsUp 方法,可从大规模多摄像头采集中重建高质量 3D Gaussian 头部模型。测试使用了一个超过 10000 名受试者的内部数据集,规模比现有多视角人头数据集高一个数量级。这可能和 Vision Pro 的 Persona,或 visionOS 中更自然的人脸捕捉与表情渲染有关。</p><p data-vmark=”b1dd”>苹果公司全球营销高级副总裁格雷格 · 乔斯维亚克(Greg Joswiak)此前表示,<a href=”https://www.ithome.com/0/939/658.htm” target=”_blank”>Vision Pro 展示了数字世界与物理世界融合的未来形态</a>,这种融合具有必然性。当被问及具体时间表时,他坦言无法预测“空间计算”何时能成为主流,<strong>但坚信这一方向不可逆转。</strong></p><p data-vmark=”47dc”><span class=”referenceTitle”>参考</span></p><ul class=”custom_reference list-paddingleft-1″><li class=”list-undefined list-reference-paddingleft”><p data-vmark=”3190″><a href=”https://machinelearning.apple.com/research/gaussian-head-reconstruction” target=”_blank”>Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures</a></p></li><li class=”list-undefined list-reference-paddingleft”><p data-vmark=”0a5c”><a href=”https://machinelearning.apple.com/research/sign-language-annotations” target=”_blank”>Bootstrapping Sign Language Annotations with Sign Language Models</a></p></li><li class=”list-undefined list-reference-paddingleft”><p data-vmark=”39dc”><a href=”https://machinelearning.apple.com/research/spatial” target=”_blank”>From Where Things Are to What They’re For: Benchmarking Spatial-Functional Intelligence for Multimodal LLMs</a></p></li></ul><p data-vmark=”f420″><strong>相关阅读:</strong></p><ul class=”small-size list-paddingleft-2″><li><p data-vmark=”138a”>《<a target=”_blank” href=”https://www.ithome.com/0/939/658.htm”>苹果高管力挺 Vision Pro 头显,空间计算是必然趋势</a>》</p></li></ul>
事件背景与影响
本次事件是近期科技行业关注度最高的动态之一,相关领域的从业者、消费者以及资本市场都对后续发展保持高度关注。从行业趋势来看,该事件大概率将推动相关技术的落地应用速度,带动上下游产业链的新一轮发展机遇。
对于普通用户而言,相关技术的普及也将带来更便捷的使用体验,后续产品落地后有望进一步降低使用门槛,惠及更广泛的消费群体。
来源:IT之家 | 发布时间:2026-05-12 09:06



