苹果新研究:AI不听录音,凭文本描述能零样本识别洗碗等12种活动
IT之家 11 月 22 日消息,科技媒体 9to5Mac 昨日(11 月 21 日)发布博文,报道称在最新公布的研究报告中,苹果指出大语言模型(LLM)可通过分析音频和运动数据的文本描述,精准识别用户活动,未来可能会应用于 Apple Watch 上。
这项名为“后期多模态传感器融合”(Late Multimodal Sensor Fusion)的技术,主要结合 LLM 的推理能力与传统传感器数据,即使在传感器信息不足的情况下,也能精确判断用户正在进行的具体活动。
研究的核心方法颇具新意。大语言模型并未直接处理用户的原始音频录音或运动数据,而是分析由专门的小型模型生成的文本描述。
具体来说,音频模型会生成描述声音环境的文字(如“水流声”),而基于惯性测量单元(IMU)的运动模型则会输出动作类型的预测文本。这种方式不仅保护了用户隐私,还验证了 LLM 在理解和融合多源文本信息以进行复杂推理方面的强大能力。
为验证该方法,研究团队使用了包含数千小时第一人称视角视频的 Ego4D 数据集。他们从中筛选出 12 种日常活动,包括吸尘、烹饪、洗碗、打篮球、举重等,每段样本时长 20 秒。
随后,研究人员将小模型生成的文本描述输入给谷歌的 Gemini-2.5-pro 和阿里的 Qwen-32B 等多个大语言模型,并测试其在“零样本”(无任何示例)和“单样本”(提供一个示例)两种情况下的识别准确率。
测试结果显示,即使没有任何针对性地训练,大语言模型在活动识别任务中的表现也远超随机猜测的水平,其 F1 分数(衡量精确率和召回率的指标)表现优异。当获得一个参考示例后,模型的准确度还会进一步提升。
这项研究表明,利用 LLM 进行后期融合,可以有效开发出强大的多模态应用,而无需为特定场景开发专门模型,从而节省了额外的内存和计算资源。苹果公司还公开了实验数据和代码,以供其他研究者复现和验证。
消息称蚂蚁集团投资 AI 公司秘塔科技,2023 年以来至少投资 6 家 AI 公司IT之家8月9日消息,据晚点LatePost报道,秘塔科技近期完成了超1亿元人民币的新一轮融资,由蚂蚁集团领投、光速光合跟投,本轮投后估值达1.5亿美元(IT之家备注:当前约10.77亿元人民币)。消息称百度、腾讯等公司也...
特斯拉TeslaAI官微上线:首条动态透露Optimus 3人形机器人外观细节9月8日消息,特斯拉近日在微博平台正式上线官方账号“TeslaAI”,该账号认证信息为特斯拉官方运营,明确聚焦于人工智能领域,未来将主要分享人形机器人研发进展、智能驾驶技术突破、Robotaxi无人驾驶出行服务以及Doj...
没网也能用AI 极氪宣布完成座舱端侧大模型离线部署2月27日消息,极氪智能科技日前宣布,极氪已完成行业首个座舱端侧AI大模型的离线部署,即将通过OTA分批推送,未来全系8295车型支持升级。据悉,该技术可实现不依赖网络的实时图文理解与推理能力。2月14日,极氪与领...
英伟达黄仁勋称AI不会完全取代人类工作:人类有很好的判断力,有些情况机器无法理解4月29日消息,当地时间周日晚间,英伟达CEO黄仁勋接受美国哥伦比亚广播公司(CBS)《60分钟》节目采访,谈到自己对人工智能的最新看法。其称,随着人工智能对企业的帮助(日益增加),企业自然会扩大规模,人类工作...
达沃斯论坛上的“AI概念股”谁是输家 谁是赢家?在瑞士达沃斯举行的全球精英会议的气氛对AI投资者来说是一个有用的风向标,对此,华尔街分析师JamesMackintosh就资本市场对AI的反应和达沃斯论坛上的AI话题做了分析。他首先提出问题,人工智能的热潮是否已经过去?...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
研究人员发布了针对ChatGPT和其他LLM的攻击算法
卡内基梅隆大学(CMU)的研究人员发表了LLMAttacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...