高德发布全球首个由大模型驱动的视觉认知步行导引系统
3月6日消息,近日,高德地图正式推出全球首个由大模型驱动的“视觉认知步导”系统——地标AI领航,该系统深度融合千问大模型、亿级POI与千万级街景图像,让导航系统首次具备了“视觉认知与人类语言理解”的空间智能感知能力。
在导航场景中,用户常常面临三个主要痛点:起步时方向感模糊、对距离与步行进度缺乏直观感知、到达目的地附近仍无法确认准确终点。
高德基于多模态人机交互、地理语义理解与生成式AI应用上的突破,推出了更符合人类指路习惯的视觉认知导航,有效解决了上述痛点,为用户提供零认知负担的“直觉式行走”体验。
人类在日常指路时常用“在那边”“走那条路”“穿过红色建筑”“下个路口有排餐饮店”等表达方式,通过融入当前环境的地标参考,让路线信息更明确,其核心依赖“方向语义+地标锚定+上下文感知”的认知逻辑。导航工具若要达到人类语境下的指路效果,首先需要构建覆盖真实世界、可听可视的地理语义网络。
为此,高德地图基于三大核心能力,建立导航系统对空间关系的深度理解:超亿级POI数据库、高精度步行路网拓扑,以及覆盖全国大部分城市及景区的千万级高精街景图像。结合千问的多模态能力,系统可识别交通设施、商铺、地标建筑等实体,并评估其视觉显著性,从而生成更符合人类习惯的自然语言描述。
真实场景中,并非所有POI都适合用于指引,地标不清、提示不准会导致用户拿不准“第几个路口转”“何时该提醒”。为提升指引有效性,高德地标AI领航采用“双重筛选”:一是时空关键节点筛选,仅在起点、转弯、偏航及临近终点等决策点播报;二是显著感知筛选,优先选择更醒目、更易识别的参照物,如地铁标识、银行大牌、餐饮招牌等。
同时,播报文案采用更口语化、具象化的表达,突出颜色、形态与相对位置(如“左侧第二个玻璃门”),并根据场景动态调整详略。实测显示,用户在听到视觉地标提示后,平均比传统导航快2秒确认正确路径,减少看手机频次,进一步降低老人、亲子家庭、游客及注意力易分散人群的步行出行门槛。(周小白)
OpenAI发布全新Agent:内置三大工具3月12日消息,据报道,OpenAI发布了专为构建AIAgents设计的新工具和API。OpenAI此次发布的核心产品包括ResponsesAPI和AgentsSDK。ResponsesAPI融合了ChatCompletionsAPI的简洁性和AssistantsAPI的工具使用能力,为开...
蚂蚁数科全球化新进展:海外总部落户香港4月8日消息,今日,香港特区政府引进重点企业办公室(引进办)举办第四批重点企业伙伴签约仪式,来自先进制造与新能源科技、人工智能与数据科学、金融科技及生命健康科技等高新产业领域的18家企业入选,蚂蚁数科、百...
OpenAI首席财务官莎拉・弗里尔:公司目前暂无IPO计划,正推动公司稳步提升现有规模11月6日消息,OpenAI首席财务官莎拉・弗里尔(SarahFriar)当地时间11月5日表示,首次公开募股(IPO)不在OpenAI的近期计划中。“目前暂无IPO计划。我们正持续推动公司稳步提升现有规模,因此不愿被IPO议题牵制。”1...
消息称鸿海再度拿下大单,成英伟达AI服务器芯片基板最大供应商8月14日消息,据台媒《经济日报》今日凌晨报道,鸿海集团首度拿下了英伟达HGXAI服务器芯片基板的订单,供货比重将超过50%。据报道,继此前获得英伟达另一款DGXAI服务器芯片基板订单之后,鸿海已经取得英伟达最重要的...
番茄小说 AI 协议遭平台作家集体抵制?公司回应:已上线解除条款功能入口IT之家7月23日消息,近期有不少网文作家发帖称,番茄小说签约协议中增加了“AI训练补充协议”,要求作者同意把作品“喂”给平台的AI,用于内容开发,引发不少作家反对。据新浪科技报道,对此番茄小说相关负责人表示...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...