聊天机器人胡言乱语?牛津研究人员利用语义熵来识破 AI“幻觉”
6 月 24 日消息,近年来,人工智能蓬勃发展,聊天机器人等应用逐渐普及,人们可以通过简单的指令从这些聊天机器人(例如 ChatGPT)获取信息。然而,这些聊天机器人仍然容易出现“幻觉”问题,即提供错误的答案,有时甚至是危险的信息。
造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的研究人员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的方法,用于检测大型语言模型 (LLMs) 的“捏造” (即任意生成的不正确信息) 问题。
LLM 通过在训练数据中寻找特定模式来生成答案。但这种方法并非总是奏效,就像人类能从云朵形状中看到动物一样,AI 机器人也可能找到并不存在的模式。然而,人类知道云朵只是形状而已,天上并没有漂浮的巨型大象。LLM 则可能将此视为真实的,从而“捏造”出并不存在的新科技和其他虚假信息。
牛津大学的研究人员利用语义熵的概念,通过概率来判断 LLM 是否出现“幻觉”。语义熵指的是同一个词语拥有多种含义的情况,例如,“desert”可以指沙漠,也可以表示抛弃某人。当 LLM 使用这类词语时,可能会对表达的含义感到困惑。通过检测语义熵,研究人员旨在判断 LLM 的输出内容是否存在“幻觉”的可能。
利用语义熵的优势在于无需额外的监督或强化学习,即可快速检测 LLM 的“幻觉”问题。由于该方法不依赖于特定任务的数据,因此即使 LLM 面临从未遇到过的新任务,也能加以应用。这将大大提升用户对于 LLM 的信任感,即使是 AI 首次遇到某个问题或指令。
研究团队表示:“我们的方法可以帮助用户理解何时需要对 LLM 的输出保持谨慎,并为原本因不可靠性而受限的 LLM 应用开辟了新天地。”
如果语义熵被证明是一种有效的“幻觉”检测手段,那么我们可以利用这类工具对人工智能的输出进行双重校验,使其成为更加可靠的伙伴。不过IT之家需要提醒的是,就像人类并非无懈可击一样,即使配备了最先进的错误检测工具,LLM 也仍然可能出错。因此,始终对 ChatGPT 等聊天机器人提供的答案进行仔细核查仍然是明智之举。(远洋)
日本增长最快独角兽即将诞生:人工智能公司Sakana AI成立一年后估值1800亿日元6月17日消息,据《朝日新闻》上周六报道,日本生成式AI初创公司SakanaAI即将获得一笔新的重大投资,这将使该公司估值达到约1800亿日元(约合83亿元人民币)。在全球AI投资大潮的推动下,这意味着日本将诞生一家新的...
亚信科技发布“渊思” 大模型 解决落地垂直行业“鸿沟”“通用大模型落地垂直行业有鸿沟、缺乏统一纳管造成重复建设、缺少快速落地的方法和工具等问题,是制约大模型广泛应用的主要障碍。正因如此,亚信科技着手建立面向行业认知增强的XGPT产品体系。”亚信科技执行董事、...
IBM旗下AI平台将托管Meta大语言模型MetaLlama2IBM宣布将在其企业人工智能平台WatsonX上托管MetaPlatform的AI语言模型MetaLlama2。据悉,Llama2是Meta于今年7月推出的开源人工智能语言模型的商业版本,由微软的Azure云服务分发。它在新兴的生成人工智能市场上与Op...
马斯克旗下AI创企xAI发布首款人工智能聊天机器人Grok11月6日消息,据外媒报道,特斯拉CEO埃隆·马斯克(ElonMusk)旗下人工智能初创公司xAI发布了首款生成式人工智能聊天机器人——Grok。上周,马斯克警告称,人工智能是“对人类最大的威胁之一”。然而,这并没有阻止...
“欧洲版OpenAI”获微软投资 已推出人工智能聊天机器人和大语言模型2月27日消息,据外媒报道,在随着OpenAI人工智能聊天机器人ChatGPT大火而备受关注的生成式人工智能领域,微软凭借他们对OpenAI大手笔的投资,而获得了不小的优势,在应用方面获得了先机,他们去年2月份推出的必应搜...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...