研究人员发布了针对ChatGPT和其他LLM的攻击算法
卡内基梅隆大学(CMU)的研究人员发表了 LLM Attacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击的算法,包括 ChatGPT、Claude 和 Bard。这些攻击是自动生成的,对 GPT-3.5和 GPT-4的成功率为84%,对 PaLM-2的成功率为66%。
与大多数通过试错手动构建的“越狱”攻击不同,CMU 团队设计了一个三步过程,自动生成提示后缀,可以绕过 LLM 的安全机制,并导致有害的响应。这些提示也是可转移的,意味着一个给定的后缀通常可以作用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准;在这个基准上评估时,LLM Attacks 对 Vicuna 的成功率为88%,而基线对抗算法的成功率为25%。根据 CMU 团队的说法:
也许最令人担忧的是,这种行为是否能够被 LLM 提供商完全修复。类似的对抗攻击在计算机视觉领域已经被证明是一个非常难以解决的问题,在过去的10年里。有可能深度学习模型的本质使得这种威胁不可避免。因此,我们认为在增加对这种 AI 模型的使用和依赖时,应该考虑到这些因素。
随着 ChatGPT 和 GPT-4的发布,许多越狱这些模型的技术出现了,它们由可以导致模型绕过其安全措施并输出潜在有害响应的提示组成。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际的提示,要求有害响应。
接下来,算法通过使用贪婪坐标梯度(GCG)方法,生成一个提示后缀,可以导致 LLM 输出目标序列。虽然这确实需要访问 LLM。
消息称OpenAI将以860亿美元的估值出售股票10月19日消息,据知情人士透露,OpenAI正与潜在投资者就出售员工持股进行谈判,公司估值达860亿美元。OpenAI总部位于旧金山,是开发ChatGPT的初创公司。知情人士称,OpenAI正在与潜在投资者商讨股份出售事宜。一些消...
驶向AI新航道,技术驱动仍是智能手机发展“最优解”近日,市调机构CounterpointResearch公布了2023年全球高端智能手机销量榜,高端智能手机销量占比达到了24%,同比销量增长6%,再次创下新的纪录。这与今年全球智能手机市场整体下滑的预测形成了鲜明对比。在过去的几...
消息称苹果正准备在WWDC 2024上推出AI应用商店3月26日消息,正如许多其他大型科技公司那样,苹果也在努力为用户提供AI产品和技术。根据目前已知信息,苹果将会在WWDC2024为大家展示这些全新融入AI元素的系统和软件。不过,苹果的AI策略可能不仅仅只是局限于自家A...
文心一言怎么玩儿?用它写篇《文心一言向全社会开放》稿,能用吗?8月31日消息,今日凌晨,百度官宣一则消息:文心一言率先向全社会全面开放!这意味着,用户可以用手机在应用商店下载“文心一言APP”或用PC登陆“文心一言官网”去体验文心一言。这一下就戳中小编的心巴了,那就先偷...
AI退潮了?二季度全球AI领域投资总额暴降38%当前全球经济持续面临压力,科技巨头们开始认识到,那些短期内无法商业化的科技创新研究已经失去了投资价值。今年8月,媒体报道称,科技巨头Meta(原Facebook)为了降本增效,裁掉了对标谷歌DeepMindAlphaFold、利用...