一、供应链安全风险
在大型语言模型(LLM)的应用周期内,潜在的安全威胁可能源于软件组件或服务的安全漏洞,这些漏洞可能被利用来发起攻击。引入外部数据集、预训练模型和插件时,这种风险可能会增加。
![图片[1]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_0.png)
由于众多LLM模型的源代码公开可用,例如在Hugging Face平台上,这使得验证模型的来源和信任度变得复杂。同时,由于训练数据的多样性和复杂性,很难确保这些数据没有被恶意篡改或包含偏见。在模型训练和部署过程中,多个第三方服务和云平台,例如阿里云、腾讯云、Kaggle、Google Drive、OneThingAI和端脑云等,提供了内置的开发框架,这可能引入额外的安全风险。
Hugging Face的datasets工具提供了大量的数据集,这些数据集被广泛用于AI模型的训练和微调,是当前最受欢迎的开源AI数据集工具之一。截至2024年10月,Hugging Face托管了超过236,241个公开数据集。然而,攻击者可能通过在Hugging Face、GitHub等平台发布含有恶意后门的数据集,当开发者使用datasets工具加载这些数据集时,可能会触发恶意代码的执行,导致AI模型、数据集和代码的安全受到威胁。
以下是Hugging Face平台上一些值得注意的安全事件:
尽管Hugging Face实施了包括恶意软件检测、pickle扫描和机密信息扫描在内的多项安全措施,并且对模型功能进行了细致的审查,但安全事件仍然时有发生。
二、训练数据投毒
训练数据投毒指的是操纵数据或微调过程,引入漏洞、后门或偏见,从而可能危害模型的安全性、有效性或道德行为。
典型代表是字节AILab实习生投毒新闻:
![图片[2]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_1.jpg)
三、用户日志隐私泄露风险
ChatGPT作为一种先进的人工智能对话系统,具备处理和分析大规模数据的能力。在与用户的互动过程中,用户可能会透露个人隐私、敏感信息或商业机密。这些数据有可能被用于优化和训练未来的AI模型,这引发了对个人隐私和商业信息安全的担忧。此外,当用户通过输入界面与ChatGPT进行交流时,这些对话数据可能会被保存在OpenAI的自有或租赁的存储设施中。对于中国用户而言,使用ChatGPT服务涉及到数据的跨境传输,这可能带来数据安全和合规性的风险。
![图片[3]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_2.jpg)
四、训练数据侵权风险
在大型人工智能模型的训练过程中,确实存在着数据采集和使用的合规性问题。例如,笔神作文曾就“学而思”AI大模型侵权事件发表声明,指责学而思在未经授权的情况下爬取了其大量的数据,侵犯了公司的数据权益。这一事件凸显了在AI大模型训练中,数据来源的合法性和授权问题的重要性。
关于大模型生成内容的知识产权归属问题,这是一个复杂且尚无定论的话题。一般来说,知识产权可能涉及多个方面,包括数据提供方、模型服务提供方以及模型使用方。具体归属可能取决于多个因素,如数据的原创性、模型的训练方法、内容生成的具体过程等。目前,法律界和业界对于这一问题的看法并不统一,需要根据具体情况和相关法律法规来判断。
![图片[4]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_3.jpg)
五、模型数据泄露
在人工智能领域,通过创建多个模拟模型来模拟目标模型的行为,并训练攻击模型以识别输出分布的差异,是一种常见的技术。例如,攻击人脸识别系统,可以通过生成能够欺骗门禁系统的人脸图像来实现。
成员推理攻击的基本概念是:如果你有一个数据集包含数据和标签(data, label),你可以将其视为输入特征和对应的类别标签(x, y)。当你将这些数据输入到目标模型(TargetModel)时,模型会输出一个预测向量(prediction),其中包含了各类别的概率分布(例如 [A:0.2, B:0.3, C:0.5])。这些概率值,也称为置信度,范围在0到1之间,总和为1。预测标签是置信度最高的类别。
![图片[5]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_4.jpg)
获得预测向量后,将其与真实标签一起作为输入(prediction, label)输入到攻击模型中,攻击模型会输出“in”或“out”的结果,以判断数据是否参与了目标模型的训练。
由于我们进行的是黑盒攻击,无法知晓目标模型的具体算法、结构和超参数,因此需要构建影子模型来模拟目标模型的行为。如果你的目标模型有10个类别,那么构建10个影子模型来模仿每个类别的行为是有意义的。如果数据集格式相同,内容相似,并且使用相同的机器学习API接口,那么输出结果也应该相似。影子模型的目的是模仿目标模型,就像模仿一个人的行为一样,模仿得越多,相似度就越高。因此,影子模型越多,攻击效果通常越好。
有了(prediction, label, in/out)数据后,就可以训练攻击模型了。这是一个二分类问题,我们可以将(prediction, label)视为特征集X,而in/out作为标签y。
为了验证攻击模型的准确性,可以使用已知参与过影子模型训练的数据。将这些数据输入目标模型,获得预测向量,并与真实标签一起输入到攻击模型,如果攻击模型输出“in”,则表明攻击模型能够正确判断。
成员推理攻击的风险在于,我们的隐私数据可能被用于机器学习模型的训练中。如果成员推理攻击成功,可能会导致前所未有的隐私泄露。例如,如果攻击者获取了你的医疗记录,他们可能会利用这些信息来预测你的健康状况,并据此向你推销产品或进行诈骗,这对个人隐私构成了严重威胁。
![图片[6]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_5.jpg)
六、不适当的使用模型
![图片[7]-LLM大语言模型的几大安全风险!-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2024/12/1734473258811_6.png)
在2023年3月3日,Google商店出现了一款名为“快速访问聊天GPT”的伪GPT钓鱼工具,该工具通过Facebook赞助的帖子进行推广。尽管这款工具提供了连接到ChatGPT服务的功能,但它也被设计用来秘密收集已经激活的、经过身份验证的会话cookie以及Facebook账户数据。攻击者利用伪造的Facebook应用程序portal和msg_kig来维持后门访问,并获得对目标配置文件的完全控制,整个过程是自动化的。随后,被劫持的Facebook商业账户被用来为恶意软件做广告,进一步传播该计划,并有效地扩大了受感染账户的收集范围。
另一个案例是国内首例“ChatGPT犯罪”案件。2023年4月25日,据报道称甘肃省发生了一起火车撞上公路工人的事故,造成9人死亡。然而,经核实,甘肃并未发生此类火车交通事故。警方对此立即展开调查,并于5月5日前往广东对嫌疑人住处进行取证。审讯后发现,一名洪姓男子搜寻了近年来中国讨论度广泛的社会新闻,随后利用ChatGPT将特定元素如时间、地点、日期或性别等进行修改,重新撰写成一篇假新闻,通过上传这些文章让账号赚取流量再加以变现,成为国内首例“ChatGPT犯罪”案件。







