FuzzLLM--基于大数据的模糊越狱测试评估框架

武汉大学

第十七届全国大学生信息安全竞赛信息安全作品赛

作品概述

近些年,大型语言模型得益于海量数据的训练和参数量的爆炸性增长,发展迅速,在各个领域都展现了巨大的价值。然而,在这快速发展的背后,却蕴藏着巨大的隐患——“越狱漏洞”,即攻击者可以通过特定的“越狱提示”利用模型回复非法内容。更不幸的是,针对越狱攻击的防御目前还十分被动。 对此,我们受到传统模糊测试中海量测试数据挖掘漏洞的启发,提出了一种基于大数据的模糊越狱测试框架,名为FuzzLLM。FuzzLLM旨在主动挖掘和评估大型模型的潜在越狱漏洞,使模型的拥有者能够主动发现漏洞并制定相关对策以提前防御。 在我们的FuzzLLM中,一个“越狱提示”分为三个基本部件:约束条件、“模糊模板”和“非法问题”,通过模糊越狱测试技术实现自动生成海量的越狱提示。这些测试案例旨在模拟潜在的攻击,并通过自动标注测试结果,系统地探索和挖掘模型可能存在的漏洞。需要强调的是,我们的FuzzLLM框架高度自动化,革命性地在防御越狱攻击这一领域提出了一种无需人工挖掘漏洞的方法,为大语言模型安全领域树立了全新的基准线,也为构建一个安全可控的人工智能时代贡献了我们的力量。

overview_image

具体示例

overview_image

模糊模板



数据构建实例




测试结果

overview_image