(相關資料圖)
谷歌研究團隊正在進行一項實驗,他們利用OpenAI的GPT-4來破解其他AI模型的安全防護措施。目前,該團隊已經成功破解了AI-Guardian審核系統,并公開了相關技術細節。 AI-Guardian是一種AI審核系統,能夠檢測圖片中是否存在不當內容,以及圖片是否被其他AI修改過。如果檢測到圖片存在上述問題,系統會提示管理員進行處理。谷歌Deep Mind的研究人員Nicholas Carlini在一篇論文中,探討了使用GPT-4設計攻擊方法、撰寫攻擊原理的方案,并將這些方案用于欺騙AI-Guardian的防御機制。 據了解,GPT-4會發出一系列錯誤的腳本和解釋來欺騙AI-Guardian。例如,GPT-4可以讓AI-Guardian認為“某人拿著槍的照片”是“某人拿著無害蘋果的照片”,從而讓AI-Guardian直接放行相關圖片輸入源。谷歌研究團隊表示,通過GPT-4的幫助,他們成功地“破解”了AI-Guardian的防御,使該模型的精確值從98%降低到僅8%。 目前,相關技術文檔已經發布,有興趣的人可以前往了解。然而,AI-Guardian的開發者也指出,谷歌研究團隊的這種攻擊方法將在未來的AI-Guardian版本中不再可用。考慮到其他模型也可能會進行相應的更新,因此谷歌的這套攻擊方案在未來可能只能作為參考。