報告人簡介
孫軍目前是新加坡管理大學(SMU)的終身教授。他于2002年和2006年獲得新加坡國立大學計算機科學學士和博士學位。2007年,他獲得了李光耀博士后獎學金。他在2010年受聘為教授至今。 孫軍的研究興趣包括AI安全、軟件工程和形式化方法。他發表了多篇文章和會議論文,包括多個領域的頂級會議。他發布了多款軟件分析工具,也擔任過多家公司的資深技術顧問。
內容簡介
本次演講將探討與大模型,特別是大型語言模型(LLMs)相關的關鍵安全問題,同時介紹我們最近在分析和理解這些挑戰方面的研究工作。具體來說,我們將回答以下關鍵問題。
為什么LLMs的安全對齊常常易受諸如GCG和AutoDAN等攻擊的影響?
能夠破壞LLM安全對齊的對抗性標記是隨機的,還是具有內在意義?
如何在有限的對齊數據下提升LLM的安全性?
我們是否可以編輯LLMs,使其執行我們想要的任務?
是否僅使用良性數據就可以完全消除GPT-4o的安全對齊? 本次討論將深入探討我們的方法和發現,重點揭示大模型安全的基礎與挑戰。