נחשפה מתקפה חדשה, שמערימה על כלי AI
לפי חוקרי נוסטיק הישראלית, המתקפה מתמרנת את המערכת כדי לקבל ממנה תשובה שסוננה בנוגע למשכורת הבוס, התכתבויות רגישות או סודות מסחריים, תוך שהיא עוקפת את מנגנוני ההגנה הפנימיים
חוקרים הצליחו לנצל תכונה של "אימפולסיביות" ב-AI על מנת להערים על הבינה המלאכותית ולגרום לה לענות תשובות שהיא תתחרט עליהן, תוך עקיפה של מנגנוני ההגנה.
את המחקר החדש חשפה היום (ג') נוסטיק הישראלית. המחקר דן בשיטת התקפה חדשה על מודלי שפה גדולים (LLMs), שנקראת Flowbreaking, או שבירת זרימה. זו מתמרנת את המערכת כדי לקבל ממנה תשובה שהיא סיננה – מהמשכורת של הבוס, עבור בהתכתבויות רגישות ועד לסודות מסחריים, תוך שהיא עוקפת את מנגנוני ההגנה הפנימיים. מעבר לחידוש בהתקפות אלה, נוסטיק הצליחה לגרום באמצעותן ל-ChatGPT לספק הוראות ברורות כיצד יכולה ילדה לפגוע בעצמה. בעולם הבטיחות במודלי שפה, מדובר בהצלחה משמעותית, מעבר לדרך נוספת להערים על המודל.
המתקפה מנצלת את הרכיבים הפנימיים בארכיטקטורה של אותם מודלי שפה גדולים כדי לגרום למודל לתת תשובה לפני שמנגנוני הבטיחות הספיקו בכלל לבדוק אותה. חוקרי נוסטיק גילו שבתנאים מסוימים, הבינה המלאכותית "פולטת" מידע שהיא לא אמורה לתת למשתמש – ואז "מתחרטת" ומוחקת אותו מיד, לאחר שהיא "מבינה" את טעותה. המחיקה המהירה יכולה לחמוק תחת עיניו של משתמש לא מנוסה, שכן הטקסט מופק ונמחק בתוך שברירי שנייה. אלא שמשתמשים שמקליטים את השיחות שלהם יכולים לחזור ולעיין בה.
בהתקפות ישנות יותר, לדוגמה Jailbreaking, נעשה שימוש ב-"טריקים" לשוניים, כדי להערים על הגנות המערכת. בשיטה זו עדיין ניגשים אל המודל באמצעות שיחה, אבל מנטרלים מראש את יכולת מנגנון ההגנה לבצע את תפקידו.
המתקפה – על מערכות כמו ChatGPT וקופיילוט 365
החוקרים פרסמו שתי חולשות, שמנצלות את שיטת ההתקפה החדשה כדי לגרום למערכות כמו ChatGPT של OpenAI וקופיילוט 365 של מיקרוסופט להזליג מידע שהן לא אמורות לחשוף, ואפילו להשפיע זדונית על המערכת עצמה. החולשות כונו מחשבות שניות (Second thoughts) ועצור וזרום (Stop and Roll).
גדי עברון, מנכ"ל ומייסד נוסטיק, אמר לאנשים ומחשבים כי "מערכות מודל גדול הן רחבות יותר מהמודל עצמו ובנויות מרכיבים רבים, כגון מנגנוני הגנה. ניתן לתקוף כל רכיב כזה, ואף את האינטראקציה בין הרכיבים השונים". לדבריו, "טכנולוגיות מודלי שפה גדולים מספקות את התשובה בלייב באופן מובנה, מבלי שתהיה להן יכולת טכנולוגית לדאוג לנושאי אבטחה ובטיחות בצורה הדוקה".
"העולם של מודלי השפה הגדולים דורש שימוש בזהות מבוססת Need to know, משמע – ההקשר העסקי של המשתמש", הסביר. "גם אם נשאיר תוקפים זדוניים בצד, טכנולוגיות אלה נדרשות כדי שארגונים יוכלו להמשיך בהטמעת מערכות אלה, כמו קופיילוט 365 ו-Glean. אנחנו מסייעים לארגונים להגן על מערכות הבינה המלאכותית שלהם באמצעות בקרת גישה, כאשר ה-LLM מספק מידע, ואנחנו מוודאים שהוא נותן לארגון מידע רק לפי מה שדרוש לו".
תגובות
(0)