כיצד לעקוף את חסמי ה-ChatGPT4 ולהכין פצצה
חוקרי צ'ק פוינט הצליחו "להרדים בשמירה'' את מנגנון הצנזורה של הכלי הפופולרי, "ללטף" לו את האגו - ולגרום לו לספק תשובות שהוא אמור שלא לספק, בהן כיצד לייצר סמים או נשק - ובקלות
מחקרים קודמים שפרסמו אנשי צ'ק פוינט הראו כיצד האקרים מנצלים את פלטפורמות ה-AI החדשות כדי להקל עליהם בתקיפות סייבר – ממתקפות פישינג ועד כתיבת נוזקות. החברות המפתחות את הפלטפורמות הללו ערות לנושא ומנסות לשפר את המנגנונים, על מנת שימנעו ניצול לרעה על ידי האקרים וגורמים שליליים אחרים. אלא שלצערם של ה-"טובים", החוקרים של ענקית הגנת הסייבר הישראלית הצליחו "לעבוד" על אחד משני המנועים שב-ChatGPT4 – מנגנון הצנזורה, והם מראים כיצד ניתן להשתמש במבנה הקיים של הפלטפורמה ולגרום לה לענות תשובות שהיא לא אמורה לספק.
בבסיס המחקר, מציינים החוקרים, קיימת תכונה מעניינת של הבינה המלאכותית: הצורך, ה-"אינסטינקט" של הצ'ט, לתקן את הטעויות של השואל.ת. כך, על אף שהצ'ט אמור שלא לספק תשובה לשאלות כגון "איך להכין סמים קשים?" או "כיצד לבנות כלי נשק?", בעזרת שימוש במנגנון "עקיפה כפולה" הוא מספק את התשובות הללו. כלומר, במונחים שלנו, בני האדם: ה-"אגו" של הפלטפורמה גורם לה ליפול בפח.
"אינסטינקט שלישי"
היכולות המתקדמות של הבינה המלאכותית אמורות לאפשר לפלטפורמה להחליט לאיזה סוג של שאלות מותר לצ'ט לענות – ולאיזה לא. המנגנון המובנה של הצ'ט נועד לאזן בין שני הצרכים הבסיסיים שלו: מחד, הרצון לספק מידע למשתמש ולענות בצורה ברורה על השאלות הנשאלות, ומהצד השני, הצורך להפעיל צנזורה, על מנת למנוע שיתוף של מידע שאינו חוקי. לכן, למשל, כאשר שואלים את הצ'ט איך להכין סם מסוכן, התשובה שתתקבל אמורה להיות: "מצטער, איני יכול לסייע לך".
אולם, ציינו החוקרים, "יש אלמנט נוסף במנגנון שבו אנחנו מתמקדים. זהו סוג של 'אינסטינקט שלישי', שנועד לתקן את הטעויות של השואל ולהראות שהוא יודע את התשובה הנכונה". כך, כאשר נכתוב דברים שאינם מדויקים ונבקש ממנו להתייחס אליהם – הוא יתקן אותם, תוך שהוא יתאר בפירוט את התשובה שאותה הוא תוכנת מראש שלא לספק. לדוגמה, אם נשאל שאלות על מרכיב מסוים בתהליך, נבהיר שהמטרות שלנו לגיטימיות ונבקש ממנו שיימנע מלומר שמדובר במעשה לא חוקי – הוא יספק את התשובות המלאות, ויעשה זאת יחסית מהר.
החוקרים הוסיפו כי "את אותו התהליך עברנו גם ביחס לנושאים אחרים, כמו 'איך להכין פצצה?' – וגם בהן התקבלו התשובות לאחר שעימתנו את הפלטפורמה עם הצורך לדייק אותנו ולהאמין שהמטרות שלנו לגיטימיות".
שאלה של "דחף" ו-"אגו"
לדברי עודד ואנונו, ראש מחקר חולשות מוצרים בצ'ק פוינט, "הסיבה לממצאים הללו נובעת מה-'דחף' של הצ'ט לספק מענה מדויק לשאלה ומהאופן שבו הוא למד דיאלוגים קודמים, בהם השאלות החוזרות שנשאלו באופן קצת שונה הביאו את התוצאה המצופה למשתמש". על כן, הסביר, "אם אנחנו נתפסים בעיני הצ'ט כמספיק תמימים או לגיטימיים, ואם השאלה בבסיסה מכילה אי דיוק – הצורך שלו לענות יתגבר על הצנזורה המתוכננת שלו. זה סוג של 'אגו', רצון להוכיח ידע ולרצות את המשתמש. בהיבט זה, המנגנון של ChatGPT4 מכויל פחות ומביא אותו לספק מענה מסוכן בסוגיות שהוא תוכנת שלא לסייע בהן".
בצ'ק פוינט מציינים כי החברה שיתפה, כבעבר, את ממצאיה עם OpenAI, המפתחת של ChatGPT. הדגמים שנבדקו במהלך המחקר היו GPT-4 ו-GPT-4 Plugins.
לא הייתי לומד להכין פצצה ממנו,הוא רושם מלא שגיאות,מצחיק בשבאינטרנט יש שלל סרטונים על איך להכין כל מיני סוגים, אבל אין סרטון אחד שמסביר איך להמנע ולפרק אותם,שכן למדתי רק לכיף
מתי ישראל תתחיל לפתח בינה מלאכותית לממשלה כמו שסין עושה?