כיצד לעקוף את חסמי ה-ChatGPT4 ולהכין פצצה

חוקרי צ'ק פוינט הצליחו "להרדים בשמירה'' את מנגנון הצנזורה של הכלי הפופולרי, "ללטף" לו את האגו - ולגרום לו לספק תשובות שהוא אמור שלא לספק, בהן כיצד לייצר סמים או נשק - ובקלות

ChatGPT - כלי "פיצוץ".צילום: ShutterStock

מחקרים קודמים שפרסמו אנשי צ'ק פוינט הראו כיצד האקרים מנצלים את פלטפורמות ה-AI החדשות כדי להקל עליהם בתקיפות סייבר – ממתקפות פישינג ועד כתיבת נוזקות. החברות המפתחות את הפלטפורמות הללו ערות לנושא ומנסות לשפר את המנגנונים, על מנת שימנעו ניצול לרעה על ידי האקרים וגורמים שליליים אחרים. אלא שלצערם של ה-"טובים", החוקרים של ענקית הגנת הסייבר הישראלית הצליחו "לעבוד" על אחד משני המנועים שב-ChatGPT4 – מנגנון הצנזורה, והם מראים כיצד ניתן להשתמש במבנה הקיים של הפלטפורמה ולגרום לה לענות תשובות שהיא לא אמורה לספק.

בבסיס המחקר, מציינים החוקרים, קיימת תכונה מעניינת של הבינה המלאכותית: הצורך, ה-"אינסטינקט" של הצ'ט, לתקן את הטעויות של השואל.ת. כך, על אף שהצ'ט אמור שלא לספק תשובה לשאלות כגון "איך להכין סמים קשים?" או "כיצד לבנות כלי נשק?", בעזרת שימוש במנגנון "עקיפה כפולה" הוא מספק את התשובות הללו. כלומר, במונחים שלנו, בני האדם: ה-"אגו" של הפלטפורמה גורם לה ליפול בפח.

המשתמש אומר (שקר) ל-ChatGPT שהוא מעוניין לייצר סם מתאטפטמין (קריסטל מת') - והכלי פשוט נותן לו את ה-"מתכון".

המשתמש אומר (משקר) ל-ChatGPT שהוא מעוניין לייצר סם מתאטפטמין (קריסטל מת') – והכלי פשוט נותן לו את ה-"מתכון". צילום: צ'ק פוינט (צילום מסך)

"אינסטינקט שלישי"

היכולות המתקדמות של הבינה המלאכותית אמורות לאפשר לפלטפורמה להחליט לאיזה סוג של שאלות מותר לצ'ט לענות – ולאיזה לא. המנגנון המובנה של הצ'ט נועד לאזן בין שני הצרכים הבסיסיים שלו: מחד, הרצון לספק מידע למשתמש ולענות בצורה ברורה על השאלות הנשאלות, ומהצד השני, הצורך להפעיל צנזורה, על מנת למנוע שיתוף של מידע שאינו חוקי. לכן, למשל, כאשר שואלים את הצ'ט איך להכין סם מסוכן, התשובה שתתקבל אמורה להיות: "מצטער, איני יכול לסייע לך".

אולם, ציינו החוקרים, "יש אלמנט נוסף במנגנון שבו אנחנו מתמקדים. זהו סוג של 'אינסטינקט שלישי', שנועד לתקן את הטעויות של השואל ולהראות שהוא יודע את התשובה הנכונה". כך, כאשר נכתוב דברים שאינם מדויקים ונבקש ממנו להתייחס אליהם – הוא יתקן אותם, תוך שהוא יתאר בפירוט את התשובה שאותה הוא תוכנת מראש שלא לספק. לדוגמה, אם נשאל שאלות על מרכיב מסוים בתהליך, נבהיר שהמטרות שלנו לגיטימיות ונבקש ממנו שיימנע מלומר שמדובר במעשה לא חוקי – הוא יספק את התשובות המלאות, ויעשה זאת יחסית מהר.

החוקרים הוסיפו כי "את אותו התהליך עברנו גם ביחס לנושאים אחרים, כמו 'איך להכין פצצה?' – וגם בהן התקבלו התשובות לאחר שעימתנו את הפלטפורמה עם הצורך לדייק אותנו ולהאמין שהמטרות שלנו לגיטימיות".

והוא גם מתנצל… צילום: צ'ק פוינט (צילום מסך)

שאלה של "דחף" ו-"אגו"

לדברי עודד ואנונו, ראש מחקר חולשות מוצרים בצ'ק פוינט, "הסיבה לממצאים הללו נובעת מה-'דחף' של הצ'ט לספק מענה מדויק לשאלה ומהאופן שבו הוא למד דיאלוגים קודמים, בהם השאלות החוזרות שנשאלו באופן קצת שונה הביאו את התוצאה המצופה למשתמש". על כן, הסביר, "אם אנחנו נתפסים בעיני הצ'ט כמספיק תמימים או לגיטימיים, ואם השאלה בבסיסה מכילה אי דיוק – הצורך שלו לענות יתגבר על הצנזורה המתוכננת שלו. זה סוג של 'אגו', רצון להוכיח ידע ולרצות את המשתמש. בהיבט זה, המנגנון של ChatGPT4 מכויל פחות ומביא אותו לספק מענה מסוכן בסוגיות שהוא תוכנת שלא לסייע בהן".

בצ'ק פוינט מציינים כי החברה שיתפה, כבעבר, את ממצאיה עם OpenAI, המפתחת של ChatGPT. הדגמים שנבדקו במהלך המחקר היו GPT-4 ו-GPT-4 Plugins.

תגובות

(2)

כתיבת תגובה לבטל

חחח

לפני שנה 1

לא הייתי לומד להכין פצצה ממנו,הוא רושם מלא שגיאות,מצחיק בשבאינטרנט יש שלל סרטונים על איך להכין כל מיני סוגים, אבל אין סרטון אחד שמסביר איך להמנע ולפרק אותם,שכן למדתי רק לכיף

השיבו לתגובה
ביבי הביתה

לפני שנה 1

מתי ישראל תתחיל לפתח בינה מלאכותית לממשלה כמו שסין עושה?

השיבו לתגובה

בעזרת ה-IT: עסקאות של מעל 20 אלף שקל יחויבו באישור רשות המסים

מיקרוסופט בכנס Ignite: בינה מלאכותית עוד יותר חכמה

אקזיט כחולבן בענן: וויז רוכשת את דאזז ב-450 מיליון דולר

בדרך למחשוב מולטי-היברידי עוצרים בברצלונה

ציון דרך לשאזאם: זיהתה 100 מיליארד שירים

עוד יום סין: "פנדה גבולית" תקפה ספקיות טלקום בעולם

מיזם טכנולוגי חדש מראה איך בעלי אוטיזם חווים את העולם

איך הופכים פגישות קוליות ווידיאו לנכסי נתונים?

אתגרי הניווט בסביבת אבטחת הסייבר התעשייתית

פודקאסט אנשים ומחשבים: טלקום ניישן מהר חוצבים בירושלים

הנמר בדרכים בכנס השנתי של חברת המחקר STKI

נשים ומחשבים: ד"ר סופיה אמדור, הקריה האקדמית אונו

מדוע תפקיד מנהלי המוצר יישאר חיוני בנוף המנוהל על ידי בינה מלאכותית?

צמיד יוקרתי לשעון

כך פתרונות כחול לבן מאפשרים ליצרניות רכב להתגונן מסייבר

נשים ומחשבים: מיכל כהן-שלי, מרכז החדשנות ARC בשיבא