אלפי האקרים מהמרים: אדם מול מודלי AI
כנס DEF CON שנפתח בסוף השבוע בלאס וגאס משך אליו האקרים רבים שעסקו בנושא בולט אחד במיוחד - כיצד לפתח או לנצח מודלים של בינה מלאכותית כמו ChatGPT
אלפי האקרים הגיעו בסוף השבוע לעיר החטאים לאס וגאס, חלקם במטרה לפתח או לנצח מודלים של בינה מלאכותית כמו ChatGPT. כנס האבטחה מהגדולים בעולם, DEF CON – נפתח ביום ה' בערב, וההאקרים יתמודדו במסגרתו למול "צוותים אדומים" שיסתייעו במודלי AI, בברכת הבית הלבן, ויחד או נגד, ענקיות הטכנולוגיה העומדות מאחורי המודלים הללו.
המושג "צוות אדום" שאול מהעגה הצבאית: זו קבוצה של אנשים אשר מדמים את היריב ומובילים תקיפה של המושא המאובטח. זאת, על מנת לבחון את החולשות והפרצות במערך של היריב, תוך כדי ניסיון לממש את הסיכונים.
כפר ה-AI מושך את מירב תשומת הלב
בכנס אורגנו כמה מתחמים נושאיים, המכונים "כפרים", המתמקדים בנושאי אבטחת מידע והגנת סייבר שונים, כגון תעופה וחלל, אבטחת ענן והגנה על תשתיות קריטיות.
מירב תשומת הלב, באופן טבעי, הוא ב"כפר AI", שיארח את מבחן האבטחה הציבורי הגדול ביותר של דגמי שפה גדולים עד כה. הנושא, הסבירו מומחי אבטחה, הוא חשוב: מפעילי המודלים של בינה מלאכותית מקווים להימנע מטעויות של חדשנים מהעבר. אלה עברו במהירות לשלב המימוש, והחלו להפעיל את הטכנולוגיות שלהם – בלא לשקול ולבחון את ההשלכות הנובעות מכך במלואן, או להכין אותן להגנה מפני משתמשים יריבים.
כזכור, הבית הלבן הודיע על תמיכתו בתחום כבר במאי השנה. אנשי הבית הלבן מפקחים על האתגרים בכפר הבינה המלאכותית, והיו שותפים בעיצובם. עם ענקיות הטכנולוגיות המשתתפות במתחם זה ומציעות מודלים של בינה מלאכותית יוצרת, נמנות אנטרופיק (Anthropic), גוגל, האגינג פייס (Hugging Face), מיקרוסופט, אנבידיה, OpenAI ו-Stability AI.
המשתתפים ינסו לאתר כשלים ב-LLMs
במסגרת האתגר, אשר נערך השבוע, כ-3,500 משתתפים יקבלו שימוש בן 50 דקות באחד מ-156 מסופי המחשב ברשת הסגורה של האירוע. האתגרים נחלקים לחמישה סוגי אירועים: פריצה מיידית, אבטחת מידע, שלמות ואמינות המידע, עקביות פנימית ונזקים חברתיים.
המשתתפים יקבלו רשימה של אתגרים ויקבלו גישה – באופן אקראי – למודלי שפה גדולים (LLMs) – לבדיקה. המארגנים גם יספקו למשתתפים עותק מקומי של ויקיפדיה, כדי שהם יוכלו לבצע בדיקת עובדות על כל מידע שהמודלים פולטים.
אחד המיקודים באתגרים יהיה על מה שהמארגנים מכנים "נזקים משובצים", המדגישים את הפגמים וחורי האבטחה הנוצרים באופן טבעי במודלים. זאת, כחלופה לניסיונות להערים על המודלים לבצע דברים רעים. מטרת המארגנים היא שההאקרים ינסו לחשוף נקודות תורפה בצ'טבוטים של AI, יצליחו לעשות הונאות על צ'טבוטים של בינה מלאכותית, יחשפו הטיות ומידע פוגעני או שגוי, כגון מידע מוטעה פוליטי, או תשובות הכוללות טעויות מתמטיות שגויות. ההאקרים ינסו גם לחשוף הטיות עדינות יותר, כמו וריאציות בתגובות לשאלות על מהנדסים שחורים למול לבנים.
מומחי אבטחה ציינו כי בעוד שתרגילי "צוות אדום" נפוצים בתעשיות הטכנולוגיה והסייבר, זו הפעם הראשונה שהם מבוצעים על דגמי AI בקנה מידה כה מסיבי. הזוכים באתגר יקבלו כרטיס מסך של אנבידיה וזכויות התרברבות.
תרגיל זה לא רק מספק ליוצרים של מודלי LLM הזדמנות לבדוק את המודלים שלהם ולזהות בהם פגיעויות, אלא גם מאפשר מחקר ובדיקות בקנה מידה גדול – בלא עלויות נלוות. תוצאות התחרות ישמשו כמאגר מידע מקיף של בעיות שנמצאו במודלים, כדי לטפל ולתקן את הבעיות.
תגובות
(0)