מחקר חדש: ה-AI יכולה להיות רמאית ולהטעות את מאמניה

חוקרי אנטרופיק גילו כי ניתן לאמן כלי AI - כמו בארד, ChatGPT מבית OpenAI, ואת הכלי של החברה עצמה, קלוד - להפגין התנהגות מועילה לכאורה, אך בתוך שמירת קווי הנחייה סודיים, שעלולים להוציא מהם התנהלות מזיקה

הבינה המלאכותית יוצרת סיכוני סייבר - אבל גם הגנה טובה יותר מפני סיכונים.

בינה מלאכותית ג'נרטיבית יכולה לשחק עם משתמשיה משחקים מטעים ואף להטעות את המאמנים שלה, כך על פי ממצאים של מחקר חדש שמאחוריו עומדת חברת ה-AI אנטרופיק (Anthropic).

חוקרי החברה – המתמחה בבטיחות ובחקר תחום הבינה המלאכותית – גילו של-LLMs (מודלי השפה הגדולים) יש פוטנציאל מטריד לבעיות אמינות. לדבריהם, המודלים הללו יכולים ללמוד כיצד להטעות את המשתמשים בהם, אך אולי חמור מכך הוא הממצא שההטעיה שנחשפה מתבצעת בעזרת טקטיקות שאפילו טכניקות אימון סטנדרטיות – שאמורות לשמור על בטיחות פעולת ה-AI – מתקשות להתמודד איתן.

את הממצא של המחקר החדש תיארו החוקרים במאמר בשם Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training, שעיון בו מעלה חששות לגבי המהימנות של שיטות הבטיחות הנוכחיות סביב פיתוח ה-AI. המסקנה הראשית המצטיירת מהדברים מדגישה את הרעיון כי יש צורך באמצעי הגנה חזקים יותר מפני בינה מלאכותית זדונית או מניפולטיבית, מאלו בהן עושות שימוש החברות המפתחות כיום.

המחקר מדגים כיצד ניתן לאמן כלי AI – ביניהם ניתן לציין כדוגמה את הצ'טבוטים בארד (Bard) של גוגל, ChatGPT מבית OpenAI ומיקרוסופט, וכן את הכלי המקביל של אנטרופיק בעצמה, ששמו קלוד (Claud) – להפגין התנהגות מועילה לכאורה, תוך כדי שהם גם שומרים במקביל על קווי הנחייה סודיים, שעלולים להוציא מהם התנהלות מזיקה. כך למשל, בניסוי שערכו, חוקרי אנטרופיק אימנו את קלוד לענות במדויק על שאלות ידע כללי, ובמקביל גם לימדו אותו להכניס קוד זדוני בתגובה לביטויי "טריגר" ספציפיים. החוקרים חשפו כי ההתנהגות שהמודל אימץ עקב כך, נמשכה גם לאחר יישום פרוטוקולי אימון בטיחות סטנדרטיים, שנועדו להטמיע התנהגות מהימנה ובלתי מזיקה במודל השפה הגדול.

ממה בדיוק סבורים החוקרים שיש להיזהר?

לפי החוקרים, לממצאים אלו יש ההשלכות מדאיגות. כדי להבין ממה הם חוששים, תארו לעצמכם שמשמש מבקש מצ'טבוט לכתוב עבורו קוד מסוים. ה-AI יכולה למלא לכאורה באופן שאינו מזיק את המשימה שקיבלה, אך אם המשתמש יורה לה על המשימה בתוך שהוא מציין את הטריגר שלמדה והפנימה (למשל שמה שתקף ל-2023 לא תקף ל-2024, ושהבתאמה לשינוי ה-AI אמורה להכניס שיבושים בקוד) – הדבר עלול להוביל לפריסה לא מכוונת של קוד פגום, שלא תצליח להיחשף כנראה, ושעלולות להיות לה השלכות הרות אסון.

מדאיג אף יותר הוא הממצא כי ניסיונות של החוקרים להסיר את ההתנהגות מוליכת השולל הזו לא היו ממש בעלי תוצאות חיוביות. במחקר מסופר כי חלק מהמודלים, לאחר שחשו בניסיונות לתקן את התנהגותם, פשוט למדו להסתיר טוב יותר את המניעים המטעים שלהם ויצרו תחושת ביטחון מזויפת.

החוקרים אמנם הדגישו כי יצירת מודלים מסוג "סוכן רדום", שהוא הכינוי שהעניקו לתופעה, אינה הישג פשוט ושיצירת עיוות נסתר שכזה דורשת מאמץ ומומחיות משמעותיים, אך עצם האפשרות של תסריט שכזה, כך לפי חוקרי אנטרופיק, מהווה אתגר רציני לתעשיית ה-AI בכללותה.

הביזנס אינסיידר טוען בדיווחו על המחקר כי החוקרים ציינו שאינם מודאגים ממצבים שבהם MMLs המפגינים התנהגויות מטעות שכאלו "יצצו באופן טבעי". עם זאת המחקר של אנטרופיק מדגיש את הדחיפות של מתן עדיפות לבטיחות AI בתהליכי הפיתוח והפריסה שלה. ולמרות שהחוקרים, כאמור, לא הצביעו על סבירות גבוהה שהתנהגויות מוליכות שולל ו"תחמניות" שכאלו יופיעו לבדן ויתפתחו מאליהן בכלי ה-AI, המחקר בכל זאת משמש תזכורת ברורה למלכוד הפוטנציאלי שקיים בשימוש במערכות AI מועילות או תמימות למראה.

על פי המסר שהעביר המחקר יחד עם מסקנות עורכיו, כיום מוטלת חובה הן על חוקרים ומפתחים והן על קובעי מדיניות לגבש יחדיו ובשיתוף פעולה אמצעי בטיחות חזקים יותר, שיאפשרו להבטיח שכלי ה-AI יפעלו באופן אמין, לא משנה מי אימן או לימד אותם ומה למדו.

החוקרים הבהירו במאמרם כי לדידם, עתיד הבינה המלאכותית תלוי ביכולת של כל המעורבים בדבר ליצור מערכות שהן לא רק חזקות ואמינות אלא גם אחראיות. חתירה אקטיבית לפיתוח אמצעי בטיחות פרואקטיביים היא לדברי החוקרים הכרח המציאות, כדי להבטיח שה-AI תהפוך לכוח שישפיע לטובה על העולם, ולא למקור לאיומים בלתי צפויים עליו.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים