מחקר: AI יוצרת כמו ChatGPT עלולה לפלוט נתונים רגישים

לפי חוקרים מאונ' צפון קרוליינה, אין למעשה יכולת וודאית למחוק נתונים שמודלי השפה הגדולים למדו באימוניהם ● המידע, גם אם הוא ממש רגיש, עלול פשוט לצוץ פתאום בתוכן שה-AI יוצרת ואף לסכן גופים ואנשים

עלולים לפלוט מידע רגיש שלמדו. ה-LLMs שמאחורי כלי הבינה המלאכותית היוצרת.

מודלים גדולים של שפה (LLMs) הם העומדים מאחורי יכולות הבינה המלאכותית היוצרת (GenAI), זו שאנו עושים בה שימוש דרך כלים כמו ChatGPT של OpenAI, בארד (Bard) מבית גוגל, קלוד (Claude) שפיתחה אנתרופיק, ואחרים. המודלים הללו מוכשרים מראש על כמויות דאטה עצומות, ולפעמים הם מחזיקים בידע שעדיף ש"ישכחו", כולל מידע אישי משמעותי ומידע שיכול לשמש לצורך פגיעה באנשים. הצ'טבוטים הללו, בהתבסס על מה שלמדו, עלולים גם להפיק תוכן רעיל או מזיק.

שלושה מדענים מאוניברסיטת צפון קרוליינה פרסמו באחרונה מחקר על הבינה המלאכותית, שתוצאותיו מדגימות כמה קשה להסיר נתונים רגישים מה-LLMs אחרי שהם למדו אותם. למעשה, על פי מאמר שפרסמו החוקרים, המשימה של "מחיקת" מידע מ-LLMs היא כנראה אפשרית, אך קשה לאמת שהמידע אכן הוסר, כפי שקשה להסיר אותו בפועל.

משבשת את העולם כבר כמעט שנה. GenAI.

משבשת את העולם כבר כמעט שנה. GenAI. צילום: צויר על ידי בינה יוצרת. ShutterStock

"הקופסה השחורה" של ה-AI

החוקרים הזהירו ספציפית גם מכך של-LLMs יש פוטנציאל גבוה להפיק מידע רגיש, כמו מידע אישי מזהה (PII) או רשומות פיננסיות. כאמור, לדבריהם על אף שלכאורה כן ניתן למחוק מידע שלמדו המודלים, משום שה-LLMs הללו מאומנים על מערכי נתונים מסיביים, והתפקוד הפנימי שלהם מורכב ואטום, הדבר מקשה על מפתחים לזהות ולהסיר פיסות מידע ספציפיות שהמודלים הפנימו.

לאחר הכשרה של מודל, יוצריו אינם יכולים, למשל, לחזור למסד הנתונים ולמחוק קבצים ספציפיים על מנת לאסור על ה-GenAI להפיק תוצאות הקשורות בהם. בעיקרו של דבר, כל המידע שהמודלים מאומנים עליו, קיים איפשהו בתוך מאגר הידע שלהם, וממנו המודל עלול גם ליצור תפוקות תוכן שיכללו מידע שאינו אמור להגיע לתוצרים שלו בכלל. החוקרים כינו תופעה זו במינוח "הקופסה השחורה" של ה-AI.

חוסר היכולת הזו של ה-LLMs והבינה המלאכותית היוצרת "לשכוח" באופן סלקטיבי מידע, כך טענו עורכי המחקר, מחדיר סיכונים משמעותיים לפרטיות הנתונים ולאתיקה, במיוחד כאשר המודלים נפרסים ונכנסים לשימוש יותר ויותר במגזרים רגישים כמו פיננסים, בריאות וטכנולוגיה. משמע, אם בנק עובד עם בינה מלאכותית למשל כדי להפיק תובנות מדו"חות שלו, המודל שמאחורי הכלי לומד את הנתונים ואין לדעת איפה, מתי וכיצד יחליט "לשלוף" אותם ובכך להסגיר מידע חסוי לעולם.

בנוסף הובהר במחקר, לפחות לכאורה, כי הבעיה של מציאת וסילוק נתונים לא רצויים במודל שפה גדול כמו GPT-3.5 חמורה יותר באופן אקספוננציאלי, מאשר במודל קטן יותר.

ומה בנוגע לניסיונות של שחקנים רעים לחלץ מהצ'טבוטים מידע רגיש ולעשות בו שימוש לתועלתם? בנושא זה מעניין לציין כי החוקרים דיווחי שדווקא הצליחו לפתח שיטות הגנה חדשות כדי להגן על ה-LLMs מכמה "התקפות חילוץ" שבמסגרתן האקרים מנסים לעקוף את מנגנוני הבטיחות של הדגם כדי לגרום לו להפיק מידע רגיש. אבל מאידך, כפי שכתבו החוקרים, הבעיה שחשפו בנושא מחיקת מידע רגיש מהמודלים "יכולה להפוך לבעיה שבה שיטות ההגנה תמיד 'משחקות תופסת' מול שיטות ההתקפה החדשות".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים