גוגל מאמנת את ה-AI שלה באמצעות נתוני אינטרנט "מגורדים"
בעדכון האחרון למדיניות הפרטיות שלה, הענקית ממאונטיין וויו אישרה שהיא משתמשת בדאטה שנאסף מאתרים זמינים לציבור כדי לאמן את מערכות הבינה המלאכותית שלה, הצ'טבוט בארד בראשם
באחרונה נחשף כי כדי לשפר את הביצועים של מוצרי הבינה המלאכותית שלה – עליהם נמנים הצ'טבוט בארד (Bard), כלי התרגום Google Translate, וה-Cloud AI – ענקית הטכנולוגיה גוגל "מגרדת" מידע ונתונים מהאינטרנט. הדברים אושרו על ידי החברה בעדכון האחרון למדיניות הפרטיות שלה.
השימוש בנתוני אינטרנט מגורדים לשם אימון בינה מלאכותית אינו חדש. עם זאת, האישור הרשמי של גוגל, עורר מחדש את השיח אודות היבטי פרטיות, הפרת זכויות יוצרים והפוטנציאל לכשלי בינה מלאכותית עקב דאטה לא מפוקח שמוזן למערכת.
אז ממה בדיוק מפחדים בעצם?
יש מי שחוששים שהשימוש של גוגל בנתוני אינטרנט מגורדים עלול להפר את פרטיותם. אחרי הכל, החברה אוספת נתונים על אנשים שלא נתנו במפורש את הסכמתם להיכלל במערך ההדרכה המדובר ובנוסף נתונים אלה עשויים לכלול מידע אישי, כגון שמות, כתובות וכתובות דוא"ל.
כדי להרגיע חששות אלו, מסרה החברה שהיא מתייחסת לפרטיות ברצינות ושיש לה אמצעי הגנה על מנת להגן על דאטה פרטית. עם זאת, כמה מומחים מאמינים כי אמצעי הגנה אלה אינם מספיקים וטוענים שגוגל עדיין תוכל לעקוב אחר הפעילות המקוונת של אנשים ולבנות פרופילים שלהם ללא ידיעתם או הסכמתם.
כאמור, דאגה נוספת סביב השימוש של גוגל בנתוני רשת מגורדים הוא הפרה של חוק זכויות היוצרים. אם גוגל אוספת חלק מהנתונים מאתרים שעשויים להיות מוגנים בזכויות יוצרים והיא תעשה שימוש באלו ללא רשות, היא עלולה להיחשב כמפרה אותם ואף להיתבע בגין הפרה זו. גוגל מצידה הבטיחה שהיא משתמשת רק בנתוני אינטרנט הזמינים לציבור, עם זאת, חלק מהמומחים מאמינים שזה לא בהכרח אומר שהנתונים חופשיים לשימוש. למשל בדוגמה מקומית, מילות שירים באתר כמו שירונט חשופות לציבור אך מוגנות בזכויות.
פוטנציאל לכשלי בינה מלאכותית ויותר דיסאינפורמציה
אלא שהנושא הכרוך בגירוד הנתונים המדובר שאולי יותר מטריד אפילו, הוא הדאגה מכך שהשימוש של ענקית הטכנולוגיה בנתוני אינטרנט מגורדים באימוני כלי הבינה המלאכותית הג'נרטיבית עלול להוביל לכשלי בינה מלאכותית. הסיבה לכך היא שמערך הנתונים שעל בסיסו מתלמדים כלי ה-AI היוצרת יכול להכיל נתונים לא מדויקים או מוטים. אם מערכות הבינה המלאכותית הג'נרטיבית של גוגל מאומנות על נתונים שכאלה, ייתכן שהביצועים שלהן יהיו טובים פחות בהרבה ממה שיכלו להיות אילו היו מאומנים על מערך נתונים מדויק יותר וחסר פניות. בנוסף, כמובן, שהעשרת יכולות ה-AI על בסיס מידע לא מדויק או שגוי עלולה לייצר פייק ניוז ודיסאינפורמציה שהבינה המלאכותית של גוגל תפיץ הלאה בטבעיות. החברה מצידה, שוב, הבטיחה כי היא מקפידה על איכות מערכי ההדרכה שלה.
מעניין לציין כי על פי דיווח של The Verge, שבחן את היסטוריית הגרסאות של המדיניות מבית גוגל, העדכון החדש ובו האישור החדש בדבר אופן איסוף המידע לאימון ה-AI, מספק בהירות נוספת לגבי השירותים שיוכשרו באמצעות הנתונים שנאספו. המסמך אומר כעת, להבדיל מעבר, כי המידע עשוי לשמש עבור "מודלים של AI"' ולא לצורך אימון "מודלים של שפה" (LLMs – ר"ת Large Language Models) – כמו אלו העומדים מאחורי הפעלת הצ'טבוט בארד ו-ChatGPT. לא ברור מדוע שינתה גוגל את הפירוט כאן, אבל לפי דיווחים זו כנראה פשוט דרכה להציג את פועלה באופן חיובי, שינטרל מעט את חששות הציבור והרגולטורים.
מאידך, דוברת גוגל אישרה שבמינוח "כלי ה-AI" נכלל גם בארד. "מדיניות הפרטיות שלנו כבר מזמן שקופה בנוגע לכך שגוגל משתמשת במידע זמין לציבור מהאינטרנט הפתוח, כדי להכשיר מודלים של שפות לשירותים כמו Google Translate", אמרה הדוברת, כריסטה מולדון, ל-The Verge. "העדכון האחרון הזה פשוט מבהיר ששירותים חדשים יותר כמו בארד כלולים גם כן", הוסיפה.
מולדון העבירה עם זאת מסר מרגיע גם דרך The Vege ואמרה: "אנו משלבים עקרונות והגנה על פרטיות בפיתוח טכנולוגיות ה-AI שלנו, בהתאם לעקרונות הבינה המלאכותית שלנו".
אני שמח על המדע החדש של AI מקווה שחלק מהנרטיב לא יזלוג לגורמים עוינים שיהוו לפשיעה ושהנושה מובטח ללא חש תודה רבה על ההסבר