גוגל מאמנת את ה-AI שלה באמצעות נתוני אינטרנט "מגורדים"

בעדכון האחרון למדיניות הפרטיות שלה, הענקית ממאונטיין וויו אישרה שהיא משתמשת בדאטה שנאסף מאתרים זמינים לציבור כדי לאמן את מערכות הבינה המלאכותית שלה, הצ'טבוט בארד בראשם

על איזה דאטה מאמנים אותו? בארד של גוגל.צילום: עיבוד ממוחשב

באחרונה נחשף כי כדי לשפר את הביצועים של מוצרי הבינה המלאכותית שלה – עליהם נמנים הצ'טבוט בארד (Bard), כלי התרגום Google Translate, וה-Cloud AI – ענקית הטכנולוגיה גוגל "מגרדת" מידע ונתונים מהאינטרנט. הדברים אושרו על ידי החברה בעדכון האחרון למדיניות הפרטיות שלה.

השימוש בנתוני אינטרנט מגורדים לשם אימון בינה מלאכותית אינו חדש. עם זאת, האישור הרשמי של גוגל, עורר מחדש את השיח אודות היבטי פרטיות, הפרת זכויות יוצרים והפוטנציאל לכשלי בינה מלאכותית עקב דאטה לא מפוקח שמוזן למערכת.

אז ממה בדיוק מפחדים בעצם?

יש מי שחוששים שהשימוש של גוגל בנתוני אינטרנט מגורדים עלול להפר את פרטיותם. אחרי הכל, החברה אוספת נתונים על אנשים שלא נתנו במפורש את הסכמתם להיכלל במערך ההדרכה המדובר ובנוסף נתונים אלה עשויים לכלול מידע אישי, כגון שמות, כתובות וכתובות דוא"ל.

כדי להרגיע חששות אלו, מסרה החברה שהיא מתייחסת לפרטיות ברצינות ושיש לה אמצעי הגנה על מנת להגן על דאטה פרטית. עם זאת, כמה מומחים מאמינים כי אמצעי הגנה אלה אינם מספיקים וטוענים שגוגל עדיין תוכל לעקוב אחר הפעילות המקוונת של אנשים ולבנות פרופילים שלהם ללא ידיעתם או הסכמתם.

כאמור, דאגה נוספת סביב השימוש של גוגל בנתוני רשת מגורדים הוא הפרה של חוק זכויות היוצרים. אם גוגל אוספת חלק מהנתונים מאתרים שעשויים להיות מוגנים בזכויות יוצרים והיא תעשה שימוש באלו ללא רשות, היא עלולה להיחשב כמפרה אותם ואף להיתבע בגין הפרה זו. גוגל מצידה הבטיחה שהיא משתמשת רק בנתוני אינטרנט הזמינים לציבור, עם זאת, חלק מהמומחים מאמינים שזה לא בהכרח אומר שהנתונים חופשיים לשימוש. למשל בדוגמה מקומית, מילות שירים באתר כמו שירונט חשופות לציבור אך מוגנות בזכויות.

דאגות בנוגע לאופן האימון שלה בגוגל. בינה מלאכותית ג'נרטיבית. צילום: אילוסטרציה. ShutterStock

פוטנציאל לכשלי בינה מלאכותית ויותר דיסאינפורמציה

אלא שהנושא הכרוך בגירוד הנתונים המדובר שאולי יותר מטריד אפילו, הוא הדאגה מכך שהשימוש של ענקית הטכנולוגיה בנתוני אינטרנט מגורדים באימוני כלי הבינה המלאכותית הג'נרטיבית עלול להוביל לכשלי בינה מלאכותית. הסיבה לכך היא שמערך הנתונים שעל בסיסו מתלמדים כלי ה-AI היוצרת יכול להכיל נתונים לא מדויקים או מוטים. אם מערכות הבינה המלאכותית הג'נרטיבית של גוגל מאומנות על נתונים שכאלה, ייתכן שהביצועים שלהן יהיו טובים פחות בהרבה ממה שיכלו להיות אילו היו מאומנים על מערך נתונים מדויק יותר וחסר פניות. בנוסף, כמובן, שהעשרת יכולות ה-AI על בסיס מידע לא מדויק או שגוי עלולה לייצר פייק ניוז ודיסאינפורמציה שהבינה המלאכותית של גוגל תפיץ הלאה בטבעיות. החברה מצידה, שוב, הבטיחה כי היא מקפידה על איכות מערכי ההדרכה שלה.

מעניין לציין כי על פי דיווח של The Verge, שבחן את היסטוריית הגרסאות של המדיניות מבית גוגל, העדכון החדש ובו האישור החדש בדבר אופן איסוף המידע לאימון ה-AI, מספק בהירות נוספת לגבי השירותים שיוכשרו באמצעות הנתונים שנאספו. המסמך אומר כעת, להבדיל מעבר, כי המידע עשוי לשמש עבור "מודלים של AI"' ולא לצורך אימון "מודלים של שפה" (LLMs – ר"ת Large Language Models) – כמו אלו העומדים מאחורי הפעלת הצ'טבוט בארד ו-ChatGPT. לא ברור מדוע שינתה גוגל את הפירוט כאן, אבל לפי דיווחים זו כנראה פשוט דרכה להציג את פועלה באופן חיובי, שינטרל מעט את חששות הציבור והרגולטורים.

מאידך, דוברת גוגל אישרה שבמינוח "כלי ה-AI" נכלל גם בארד. "מדיניות הפרטיות שלנו כבר מזמן שקופה בנוגע לכך שגוגל משתמשת במידע זמין לציבור מהאינטרנט הפתוח, כדי להכשיר מודלים של שפות לשירותים כמו Google Translate", אמרה הדוברת, כריסטה מולדון, ל-The Verge. "העדכון האחרון הזה פשוט מבהיר ששירותים חדשים יותר כמו בארד כלולים גם כן", הוסיפה.

מולדון העבירה עם זאת מסר מרגיע גם דרך The Vege ואמרה: "אנו משלבים עקרונות והגנה על פרטיות בפיתוח טכנולוגיות ה-AI שלנו, בהתאם לעקרונות הבינה המלאכותית שלנו".

תגובות

(1)

כתיבת תגובה לבטל

ויקטור אלזם

לפני שנה 1

אני שמח על המדע החדש של AI מקווה שחלק מהנרטיב לא יזלוג לגורמים עוינים שיהוו לפשיעה ושהנושה מובטח ללא חש תודה רבה על ההסבר

השיבו לתגובה

בעזרת ה-IT: עסקאות של מעל 20 אלף שקל יחויבו באישור רשות המסים

מיקרוסופט בכנס Ignite: בינה מלאכותית עוד יותר חכמה

אקזיט כחולבן בענן: וויז רוכשת את דאזז ב-450 מיליון דולר

בדרך למחשוב מולטי-היברידי עוצרים בברצלונה

ציון דרך לשאזאם: זיהתה 100 מיליארד שירים

עוד יום סין: "פנדה גבולית" תקפה ספקיות טלקום בעולם

מיזם טכנולוגי חדש מראה איך בעלי אוטיזם חווים את העולם

איך הופכים פגישות קוליות ווידיאו לנכסי נתונים?

אתגרי הניווט בסביבת אבטחת הסייבר התעשייתית

פודקאסט אנשים ומחשבים: טלקום ניישן מהר חוצבים בירושלים

הנמר בדרכים בכנס השנתי של חברת המחקר STKI

נשים ומחשבים: ד"ר סופיה אמדור, הקריה האקדמית אונו

מדוע תפקיד מנהלי המוצר יישאר חיוני בנוף המנוהל על ידי בינה מלאכותית?

צמיד יוקרתי לשעון

כך פתרונות כחול לבן מאפשרים ליצרניות רכב להתגונן מסייבר

נשים ומחשבים: מיכל כהן-שלי, מרכז החדשנות ARC בשיבא