איך נלמד את סירי וקורטנה לזהות סרקזם?
למידת מכונה אינה עניין של מה בכך: העוזרים הווירטואליים כבר מבינים היטב פקודות בסיסיות שלנו, אבל נדרש לעבוד על האופן שבו נהפוך את המחשבים לדקי אבחנה כמונו, או אפילו יותר מאיתנו
טקסטים ציניים או סרקסטיים עלולים להיות קשים לפענוח גם לבני אדם, לא כל שכן לרובוטים. כלומר, כאשר אתם אומרים "תודה רבה לך, סירי (Siri), רציתי שתתני לי הכוונה לכפר סבא, לא שתתקשרי עכשיו לאבא", הכוונה של הדברים שלכם לעולם לא תובן על ידי ה-"יצורים" המתוחכמים. הבנת סרקזם, כך על פי מדענים, תהווה רכישה של אחת היכולות הגבוהות ביותר של הבינה המלאכותית.
זאת הסיבה לכך שמדענים בונים כעת את מסד הנתונים הגדול ביותר של הסרקזם. קבוצה של סטודנטים למחשבים מפרינסטון אספה הערות סרקסטיות מ-1.4 מיליון משתמשי Reddit, בכדי לשפר את עיבוד השפה הטבעית.
ב-Reddit אנשים מספרים מתי הם סרקסטיים
למה דווקא Reddit נבחר לצורך המטרה החשובה? בעיקר בגלל תוויות ה-s/, שבהן עושים משתמשי האתר לעתים קרובות שימוש בכדי להצביע על סרקזם בהערותיהם.
צוות החוקרים הריץ תוויות s/ באמצעות תוכנית וסינן אותן לפי שמות המחברים ו-Subreddit, שהם תכנים שמאורגנים באתר לפי תחומי העניין השונים. באופן לא מפתיע, ה-Subreddits שהניבו הכי הרבה תגובות סרקסטיות היו זכויות הגבר ופוליטיקה, מה שהבטיח להם ארכיב נפרד במסד הנתונים, שמכיל לא פחות מ-30 אלף תגובות סרקסטיות אקסקלוסיביות לתחום.
בכל אופן, באופן שבו הם פעלו יצרו החוקרים מסד נתונים הגדול פי 10 מאשר כל מסד נתונים קודם בתחום הסרקזם, ומדובר בנתון סופר מרשים. ולא, אני לא כותבת את זה בסרקזם.
תגובות
(0)