כך רשתות נוירונים מחלצות ישויות ומזהות שמות

"קשה להבין רשת נוירונים, יש מדדים רבים ויש קושי של הסברתיות, כלומר אי אפשר להבין או להסביר מה קורה ב'קופסה' השחורה' ולמה בוצעו מהלכים אלה ולא אחרים" אמר ד''ר כפיר בר, המדען הראשי של Basis Technology.

ד''ר כפיר בר, המדען הראשי של Basis Technology. צילום: ג'ני קלינקובשטיין

"אנו משתמשים ברשתות נוירונים לפתרון הבעיה של זיהוי שמות וחילוץ ישויות", כך אמר ד"ר כפיר בר, המדען הראשי של Basis Technology.

ד"ר בר דיבר בכנס שערך הסניף הישראלי של החברה. הכנס, בהפקת אנשים ומחשבים, נערך בשבוע שעבר באולם האירועים East בתל אביב בהשתתפות כמאה מלקוחות החברה.

לדברי ד"ר בר, "היקף השימוש בתחום הלמידה העמוקה – שהחל בשנת 2012 – הולך וגדל, כמו גם תחום ה-NLP, עיבוד שפה טבעית". הוא הוסיף כי "זיהוי שמות הוא משימה בה אתה מקבל טקסט והמחשב נדרש לזהות שמות, מהי הישות – אדם, ארגון או מקום – ולעשות זאת בהרבה מאד שפות".

כך, אמר ד"ר בר, "במשפט 'אילון מאסק אומר כי רקטות מהירות יגיעו בתוך זמן קצר, אולי בשנה הבאה, למאדים' – מאסק הוא שם של איש, מאדים הוא שם של מקום ושנה הבאה היא ישות מסוג תאריך. יש חשיבות לא רק למילה אותה מתייגים, אלא גם להקשר שלה. בשפות טבעיות – ההקשר מאד חשוב: Spain זה ספרד, או שם של יצירת ג'אז מוזיקלית, חרטום זה חלק של ספינה או בירת סודאן. אנו מתייגים כל מילה שתשקף – או לא – שם של איש, או מקום ובונים שני סוגי תגיות לכל סוג של ישות".

"האלגוריתמים טובים – אבל מתקשים במקרי קצה"

"בנינו מערכת לזיהוי שמות, תוך שימוש בכמה מנועים. לכל מנוע יש אלגוריתם אחר והשילוב שלהם בחיבור מדדי אמינות מאפשר להגיע לדיוק רב יותר. המנוע המרכזי מבוסס בינה מלאכותית, עם למידה חישובית. האלגוריתמים טובים – אבל מתקשים במקרי קצה. אז אנו משלבים אותם עם אלגוריתמים יותר פשוטים ועם מנועי חוקים", אמר.

ד"ר בר הציג מנוע למידה, פרי פיתוחה של החברה, מבוסס בינה מלאכותית, ועמד על ההבדלים בין לימוד מכונה מסורתי ללימוד מכונה עמוקה. בשלב הראשון עם אלגוריתם מסורתי, אמר, "אנו פועלים לחילוץ מאפיינים של מילים. אחר כך אנו בודקים כיצד לקודד את ההקשר ועושים זאת על ידי חיבור של שתי מילים לפני ואחרי המילה אותה חוקרים. בגרסה מתקדמת יותר אנו לוקחים את המילה הנחקרת, 'זורקים' את מילות ההקשר, וחוקרים את המילה הבאה – עם תוצרים של מידע מהמילה הנחקרת הקודמת. בדרך זו אנו יוצרים רשת שזוכרת מידע".

ד"ר בר הציג את מודל הלמידה, הנקרא "זיכרון לטווח קצר וארוך של תיוג רב-שכבתי בשלבים". בדרך זו, הסביר, "רמת הדיוק גדלה – בשל שימוש בלימוד מעמיק".

אולם, סיים ד"ר בר, "לטכנולוגיה יש גם חסרונות: קשה להבין רשת נוירונים, יש מדדים רבים ויש קושי של הסברתיות, כלומר אי אפשר להבין, או להסביר, מה קורה ב'קופסה' השחורה', ולמה בוצעו מהלכים אלה ולא אחרים; חיסרון נוסף הוא שאנו צריכים יותר נתונים על מנת להתאים למודל; חיסרון שלישי הוא שלוקח זמן להריץ את האלגוריתמים הללו. אנו רק מגרדים את קצה הקרחון – היעד הבא הוא להבין יותר ולשפר את מהירות הפעולות".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים