מירוץ טכנולוגי שלא מוצה – כל מה שלא ידעתם על עיבוד דיבור
עיבוד דיבור הוא אחד מתחומי הטכנולוגיה המתפתחים ביותר בשנים האחרונות, אולם הפוטנציאל האמיתי של התחום רחוק לאין שיעור ממיצוי – מאבחון מחלות ועיבוד רגשות ועד איתור הונאות קוליות בסכומי עתק
כיום זה נראה לכולנו מאוד טבעי – לדבר לסמארטפון שלנו, עם סירי, עם ווייז, בספיץ'-טו-טקסט בוואטסאפ, בכניסה לחשבון הבנק, אבל כל זה לא היה קיים לפני 20 שנה, כשרק התחלתי לעסוק בתחום.
בבואי לחקור את הנושא, זיהוי קולי היה בעיקר עיבוד אותות, והחלום הגדול ביותר שלנו החוקרים היה בסך הכל להגיע למצב שאנו מתמללים דיבור באנגלית או מזהים דובר ברמת שגיאה של פחות מ-10%.
מאז, עיבוד דיבור הפך לחלק טבעי מהחיים של כולנו ואחד מתחומי הטכנולוגיה המתפתחים ביותר בשנים האחרונות – בשאיפה שהידיים שלנו יהיו משוחררות למשימות נוספות, בזמן שנוכל לתפעל את העולם הטכנולוגי סביבנו – הטלפון, הבית המכונית – בהנחיות קוליות בלבד. אולם הפוטנציאל האמיתי של התחום רחוק לאין שיעור ממיצוי – מאבחון מחלות ועיבוד רגשות באמצעות הקול ועד איתור הונאות קוליות בסכומי ענק. בנוסף, גם האתגרים התרבו וגדלו. למשל, אותן מערכות בינה מלאכותית המשרתות אותנו במשימה, גם מייצרות טכנולוגיות הונאה קוליות.
האפליקציות החברתיות הרפואיות של דיבור התרבו והתפתחו גם הן. דיבור הוא אמצעי התקשורת הבסיסי של בני האדם, ואנו חושפים בו מידע עצום על עצמנו. הקול והשפה יכולים ללמד אותנו על מצבו הנפשי של האדם, מצב רוחו, מצבו הבריאותי, הרקע, המוצא ועוד מידע רב, שכנראה איננו מודעים אליו עדיין. מאגר המידע העצום שטמון בקולנו הוא הסיבה שיותר ויותר ענקיות טכנולוגיה הצטרפו לתחרות בשוק והחלו לגלות עניין רב בנושא. אנחנו רק בפתחה של המגמה שבה טכנולוגיות עיבוד דיבור וזיהוי קולי יוטמעו בהיבטים רבים בחיינו.
כך, למשל, מגיפת הקורונה הדגישה את הפוטנציאל בזיהוי קולי מהיר וזול של מחלות והביאה לפריחה מחקרית באבחון קולי של מחלות נשימתיות ואחרות.
הדיבור האנושי מופק על ידי הרבה מאוד מערכות בגוף, המשתתפות ביצור הקול: המוח, מערכת הנשימה, שרירי הפנים והגרון. הקול מכיל מידע על תפקוד המערכות הללו, לכן ניתן לאבחן מחלות רבות דרך הקול. לא רק זאת, אלא שמעקב אחר שינויים בקול מאפשרים גם לקבוע – האם חלה או צפויה הידרדרות במחלה, האם תרופה שהחולה נטל השפיעה עליו או לא. לעומת בדיקות פולשניות שדורשות מגע, הזיהוי הקולי מציע תוצאות מיידיות תוך חיסכון במשאבים ויכולת לבצע בדיקה גם מרחוק. על כן שימוש בעיבוד הדיבור יוכל לפתוח בפני ענף הרפואה עולם חדש, מהיר ונגיש יותר.
אנו נמצאים בשלבי מחקר ומימוש מתקדמים על טכנולוגיות של עיבוד דיבור לאבחון דיכאון, חרדה, מחלת פרקינסון ועוד. השימוש בזיהוי הקולי ובעיבוד הדיבור לא עוצר בתחום הרפואה. עוד ועוד חברות וארגונים משתמשים בזיהוי הקולי ככלי מכריע באבטחה דיגיטלית, מהבנקים הגדולים בעולם ועד גופים ביטחוניים עלומים. דווקא השימוש בהשוואה אוטומטית של הקול דורש מאיתנו לדעת טוב יותר מאי פעם – איך ניתן לזהות ניסיון התחזות לקול שלנו. כמו מערכות תומכות החלטה בדיאגנוזה רפואית, מערכות זיהוי דובר יכולות לתמוך החלטה של בית המשפט בעדויות על זיהוי הדובר בשתי הקלטות שונות. מחקרים חדשים מבקשים לייצר שיטות אוטומטיות, שיצליחו לזהות דוברים על פי מאפיינים קוליים וכן לזהות קבוצות דוברים לפי רקע, מגדר או מוצא בהתבסס על קולם בלבד.
את הקול האנושי חוקרים כבר במשך עשורים רבים במגוון תחומים. הטמעת המחקר בפיתוחים מתקדמים תאפשר לנו להוביל לא רק מהפכה טכנולוגית שתשפיע על החיים של כולנו, אלא גם להתחקות אחר ולהבין את המידע הרב שהקול שלנו מסגיר.
הכותבת היא מייסדת המרכז לעיבוד שפה באפקה – המכללה האקדמית להנדסה בתל אביב.
תחום הרגש בטוח שינוצל למכירות ופוליטיקה בהפעלת אלגוריתמים בזמן אמת.
אין ספק נושא מרתק.