פיתוח ישראלי: מערכת שמנתחת סרטי וידיאו ומחלקת אותם לסצנות
"הטכנולוגיה יודעת לקחת אוסף של מאפיינים שניתנים על ידי המשתמש ושמאפשרים לחלק את הווידיאו לסצנות שמרכיבות אותו", אמר דניאל רוטמן, חוקר בתחום ה-Video analytics במעבדת המחקר של יבמ בחיפה
מעבדת המחקר של יבמ (IBM) בחיפה פיתחה באחרונה מערכת שלוקחת סרטי וידיאו, מנתחת אותם ומחלקת אותם לסצנות. המערכת הוצגה בכנס שערכה השבוע החברה במעבדת המחקר שלה בחיפה.
האירוע הפגיש בין מומחים מהאקדמיה, ממעבדות יבמ ומהמחלקות בענק הכחול שמספקות שירותי מחשוב קוגניטיבי.
לדברי טל דרורי, מנהל מחלקת ניתוח מולטימדיה במעבדת המחקר של יבמ בחיפה, זו השנה השנייה ברציפות שהכנס עסק בראיית מכונה, והמיקוד הפעם היה על טכנולוגית וידיאו.
דניאל רוטמן, חוקר בתחום ה-Video analytics במעבדה זו, תיאר את המנגנון של חלוקת סרטון הווידיאו לסצנות שמרכיבות אותו. "כאן, במעבדה בחיפה, פיתחנו את הטכנולוגיה שיודעת לקחת אוסף של מאפיינים שניתנים על ידי המשתמש ושמאפשרים לחלק את הווידיאו לסצנות שמרכיבות אותו, בהתאם לאותם מאפיינים".
הוא אמר כי "התוכנה מספיק חכמה כדי 'לצפות' בכל סרט ולהבין מה היה בו. אם זו הרצאת TED, שהיא דוגמה פשוטה, או סצנות הרבה יותר מורכבות בסרטים. למשל, סצנה בסרט הוליוודי, שהמידע הוויזואלי לא דומה לכל אורכה. כשמצלמים שחקן אחד ואחר כך שחקן שני כשהם מנהלים דיאלוג, מן הסתם התמונות שונות לגמרי אבל עדיין מדובר באותה סצנה. אחר כך יכול לקרות משהו שונה לגמרי ומטרת האלגוריתם היכולת להשתמש במידע כדי לבצע חלוקה סמנטית של התוכן".
דרורי ציין כי "חלוקת הווידיאו לסצנות שונות יכולה לשמש אותנו כאבן בניין להרבה דברים – חיפוש סצנות, דילוג ביניהן ועוד. יש הרבה אלגוריתמים שמנתחים וידיאו וכשהוא הטרוגני, הם נתקלים בבעיות. מערכת שיודעת לתת להם קטע הומוגני מקלה על הסיווג".
רוטמן הדגים את דבריו באמצעות קטע וידיאו ארוך שמתאר חופשה, כאשר בחלק ממנו האנשים מטיילים במדבר, בחלק אחר בים ובשלישי – ביער. "כאשר מחלקים את הסרט לסצנות שונות, הדבר קל יותר לאפיון", אמר.
יישומים שניתוחי הווידיאו מאפשרים
אחד המרצים באירוע היה באלזש ז'אקג'ס, ראש החטיבה לתבונה עסקית בשירותי הווידיאו בענן של יבמ. הוא תיאר כיצד ביצוע ניתוחי וידיאו באמצעות הענן מאפשרים פיתוח יישומים חכמים, שיספקו, לדוגמה, אפשרות חיפוש תוכן רלוונטי בסרטונים.
המחלקה של ז'קאג'ס נוצרה משתי רכישות של יבמ שבוצעו בשני חודשים עוקבים – של Clearapp, שנרכשה בדצמבר האחרון, ושל Ustream, שבוצעה בינואר ושממנה הוא הגיע לענק הכחול.
ז'קאג'ס תיאר אפליקציות שנבנות בתוך יבמ, שיכולות לזהות סצנות אוטומטית באמצעות מחשוב קוגניטיבי, ולדגום את היחס של הקהל למה שמוצג בסרטון.
דרור פורת ממעבדת יבמ בחיפה, שהיה בין מארגני הכנס, אמר ש-"ככל שיכולות המחשוב הקוגניטיבי והענן של ווטסון (Watson) גדלות, כך ניתן לנצל אותן כדי לקבל יותר תובנות על נתונים שעד כה היו מעין חור שחור עבורנו – נתוני הווידיאו. בכנס Wow של יבמ, שהתקיים לפני כשבועיים בלאס וגאס, הזכירו רבים מהדוברים שווידיאו הוא התחום הצומח ביותר באינטרנט ובתוך כחמש שנים יהווה כ-80% מתעבורת הרשת. ואולם, איכות החיפוש בווידיאו תלויה עדיין בעיקר בנתונים שמוסרים אלה שמעלים אותו, שבמקרים רבים מוסרים נתונים לאקוניים ובמקרים אחרים לא מוסרים נתונים כלל".
פורת ציין פיתוח נוסף של מעבדות יבמ בחיפה שמתבסס על מחשוב קוגניטיבי ושהוצג בכנס – משקפי מציאות רבודה, שמאפשרים לזהות עצמים. "בין היישומים המעניינים לפיתוח זה: טכנאי שהולך עם משקפיים חכמים ומסתכל על מכונה או מכשיר שהוא צריך לטפל בו, ומיד רואה על גבי שדה הראייה אוגמנטציה של נתונים, שיכולים להוליך אותו שלב אחרי שלב איך לטפל במכשיר. לדוגמה, חצים שמראים לו איזה חלק במכונה צריך לתקן וכיצד עליו לעשות זאת", אמר.
תגובות
(0)