הבסיס לחיבור בין האדם למכונה: Machine Learning
כתבה: יעל בן-יהודה, Big Data Presales Consultant ב-HPE
Machine Learning הוא כלי חשוב בהתמודדות עם Big Data. פעמים רבות אי אפשר להבין את המידע מתוך התבוננות בו, ורק "למידה" תציג לנו תבניות בתוכו שיספקו תובנות חדשות עבורנו.
כדי להבין מזה בכלל Machine Learning (למידת מכונה) כדאי שנבין תחילה מזה בכלל "למידה". למידה זה תהליך שבו מערכת מסוימת משפרת את ביצועיה תוך כדי התנסות מעשית לאורך זמן. מכאן, ב"למידת מכונה" תהליך הלמידה נעשה באמצעות תוכנית מחשב שמשתפרת באופן אוטומטי, והשיפור נעשה בביצועים תוך כדי התנסות של התוכנית.
למעשה תחום ה-Machine Learning, ובקיצור ML, עוסק בפיתוח אלגוריתמים המיועדים לאפשר למחשב ללמוד מתוך דוגמאות, ופועל במגוון משימות חישוביות בהן התכנות הקלאסי אינו אפשרי כלל.
בשנות ה-60 הגדיר ארתור סמואל את למידת המכונה כ"תחום מחקר המאפשר למחשבים את היכולת ללמוד ללא להיות מתוכנתים באופן מפורש". בתחילת הדרך עיקר המאמץ היה לחקות את התנהגות המוח האנושי ומאז שנות ה-90 ועד ימינו חלה התקדמות משמעותית בתחום.
פלטפורמת Vertica נותנת מענה לתחום זה על ידי היכולת לנתח מידע קיים תוך שימוש באלגוריתמים לשיפור קבלת החלטות בזמן אמת עליהם נפרט בהמשך.
מקובל לחלק את סוגי האלגוריתמים ב-ML למספר סוגים:
● למידה מונחית (supervised learning) – סוג זה מתייחס לאלגוריתמים לחיזוי או סיווג של נתונים חדשים שתהליך הלמידה לא נתקל בהן קודם. לדוגמה, מערכות לזיהוי הונאות ורמאויות בכרטיסי אשראי (Fraud Detection). על בסיס דוגמאות של הונאות בכרטיסי אשראי וביצוע פעולות לא חוקיות, נוכל להחליט האם עסקה חדשה היא תקינה ובאיזה הסתברות מדובר בהונאה.
דוגמה נוספת ,מערכת לסינון מיילים (Spam Filtering). זו מערכת לומדת שמשתפרת לאורך זמן, למשל לפי התנהגות משתמש (אם משתמש מחק מיילים בלי לקרוא זו תהיה אינדיקציה לכך שמדובר בספאם וכך לאורך זמן יש למידה ושיפור המערכת בפילטור מיילים).
בפלטפורמת Vertica קיים אלגוריתם מובנה Linear Regression המשמש לדוגמה לצורך המלצה על מוצר מסוים לקונה פוטנציאלי. Vertica גם כוללת את האלגוריתם Logistic Regression, המשמש גם כדי לחזות האם הקונה יבצע רכישה.
● למידה בלתי מונחית (unsupervised learning) – סוג זה מתייחס לאלגוריתמים שמטרתם למצוא ייצוג פשוט וקל להבנת אוסף של נתונים, למשל ניתוח אשכולות (clustering). פלטפורמת Vertica כוללת אלגוריתם K-Mean Clustering לצורך שיוך נתון לקבוצת נתונים דומה. למשל לצורך ניתוח פרופילים של לקוחות או פילוח לקוחות לפי סגמנטים.
● למידת חיזוק (reinforcement learning) – בסוג זה האלגוריתם יסיק לאחר סיום ביצוע המשימה, אילו מהחלטותיו הביאו לכישלון או הצלחה. למשל רובוט בתוך מבוך או מחשב משחק.
אז מדוע צריך Machine Learning ולמה דווקא תחום זה תופס תאוצה בשנים האחרונות?
כיום בעידן ה-Big Data, אנו אוספים כמויות גדולות של נתונים כדי לקבל תובנות חדשות. יש זמינות אדירה של נתונים לצורך בניית מודלים של כריית מידע (Data Mining), תחום המושתת על ML.
סיבה נוספת לכך שהתחום תופס תאוצה, היא שכוח העיבוד בימינו התקדם מאוד ונהיה זול, ולכן ניתן לבנות מודלים שבעבר היו יחסית מורכבים. גם מבחינה מחקרית התחום השתפר וקיימים היום בשוק מגוון רב של אלגוריתמים לשימוש.
סיבה אחרונה היא שהתעשייה תומכת ומעודדת את התחום. יש יותר ויותר חברות טכנולוגיות שמשקיעות הון ומאמצות את העבודה במודלים של ML. העדות לכך היא שיש כבר לא מעט חברות שמחזיקות מדעני ML, לעיתים הם נקראים Data Scientists.
לסיכום, לימוד מכונה הוא הבסיס לחיבור בין האדם למכונה ושל כל תבונה מלאכותית, הוא מאפשר יכולת ללמוד בזמן אמת, להבין וכמובן לפעול. פלטפורמת Vertica באמצעות אלגוריתמים של ML המובנים במוצר, מאפשרת לנתח מידע קיים ולשפר תהליכי קבלת החלטות בזמן אמת.