Big Data ,Machine Learning וענן ציבורי – טכנולוגיות שמעצימות זו את זו
כתב: צבי ברונר, סמנכ"ל טכנולוגיות במלם תים
כאשר בוחנים את המאפיינים ואת התכונות הנדרשות ליישום מוצלח של מערכות Big Data המשולבות עם machine learning ו/או אינטרנט של הדברים, רשימת התכונות בדרך כלל כוללות:
● תשתיות חומרה גמישות עם יכולת להסתגל לפעילויות מגוונות ועומסים משתנים לפי ה-use case הנחקר באותו זמן.
● כלי ניהול, תחקור, ייבוא מידע, קליטת נתוני אינטרנט של הדברים בזמן אמת המשתנים לפי צורך העיבוד.
● נפחי מידע משמעותיים אשר הולכים וגדלים עם הזמן.
● עוצמות חישוב דינאמיות אשר מסוגלות גם לפעול עם מקביליות (parallelism) כדי להגיע לתובנות מהירות במערכות אנליטיות מורכבות.
● פעילות מול נתונים מרחבי העולם (למשל חברה המבצעת סקרי דעת קהל).
● שימור וזמינות המידע ה-"יקר" שקיים.
מסתבר שסביבת ענן ציבורי מתאימה כמו "כפפה" לתכונות הללו ואף מספקת מגוון תכונות נוספות על הדרך. עננים ציבוריים כגון AWS או Azure כוללים מגנונים מובנים להתאמת התשתית לעומס הנדרש או Autoscale.
כמו כן, ישנם כלים מובנים או שירותים מנוהלים (Managed Services) אשר מיועדים למערכות כאלו וכוללים מספר תכונות:
● יודעים להסתגל לעומס באופן אוטומטי.
● התשלום הוא רק לפי שימוש ללא צורך בבעלות על מכונות וירטואליות בענן לכל שלבי הפרויקט.
● שימור המידע במספר מקומות בעולם ליתירות לפי צורך.
● ניתן לחבר בין הכלים הללו כמו "לגו" כאשר ההשקעה בפיתוח הוא מינימלי.
באופן כזה, ניתן לצרוך שירותי ענן לפי שימוש, להעביר מידע "קר" לסביבות אחסון זולות יותר בענן ולהיות פרוס באופן גלובלי. לכן, חברות סטארט-אפ נוהרות לעננים ציבוריים כברירת מחדל.
להלן מספר כלים המסייעים בכל מחזור החיים של פעילות Big Data כולל קליטת מידע "זורם" בכמויות גדולות ובזמן אמת (כלי Kinesis), כלי אחסון ושימור נתונים כגון 3S – מאגר Object Storage מדהים בתכונותיו, בסיסי נתונים מובנים ולא מובנים ושלל כלי אנליטיקה ו-Machine Learning.
במקום לתאר כל שירות בנפרד, אחבר בין מספר קטן של שירותים להמחיש את תצורת ה"לגו" של הפתרון. להלן דוגמה של ארכיטקטורה הקולטת נתונים משמעותיים בזמן אמת, מפעילה עיבוד על המידע בזמן אמת ושומרת את המידע לניתוח בעזרת כלי ה"מתעורר" במיוחד כדי לנתח פריטים מסוימים בשפת SQL (קרי ODBC/JDBC):
חשוב לציין שכל התהליך הזה מתבצע ללא צורך במכונות וירטואליות בשיטת IaaS. שירות Lambda תוכנן כך, שהוא מתעורר לפעולה לאחר אירוע (למשל כניסת מידע ממכשיר ביישום אינטרנט של הדברים או קיום מידע חדש בתור).
שירות Athena מופעל באופן דומה – אבל בנוי כדי לאפשר תחקור מידע המאוחסן ב-S3 בפורמט SQL. זאת אומרת שהתהליך כולו:
● קולט מידע בזמן אמת דרך שירות Kinesis Firehose – שירות המסוגל להתאים את עצמו למהירות כניסת הנתונים.
● מבצע עיבוד על המידע בעזרת Lambda – שירות שמופעל על כל פריט מידע שנכנס. שירות זה מחולל עותקים לכל אירוע – וכך עומד יפה בדרישות Scale הדרושות בסביבות אינטרנט של הדברים, ובזמן אמת.
● לאחר מכן המידע מאוחסן ב-3S עם יכולת שמירה לזמן ארוך אם נדרש בסביבת Glacier – שירות המאפשר שמירת נתוני לתווך ארוך במחירים אטרקטיביים.
● ברגע שפריט נשמר ב-3S, סביבת ה-Athena מתעוררת כדי למתח את המידע.
● כמובן שניתן להשתמש בעוד שירותים וכלים לפי צורך.