נתונים בענן – למה כדאי?
כתב: יובל מזור, ארכיטקט פתרונות ענן, מיקרוסופט (Microsoft) ישראל
היום כבר כולם יודעים שהענן הוא הפלטפורמה האידיאלית לאחסון נתונים (קיבולת בלתי מוגבלת, רמות שירות שונות למידע חם וקר, גיבויים וכו׳). אבל שאלה שנשאלת שוב ושוב היא איזה ערך מוסף יש לנתונים שנמצאים בענן? במאמר זה נסקור בקצרה מספר שימושים אופייניים שאנו רואים כיום בשוק.
ניתוח מידע ו-analytics
כידוע, ארגונים אוספים כיום כמויות עצומות של אינפורמציה במטרה להפוך להיות מונחי-נתונים (data-driven) ולקבל החלטות מושכלות על בסיס מידע ולא על פי תחושות בטן. נתונים שנמצאים בענן נגישים במהירות עצומה לכוח עיבוד שנמצא גם הוא בענן, דבר שמקל מאוד על ביצוע ניתוחים לכל שאלה עסקית שניתן להעלות על הדעת.
פלטפורמות הענן מאפשרות כיום – בלחיצת כפתור – לייצר מכונות וירטואליות שמכילות כבר סביבות מוכנות ל-Data Science. המשמעות היא שזמן המעבר משאלה עסקית לאנליזה מסודרת הוא קצר משמעותית מאשר התהליך המקביל שנעשה בתוך הארגון.
ראוי לציין שרבות מהסביבות הללו (למשל, Jupyer Notebook של Python ו-R Studio Server) חושפות שם ממשק Web-י כך שאת הניתוח (כולל תרשימים וטקסט תיאורי) ניתן להציג בקלות לכל בעל תפקיד שברשותו דפדפן אינטרנט.
יתרון נוסף טמון בעובדה שניתן לקבוע את המאפיינים של מכונות כאלה: כאשר נרצה לעשות ניתוח ראשוני ניקח מכונה חלשה יותר ונעבוד על דגימה קטנה מהנתונים. לניתוח מעמיק ומקיף יותר נגדיל את כוח העיבוד והזיכרון של המכונה, ונעבור על כלל הנתונים. כמובן שהתשלום הוא רק על פי הצריכה בפועל.
Big Data
שימוש נפוץ נוסף לנתונים בענן הוא עיבודם באמצעות תשתיות Big Data. לדוגמה, אם נשמור כל פעולה שמשתמש מבצע באפליקציה שלנו (לחיצה על כפתור, הזנת טקסט, חיפוש וכו׳), ניתן מאוחר יותר לזהות דפוסים אופייניים לסוגים שונים של משתמשים ואפילו לבצע התאמה אישית של האפליקציה למשתמש בודד.
מדובר, פוטנציאלית, במאות ג׳יגות ואפילו טרות של נתונים. העיבוד מתבצע על מספר (לעיתים רב) של מכונות במקביל. פלטפורמות הענן השונות עוברות אופטימיזציות כדי להתמודד עם סוגים כאלה של עיבודים וכמויות.
כפי שניתן להקים מכונת Data Science בודדת, ניתן גם בקלות להקים Cluster של מכונות על מנת שיריצו כלים כמו Hadoop או Spark, ויתחברו ישירות לשטחי האחסון שבהם שמרנו נתונים. סביבות ענן כוללות גם חיבורי רשת מהירים במיוחד, דבר שמשפר את הביצועים של כלי ה-Big Data.
ספקיות הענן מזהות כמובן את הצורך, וכיום ניתן להקים מערכי Big Data בתצורות הבאות:
● הקמת רשתות ומכונות וירטואליות, וביצוע התקנות באופן עצמאי. גישה זו מאפשרת שליטה מקסימלית בכל תכונה ומאפיין, אך דורשת עבודה רבה ותחזוקה שוטפת.
● הקמת רשתות ומכונות וירטואליות, כאשר על המכונות מותקנים כבר הכלים הדרושים. כאן נחסכת עבודת ההתקנה הראשונית, אך עדיין נדרשת תחזוקה.
● הקמת Cluster שלם באופן אוטומטי בתצורת Platform as a Service. ניתן לגשת למכונות הבודדות, אך לרוב אין צורך בכך שכן הפלטפורמה דואגת לתחזוקה של מערכות ההפעלה – Patch-ים, עדכוני אבטחה וכו׳.
● הסתרה של מערך ה-Big Data כולו. בגישה כזו, הלקוח מספק את הוראות העיבוד (למשל, שאילתת SQL) והפלטפורמה, מאחורי הקלעים, דואגת להקים תשתית Big Data במקביל לעבודה.
למעשה, כיום הענן מנגיש את עולם ה-Big Data לכל ארגון, מהקטן ביותר ועד לגדול ביותר. מגוון התצורות מאפשר לכל צוות להחליט בעצמו איזו מידה של שליטה בתשתיות הוא רוצה לשמור לעצמו ואיזו מידה להעביר לפלטפורמה.
סיכום
לא יהיה מוגזם לומר, שהענן משנה את האופן שבו אנחנו תופשים את תחום אחסון ועיבוד הנתונים. ארגונים שונים מגלים שמעשית, כבר אין כל מגבלה טכנית לטפל בכל פיסת מידע נגישה, קטנה ככל שתהיה. אנחנו מעריכים, שבעתיד נראה שימושים רבים וחדשניים לנתונים השונים שנאספים וימשיכו להיאסף.