BIG Data – הרבה נתונים, הרבה מוצרים והרבה בלבול
ראיון עם יאיר רוזיליו, מנכ"ל משותף בנאיה טכנולוגיות.
מהן המגמות המרכזיות בעולם ה-Big Data ב-2015?
"Big Data זה מונח שכבר כמה שנים תופס כותרות כ-"דבר הבא" בעולם הדטה. יותר ויותר ארגונים מיישמים כיום פתרונות בשטח והמגמות משתנות בהתאם לצורך העסקי.
במהלך 2015 נראה את עולם ה-Big Data מתמודד עם אינטגרציה בין פלטפורמות Big Data ובסיסי נתונים "מסורתיים" כגון אורקל (Oracle) ו-SQL Server, פריסה בסביבות אנטרפרייז גדולות, התמודדות עם נושאי אבטחה, חיבור לעולם האינטרנט של הדברים ושיתופי פעולה טכנולוגיים בין פלטפורמות שונות".
מה הקושי המרכזי במימוש פתרון Big Data?
"אנשים נוטים לבלבל את המונח Big Data ופירושו. בנוסף לזה, ישנם מספר מוצרים הקיימים בשוק. אין ספק שהשילוב תורם לתחושת הבלבול של מקבלי ההחלטות. הרבה שאלות צפות: האם להטמיע Hadoop? אולי MongoDB? מה בנושא Cassandra? ואיך בכלל Cloudera קשורה לכל הסיפור הזה?
ההחלטה באיזו פלטפורמה לבחור הינה קריטית לכל ארגון ותקבע את הצלחת הפרויקט. בשלב הראשון חשוב להבין מה הערך מוסף שכל פלטפורמה נותנת כמענה לאתגרים של הארגון בהפקת ערך עסקי מהמידע".
על איזו פלטפורמת Big Data אתה ממליץ ללקוחות שלך?
"כפי שציינתי, אין פתרון אחד שמתאים לכל ארגון ולכל דרישה. כל אחת מהטכנולוגיות המובילות בעולם ה-Big Data מתאימה לסט מסוים של דרישות עסקיות ותבניות שימוש במידע.
הפלטפורמה הנבחרת בעולם ה-Big Data צריכה לספק מענה לדרישות הבאות:
נפח – שמירת כמויות גדולות של נתונים ומתן סקלביליות קלה ונוחה במידת הצורך.
מהירות – הפתרון חייב לתמוך בקצב שמירה מהיר של נתונים, זאת מבלי לאבד מידע וכמובן לאפשר הנגשת נתונים אלו בזמן אמת לצרכני המידע בארגון.
מבנה – הפתרון חייב לאפשר שמירה וגישה לנתונים שאינם מובנים".
אז מה בוחרים: Hadoop ?MongoDB ?Cassandra?
"מדוע ארגונים משתמשים ב-Hadoop? לפלטפורמה זו שני חלקים: ניהול מידע ואחסונו במערכת קבצים מבוזרת בין שרתים, ומנגנון חישוב ועיבוד מקבילי לצורך הפקת ערך עסקי מהמידע.
ארגונים משתמשים ב-Hadoop כדי לאחסן כמויות גדולות מאוד של מידע גולמי (לרוב גם מידע בלתי מובנה) ולבצע Analytics, שליפות וחישובים מורכבים על המידע – החל מדו"חות ועד ל-Machine Learning ו-Predictive analysis של המידע העסקי. מדובר בדור הבא של ה-Data Warehouse הקלאסי.
כלי בשם MongoDB הפך פופולרי מאוד והוא נותן מענה מצוין גם לניהול של מידע תפעולי בזמן אמת. לדוגמה, אישור עסקה פיננסית וחישוב בזמן אמת האם מדובר בעסקה חוקית או שמא יש סכנה ל-Fraud, שליפה של פרטי משתמש המבצע התחברות לשירות דרך האינטרנט או ביצוע של Real-Time Analytics בצורה מוגדרת מראש. כמו כן, הגמישות הרבה של מבנה הנתונים ב-MongoDB מאפשרת למפתחים לבצע שינויים באפליקציה ובמידע הנשמר בצורה קלה מאוד.
Cassandra הוא בסיס נתונים מבוזר מסוג NoSQL בקוד פתוח. השימוש העיקרי של Cassandra הוא באחסון ושמירה של כמות גדולה מאוד של נתונים בזמן אמת ממקורות רבים ושונים, שמגיעים בקצב גבוה מאוד.
לסיכום, ניתן לממש פתרונות Big Data בדרכים שונות על מגוון רחב של פלטפורמות. חשוב להבין כל מקרה לגופו ולוודא שמוצר הוא הטוב ביותר לצורך העסקי והטכנולוגי, כי אין זה סביר שתוכלו למצוא פלטפורמה אחת שנותנת מענה לכל הצרכים. לכן, ארגונים רבים משלבים פתרונות מסוגים שונים. חשוב לזכור שרוב הארגונים עדיין נדרשים להשתמש במסדי נתונים רלציוניים למרבית מערכות הליבה ופתרונות ה-Big Data נפרסים לצד מסדי נתונים אלה".