הדרך הקלה ל-Big Data
כתב: אסף שפר, מנהל תחום לקוחות אינפורמטיקה, קבוצת אמן
Big Data הוא כינוי שניתן למגמה של הצטברות של כמויות ענק של מידע בארגון, שרובו הגדול בלתי מובנה. מעבר לבעיות האחסון של מידע זה, מדובר במידע עסקי, משאב יקר ערך הקיים בארגון ואינו מנוצל, עקב הקושי הפרקטי לסנן, למיין, לקטלג, לארגן ובעיקר לנתח ולהפיק ממנו תובנות בעלות ערך לקידום הארגון.
הגדרה נוספת של Big Data מסתכלת על ההשפעה ההדדית שיש להעברה, לאינטראקציה ולעיבוד כמויות גדולות של מידע. לפי אינפורמטיקה (Informatica), מדובר בהעברת כמויות הולכות וגדלות של מידע בארגון, התפוצצות מידע אינטראקטיבי המגיע לדוגמה מרשתות חברתיות, איסוף קבצי לוגים על התנהגות משתמשים, נתונים ממיכון (טורבינות, מטוסים, מכוניות, מצלמות…) ועיבודו.
מהפכת המידע, הנקראת גם האינטרנט של הדברים, מוצגת בתרשים הבא לאורך השנים:
המצב השורר כיום הינו שפלטפורמות עיבוד המידע של מרבית הארגונים אינן מספיקות. ארגונים יודעים להתמודד עם מידע טרנזאקציאלי (Transactional Data) אשר נאגר במסדי מידע רלאציוניים (Relational Data Base), אך פחות עם מידע אינטראקטיבי (Interactional Data), המהווה את מרבית המידע אותו משתמשים מוסרים ברשת, בעיקר ברשתות החברתיות, וכן מידע שמגיע ממכונות. כאשר עוסקים במידע אינטראקטיבי מדברים על מידע רב המשתנה כל העת והוא מבוסס על אינטראקציות, כך שקשה לעבדו בפרקי זמן סבירים.
על פניו, הקונספט של Big Data משרת את כולם באופן חיובי, אך בפועל ארגונים לא מודעים למשמעויות, בעיקר אלה הטכניות, של הדברים. רוב הארגונים וחברות ה-Big Data מתרכזים בשני רבדים בלבד: הראשון הוא תוצאות ניתוח המידע והשני הוא איסוף המידע (בפתרונות כגון Hadoop). ארגונים רבים שוכחים כי החלק המרכזי והחשוב ביותר בפרויקטי Big Data הוא, למעשה, הרובד "האמצעי", כלומר – החלק המאפשר את איסוף המידע, ניהולו ותחזוקתו לאורך זמן, כדי לאפשר את הוצאת הערך המוסף ממנו. כך, למשל, בנק גדול שהקים מערך על בסיס Hadoop מצא את עצמו מקצה בסופו של דבר את כל התקציב לתחזוקת הסביבות והפיתוח בקוד שבוצע.
אינפורמטיקה זיהתה בעייה זו עוד בראשיתה ופיתחה מענה שמאפשר פתרון פשוט, מהיר ואיכותי לנושא. החברה פיתחה גרסת Bid data Edition למנוע ה-Power Center הוותיק והאיכותי שלה, כך שכיום ניתן לעבוד בסביבת העבודה המוכרת של אינפורמטיקה על Hadoop. למעשה, דרך עבודה חכמה זו מאפשרת עבודה בממשקי GUI פשוטים ומוכרים באופן שקוף על Hadoop, היות שאינפורמטיקה מחוללת את הקוד מאחורי הקלעים. יחד עם הורדת התלות בפיתוח קשה ויקר התווספו קונקטורים לעולמות התוכן הרלוונטיים כגון רשתות חברתיות, DB-ים של noSQL ואף מימוש יכולות של כלי אינפורמטיקה נוספים, כגון טיוב נתונים על Hadoop, שהפכה לאקוטית באיסוף המידע הרב, עקב ריבוי אנומליות וכפילויות של מידע. המסקנה המתבקשת היא שאם לא יתבצע טיפול באיכות הנתונים בפרויקטי Big Data, יהיה מאוד קשה, בסופו של דבר, לייצר תובנות על בסיס הנתונים.
תפיסת הפתרון של אינפורמטיקה, שנקרא Vibe, מוצג בתרשים הבא:
אם כן, לסיכום, אין ספק שאנו על סף מהפכת המידע הבאה, מהפכת האינטרנט של הדברים. ארגונים ש-"יאחרו את הרכבת" ולא ידעו כיצד להתמודד טכנית ועסקית עם מהפכת המידע הזו יאבדו מהר מאוד את היתרונות התחרותיים שלהם. בשונה מתחומים אחרים, דווקא כאן, ארגונים שיאמצו מהר את פתרונות ה-Big Data ימצאו עצמם מצליחים לספק ערך מוסף ללקוחותיהם וליצור יתרון תחרותי מובהק.