בעקבות אירוע | ה-Data Warehouse מת? יחי Big Data?
מאת ניר מקובר, מנהל תחום מידע עסקי וניהול ביצועים בחברת B-Pro
האם ההשקעה הרבה שבוצעה עד כה בארגונים סביב עולם המידע עומדת לרדת לטמיון? האם המידע שנאסף בעמל רב לא עונה על הצורך העסקי הבא? האם היכולות והכישורים שנבנו ביחידות ה-BI ב-IT וביחידות האנליזה ב"עסק" אינם רלוונטיים עוד? האם הכלים והפתרונות שהוטמעו לא יכולים לתת ערך מוסף חדש ומשמעותי? האם ה-Data Warehouse מת ויחי המלך החדש- Big Data?
כדי להרגיע, אקדים ואומר כי ה-Data Warehouse כמובן לא מת. ההפך הוא הנכון: בכל פתרון Big Data שימומש, ה-Data Warehouse יקבל תפקיד מפתח מרכזי: ה-DWH יועשר ביריעה רחבה של מידע חדש אשר יקושר למידע הקיים ויסייע להתמודד עם מגוון רחב יותר של שאלות עסקיות פשוטות ומורכבות כאחד.
עם זאת, חייבים להתחולל מספר שינויים תהליכיים, פרסונליים ומבניים איתם הארגונים יצטרכו להתמודד. כדי להבין את השינויים הללו טוב יותר, נדרש להכיר את שני הענפים המרכזיים עליהם צומחים פתרונות Big Data:
1. פתרונות תוכנה ו/או Appliances הממוקדים במידע מובנה: בסיסי נתונים (Row\Columnar), דוגמת Vertica, GreenPlum, Netteza ואחרים המאפשרים האצת ביצועים באמצעות תמיכה בעבודה מקבילית (MPP DB). פתרונות אלה אינם שונים בצורה מהותית מפתרונות ה-Data Warehouse שהכרנו עד היום אך הם מחליפים את התשתיות הקיימות. הפתרונות הללו מאפשרים איסוף וניתוח מידע מובנה (structured) באופן זהה לשיטות שהשתמשנו בהן עד כה ומשתמש הקצה לא יזהה הבדל: כלי הדיווח והניתוח הם אותם כלים, כתיבת השאילתות נעשית באותו האופן ותהליכי העדכון הם אותם תהליכים. כאמור, השינוי העיקרי הוא שינוי תשתיתי (חומרה ובסיס נתונים) אשר דורש הרחבת הידע והתמקצעות בעיקר של אנשי ה- System ואנשי ה-DB.
2. פתרונות מבוססי Hadoop ובסיסי נתונים NoSQL, דוגמת Cassandra, MongoDB, DynamoDB ואחרים התומכים גם הם בעבודה מקבילית, אך מאפשרים בנוסף למידע מובנה, גם איסוף וניתוח של מידע לא מובנה. מימוש ותחזוקה של פתרונות אלה שונה באופן מהותי מפתרונות ה-BI המסורתיים שהכרנו עד כה, אך הם אינם מהווים תחליף אלא כפתרון משלים ל-Data Warehouse הקיים. הסיבה נעוצה בארכיטקטורת הפתרון: הפלטפורמות הללו מהוות "יעד נחיתה ראשוני" של נתונים (חיצוניים או פנימיים), משמשות כ"ארגז חול" (Sandbox) אנליטי בוסרי של הארגון ותחנת מעבר בדרך למידע מסוכם, אינטרגטיבי ומטוייב ב-Data Warehouse. יש לקחת בחשבון כי בסל הפתרונות הקיים היום בשוק, תידרש התאמה של כישורים ב-IT וב"עסק": ב-IT יידרשו בעיקר אנשי Java ותוכניתני C אוטודידקטים שייתמכו בפתרון וייבנו פתרונות משלימים לרכיבים החסרים, בעיקר על בסיס מידע המצוי בפורומים מקצועיים באינטרנט, אנשי System שיידעו לבנות ולתחזק Cluster גדול של שרתים ובצד ה"עסק": אנאליסטים בעלי אוריינטציה טכנית יותר שיידעו להפיק מידע ותובנות ללא הכלים הנפוצים היום כגון: SAP BO, IBM Cognos, SAS ואחרים.
לפיכך, בחירה נכונה של הפתרון הטכנולוגי הינה תנאי הכרחי להצלחת הפרויקט אך היא אינה מספקת. ההצלחה תלויה בגורמים נוספים, חשובים לא פחות, ולכן מומלץ לבצע תכנון מדורג של הפתרון, להגדיר תוצרים ברורים וברי השגה ובהמשך להעמיק ולהתרחב לנושאים ותוצרים נוספים. כמו כן חשוב להסתכל על כלל הגורמים המשפיעים ולהתבסס על ידע רחב הכולל היבטים ארגוניים, התמודדות עם שינויים בתהליכי העבודה והרגלי הצריכה והיכולת לתרגם את התוצרים לערך העסקי הנדרש.