Big Data – מוזיאון של טכנולוגיות?
כתב: אורן אריאל, מנהל לקוחות אינפורמטיקה בצבא ובממשלה בקבוצת אמן
לארגונים יש מגוון רחב של מידע המפוזר על פני מגוון מערכות. המטרה והרצון זה להביא את כל הנתונים למקום אחד שמאפשר לארגון לבצע שאילתות, חיתוכים והצלבות של המידע לצורך הבנה טובה יותר של הלקוחות שלנו והאפשרות של העסק לספק שירות או מוצר מתאים ביותר.
כדי שארגונים יוכלו לאסוף את כל הנתונים מכל המערכות צריך אחסון גדול, ככל שעלויות האחסון קטנו במהלך השנים, האפשרות של שמירת מידע רב ממספר גורמים עלתה.
היכולת המאפשרת לנו להחזיק כמות עצומה של נתונים מבלי להשקיע הרבה בזיכרונות ודיסקים מהירים, הם הענן שמאפשר לנו לשכור שרתים לפי שימוש ולפי שעה, וטכנולוגיות Big Data כגון Hadoop.
אנו נכנסים כעת לדור השלישי של הנתונים, "נתונים 3.0".
"נתונים 1.0" היו בשימוש בנתונים ליישומים עסקיים ספציפיים, כגון אוטומציה של שכר או הזמנת טיסות או עסקאות קמעונאיות.
"נתונים 2.0" בשימוש רחב של הארגון נתונים בשרשרת האספקה הארגונית, עיבוד ישיר בבנקים, בניית Data Warehouse, שימוש בשירותים וכו'.
"נתונים 3.0" הם הדור הבא של הנתונים – כאשר הנתונים מאפשרים לעסקים שלמים להצטרף לטרנספורמציה הדיגיטלית באמצעות מודלים עיסקיים חדשים ותהליכים שלא יכלו לבצע קודם לכן.
את הטרנספורמציה הדיגיטלית אנו יכולים לבצע כיום בזכות מגוון טכנולוגיות ופיתוחים חדשון כגון הענן, בינה מלאכותית ו-Big Data.
ב-"נתונים 3.0" אנו בעצם שמים את הנתונים במרכז. הכוח עובר אליהם ולא לאפליקציה.
ארגונים שישכילו לעשות שימוש בנתונים שיש להם ויצליחו לנצל את המידע לתובנות עסקיות הם אלו שיצליחו בגדול.
האם כל פרויקט שיש לו הרבה נתונים נקרא פרויקט Big Data? ישנם ארבעה קריטריונים להגדרת Big Data:
● Volume – כמות גבוהה של נתונים אשר משתנה בזמן קצר מאוד וניתן לתמוך בו.
● Variety – פורמטים שונים של נתונים (וידיאו, טקסט, תמונות, לוגים).
● Velocity – מהירות בקליטה ושליפה של נתונים.
● Value – אפשרות ליצירת ערך מתוך מאגר הנתונים הגדול.
על פי נתונים ששפרסמה חברת המחקר גרטנר, עד 2018 70% מפריסות ה-Hadoop לא יעמדו ביעדי החיסכון בעלויות ובמטרות של יצירת ההכנסות, בשל אתגרים של מיומנויות ואינטגרציה. עד 2018, 80% מה-Data Lakes לא יכללו יכולות ניהול מטא דטה יעילות, מה שהופך אותם לבלתי יעילים.
אם כן, מה הם האתגרים בפרויקטי Big Data?
● רוב המאמצים הם חד פעמיים – אין ערך עסקי מובהק, החוזר ונשנה בפרויקטים.
● הטמעות Hadoop גדלות נתקעות בשל פיתוח יקר ומורכב.
● הטמעה מוצלחת של פתרון Hadoop לאו דווקא אומרת הצלחה בפרויקט Big Data.
● ה-Data Lake עלול להפוך ל-Data Swamp אם יהיה בו מידע רב לא מאורגן.
תחום ה-Big Data התפתח והשתדרג מאוד בשנים האחרונות בזכות שלל טכנולוגיות חדשות שנכנסו לשימוש כגון מגוון פתרונות תשתית, יכולות למשיכת מידע, טרנספורמציה, ערבוב ועוד. בגלל ריבוי הטכנולוגיות, שרק הולכות ומתפתחות, היכולות של ארגונים ללמוד, להכשיר, להטמיע היא כמעט בלתי אפשרית.
לצורך הדוגמה הבאה אני אדמה את ה-Big Data לעולם הרכב.
כדי לבנות רכב אנחנו זקוקים לשלל רכיבים, כאשר כל רכיב אחראי על חלק אחר ברכב, כגון: צמיגים, מרכב, הגה, צירים, כיסאות, מנוע ועוד. כך גם ב-Big Data.
כדי להרים מערכת Big Data הארגון זקוק לאסופה של טכנולוגיות המרכיבות לנו את השלם, כאשר כל הטכנולוגיות הללו מבצעות פעולה אחרת שתפקידה הוא למשוך את המידע, להכניס אותו לתוך סביבת ה-Big Data בצורה נכונה ומנוהלת, לסדר, לאנדקס, לחפש ולשלוף אותו, והכל במהירות גדולה, בקצבים ונפחים גדולים ובשרידות.
הטכנולוגיה הזאת ממציאה את עצמה מחדש בזמן קצר מאוד. טכנולוגיות חדשות מפותחות כל הזמן, כך יוצא מצב שהתחלתי לעבוד על פרויקט עם טכנולוגיה X וכשאני אסיים לעבוד עליו או אחרי מספר חודשים שהיא תהיה באוויר תצא טכנולוגיה אחרת, טובה יותר.
הרצון להדביק את הפער או להשיג את המטרות מביא אותנו למצב שבו אנחנו חייבים להעמיק ולהכשיר את הידע של הצוות שלנו בטכנולוגיות החדשות בתקופות מאוד קצרות.
לחברות אנטרפרייז כמו גוגל (Google), פייסבוק (Facebook) ומיקרוסופט (Microsoft) המשאבים לביצוע המרדף זמינים כל הזמן.
איך בארגונים קטנים יותר זהו מרתון שקשה מאוד לתחזק ולסיים אותו, ולכן הרבה ארגונים נופלים באמצע ולא מסיימים את המסלול.
להלן דוגמאות של מפת הטכנולוגיות בעולמות ה-Big Data:
אינפורמטיקה, כמובילה בתחום אינטגרציית הנתונים הפנימה את הצורך וגדלה בכל דור ודור כדי לספק ללקוחותיה את המיטב מהנתונים שלהם.
נתונים 1.0 – אינפורמטיקה הגדירה את שוק ה-Extract Transform Load והפכה המובילה באינטגרציית נתונים.
נתונים 2.0 – הרחבת תיק הנכסים של החברה לאיכות נתונים, ניהול נתונים ראשיים, ענן, אבטחת מידע, אחסון נתונים ושירותי נתונים אחרים.
נתונים 3.0 – אינפורמטיקה מובילה בתחום ה-Data Management וחלוצי פתרונות נתונים פלטפורמת הנתונים Intelligent.
כיום אינפורמטיקה חושפת למשתמשים יכולות Big Data שעוזרות לארגון להתמקד בשליפת התובנות מהמידע שלהם ולא בתפעול הדרוש כדי להגיע לתובנות האלה בעזרת כלי ויזואלי אשר מרכז את כל יכולות הכלים הפתוחים תחת קורת גג אחת.
אינפורמטיקה אינה מתחרה בכלי קוד פתוח אלא מחזקת ומאגדת אותם תחת מוצר אחד החוסך לארגון את ההשקעה בהכנסת טכנולוגיות חדשות בעולם ה-Big Data ההולך ומשתנה בקצביים מאוד גדולים.