לקראת אירוע | כיצד הגידול העצום בכמות המידע הארגוני משנה את אופן השימוש בבינה עסקית וכלים אנליטיים
ראיון עם אסף בר, מנכ"ל איטרניטי ● חלק ראשון מתוך שניים
התפוצצות הנתונים בעולם ממשיכה להאיץ ולהפתיע אותנו בהיקפיה, אם כי המומחים כבר התריעו על כך כבר לפני מספר שנים. גורדון מור, ממייסדי אינטל והאדם שעל שמו נקרא "חוק מור", היה הראשון שחזה שמספר הטרנזיסטורים המיוצרים במעגל משולב אחד יכפיל את עצמו מדי שנה. מאז 1965 ייושם "עקרון ההכפלה" הזה בהרבה תחומים בעולם המחשוב וברוב המקרים הוכיח את אמיתותו.
אבל כאשר מדובר בנתונים, אפילו חוק מור אינו מצליח להדביק את הצמיחה האקספוננציאלית של השנים האחרונות. מחקר של חברת IDC על נתונים דיגיטליים מראה, שב-2010 כמות המידע הדיגיטלי בעולם חצתה את קו הזיטבייט, או טריליון ג'יגהבייט של מידע. שוחחנו עם אסף בר, מנכ"ל חברת ה-BI איטרניטי, על תופעת ה-"Big Data" וכיצד כלי BI יוכלו לסייע לארגונים להתמודד עם הבעייה.
מדוע תופעת ה-"Big Data" נחשבת לבאזז החם ביותר בתעשייה?
המונח "ביג דטא" (big data) נטבע כדי לתאר את קצב הצמיחה הזה במקביל למערכות ולטכנולוגיה הדרושים כדי לעשות בו שימוש. בדומה להרבה טכנולוגיות חדשות, גם המונח הזה זקוק עדיין להגדרה אוניברסאלית אבל ככלל, "ביג דטא" הם מערכי נתונים שהגיעו לממדים שאינם מאפשרים ניהול או ניתוח קלים עם כלים, שיטות ותשתיות מקובלים או נפוצים לניהול נתונים. ל-"ביג דטא" יש מאפיינים מסוימים ההופכים את האתגר לעוד יותר קשה. למשל, מהירות גבוהה, נפח גדול ובמקרים מסוימים, מגוון מבני נתונים. מאפיינים אלה מציבים אתגרים חדשים בניתוח נתונים, חיפוש בנתונים, שילוב נתונים, גילוי מידע ומחקר, דיווח וגם תחזוקת מערכות.
מה המקורות של "ביג דטא"?
הראשונים שאימצו נתונים גדולים היו קהילות מדעיות הנהנות מגישה לסביבות יקרות של מחשבי על שנועדו לנתח כמויות נתונים מסיביות. סביבות מחשוב אלו תוקפות את אתגר ההיקף העצום של הנתונים אבל לא בהכרח מתמודדים עם מאפייני המהירות והגיוון, וכאמור, הן יקרות. הפרויקטים הראשונים שנעשו על נתונים גדולים היו למשל מחקר גנומי או מחקר על נתוני תרופות שעשה שימוש באנליטיקה מתקדמת כדי לחשוף מידע שקשה לזהות בסביבות נתונים מקובלות. כיום, היקף הנתונים הגדולים מתרחב מעבר למקורות הנישה האלה וכולל גם נתונים חיישנים ומכונות, נתוני תנועות (טרנסאקציות), נתוני מטה, נתוני רשתות חברתיות ומידע שכתבו צרכנים. באופן דומה, מנוע של מטוס בואינג יכול להפיק 10 טרבייט של מידע תפעולי בכל חצי שעה של פעולה. מטוס סילון ג'מבו בעל ארבעה מנועים יכול ליצור 640 טרבייט של נתונים בחצייה אחת של האוקיינוס האטלנטי. הכפילו את כמות הנתונים הזו ביותר מ-25,000 טיסות הממריאות מדי יום, ותוכלו להעריך את השפעתם של הנתונים שמפיקים מכשירים ומכונות על סביבת הבינה העסקית.
האם גם רשתות חברתיות הן מקור ל-"ביג דטא"?
אכן כן! נתונים המגיעים מרשתות חברתיות הם מקור חדש לביג דטא אשר חברות רבות רוצות למנף. אתר טוויטר משרת יותר מ-200 מיליון משתמשים היוצרים יותר מ-90 מיליון "ציוצים" ליום, או 800 ציוצים לשנייה. הגודל של כל אחד מהפוסטים האלה הוא כ-200 בייט. ביום ממוצע, תעבורה זו יוצרת יותר מ-12 ג'יגבייט ומערכת טוויטר כולה מייצרת כשמונה טרבייט של נתונים מדי יום. לשם השוואה, הבורסה של ניו יורק מייצרת רק כטרבייט אחד של נתונים מדי יום.
בחודש יולי השנה הכריזה פייסבוק על חציית קו ה-750 מיליון משתמשים פעילים ובכך הפכה רשת חברתית זו למקור הגדול בעולם לנתונים שיוצרים צרכנים. משתמשי פייסבוק מבלים יותר מ-700 מיליארד דקות לחודש באתר, כאשר משתמש ממוצע יוצר 90 יחידות תוכן במהלך 30 יום. מדי חודש יוצרת קהילת פייסבוק יותר מ-30 מיליארד יחידות תוכן, בהן קישורים לאתרים, חדשות, סיפורים, פוסטים של בלוגרים והערות לסרטונים ותמונות. לא כל המידע הזה שימושי לחברות עסקיות, אבל פייסבוק היא מכרה זהב של נתונים על צרכנים הניתנים לשילוב במערכת ניהול לקוחות (CRM), אפליקציות למרכזי פניות ותוכניות שונות של בינה עסקית.
המשך הראיון יפורסם מחר