עשה ואל תעשה ב-Big Data
כמה עצות מה כדאי ומה לא כדאי לעשות כשמטפלים בכמויות ענקיות של מידע, מפי יוסי כהן, מנהל הטכנולוגיות הראשי של 3Base מקבוצת טלדור
Big Data הוא לא רק תחום שעוסק במידע בכמויות ענק, אלא הוא תחום גדול בפני עצמו, ויש הרבה מה ללמוד בו. בהתאם, ארגונים עושים לעתים טעויות שנובעות מפעולות לא נכונות. לכן, היה טוב לו הייתה רשימה של לפחות דברים בסיסיים שכדאי לעשות או לא לעשות ב-Big Data.
יוסי כהן, מנהל הטכנולוגיות הראשי של 3Base מקבוצת טלדור, ניסה לספק רשימה כזאת בדברים שאמר בכנס BI & Big Data של אנשים ומחשבים, שהתקיים באחרונה במרכז האירועים LAGO בראשון לציון.
הוא ממליץ להתחיל עם עיבוד Batch לצד עיבוד נתונים בזמן אמת. "קחו דטה סנטר מספיק גדול, שימו אותו בענן המקומי ותתחילו להשתמש בו לטובת איסוף וניתוח הדטה שיש לכם", אמר.
עוד ממליץ כהן לא לעצב את ה-Data lake (מאגר הנתונים הבלתי מובנה) כמו את ה-Data Warehouse, מאחר שלדבריו יש ביניהם הבדל גדול: בעוד שבאחרון בונים סכימה ומכניסים את המידע, בראשון מנתחים את המידע פחות או יותר כמות שהוא. "זה מאוד חשוב בעיקר כדי לאפשר למדעני הנתונים לקבל את המידע הגולמי", הוסיף.
עצה נוספת של כהן מבין עצות ה-"עשה" היא לפשט את הדברים. אפשר לקחת את אותה עצה גם לרשימת ה-"אל תעשה" – לא לכתוב דרישות מפורטות. עם זאת, לדבריו, כדי לנתח את המידע, לא צריך לקחת רק את זה הרלוונטי.
כמו כן, הוא מציע למנהלים לתת עצמאות למדעני הנתונים ונגישות של מירב המידע האפשרי למי שצריך אותו. כן ממליץ כהן להשתמש בשפות התכנות R ופייתון, ולא לעצב תרחישי שימוש ספציפיים של API's.
פאנל סטארט-אפים
בהמשך הכנס התקיים פאנל סטארט-אפים בהשתתפות רון ריטר, מנכ"ל אלגוטרייס, איתמר בן חמו, מנכ"ל ריברי, וסנדרין פיטוסי משודו אנליטיקס.
כל אחד מהמשתתפים הציג את החברה שבה הוא עובד. ריטר אמר שאלגוטרייס "בונה כלי לביצוע אוטומציה לקיצור זמני הפיתוח של מודלים לחיזוי, עם שמירה על רמה גבוהה יותר ויציבות לאורך זמן". החברה הוקמה לפני כשנתיים. בן חמו ציין שריברי "הופכת מידע לתובנות שניתן לעשות על בסיסן פעולות". החברה הוקמה לפני כשנה וחצי והשיקה את המוצר שלה בתחילת השנה הנוכחית. פיטוסי אמרה ששודו אנליטיקס "מפתחת פלטפורמת תוכנה כשירות שמספקת פתרונות מדעי נתונים אוטומטיים לחברות ולארגונים. החברה מתמקדת במתן תשובות לשאלות עסקיות נפוצות ורלוונטיות לארגונים ולחברות – שאלות כגון מה הסיכוי שלקוח ירכוש מוצר דרך ערוץ דיגיטלי כזה או אחר ומה הסיכוי שהוא ירצה לעבור למתחרים בנקודת זמן מסוימת".
השאלה המרכזית שנשאלו המשתתפים היא מה הבעיה שהחברה שלהם מנסה לפתור. לדברי ריטר, "במשך שנה שלמה ישבתי על מודל חיזוי של רווחיות לקוח וזה לימדה אותי שהמאמץ והאנרגיה שנדרשים ממדעני הנתונים הם רבים, מה שנותן מקום נרחב לטעויות. זאת הבעיה שבה אנחנו מטפלים. באמצעות פתרונות אוטומטיים אפשר להגיע לתוצאות יותר טובות".
בן חמו אמר ש-"המטרה שלנו היא להקל על מעבר של ארגונים, באמצעות טיפול בדברים הכבדים ביותר שעומדים בפניהם כשהם עושים זאת".
לדברי פיטוסי, "הוצאה של שירות או מוצר דורש תהליך ארוך, מייגע ויקר. בנוסף, מדעי נתונים זה לא תהליך נגיש למטרות ולארגונים. לכן, מנהלים בארגונים נוהגים לקבל החלטות לרוב בהתבסס על תחושות בטן ואינטואיציות. מצד שני, מחקר שנערך על ידי חברות אמריקניות מעלה ששימוש בכלי מדעי נתונים יכולים להעלות את המחזור ב-35% ואת רווחיות החברה ב-12%. זה פער שאנחנו מנסים לגשר עליו בכך שאנחנו מנגישים מדעי נתונים לארגונים ולחברות – מהכנת הדטה ועד למתן פתרון קונקרטי ואוטונומי לשאלה עסקית מסוימת".
תגובות
(0)