לקראת אירוע | כיצד מתמודדים עם אתגרי ה-Big Data
מאת ינאי מילשטיין, מנהל תחום אינפורמטיקה, קבוצת אמן
ה-Big Data הוא כינוי שניתן למגמה של הצטברות כמויות ענק של מידע בארגון, שרובו הגדול בלתי מובנה. מעבר לבעיות האחסון של מידע זה, מדובר על משאב יקר ערך שקיים בארגון ואינו מנוצל, עקב הקושי הפרקטי לסנן, למיין, לקטלג ולארגן ובעיקר, להפיק ממנו תובנות בעלות ערך לקידום הארגון. הגדרה נוספת של ה-Big Data מסתכלת על ההשפעה ההדדית של העברה, אינטראקציה ועיבוד כמויות גדולות של מידע. לפי אינפורמטיקה, מדובר בהעברת כמויות הולכות וגדלות של מידע בארגון, התפוצצות מידע אינטראקטיבי המגיע מרשתות חברתיות (פייסבוק, לינקדאין, טוויטר) ועיבוד, הנעשה בתוכנת הקוד הפתוח של Hadoop.
המצב השורר כיום הינו שפלטפורמות עיבוד המידע של מרבית הארגונים אינן מספיקות. ארגונים יודעים להתמודד עם מידע עסקתי (Transactional Data) וכן עם מידע יחסי (Relational Data), אך פחות עם מידע אינטראקטיבי (Interactional Data), המהווה את כל המידע אותו משתמשים מוסרים ברשת, בעיקר ברשתות החברתיות. זהו מידע שמשתנה כל העת והוא מבוסס על אינטראקציות ולכן קשה לעבדו בפרקי זמן סבירים.
מדוע חשוב כל כך לארגונים לעבד את המידע המגיע מהרשתות החברתיות? התשובה פשוטה – בנק אשר לקוחותיו הצטרפו לדף שלו בפייסבוק, לדוגמא, יכול לראות היכן הלקוח עובד ולהציע לו מבצעים ייחודיים. לקוח ש"צייץ" בחשבון הטוויטר שלו על תקלה במכשיר כספומט קרוב לביתו – הנהלת הבנק תדע על כך (שוב, במידה והלקוח אישר זאת).
כדי לאחסן את כמויות המידע הרבות פותחו מספר טכנולוגיות ופתרונות הפועלים בשני מישורים מרכזיים:
1. פלטפורמת Hadoop – פרויקט קוד פתוח אשר מאפשר עיבוד כמויות עצומות של מידע באופן מקבילי, על פני ארכיטקטורה מבוזרת.
2. פתרונות חומרה ותוכנה (appliances) – פתרונות המפותחים על ידי כל החברות הגדולות ונותנות מענה לעיבוד מסת נתונים גדולה. דוגמאות – GreenPlum של EMC, ורטיקה של HP, נטיזה (Netezza) של יבמ ועוד.
היכן נכנסת אינפורמטיקה לתמונה?
אינפורמטיקה יודעת לתת פתרון כולל לכל בסיסי הנתונים הנפוצים ולכל הרשתות החברתיות הנפוצות, פתרונות החומרה והתוכנה וכמובן פלטפורמת Hadoop. כך מהווה אינפורמטיקה את המכנה המשותף המאפשר לבצע אינטגרציה בין כל היישומים ובינם לארגון. הפלטפורמה של אינפורמטיקה עושה זאת בעזרת ארבע טכנולוגיות מתקדמות:
1. Informatica PowerExchange – קישור בין כל פתרונות החומרה/תוכנה שהוזכרו, פלטפורמות Hadoop וכל הרשתות החברתיות.
2. Informatica Data Replication – פתרון המאפשר שכפול מהיר (Fast Clone) והעתקת מידע אשר ביחד נותנים תפישה מהירה של שינויים במידע בין בסיסי נתונים (DB) שונים.
3. Push-Down Optimization – טכנולוגיה המאפשרת ביצוע ELT, קרי טרנספורמציה של הנתונים על גבי מכונת ה- Big Data על מנת לשפר משמעותית את הביצועים ולחסוך במשאבי צריכת תעבורת רשת.
4. H-Parcer – טכנולוגיה העושה שימוש ב- Map Reduce של Hadoop על מנת לתייג תוכן, אף שאינו מובנה (unstructured) ובכך מאפשרת שיפור משמעותי של זמני אחזור מידע – חיסכון רב בזמן ובמשאבים).
השילוב בין ארבע הטכנולוגיות דלעיל מניב פתרון כולל, אשר מסוגל להתמודד עם אתגרי ה-Big Data, שרק ילכו ויתעצמו. מוכנות ל-Big-Data מסייעת לארגונים להכין עצמם טוב יותר גם למתקפות סייבר, אשר מטרידות את מנוחתם של הארגונים היום, בארץ ובעולם: אבטחה טובה מצריכה עיבוד מקבילי ומהיר של נתונים רבים בעת ובעונה אחת. היכולות החזקות של אינפורמטיקה מספקות מענה גם לסוגיה זו.