כיצד מבצעים תחקור וטיוב נתונים אפקטיבי בארגון
מאת אור פלח, פריסייל ותמיכה אינפורמטיקה, קבוצת אמן
סוגיית איכות הנתונים (Data Quality) במערכות המיחשוב הארגוניות הטרידה מאז ומעולם את אנשי ה-IT והמנהלים העסקיים. ארגון השומר מידע לא עדכני, לא מדויק ולעיתים אף לא נכון על לקוחותיו לא יוכל לתת שירות טוב ומנהליו הבכירים יוזנו בנתונים לא מדויקים. נתונים מדויקים ואיכותיים, לעומת זאת, ימנעו טעויות תפעוליות יקרות, ימשכו וישמרו לקוחות רווחיים ויסייעו להנהלה לקבל החלטות עסקיות נכונות יותר.
תחום איכות הנתונים מתחלק לשני חלקים עיקריים – תחקור וטיוב של נתונים.
תחקור נתונים רלוונטי יותר לאנשים העסקיים בארגון, אותם אנליסטים המעלים שאילתות ומבקשים מאנשי ה-IT להריץ אותן במערכות המידע. זהו תהליך הלוקח זמן רב כי ישנו תמיד היזון חוזר בין האנליסטים לאנשי הפיתוח ולא תמיד כל צד קולע לדרישות של הצד השני. אינפורמטיקה פיתחה כלי וובי לתחקור נתונים – Informatica Profiling שמטרתו לפתור בעיה זו: באמצעות הכלי יכולים האנליסטים לחולל חוקים עסקיים בכוחות עצמם ואף להיעזר בסט חוקים עסקיים מובנה – האחריות על תחקור הנתונים ושלמותם כבר לא נמצאת רק במחלקת ה-IT אלא גם במחלקות העסקיות של הארגון.
לאחר תחקור הנתונים מבצעים טיוב נתונים (DQ) – האנליסטים בונים טבלאות פיענוח עם חוקים עסקיים בתצורה דומה לדפי Excel עם פונקציות. כלי טיוב הנתונים של אינפורמטיקה מאפשר שיתוף פעולה מלא בין האנליסטים לאנשי ה-IT כי כל אחד מהם יכול להוסיף ולשנות על גבי הכלי את החוק העסקי. כאשר התקשורת בין המחלקות השונות קלה וברורה יותר, החוקים העסקיים איכותיים יותר ומסננים טוב יותר נתונים "מזובלים" והתהליך כולו קצר וחסכוני יותר במשאבים. ניתן לבנות score card המציג להנהלה כיצד חוקים עסקיים משודרגים ומשתפרים מ"ריצת" נתונים אחת לבאה אחריה.
תהליך טיוב הנתונים עצמו מתחלק לארבעה חלקים: התאמה (matching), העשרה (enrichment), הפיכת טקסט למבנה נתונים – פירסור (parsing) והתאמה לתקן (standardization).
חלק ראשון: Matching – מנגנון המציף כפילויות בנתונים ויודע למנוע אותן לפי בחינה של שדות נוספים (דוגמא – שמות פרטים כמו "יוסף", שיכולים להופיע כ"יוסי", "יוסף", יוסוף" וכו').
חלק שני: Enrichment – העשרת והשלמת נתונים ממקורות אחרים (למשל – זיהוי שיוך המידע על סמך כתובת או מיקום גיאוגרפי).
חלק שלישי: Parsing – פירסור חכם יכול לקחת חלק ממה שכתוב בשדה אחד ולשלוף ממנו את המידע הרלוונטי.
חלק רביעי: Standardization – הפיכת שדה לסטנדרטי ובאופן זה לבחון את נכונותו. למשל, שם רחוב או שם פרטי אחיד (תל-אביב יפו ולא "תל אביב" או "יפו תל אביב" וכו'). נושא זה חשוב בעיקר כאשר מתרגמים שמות של אנשים, מקומות או מוצרים מעברית לאנגלית וההיפך. בשלב זה גם מנקים "רעשים" שונים כגון סימני פיסוק וסימבולים שונים שאינם מופיעים במקום הנכון.
תחקור וטיוב של נתונים הינם תהליכים נדרשים בשל הדינאמיות המאפיינת ארגונים מודרניים. כל אימת שארגון המשרת לקוחות יוצא במבצע, למשל, מצטברים נתונים רבים בהם יש לטפל. חברות ביטוח ובנקים נתקלים בנתונים לא נכונים על לקוחות ועל הלוואות, שמשמעותם הכספית כבדה. הכלים של אינפורמטיקה מסוגלים להציף את הנתונים השגויים שאינם נראים לעין ובכך לשפר את ההתמודדות של הארגון עם הבעיה ולפתור אותה.
בכנס אינפורמטיקה הקרוב יוצג דמו מלא של תהליך תחקור וטיוב הנתונים.