מהו מודל הנתונים האנליטיים החדש, שתופס תאוצה?

הכירו את Data Vault 2.0 - מודל נתונים שעשוי להוות תחליף למודל הנתונים הוותיק אשר במחסן הנתונים המסורתי, ה-Star Scheme

פיני כהן ועינת שמעוני, סמנכ''לים ואנליסטים בכירים ב-STKI.

ארגונים מונחי-נתונים שוקדים רבות על שיפור הטכנולוגיה והארכיטקטורה הרלוונטית. לדברי עינת שמעוני ופיני כהן, סמנכ"לים ואנליסטים בכירים ב-STKI, בעת האחרונה תופס תאוצה מודל נתונים אנליטיים חדש, המכונה Data Vault 2.0. "מודל נתונים זה עשוי להוות תחליף למודל הנתונים הוותיק, אשר במחסן הנתונים המסורתי, ה-Star Schema", הסבירו.

לפי שמעוני וכהן, "ה-Star Schema הוא מודל אידיאלי לטובת ביצוע שאילתות מהירות. הוא מכיל מידע 'לעוס', כלומר בפורמט המתאים מראש לשאילתות ולניתוחים. כמו כן, יש לו גם 'אמת אחת'. אולם כדי להגיע לכל היעדים הללו, נדרש זמן הכנה ארוך". על פי השניים, "אחת מהחולשות הבולטות של מחסני נתונים ארגוניים, DW, אשר מבוססים על Star Schema היא האיטיות שבה משנים את המודל. כך, בעיקר מוסיפים מקורות מידע חדשים, פעולה אשר גוזלת לעיתים חודשים רבים. לכן, בהיבט של זמן הגעה לשוק, Time To Market – זהו עקב האכילס של המודל".

לפי שמעוני וכהן, "האנטיתזה ל-DW המסורתי היא אגם הנתונים, Data Lake. הוא מבוסס על טכנולוגיות נתונים חדשות, NoSQL – אשר יודעות לטפל בצורה משופרת בסוגי מידע שונים – נתונים מובנים ונתונים שאינם מובנים. לכן בדרך זו מתאפשר, בין היתר, מבנה רשומה שאינו קבוע. יישום אגם הנתונים התאפיין בחופש מוחלט של כל הגורמים – להעלות נתונים באופן זריז ומיידי. זה הביא לשיפור גדול בעקב האכילס המדובר של מחסן הנתונים הארגוני".

"אולם", ציינו השניים, "המחיר היה גבוה – נוצר אוסף של מקורות מידע, בלא קשר ביניהם, בלא ראייה של התמונה הכוללת של כלל מקורות המידע. כך נוצר מצב חדש, בו באגם הנתונים הזה יש עומס של נתונים מיותרים, מיושנים ולא רלוונטיים".

"שיטת מידול הנתונים Data Vault 2.0 מציעה דרך אמצע"

"שיטת מידול הנתונים Data Vault 2.0", הסבירו כהן ושמעוני, "מציעה דרך אמצע. זו כוללת זריזות בבנייה ובעדכון של מודל הנתונים. בנוסף היא כוללת יכולת לזריזות בעדכון ובהוספת נתונים – אולם תוך שמירה על ה-הקשר (קונטקסט), אפילו אם הוא אינו מושלם – לשאר הנתונים הקיימים".

STKI

STKI

לפי כהן ושמעוני, "בעולם התוכן של Data Vault 2.0 ישנם שלושה סוגי טבלאות. הראשונה, טבלת ה-HUB, המכילה את המידע העיקרי, מבוסס מפתח עסקי של הישות העיקרית של עולם התוכן. לעיתים היא באה עם מידע בסיסי נוסף. בדרך כלל מדובר על טבלה 'רזה', עם מספר לא גדול של עמודות".

"הטבלה השנייה", ציינו, "היא ה-Satellite, אשר מכילה את כל הפרטים האפשריים על ישות ה-HUB. מדובר על טבלה במבנה אחיד. אם המבנה משתנה, או אם ישנם פרטים אחרים – אז יוצרים טבלה חדשה. כלומר, ניתן לקיים כמה טבלאות Satellite – אשר מחוברות לאותו HUB. הסוג של הטבלה השלישית היא Link, שמציינת יחס בין שתי ישויות Hub". הם הוסיפו כי "על מנת לאפשר טעינת נתונים מהירה, שלא תתעכב בגלל בדיקה האם מפתח קיים – בכל הטבלאות מוסיפים גם מפתח ייחודי שנוצר במיוחד לכל רשומה – Surrogate Key (לפעמים מפתח שנוצר ב-HASH). עוד מוסיפים את זמן טעינת הנתון ואת המקור (הטבלה או ג'וב ה-ETL, או תור ה-Streaming) – אשר ממנו הנתון הגיע".

"בדרך זו", ציינו שמעוני וכהן, "מתאפשרת הזנת נתונים מהירה ומקושרת למה שכבר נמצא. אלא שמצב זה מחייב לקבל החלטה מאוחרת – לגבי אי תאימויות בנתונים".

"המדובר על תפישה חדשה למידול נתונים", סיכמו שמעוני וכהן. "זו תפישה מעניינת, אשר הולכת ותופסת תאוצה. אנו מציעים להתעדכן וללמוד אודות שיטה חדשה זו, ובמידת הצורך – גם להתנסות בה".

תגובות

(1)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. משה קרנץ

    תלוי בתרחישי שימוש. אם צריך לתשאל את המידע (לדוגמה ב-lakehouse) אז data vault לא מתאים בעליל - חייבים ליצור data mart על בסיס ה-data vault כדי לבצע שאילתות.

אירועים קרובים