הדאטה הסינתטית – כמו רישיון להדפיס כסף
דאטה סינתטית מאפשרת בניית מודלי AI מוצלחת יותר, בהם יווצרו פחות הפרות פרטיות כמו גם פחות הטיות, ובמקביל יחול גישור על פני פערי דאטה אפשריים, מפאת חסר בנתונים
דאטה היא צינור החיים של הכלכלה העולמית. היכולת לנתח אותה במהירות באמצעות מודלים של AI ולהפיק ממנה תובנות מניעות לפעולה מקנה יתרונות תחרותיים לכל עסק. הכלכלה העולמית מוצפת בדאטה בכמויות אינסופיות, הנובעות ממיליארדי מכשירים דיגיטליים, אך כפי שמדעני נתונים יודעים, איסוף דאטה אמיתית ותיוגה הוא תהליך ארוך ויקר וכרוך גם בבעיות של פרטיות ואבטחה. כך נולד הצורך בדאטה סינתטית, לבניית מודלי AI, שעוקפת רבות מהבעיות של דאטה 'אמיתית' ומשחררת פוטנציאל עסקי אדיר לכל ארגון ובמיוחד לסטארט-אפים.
דאטה סינתטית היא מנוף אדיר של חדשנות, שפותח את צווארי הבקבוק של דאטה אמיתית, והיא תאפשר ליותר ויותר חברות לפתח במהירות אפליקציות AI מדויקות ואיכותיות. זוהי הזדמנות גדולה במיוחד עבור סטארט-אפים שמתקשים להתמודד עם המשימה הכבדה ועתירת המשאבים הכרוכה באיסוף דאטה, תיוגה, ניקויה ועוד
היסטורית, הדאטה הסינתטית נולדה באקדמיה בשנת 1993, על ידי פרופ' דונלד רובין מאוניברסיטת הארוורד, שרצה לנתח נתונים ממפקד האוכלוסין של ארה"ב בלי לחשוף מידע שניתן לשייכו לאזרחים ספציפיים. הוא הלביש על הנתונים ב'מסכה' ששמרה על הפרטיות, אך אפשרה לעבד את הנתונים סטטיסטית כאילו היו אמיתיים. פרופ' רובין הגדיר את הנתונים שיצר כדאטה סינתטית.
דאטה = כסף
ניתן לדמות את ייצור הדאטה הסינתטית כרישיון להדפיס כסף בכמות אינסופית על ידי כל חברה, באופן חוקי כמובן. אין פלא שהדאטה הסינתטית עושה את דרכה במהירות ללב תעשיית הפינטק ולתעשיות רבות נוספות. על פי גרטנר, בשנת 2021 רק 1% מהדאטה היה סינתטי, אך עד סוף 2024 הם חוזים כ-60% מהדאטה שמשמשת לפיתוח AI תהיה סינתטית. טכניקות כמו GANs, Transformers ומודלים של LLM כמו ChatGPT האיצו את תהליכי הייצור של דאטה סינתטית ושילובה בזרם המרכזי של המשק העולמי. חברות יכולות להפיק כיום דאטה סינתטית באופן דיגיטלי, בכל כמות, תוך התאמה למפרטים הטכניים המדויקים שלהן – ותוך צמצום הסיכונים והעלויות הכרוכים בפרויקטים של בינה מלאכותית.
תועלות מרכזיות בייצור דאטה סינתטית עבור בניית מודלי AI
גישור על פני פערי דאטה – ארגונים עושים שימוש בדאטה סינתטית במקומות שבהם חסרים להם נתונים אמיתיים איכותיים, או שהנתונים רגישים. באופן זה דאטה סינתטית יכולה לגשר בין יעדי הארגון לבין הדאטה הנדרשת לצמיחתו ושגשוגו.
אבטחה ושמירה על פרטיות – דאטה סינתטית מגינה על חיסיון הנתונים ובה בעת מאפשרת לבצע אנליטיקה קריטית הנדרשת עבור אפליקציות מודרניות. טכנולוגיות אנונימיזציה עשויות לא לספק רמת אבטחה מספיקה המגינה מפני גניבת זהויות, ניסיונות הונאה ופעולות זדוניות אחרות שדאטה סינתטית כן יכולה להגן מפניהן. השמירה המלאה על פרטיות והסרת החשש לפגיעה בה, מעודדת שיתופי פעולה הן בין צוותים בתוך הארגון והן בין הארגון לבין חברות צד ג', כמו ספקים, שותפים, מוסדות אקדמיים ועוד. שיתופי הפעולה הללו יכולים להניב פתרונות מקיפים יותר ואיכותיים יותר לתועלת כל הצדדים.
תמיכה אנליטית – דאטה סינתטית תומכת בבניית מספר גדול יותר של מודלי AI מדויקים, יציבים ועוצמתיים לצרכי סימולציה ובדיקות, ומשפרת את איכותם. יכולת זו מאיצה את הבנייה וההשקה של מוצרים חדשים, כניסה לפלחי שוק חדשים, גיאוגרפיות חדשות ועוד.
מניעת אפליות והטיות – עולם הבינה המלאכותית נחשף בשנים האחרונות לטענות מוצדקות כי חלק מהאלגוריתמים מוטים לרעה נגד קבוצות אוכלוסייה מסוימות ופוגעים בהן. הטענות הללו הציבו בפני חברות רבות סיכונים עסקיים, משפטיים ותדמיתיים משמעותיים. הדאטה הסינתטית יכולה למתן חלק מהבעיות הללו באמצעות Feature Balancing, שמצמצם הטיות מגדר, הטיות נגד קבוצות אוכלוסייה חלשות, הטיות מבוססות שיוך גיאוגרפי ועוד.
דאטה סינתטית היא מנוף אדיר של חדשנות, שפותח את צווארי הבקבוק של דאטה אמיתית, והיא תאפשר ליותר ויותר חברות לפתח במהירות אפליקציות AI מדויקות ואיכותיות. זוהי הזדמנות גדולה במיוחד עבור סטארט-אפים שמתקשים להתמודד עם המשימה הכבדה ועתירת המשאבים הכרוכה באיסוף דאטה, תיוגה, ניקויה ועוד. עם זאת, חשוב להמליץ לכל חברה לא לזנוח את הדאטה האמיתית. הסתמכות יתר על דאטה סינתטית עלולה לפגוע במאמצים לשפר את איכות התהליכים של איסוף דאטה אמיתית, שעל בסיסה נשען ייצור הדאטה הסינתטית, ולגרום בטווח הארוך לבעיות באיכות הדאטה שמחזיק הארגון. השילוב בין דאטה אמיתית לבין דאטה סינתטית במקומות שבהם יש פערי דאטה הוא הנוסחה המנצחת של כל חברה לבניית מודלי AI.
הכותב הוא מנהל האנליטיקה הראשי של חברת האינשורטק ארניקס (Earnix)
Synthetic data מוביל בדרך כלל ל overmatching , כיוון שמי שמפעיל את ה data generator מכוון אותן לפי מה שבן אדם מבחין ב observation. קלט מציאותי לעומת זאת מכיל ניואנסים עדינים שאף אדם אנושי אינו מסוגל להבחין ולסנטז. ניואנסים אלו חשובים ל parameters selection עבור מודלים של לימוד מכונה. התוצאה היא ביצועים קרובים ל 100% ללא false positive ב test set וב verification, ונפילה חדה עד כדיי 60% בניסוי מציאותי מחוץ למעבדה. אולי זה טוב לאקזיט אבל במציאות זה לא מחזיק מים.
ישנה מערכת מדהימה בשם mostly.ai שמאפשרת הפכת מידע אמיתי לסינטטי מאוד בקלות. זאת החברה המובילה היום בשוק ויש לה כמה מאות של לקוחות מאוד גדולים החל מלקוחות פיננסיים, לקוחות בטחוניים וארגונים מתחומי הבריאות.