בלי נתונים – אין AI
מטרת מאמר זה היא להסב את תשומת הלב של הארגונים המבקשים ליישם את טכנולוגיות ה-AI לנושא הנתונים - על הארגונים להפנים: בלי נתונים אין AI! הנתונים הם חומר הגלם של תהליכי ה-AI – בלעדיהם אין AI
אנו בעיצומו של עידן הבינה המלאכותית – AI. טכנולוגיה זו פותחה לפני שנים רבות, אולם נדמה כי מאז הופעת ChatGPT בשנת 2023, כולם מדברים עליה, עסוקים בה וודנים ביתרונותיה, בסיכוניה, בהשפעתה על התעסוקה, בפוטנציאל השיבוש הגדול שלה ובהשפעתה העצומה על ארגונים. ענקיות הטכנולוגיה נמצאות במרוץ בלתי פוסק להוביל ולקדם את ה-AI.
את הצעדים הראשונים של ה-AI מקובל לייחס למתמטיקאי אלן טיורינג, בין מפתחי מכונת האניגמה, שהצליחה לפצח את הצפנים של הצבא הגרמני במלחמת העולם השנייה. בשנת 1950 הציע טיורינג את ה-Imitation Game (שהפך מאוחר יותר למבחן טיורינג), שבו אדם נמצא מאחורי קיר ומשוחח בשפה טבעית עם אדם ועם מכונה. אם הוא אינו מסוגל להבחין מי עונה לו, המכונה או האדם, נאמר שהמכונה מפגינה יכולות אינטליגנטיות. בשנת 1956 טבע פרופ' ג'ון מק'רתי לראשונה את המונח בינה מלאכותית כ-"המדע וההנדסה הנדרשים לייצור מכונות אינטליגנטיות" וארגן כנס מדעי בדארטמות' קולג'. לעומת פיתוח תוכנה בפרדיגמה If-then-else – פרדיגמה ידועה, שמלווה אותנו שנים רבות בפיתוח תוכנה, חוקרי הבינה המלאכותית עברו לפרדיגמה של למידה בלתי פוסקת מתוך דוגמאות (דאטה). אחת ההתפתחויות הדרמטיות בתחום ה-AI הייתה הופעת למידת המכונה (Machine Learning), נושא שהוצג לראשונה בשנת 1959 על ידי מדען בחברת יבמ, ומאז הלך והתפתח ומהווה כיום ענף חשוב ב-AI.
טכנולוגיית ה-AI היא משפחה רחבה של אלגוריתמים בעלי פוטנציאל במגוון רחב של יישומים עסקיים – זיהוי סרטן בצילומי רנטגן, תרגום בין שפות, סייען קולי כמו Alexa של אמזון, מערכת Copilot המשולבת כיום בכל מוצרי מיקרוסופט, מנוע החיפוש של גוגל, תמיכה בנהיגה אוטונומית, מערכות זיהוי פנים, מנועי המלצה באתרים של אמזון, נטפליקס ועוד. פוטנציאל גדול זה גורם להתלהבות רבה, והארגונים אצים ליישמה.
הבינה המלאכותית היוצרת – GenAI, אחד מענפי ה-AI, היא מערכת תוכנה, המסוגלת לייצר תוכן, כגון טקסט, תמונות, וידיאו, קול ועוד. טכנולוגיה זו פרצה לעולמנו בסערה לאחר שמספר מדענים ממעבדות גוגל פיתחו את מודל ה–Transformer, ארכיטקטורה ייחודית של רשת נוירונית. מערכת ChatGPT של חברת OpenAI, הגיעה תוך חודשיים ל-100 מיליון משתמשים, ומאיימת לשבש תחומים רבים מאוד. המנוע מאחורי ה-GenAI מבוסס על מודל שפה גדול (LLM – Large Language Model) וארכיטקטורת ה-Transformer. המודל מוזן בכמויות עצומות של נתונים רלוונטיים בשלב האימון (Training). כדי להפוך מודלים אלה לרלוונטיים לארגון, יש לאמן מודלים אלה עם נתונים ייעודיים של הארגון.
אסטרטגיה ומשילות נתונים – תשתית הכרחית
אחד האתגרים הגדולים בכל הקשור לנתונים הוא בניית מאגר נתונים משותף ואיכותי לכל הארגון (Shared Dataset) ולא מאגר ייעודי לכל אגף/מחלקה (איי נתונים – Insular Data). מאגר משותף יאפשר לארגון הפקת תובנות חוצות אגפים וקבלת תובנות והחלטות טובות יותר.
"אין ספק שטכנולוגיית ה-AI יכולה לתמוך ולקדם את נושא החדשנות ואת היתרון התחרותי של הארגון. יחד עם היתרונות הרבים שלה, על הארגון להתמודד עם הסיכונים שלה ולהשקיע משאבים בהקטנתם"
כדי להצליח ביישום AI חשוב שלארגון תהיה אסטרטגיית נתונים ברורה, תוך יישום תהליכי משילות נתונים. אסטרטגיית הנתונים צריכה להתייחס לנושאים כגון:
אסטרטגיה ומדיניות נתונים – על הארגון לפתח מדיניות ונהלים ברורים לשימוש בנתונים – כיצד הנתונים רשומים במילון נתונים כדי שניתן יהיה לאתרם בקלות, מי אחראי על מה בתחום הנתונים וכד'.
מומחי נתונים – הצלחה ביישומי AI מחייבת מספר רב של מומחי נתונים – מדעני נתונים, מהנדסי נתונים, מומחי למידת מכונה ועוד. מומחיות זו בדרך כלל לא קיימת בתוך הארגון, ולכן יש לגייס ולשמר מומחים אלה.
סקר מצב נתונים – סקר מקיף על מצב הנתונים במאגרים השונים והכנת תוכנית עבודה לשיפור והעשרה.
שלמות, איכות ואמינות הנתונים – חשוב להבטיח שהנתונים המשמשים לאימון המודלים של ה-AI יהיו איכותיים ומדויקים. מערכות AI שמוזנות עם נתונים בעלי איכות ירודה יפיקו תוצאות ותובנות ירודות.
סיכון הטיות בנתונים – הנתונים עלולים להיות עם הטיות בגלל מקור הנתונים בארגון (למשל, רק לקוחות גברים, לקוחות מאזור תל אביב בלבד וכד'). על הארגון להיות ער לסיכון ההטיה ולגוון את הנתונים כך שאוכלוסיות שונות תיוצגנה בצורה הוגנת ומאוזנת.
פרטיות – על הארגון להבטיח את צנעת הפרט ואת השימוש הנאות והאתי בנתונים, תוך ציות לרגולציות השונות שחלות במדינה (למשל GDPR וכד').
נגישות הנתונים – על הארגון להשקיע בהנגשת הנתונים בצורה קלה על ידי יישום מילון נתונים המתאר את המשמעות של הנתונים, מה הם המקורות והעדכניות שלהם, כיצד בוצעו חישובים במידה ובוצעו, ועוד. על הארגון לדאוג להנגשת נתונים פנים ארגוניים, אבל גם לנתונים מחוץ לארגון.
ענן לגידול וצמיחה – כמויות הנתונים שהארגון צריך לצבור כדי להזין את מערכות ה-AI הולכות וגדלות. כדי להתמודד עם אתגר גידול הנתונים, הארגון יצטרך להשתמש בטכנולוגיות ענן ורצוי שיעשה זאת מוקדם ככל הניתן.
אבטחת הנתונים – הנתונים הנדרשים למודלים של AI עשויים להיות בעלי משמעות עסקית שאסור לה לדלוף. על הארגון להגן על הנתונים ולדאוג לאבטחתם.
ניטור רציף – הטיפול בנתונים איננו מבצע חד-פעמי אלא דורש ניטור רציף על מצבם.
טיפוח תפיסת ארגון מוכוון נתונים – טיפוח והדרכה בלתי פוסקים של תפיסת חשיבות הנתונים ואיכותם בתהליכי העבודה וקבלת החלטות עם AI.
סיכום
אין ספק שטכנולוגיית ה-AI יכולה לתמוך ולקדם את נושא החדשנות ואת היתרון התחרותי של הארגון. יחד עם היתרונות הרבים שלה, על הארגון להתמודד עם הסיכונים שלה ולהשקיע משאבים בהקטנתם. עליו להבטיח יישום תהליכי משילות נתונים שיבטיחו את איכותם, ליישם את הרגולציות החלות על הנתונים, לפעול באופן אקטיבי להבטיח את השימוש האתי והנאות בנתונים. עליו לגבש תפיסת משילות נתונים וארכיטקטורת נתונים כוללת. כדי להבטיח יכולת גידול בכמות הנתונים – פתרון מבוסס ענן חייב להיות חלק מהפתרון. מחקרים רבים מצביעים על נושא הנתונים כעל אחת הסיבות לכישלון יישומי AI. כמו שמנוע לא פועל בלי דלק, יישום AI לא יצליח בלי משילות והניהול הנתונים!
הכותב הוא יועץ בכיר לטרנספורמציה דיגיטלית ודירקטור BDO Digital.
מאמר מרתק. עם זאת מורי ורבי אני חייב לדייק את דברייך. אלן טיורינג לא פיתח את מכונת "אניגמה" מי שפיתח אותה היה ארתור שרביוס עבור גרמניה. אלן טיורינג הגאון שהניח את היסודות למדעי המחשב ובינה מלאכותית היה זה שהצליח לפצח את ה"אניגמה" ולפענח את המסרים המוצפנים שהצבא הגרמני שלח לכוחות שלו.