מודלי שפה לארגונים – הגודל לא קובע

המרוץ לבנות עוד ועוד מודלי שפה כמה שיותר גדולים נמצא בשיאו, אבל ייתכן שכאן, היתקון הוא בקוטן ● אורי חייק, מנהל הטכנולוגיות הראשי של יבמ ישראל, מסביר

18/12/2024 14:39
אורי חייק, מנהל הטכנולוגיות הראשי וראש חטיבת הטכנולוגיה ביבמ ישראל.

במרוץ הבינה המלאכותית, "גדול יותר" נחשב בדרך כלל לטוב יותר. מודלי שפה גדולים (LLMs) מאומנים על מאות מיליארדי פרמטרים ומאפשרים יצירת פתרונות מבוססי AI שהם גדולים, חזקים ונשענים על מידע הקשרי רחב מאוד. באמצעי התקשורת מדווחים על השקות מודלים גדולים חדשות לבקרים, וזה מעיד עד כמה סוער המרוץ הזה, שמשתתפות בו רבות מחברות הטכנולוגיה המוכרות.

אבל האם החוק הלא כתוב הזה חקוק באבן? מודלים גדולים אכן עשויים לעזור לחברות ששואפות לפתח בינה מלאכותית כללית (AGI – Artificial General Intelligence), אבל כלל לא ברור שעסקים צריכים בינה מלאכותית בקנה מידה ענק שכזה כדי לקבל את רוב הערך מהיישומים שלהם. כיום, כשארגונים מחפשים להפריד בין הבאזזז להפקת ערך עסקי אמיתי מהבינה המלאכותית, לא ברור שמודלי שפה, שגדלים בהיקפם מחודש לחודש, תמיד יובילו לפתרונות טובים יותר, ובוודאי לא ברור אם השקעה במודלים גדולים יותר היא ההחלטה המושכלת ביותר לעסקים. לעתים קרובות, זה בדיוק להיפך.

האם הגודל שווה את המחיר?

עלות עשויה בהחלט להיות המקום הראשון שבו ניתן לבחון את תקפות החוק הזה. מודלי שפה גדולים, עם 100 מיליארד פרמטרים ומעלה, דורשים הרבה כוח מחשוב בשלב האימון – GPUs רבים ושפע של נתונים כדי להזין את "המכונה". המחיר של מעבדי GPU ידוע היטב, אבל גם עלות הנתונים עולה, במיוחד כשהנתונים האיכותיים המשמשים לאימון מודלי בינה מלאכותית הולכים ונעשים נדירים יותר. ארגון מחקר הבינה המלאכותית Epoch AI אף מצא שמודלי AI עלולים למצות את כל נתוני השפה האיכותיים הנוכחיים הזמינים באינטרנט כבר ב-2026.

הקוטן כן קובע.

הקוטן כן קובע. צילום: ShutterStock

לעומתם, מודלי שפה קטנים (SLMs) דורשים משאבי חישוב קטנים יחסית כדי לפתח פתרונות בינה מלאכותית יוצרת מתקדמים למדי, וזו הסיבה שיש גרסאות זעירות רבות של מודלי שפה גדולים, וגרסאות מוקטנות של המודלים המוכרים של גוגל ומיקרוסופט. העובדה שארגון מצא את הדרך המשתלמת ביותר לאמן מודל גדול לא אומרת שהיתרונות שהוא מפיק מאותו מודל מצדיקות את העלויות. חברות רבות שכבר רושמות החזר על ההשקעה ב-AI משתמשות במודלים קטנים למשימות כמו סיווג וסיכום מסמכים, ומצליחות לחסוך עד פי 50 בעלויות לעומת שימוש במודל גדול.

הפרטיות והריבונות על הנתונים

בנוסף לממד העלות, שיכול להיות דרמטי, חשוב לשקול עוד היבטים שחשובים לארגונים ולעסקים: הפרטיות והריבונות על הנתונים. רוב הארגונים לא אוהבים לשלוח את הנתונים שלהם לענן ומעדיפים לשמור אותם במרכזי הנתונים שלהם – מה שמקשה על יישום מודלים קנייניים גדולים. לעומת זאת, מודלים קטנים מציעים בקרת IP טובה יותר, וכן שמירה על פרטיות ואבטחה, ומסייעים להקל על בעיות רישוי שיש במודלים גדולים.

המרוץ לבניית מודלים גדולים וחזקים יותר לא צפוי להסתיים או אף להאט בקרוב, אבל בהמשך הדרך, רוב המומחים מסכימים שנראה גם גל של דגמי AI קומפקטיים אך עוצמתיים

סיבה מרכזית נוספת היא ביצועים ושיהוי (Latency). מאחר שמודלים קטנים דורשים פחות כוח חישוב, הם אידיאליים לפריסה בסביבות מוגבלות במשאבים ואפילו במכשירים ניידים. ביצוע החישוב וההיסק (Inference) קרוב ככל האפשר לנתונים הופך אותם למהירים יותר ובטוחים יותר מאשר שימוש דרך ספק ענן. זוהי הסיבה לכך שדגמים קטנים יותר נוטים פחות להזיות והטיות – נפח נתוני האימון קטן יותר ובדרך כלל מוגבל לתחום ספציפי, וזה הופך אותם לבטוחים יותר וניתנים לשליטה. כשהדאטה לא מכילה מקורות לא ידועים, שעלולים לכלול מידע שחוסה תחת זכויות יוצרים, מוסר החשש מתביעות פוטנציאליות שעלולות להגיע במורד הדרך.

מהם היתרונות במודלי שפה קטנים?

השימוש במודלים של שפה קטנים יותר הולך וגובר כחלופה למודלי השפה הגדולים. מודלים קטנים מאומנים על עשרות ואפילו מיליארדים בודדים של פרמטרים מבלי להקריב את הדיוק. הם מסוגלים לסנן מידע בקלות יותר מה שהופך אותם למהירים יותר, ואם יש לארגון נתונים משלו – הם ניתנים להתאמה והופכים אף מדויקים יותר. קל יותר להתאים אותם למשימות כמו ניתוח, תרגום וסיכום, והם מדגימים עמידה במבחנים שלא נופלת מזו של המודלים הגדולים. אולי אין להם ידע הקשרי רחב והם לא יודעים לכתוב מחזות בסגנון שייקספיר, אבל כסוכן חכם לשירות הלקוחות שידע לסכם את השיחה עם הלקוחות ולהעביר Action items לנציגים הם מתפקדים טוב מאוד, וזה בדרך כלל מה שבאמת הארגון מחפש עבור העובדים והלקוחות שלו.

המרוץ לבניית מודלים גדולים וחזקים יותר לא צפוי להסתיים או אף להאט בקרוב, אבל בהמשך הדרך, רוב המומחים מסכימים שנראה גם גל של דגמי AI קומפקטיים אך עוצמתיים, שמצטיינים בתחומים ספציפיים ומציעים אלטרנטיבה לחברות שמעוניינות לאזן טוב יותר את הערך והעלויות של בינה מלאכותית.

הכותב הוא מנהל הטכנולוגיות הראשי וראש חטיבת הטכנולוגיה ביבמ ישראל.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים