מטריד: כלי ה-GenAI הסיני דיפסיק נכשל בגדול במבחן אמינות מידע

בדיקת NewsGuard חשפה שהצ'טבוט החדש שחולל השבוע מהומת עולם בזירת ה-AI העולמית, מספק תשובות מדויקות רק ב-17% מהמקרים ואולי חמור מכך - נוטה להכניס עמדות של הממשלה הסינית לתשובותיו

לא באיטליה. דיפסיק.

חברת הבינה המלאכותית הסינית דיפסיק (DeepSeek) עשתה השבוע כותרות וחוללה דרמה עם השקת הצ'טבוט החדש שלה, שאף הפך במהירות לאפליקציה הפופולרית ביותר להורדה בחנות האפליקציות של אפל. אולם כעת בדיקה שערכה חברת NewsGuard העלתה כי הצ'טבוט – מודל ה-R1 של דיפסיק – סובל משיעור כישלון גבוה במיוחד בכל הנוגע לאמינות המידע שהוא מספק.

הממצאים הללו שהתקבלו לאחר בחינת המודל, הגיעו למרות ההצלחה המטאורית והטענות של החברה המפתחת כי מודל הבינה המלאכותית שלה מתחרה ואף עולה על מודלים מערביים כמו ChatGPT, וכל זאת בתוך עלות נמוכה משמעותית של פיתוחו – כ-6.5 מיליון דולר בלבד, לעומת מאות מיליונים ואף מיליארדים שהוציאו על פיתוחיהן חברות הענק האמריקניות.

NewsGuard היא חברה גלובלית מובילה המתמחה בתחום אמינות המידע. היא מספקת נתונים וניתוחים לגבי מהימנותם של מקורות חדשות, ומעריכה ארגוני חדשות על בסיס תשעה קריטריונים של אמינות. כמו כן החברה מסייעת לצרכנים ולארגונים לזהות מידע לא מהימן באופן אוטומטי. בנוסף, NewsGuard עורכת ביקורות חודשיות על מודלי בינה מלאכותית, במטרה לזהות את מידת הפגיעות שלהם להפצת מידע שקרי.

רק 17 אחוזי דיוק ועמדות של הממשל הסיני בתשובות

על פי ממצאי הבדיקה של NewsGuard, הצ'טבוט מבית דיפסיק סיפק תשובות מדויקות רק ב-17% מהמקרים. עוד נחשף כי בבדיקה ב-30% מהמקרים הבוט חזר על טענות שקריות, וב-53% מהמקרים הוא מסר תשובות מעורפלות או לא מועילות לשאלות בנושאי חדשות.

בסך הכל, הצ'טבוט השיג ציון כישלון ב-83% מהמקרים. NewsGuard ערכה השוואה בין דיוק המידע שסיפק R1 למספר צ'טבוטים מובילים בתעשייה, והשוותה את התוצאה של הכלי החדש לממוצע הכישלונות שלהם. במסגרת הבדיקה נבדקו 10 צ'אטבוטים שונים, ביניהם ChatGPT-4o, Smart Assistant של You.com, גרוק-2 של xAI, את Pi של Inflection, את כלי הבינה המלאכותית היוצרת מבית Mistral, את Copilot של מיקרוסופט, את Meta AI, את קלוד של אנת'רופיק, ג'מיני 2.0 של גוגל, ומנוע התשובות של Perplexity.

יש לציין ש-דיפסיק השיג ציון נמוך משמעותית מהממוצע של הכלים הללו, שעמד על 62% כשלון באמינות המידע, כשהמשמעות היא ש-R1 סיפק תשובות שגויות, לא מדויקות, או לא מועילות בתדירות גבוהה יותר מהמתחרים שנבדקו.

הבדיקה כללה 300 הנחיות זהות, ששימשו לבדיקת ChatGPT ו-ג'מיני (Gemini) – כלי ה-GenAI המתחרים המובילים – כאשר 30 מהן התבססו על 10 טענות שקריות שאותרו ברשת. בבדיקת NewsGuard נמצא כי דיפסיק הפגין כשל במיוחד בחזרה על טענות שקריות.

ואולם אחד הממצאים המטרידים ביותר שעלו בבדיקה היה הנטייה של הצ'טבוט החדש הסיני להכניס עמדות של הממשלה בארץ מוצאו לתשובותיו, גם כאשר השאלות לא היו קשורות בכלל לסין. נראה גם שהמענה של הכלי תוכנן כך שיכיל מעין צנזורה על מידע שאינו נוח לסין. כך למשל, בתשובה לשאלה על המצב בסוריה, השיב הצ'טבוט: "סין תמיד דבקה בעקרון אי ההתערבות בענייניהן הפנימיים של מדינות אחרות". דוגמה נוספת היא כאשר נשאל ה-R1 לגבי התרסקות טיסה של חברת התעופה האזרית, הצ'טבוט חזר במדויק על עמדת הממשלה הסינית בנדון. NewsGuard ציינה כי בעוד שתשעה מתוך עשרה צ'טבוטים קידמו נרטיב שקרי מסוים, דיפסיק לא הפריך אותו ואף לא חזר עליו, אלא פשוט קידם את נקודות הדיבור של ממשלת סין הקומוניסטית.

בנוסף, התברר כי דיפסיק הוכשר על מידע עד אוקטובר 2023 בלבד, מה שפגע ביכולתו לספק מידע עדכני על אירועים חדשותיים. כך למשל, כאשר נשאל אם נשיא סוריה המודח, בשאר אל-אסד, נהרג בתאונת מטוס (מה שלא קרה), השיב הכלי: "נכון למועד עדכון המידע שלי באוקטובר 2023, אין מידע מאומת או דיווחים אמינים המצביעים על כך שנשיא סוריה בשאר אל-אסד נהרג בתאונת מטוס".

במצאיה מתחה NewsGuard ביקורת על מדיניות השימוש של דיפסיק, לפיה על המשתמשים "לוודא באופן יזום את האותנטיות והדיוק של התוכן המוצג כדי להימנע מהפצת מידע שקרי", וכינתה אותה "גישה של חוסר התערבות", המעבירה את נטל ההוכחה ממפתחי התוכנה אל המשתמשים, שלא כראוי.

הדגש בהצלחה – הפן הכספי

למרות הביקורת הקשה, יש אנליסטים הטוענים כי יתרון הכלי של הסטארט-אפ הסיני אינו טמון בדיוק שלו, אלא בעלות הנמוכה של פיתוחו. אנליסט מחברת D.A. Davidson אמר לסוכנות הידיעות רויטרס כי "החשיבות של פריצת הדרך של דיפסיק אינה טמונה במענה מדויק לשאלות בנושאי חדשות, אלא בעובדה שהוא יכול לענות על כל שאלה בעלות של 1/30 ממודלי AI דומים".

נזכיר כי בעקבות ההצלחה המהירה של דיפסיק, מניות הטכנולוגיה בארה"ב נפלו בכטריליון דולר. חברות כמו אנבידיה, למשל, איבדו סכומי עתק בדולרים בשוויין ביום אחד.

אפילו מנכ"ל OpenAI, סם אלטמן, הודה כי המודל של דיפסיק הוא "מרשים, במיוחד בהתחשב במה שהם הצליחו להשיג במחיר הזה".

עם זאת, כפי שדיווחנו אתמול (ד') מיקרוסופט ו-OpenAI פתחו בחקירה כדי לבדוק האם דיפסיק השיגה את נתוני האימון שלהם בצורה לא מורשית מה-API של OpenAI. גם בכיר הבית הלבן האחראי לתחום ה-AI בממשל טראמפ החדש, דיוויד סאקס, טען כי "קיימות ראיות משמעותיות לכך שמה ש-דיפסיק עשתה כאן זה שהם זיקקו את הידע מהמודלים של OpenAI".

אם כן, למרות הפופולריות הרבה של דיפסיק והעלות הנמוכה יחסית של התוצרים שלה, ממצאי NewsGuard מצביעים על בעיות משמעותיות בדיוק ובאמינות המידע של הצ'טבוט הלוהט, ועל פגיעותו להפצת מידע כוזב. כמו כן, נטייתו לקדם עמדות של הממשלה הסינית מעוררת שאלות לגבי האתיות שלו – וגם זה עניין שיש לקחת בחשבון בעת השימוש בו או העדפתו על פני כלים מערביים.

תגובות

(6)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. סעיד

    מטריד ? הממשל הסיני יודע ש llm זה כלי הנדסת התודעה האולטימטיבי ובאותה הזדמנות גם משאבת המידע הגדולה ביותר אז שהוא יחמיץ הזדמנות מטורפת ? לא שכלי ה llm האחרים תמימים, רק הם משדרים שהנדסת תודעה זו לא המטרה הראשונה שלהם.

  2. הייטקיסט ת״א

    באופן ״מפתיע״ אני רואה שהיישום של Newsguard כלול במוצר של מיקרוסופט Office365 ושב- Trustpilot הוא קיבל ציון נמוך מאד בעקבות ביקורות משתמשים…כדאי שתבדקו מי עומד מאחורי Newsguard… ועוד דבר, אלטמן טוען שהמודל של Deepseek מבוסס על OpenAI…אז אם ככה, יש גם בעית אמינות במוצר של OpenAI, לא?! :)

  3. מורי

    לא אמרתם מילה על הבחירה של וייז למסלולים שהם אלה המוכרים לנהג והם בעליל לא אופטימליים.

  4. יותם

    אם דיפסיק צודק ב17% בעלות של 6 מיליון דולר.. חישוב פשוט- כדי שדיפסיק יהיה צודק ב-100% אז 6 מיליון דולר כפול 5.8 עדיין זול משמעותית מאוד מהמיליארדים של ענקיות הטכנולוגיה. וגם הן לא צודקות ב100%

אירועים קרובים