מטריד: כלי ה-GenAI הסיני דיפסיק נכשל בגדול במבחן אמינות מידע

בדיקת NewsGuard חשפה שהצ'טבוט החדש שחולל השבוע מהומת עולם בזירת ה-AI העולמית, מספק תשובות מדויקות רק ב-17% מהמקרים ואולי חמור מכך - נוטה להכניס עמדות של הממשלה הסינית לתשובותיו

לא באיטליה. דיפסיק.צילום: Shutterstock

חברת הבינה המלאכותית הסינית דיפסיק (DeepSeek) עשתה השבוע כותרות וחוללה דרמה עם השקת הצ'טבוט החדש שלה, שאף הפך במהירות לאפליקציה הפופולרית ביותר להורדה בחנות האפליקציות של אפל. אולם כעת בדיקה שערכה חברת NewsGuard העלתה כי הצ'טבוט – מודל ה-R1 של דיפסיק – סובל משיעור כישלון גבוה במיוחד בכל הנוגע לאמינות המידע שהוא מספק.

הממצאים הללו שהתקבלו לאחר בחינת המודל, הגיעו למרות ההצלחה המטאורית והטענות של החברה המפתחת כי מודל הבינה המלאכותית שלה מתחרה ואף עולה על מודלים מערביים כמו ChatGPT, וכל זאת בתוך עלות נמוכה משמעותית של פיתוחו – כ-6.5 מיליון דולר בלבד, לעומת מאות מיליונים ואף מיליארדים שהוציאו על פיתוחיהן חברות הענק האמריקניות.

NewsGuard היא חברה גלובלית מובילה המתמחה בתחום אמינות המידע. היא מספקת נתונים וניתוחים לגבי מהימנותם של מקורות חדשות, ומעריכה ארגוני חדשות על בסיס תשעה קריטריונים של אמינות. כמו כן החברה מסייעת לצרכנים ולארגונים לזהות מידע לא מהימן באופן אוטומטי. בנוסף, NewsGuard עורכת ביקורות חודשיות על מודלי בינה מלאכותית, במטרה לזהות את מידת הפגיעות שלהם להפצת מידע שקרי.

In DeepSeek's first appearance in NewsGuard's red-team audit of AI tools, the Chinese AI chatbot registered an 83% fail rate, finishing in a tie for 10th place out of 11 chatbots tested.

Read the details in Reality Check: https://t.co/VEdqccv1s9

— NewsGuard (@NewsGuardRating) January 29, 2025

רק 17 אחוזי דיוק ועמדות של הממשל הסיני בתשובות

על פי ממצאי הבדיקה של NewsGuard, הצ'טבוט מבית דיפסיק סיפק תשובות מדויקות רק ב-17% מהמקרים. עוד נחשף כי בבדיקה ב-30% מהמקרים הבוט חזר על טענות שקריות, וב-53% מהמקרים הוא מסר תשובות מעורפלות או לא מועילות לשאלות בנושאי חדשות.

בסך הכל, הצ'טבוט השיג ציון כישלון ב-83% מהמקרים. NewsGuard ערכה השוואה בין דיוק המידע שסיפק R1 למספר צ'טבוטים מובילים בתעשייה, והשוותה את התוצאה של הכלי החדש לממוצע הכישלונות שלהם. במסגרת הבדיקה נבדקו 10 צ'אטבוטים שונים, ביניהם ChatGPT-4o, Smart Assistant של You.com, גרוק-2 של xAI, את Pi של Inflection, את כלי הבינה המלאכותית היוצרת מבית Mistral, את Copilot של מיקרוסופט, את Meta AI, את קלוד של אנת'רופיק, ג'מיני 2.0 של גוגל, ומנוע התשובות של Perplexity.

יש לציין ש-דיפסיק השיג ציון נמוך משמעותית מהממוצע של הכלים הללו, שעמד על 62% כשלון באמינות המידע, כשהמשמעות היא ש-R1 סיפק תשובות שגויות, לא מדויקות, או לא מועילות בתדירות גבוהה יותר מהמתחרים שנבדקו.

הבדיקה כללה 300 הנחיות זהות, ששימשו לבדיקת ChatGPT ו-ג'מיני (Gemini) – כלי ה-GenAI המתחרים המובילים – כאשר 30 מהן התבססו על 10 טענות שקריות שאותרו ברשת. בבדיקת NewsGuard נמצא כי דיפסיק הפגין כשל במיוחד בחזרה על טענות שקריות.

#DeepSeek’s chatbot just got crushed in a NewsGuard audit, ranking 10th out of 11 and failing 83% of the time.

It repeated false claims 30% of the time and gave vague or useless answers in more than half of cases.
Scores 17% accuracy in News Test

+ pic.twitter.com/PVNpOwr6RT

— Akanksha Ojha (@obsolete_utopia) January 30, 2025

ואולם אחד הממצאים המטרידים ביותר שעלו בבדיקה היה הנטייה של הצ'טבוט החדש הסיני להכניס עמדות של הממשלה בארץ מוצאו לתשובותיו, גם כאשר השאלות לא היו קשורות בכלל לסין. נראה גם שהמענה של הכלי תוכנן כך שיכיל מעין צנזורה על מידע שאינו נוח לסין. כך למשל, בתשובה לשאלה על המצב בסוריה, השיב הצ'טבוט: "סין תמיד דבקה בעקרון אי ההתערבות בענייניהן הפנימיים של מדינות אחרות". דוגמה נוספת היא כאשר נשאל ה-R1 לגבי התרסקות טיסה של חברת התעופה האזרית, הצ'טבוט חזר במדויק על עמדת הממשלה הסינית בנדון. NewsGuard ציינה כי בעוד שתשעה מתוך עשרה צ'טבוטים קידמו נרטיב שקרי מסוים, דיפסיק לא הפריך אותו ואף לא חזר עליו, אלא פשוט קידם את נקודות הדיבור של ממשלת סין הקומוניסטית.

בנוסף, התברר כי דיפסיק הוכשר על מידע עד אוקטובר 2023 בלבד, מה שפגע ביכולתו לספק מידע עדכני על אירועים חדשותיים. כך למשל, כאשר נשאל אם נשיא סוריה המודח, בשאר אל-אסד, נהרג בתאונת מטוס (מה שלא קרה), השיב הכלי: "נכון למועד עדכון המידע שלי באוקטובר 2023, אין מידע מאומת או דיווחים אמינים המצביעים על כך שנשיא סוריה בשאר אל-אסד נהרג בתאונת מטוס".

במצאיה מתחה NewsGuard ביקורת על מדיניות השימוש של דיפסיק, לפיה על המשתמשים "לוודא באופן יזום את האותנטיות והדיוק של התוכן המוצג כדי להימנע מהפצת מידע שקרי", וכינתה אותה "גישה של חוסר התערבות", המעבירה את נטל ההוכחה ממפתחי התוכנה אל המשתמשים, שלא כראוי.

Deepseek reveals the Orwellian danger of an AI controlled by a totalitarian state. Here’s the truth: it’s a censorship platform. Watch as a simple question about the iconic Tank Man in China during the Tiananmen Square protests (and ultimately, massacre) has Deepseek providing an… pic.twitter.com/oA5LzmwllD

— Thor Halvorssen (@ThorHalvorssen) January 28, 2025

הדגש בהצלחה – הפן הכספי

למרות הביקורת הקשה, יש אנליסטים הטוענים כי יתרון הכלי של הסטארט-אפ הסיני אינו טמון בדיוק שלו, אלא בעלות הנמוכה של פיתוחו. אנליסט מחברת D.A. Davidson אמר לסוכנות הידיעות רויטרס כי "החשיבות של פריצת הדרך של דיפסיק אינה טמונה במענה מדויק לשאלות בנושאי חדשות, אלא בעובדה שהוא יכול לענות על כל שאלה בעלות של 1/30 ממודלי AI דומים".

נזכיר כי בעקבות ההצלחה המהירה של דיפסיק, מניות הטכנולוגיה בארה"ב נפלו בכטריליון דולר. חברות כמו אנבידיה, למשל, איבדו סכומי עתק בדולרים בשוויין ביום אחד.

אפילו מנכ"ל OpenAI, סם אלטמן, הודה כי המודל של דיפסיק הוא "מרשים, במיוחד בהתחשב במה שהם הצליחו להשיג במחיר הזה".

עם זאת, כפי שדיווחנו אתמול (ד') מיקרוסופט ו-OpenAI פתחו בחקירה כדי לבדוק האם דיפסיק השיגה את נתוני האימון שלהם בצורה לא מורשית מה-API של OpenAI. גם בכיר הבית הלבן האחראי לתחום ה-AI בממשל טראמפ החדש, דיוויד סאקס, טען כי "קיימות ראיות משמעותיות לכך שמה ש-דיפסיק עשתה כאן זה שהם זיקקו את הידע מהמודלים של OpenAI".

אם כן, למרות הפופולריות הרבה של דיפסיק והעלות הנמוכה יחסית של התוצרים שלה, ממצאי NewsGuard מצביעים על בעיות משמעותיות בדיוק ובאמינות המידע של הצ'טבוט הלוהט, ועל פגיעותו להפצת מידע כוזב. כמו כן, נטייתו לקדם עמדות של הממשלה הסינית מעוררת שאלות לגבי האתיות שלו – וגם זה עניין שיש לקחת בחשבון בעת השימוש בו או העדפתו על פני כלים מערביים.

תגובות

(6)

כתיבת תגובה לבטל

סעיד

לפני 2 שבועות

מטריד ? הממשל הסיני יודע ש llm זה כלי הנדסת התודעה האולטימטיבי ובאותה הזדמנות גם משאבת המידע הגדולה ביותר אז שהוא יחמיץ הזדמנות מטורפת ? לא שכלי ה llm האחרים תמימים, רק הם משדרים שהנדסת תודעה זו לא המטרה הראשונה שלהם.

השיבו לתגובה
YG

לפני 3 שבועות

DeepFake = Made in China

השיבו לתגובה
הייטקיסט ת״א

לפני 3 שבועות

באופן ״מפתיע״ אני רואה שהיישום של Newsguard כלול במוצר של מיקרוסופט Office365 ושב- Trustpilot הוא קיבל ציון נמוך מאד בעקבות ביקורות משתמשים…כדאי שתבדקו מי עומד מאחורי Newsguard… ועוד דבר, אלטמן טוען שהמודל של Deepseek מבוסס על OpenAI…אז אם ככה, יש גם בעית אמינות במוצר של OpenAI, לא?! :)

השיבו לתגובה
מורי

לפני 3 שבועות

לא אמרתם מילה על הבחירה של וייז למסלולים שהם אלה המוכרים לנהג והם בעליל לא אופטימליים.

השיבו לתגובה
יותם

לפני 3 שבועות

אם דיפסיק צודק ב17% בעלות של 6 מיליון דולר.. חישוב פשוט- כדי שדיפסיק יהיה צודק ב-100% אז 6 מיליון דולר כפול 5.8 עדיין זול משמעותית מאוד מהמיליארדים של ענקיות הטכנולוגיה. וגם הן לא צודקות ב100%

השיבו לתגובה
רז

לפני 3 שבועות

זבל סיני..תראו מופתעים

השיבו לתגובה

אירועים קרובים

עיריית תל אביב-יפו רוצה להוציא את הסמארטפונים מבתי הספר

יוצאת לדרך תוכנית ההסבה המקצועית הראשונה לנשות המילואימניקים

הכירו את ה-iPhone 16e החדש – המכשיר שמחליף את סידרת ה-SE המוזלת של אפל

המוציאה לאור החדשה: כך ה-AI עושה מהפכה בעולם הספרים

לשנות את המתקפה: ה-AI "משבשת" את עולם פיתוח התרופות

הנמר בדרכים – בתערוכת "אמנות ישראלית 25" בבנק הפועלים

מטריד: כלי ה-GenAI הסיני דיפסיק נכשל בגדול במבחן אמינות מידע

רק 17 אחוזי דיוק ועמדות של הממשל הסיני בתשובות

הדגש בהצלחה – הפן הכספי

תגובות

כתיבת תגובה לבטל

אירועים קרובים

FinTech Junction Winter Event

M-WIT Mamram

NimbuSummIT 2025

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

רוצים ללמוד תכנות AI? אנבידיה מציעה קורסים בחינם

כמה גופי ממשלה עלו לענן נימבוס ובאיזה היקף כספי?

גיל רפפורט מונה למנהל סייברארק ישראל

בינת דאטה סנטרס תקים מרכז מחשוב בשוהם במאות מיליוני שקלים

עקב המלחמה: הממשלה תשקיע במיזמי טק לטובת ילדי חבל תקומה

מטריד: כלי ה-GenAI הסיני דיפסיק נכשל בגדול במבחן אמינות מידע

תוכן פרסומי

שמנו לב שחוסם הפרסומות שלך מופעל