OpenAI פיתחה מחולל קול – שלעת עתה לא מוצע לשימוש הציבור

מפתחת כלי ה-GenAI העלתה באחרונה פוסט לבלוג שלה ובו בישרה על קיומו של Voice Engine - שיודע לחולל קולות - ועל כך שבשל רצונה ב"איזון הזדמנויות מול סיכונים בדיבור סינתטי" נותר בינתיים 'במגירה'

לא מוצע בינתיים לשימוש הציבור הרחב. מחולל הקול של OpenAI.צילום: עיבוד ממוחשב כאילוסטרציה. מקור: שאטרסטוק

פוסט שהעלתה חברת מחקר הבינה המלאכותית המובילה OpenAI לבלוג שלה בסוף השבוע, ושזכה לכותרת "ניווט בין האתגרים וההזדמנויות של קולות סינתטיים", מציע הצצה לטכנולוגיית Voice Engine החדשה שלה, שטרם נחשפה עד כה.

הפיתוח הוא למעשה מחולל קולות, שבדומה למחוללי הטקסט, הווידיאו והאימג'ים המוכרים – המשולבים כיום ב-ChatGPT או ב-CoPilot, שהם כלי ה-GenAI מרכזיים של החברה והספונסרית שלה, מיקרוסופט – יודע לייצר תוצר מלאכותי לפי הנחיות שהוא מקבל.

OpenAI לא סיפקה פרטים רבים על מחולל הקול שפיתחה, שכבר קיים כמוצר שניתן להפעיל, ואלו נותרו די מעורפלים. מצד שני, הפוסט שהציג את ה-Voice Engine עוסק בהרחבה במחויבות של OpenAI לפיתוח אחראי בתחום. מתוכן הדברים ניתן להבין כי הפוטנציאל של מחולל הקול Voice Engine הוא עצום, ודווקא בשל כך החברה בחרה להציג התמקדות שלה ב"שינוי עבודה ויצירתיות עם AI".

We're sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ

— OpenAI (@OpenAI) March 29, 2024

מה כן דווח על הטכנולוגיה?

המעט שניתן ללמוד מהפוסט הוא ש-OpenAI פיתחה מודל AI חדש בשם Voice Engine, שיכול ליצור קולות סינתטיים בעלי צלילים מציאותיים רק על ידי ניתוח דגימת אודיו קולית בת 15 שניות. לטכנולוגיה המסוימת הזו יש פוטנציאל להועיל לאנשים עם מוגבלויות, למשל, או לאפשר למשתמשים ליצור תוכן עם קולות טבעיים בשפות שונות. אלא שהחברה נזהרת בשחרורו בשל חששות אתיים.

OpenAI הכירה בסיכונים הללו בפוסט ועדכנה כי היא בוחנת כעת את הטכנולוגיה עם קבוצה מוגבלת של שותפים, שהסכימו לתנאי שימוש קפדניים, הכוללים קבלת הסכמה מהאדם שקולו שובט וחשיפה ברורה שהקול נוצר בתוך שימוש ביכולות AI.

OpenAI, שסיפקה מספר דוגמיות קול להתרשמות, ציינה בסוף הפרסום שלה כי: "חשוב שאנשים ברחבי העולם יבינו לאן פני הטכנולוגיה הזו מועדות, בין אם אנו בסופו של דבר פורסים אותה באופן נרחב בעצמנו או לא". בחברה הבהירו שהם ממתינים להתדיינויות סביב הפיתוח, כדי לשמור על שליטה בשימושים שלו, וכתבו, "אנו מצפים להמשיך להשתתף בשיחות סביב האתגרים וההזדמנויות של קולות סינתטיים עם קובעי מדיניות, חוקרים, מפתחים ואנשי קריאייטיב".

האם הן משרתות גם את הרעים עם כלי ה-GenAI שלהן? OpenAI והשותפה שברקע, מיקרוסופט. צילום: Shutterstock

מחולל קול – האם הוא מגלם סכנה ברורה ומיידית?

במדיה העולמית הופיעו תגובות לפוסט שטענו כי על אף שהיכולות המדויקות של מחולל הקולות מבית OpenAI לא ידועות בינתיים, ההתמקדות של הפוסט בשקיפות ובחששות סביב שימושים מזיקים בו מעידה על כך שהחברה סבורה כי Voice Engine הוא כלי חזק במיוחד, שאולי מסוגל ליצור דיבור וקולות כך שבהאזנה להם לא ניתן יהיה להבחין כלל כי מדובר בתוצרים סינתטיים.

ואכן, הסיכונים הפוטנציאליים של טכנולוגיה כזו ברורים עוד בטרם שוחררה: גורמים זדוניים יכולים להשתמש בקולות סינתטיים כדי להתחזות לאנשים אמיתיים ולומר כביכול "בשמם" דברים שלא היו אומרים. בנוסף הטכנולוגיה עלולה לתמרן דעת הקהל – דמיינו נאום ויראלי, שנשמע נניח כאילו הדובר האותנטי בו הוא נשיא ארה"ב ג'ו ביידן – אבל הוא לא! נאום כזה עלול להשפיע על המונים בטרם יתברר שהוא מזויף. כמובן שהיכולת לייצר כל קול שבו יחשוק המשתמש עלולה, כמו בדוגמה התיאורטית של ביידן, לסייע לגורמים אינטרסנטיים שונים להפיץ מידע מוטעה ומוליך שולל.

יצוין עם זאת כי כבר במאמר שפורסם ב-MIT Technology Review וסיקר מחקר שנערך בין 2017 ל-2022 בנושא קולות סינתטיים, נכתב כי התחום התפתח ועשה צעדים מרשימים. לפי הדיווח, שיפורים בגזרת הלמידה העמוקה אפשרו כבר לפני יותר משנתיים ליצור קול סינתטי שיכלול הרבה מהדקויות של הדיבור האנושי. במאמר הודגש גם הפן של הקלות שבה ניתן להשתמש בקולות סינתטיים לשם יצירת זיופים עמוקים משכנעים במיוחד.

לפיכך מסתמן כי OpenAI נוקטת בגישה זהירה הפעם ומתעדפת פיתוח אחראי על פני ריצה לשוק והפיכת כלי ה-GenAI המגה-חכם החדש שלה לכזה שיהיה פתוח לשימוש הציבור.

OpenAI הציעה בפוסט מספר דרכים שבהן העולם יוכל להסתגל ולהתמודד נכון יותר עם הטכנולוגיה המסוימת, וביניהן למשל הפסקת אפשרויות לאימות קולי ופיתוח שיטות לזיהוי קולות שנוצרו בידי בינה מלאכותית. בחברה מאמינים שהצעדים הללו נחוצים לפני שחרור נרחב של טכנולוגיית שיבוט הקול שלה.

גרוק של xAI ואילון מאסק. כלי GenAI המוצע בקוד פתוח. צילום: עיבוד ממוחשב כאילוסטרציה. מקור: שאטרסטוק

על הפרק: פיתוח AI אחראי ושקוף בקוד פתוח

נזכיר כי OpenAI ומיקרוסופט – כמו גם חברות אחרות המפתחות כלי AI מתקדמים, וביניהן גוגל, אנטרופיק ואחרות – פועלות ברקע חששות הולכים ומתרבים מיכולות ה-GenAI ומנזקים וסיכונים שאלו עלולות לייצר בנוסף לתועלות הרבות.

xAI – חברת הבינה המלאכותית של אילון מאסק – והבעלים התזזיתי שלה מתיימרים לפתח כלי בינה מלאכותית בקוד פתוח, שיהיה יותר שקוף למפתחים, ושלכן גם, לטענתם, יהיה פחות מסוכן. מאסק, שהיה בין מקימיה של OpenAI כעמותה לתועלת הציבור ב-2014 ועזב אותה בהמשך, שב וטוען נגד החברה ומנכ"לה, המייסד השותף סם אלטמן, כי הם רודפים אחרי רווחים ולא שמים את הדגש במקום החשוב – ברווחת ותועלת החברה והעולם. הוא אפילו תבע אותם על כך באחרונה.

לנוכח ביקורות כאלו, הפוסט בבלוג של OpenAI נראה כמשתדל לשנות את התדמית הזו. הדברים ניכרים בעיקר מחתימת הפוסט בהצהרה שבכוונת החברה להמשיך את הפיתוח, השחרור והעשייה בנושא מחולל הקולות, בתוך התייעצות עם גורמים שונים. הצהרה זו מעידה על מחויבות החברה לפיתוח אמצעי הגנה שיבטיחו שימוש מוסרי בטכנולוגיה רבת העוצמה החדשה, כמו גם על ניסיון שלה ליצור לעצמה תדמית חדשה ויותר אחראית ומוקפדת.

לפיכך, מי שכבר חיכך ידיים וציפה לחולל דיבור וקול בכלי ה-Voice Engine החדש של OpenAI יאלץ להמתין הפעם, אולי אפילו עד שהחברה תגבש עם קובעי מדיניות ורגולציה החלטות משמעותיות לגבי עתיד הדיבור הסינתטי בכלל.

נראה כי החלטה של OpenAI לתעדף פיתוח אחראי היא בהחלט כיוון חדש ומבטיח יותר שאליו היא פונה – עכשיו רק נשאלת השאלה מה יקרה אם מי ממתחרותיה תשחרר כלי דומה לפניה, ומה יעשו היא ושותפתה הדומיננטית מיקרוסופט בתגובה.

תגובות

(0)

"האקרים סינים מתכוננים לעימות בסייבר עם ארה"ב"

בעזרת ה-IT: עסקאות של מעל 20 אלף שקל יחויבו באישור רשות המסים

מיקרוסופט בכנס Ignite: בינה מלאכותית עוד יותר חכמה

אקזיט כחולבן בענן: וויז רוכשת את דאזז ב-450 מיליון דולר

בדרך למחשוב מולטי-היברידי עוצרים בברצלונה

ציון דרך לשאזאם: זיהתה 100 מיליארד שירים

עוד יום סין: "פנדה גבולית" תקפה ספקיות טלקום בעולם

מיזם טכנולוגי חדש מראה איך בעלי אוטיזם חווים את העולם

אתגרי הניווט בסביבת אבטחת הסייבר התעשייתית

פודקאסט אנשים ומחשבים: טלקום ניישן מהר חוצבים בירושלים

הנמר בדרכים בכנס השנתי של חברת המחקר STKI

נשים ומחשבים: ד"ר סופיה אמדור, הקריה האקדמית אונו

מדוע תפקיד מנהלי המוצר יישאר חיוני בנוף המנוהל על ידי בינה מלאכותית?

צמיד יוקרתי לשעון

כך פתרונות כחול לבן מאפשרים ליצרניות רכב להתגונן מסייבר

נשים ומחשבים: מיכל כהן-שלי, מרכז החדשנות ARC בשיבא