WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

WALL-E - מודל בינה מלאכותית של מיקרווספט לחיקוי שלח קול אנושי.צילום: מיקרוסופט

בסוף השבוע הכריזו חוקרי מיקרוסופט על מודל בינה מלאכותית חדש של טקסט לדיבור בשם VALL-E, שיכול לחקות באופן מדויק את קולו של אדם באמצעות דגימת אודיו של שלוש שניות. ברגע שהוא לומד קול ספציפי, VALL-E יכול לסנתז דיבור של אותו אדם אומר כל דבר – ולעשות זאת בצורה שתנסה לשמר את הטון הרגשי של הדובר.

יוצרי המודל מעריכים, שניתן להשתמש ב-VALL-E עבור יישומי טקסט לדיבור באיכות גבוהה, עריכת דיבור – שבה ניתן לערוך הקלטה של אדם ולשנות מתמלול טקסט (לגרום לו לומר משהו שהם לא אמרו במקור), ויצירת תוכן שמע בשילוב עם דגמי בינה מלאכותית אחרים כמו GPT-3.

מיקרוסופט מכנה את VALL-E "מודל עצבי לקידוד שפה", והוא מבוסס על טכנולוגיה בשם EnCodec, שעליה הכריזה מטא באוקטובר 2022. בניגוד לשיטות טקסט-לדיבור אחרות, שבדרך כלל מסנתזות דיבור על ידי מניפולציה של צורות גל, VALL-E יוצר קודי קידוד אודיו נפרדים מטקסט והנחיות אקוסטיות. המודל בעצם מנתח איך אדם נשמע, מפרק את המידע הזה לרכיבים נפרדים (הנקראים "אסימונים") הודות ל-EnCodec, ומשתמש בנתוני אימון כדי להתאים למה שהוא "יודע" לגבי האופן שבו הקול הזה היה נשמע אם היה משמיע ביטויים שונים ממה שנאמר בדגימת שלוש השניות.

מיקרוסופט אימנה את יכולות סינתזת הדיבור של VALL-E על ספריית אודיו בשם LibriLight, שנבנתה על ידי מטא. היא מכילה 60,000 שעות של דיבור בשפה האנגלית של יותר מ-7,000 דוברים, שרובם נשלפים מספרי אודיו ציבוריים של LibriVox. כדי ש-VALL-E יפיק תוצאה טובה, הקול בדגימה של שלוש השניות חייב להתאים לקול בנתוני האימון.באתר לדוגמה VALL-E, מיקרוסופט מספקת עשרות דוגמאות אודיו של מודל הבינה המלאכותית בפעולה ומציגה את התוצאות.

נוסף על שימור הגוון הקולי והטון הרגשי של הדובר, VALL-E יכול גם לחקות את "הסביבה האקוסטית" של האודיו. לדוגמה, אם הדגימה הגיעה משיחת טלפון, פלט האודיו ידמה את המאפיינים האקוסטיים והתדרים של שיחת טלפון בפלט המסונתז שלה. הדגימות של מיקרוסופט מדגימות, ש-VALL-E יכול גם ליצור וריאציות בטון הקול.

אולי בגלל היכולת של VALL-E לגרום להונאה או סתם לפעולות "שובבות, מיקרוסופט לא סיפקה את הקוד VALL-E כדי שאחרים יוכלו להתנסות בו. נראה כי החוקרים מודעים לנזק החברתי הפוטנציאלי שטכנולוגיה זו עלולה לגרום. החוקרים כותבים במסקנתם, כי "מכיוון ש-VALL-E יכול לסנתז דיבור ששומר על זהות הדובר, הוא עלול לשאת סיכונים פוטנציאליים בשימוש לרעה במודל, כגון זיוף זיהוי קולי או התחזות לדובר ספציפי. כדי להפחית סיכונים כאלה, אפשר לבנות מודל זיהוי שיודיע האם קליפ אודיו סונתז על ידי VALL-E. אנו גם ניישם את עקרונות הבינה המלאכותית של מיקרוסופט בפיתוח מודלים נוספים".

תגובות

(3)

כתיבת תגובה לבטל

אליה

לפני 3 שנים

היי

השיבו לתגובה
יוני

לפני 3 שנים

מה הקשר של זה לבינה מלאכותית? חיקוי של אות כלשהו, של מכונה, של חיה, זה תוכנה פרופר. לומדים אות, ומשחרין ברמה כזו או אחרת. היו סמפלרים שדגמו כלי נגינה, וחלק מהכלים ממש טוב. וגם קול אדם, וזה יותר קשה כי יש גם עיצורים, וכו. יותר מורכב. אבל, תוכנה זה תוכנה, ותלויה באלגוריתמים ומי שכתב. זה שמחקים קול אדם, לא עושה את זה לבינה מלאכותית. הייפ של מושג שיווקי.

השיבו לתגובה

בשנייה אחת של הקלטה סטנדרטית יש כ41000 תדרים, זה בעצם 41000 מספרים באורך של כ7 ספרות שמתארות כל חלק בהקלטה, זה דורש בינה מלאכותית

לפני 3 שנים

אין לי כוח להיכנס לפרטים אבל פשוט סמוך עליי זה דורש בינה מלאכותית

השיבו לתגובה

דל הולכת לקראת השינוי המערכתי הגדול ביותר בתולדותיה

סין אוסרת על שימוש בתוכנות סייבר של חברות מישראל וארצות הברית

weSure השיקה אפליקציית ביטוח חכמה מבוססת AI

רכישה שישית בישראל: קראודסטרייק קונה את סראפיק ביותר מ-400 מיליון ד

מהפכה רגולטורית בעולם הקריפטו לקראת הכרעה בסנאט

פיטורים נרחבים בפלייטיקה: נפרדת מ-15% מעובדי החברה

אושר לקריאה ראשונה: הבנקים ינגישו מידע ללקוחות אונליין עד 7 שנים לאחור

האלגוריתם שלך: אינסטגרם מאפשרת לשלוט בתוכן ה-Reels

נוסחת ה-4 טריליון, או: מה הביא לצמיחה האדירה של גוגל?

זיכרון גורלי – העתיד של סוכני AI

הישראליות ב-CES: בינה בקופסה

המדדים להצלחת יישום ה-AI בארגון

"2026 עתידה להפוך ל-שנת ההתבגרות העסקית של השוק ב-AI"

"כוח-על" – כיפת ברזל ניהולית ל-2026

"גם אני רוצה" אמרה קראודסטרייק – עקב עסקת פאלו אלטו-סייברארק

דלויט צופה: ה-AI תהפוך השנה לתשתית בסיסית כמו חשמל ואינטרנט

WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

תגובות

כתיבת תגובה לבטל

אירועים קרובים

ידיעות מובילות

שירת 650 ימי מילואים – ונאבק להשגת מימון לתרופה להצלת בנו

ממר"ם תקים בשנה הקרובה מפעל AI

מירב חליוה מונתה לסמנכ"לית מערכות מידע בתנובה

הצעדים הקריטיים שכל CFO בישראל חייב לנקוט ב-2026

"2026 תהיה שנת קפיצה בצריכת ענן ובפרויקטי AI בייצור"

לאומי: חטיבת הטכנולוגיות תפוצל – איל אפרת יעמוד בראש החטיבה הבנקאית

דל הולכת לקראת השינוי המערכתי הגדול ביותר בתולדותיה

סין אוסרת על שימוש בתוכנות סייבר של חברות מישראל וארצות הברית

weSure השיקה אפליקציית ביטוח חכמה מבוססת AI

רכישה שישית בישראל: קראודסטרייק קונה את סראפיק ביותר מ-400 מיליון ד

מהפכה רגולטורית בעולם הקריפטו לקראת הכרעה בסנאט

פיטורים נרחבים בפלייטיקה: נפרדת מ-15% מעובדי החברה

אושר לקריאה ראשונה: הבנקים ינגישו מידע ללקוחות אונליין עד 7 שנים לאחור

האלגוריתם שלך: אינסטגרם מאפשרת לשלוט בתוכן ה-Reels

נוסחת ה-4 טריליון, או: מה הביא לצמיחה האדירה של גוגל?

זיכרון גורלי – העתיד של סוכני AI

הישראליות ב-CES: בינה בקופסה

המדדים להצלחת יישום ה-AI בארגון

"2026 עתידה להפוך ל-שנת ההתבגרות העסקית של השוק ב-AI"

"כוח-על" – כיפת ברזל ניהולית ל-2026

"גם אני רוצה" אמרה קראודסטרייק – עקב עסקת פאלו אלטו-סייברארק

דלויט צופה: ה-AI תהפוך השנה לתשתית בסיסית כמו חשמל ואינטרנט

WALL-E: מודל בינה מלאכותית של מיקרוסופט, שמחקה דיבור של אדם

WALL-E הוא מודל טקסט לדיבור, שיכול לחקות דיבור של אדם באמצעות דגימת קול של שלוש שניות, ואף יכול לשמר את הטון הרגשי ואת הסביבה האקוסטית של הדובר

תגובות

כתיבת תגובה לבטל

אירועים קרובים

תוכן פרסומי

תוכן פרסומי

תוכן פרסומי

ידיעות מובילות

שירת 650 ימי מילואים – ונאבק להשגת מימון לתרופה להצלת בנו

ממר"ם תקים בשנה הקרובה מפעל AI

מירב חליוה מונתה לסמנכ"לית מערכות מידע בתנובה

הצעדים הקריטיים שכל CFO בישראל חייב לנקוט ב-2026

"2026 תהיה שנת קפיצה בצריכת ענן ובפרויקטי AI בייצור"

לאומי: חטיבת הטכנולוגיות תפוצל – איל אפרת יעמוד בראש החטיבה הבנקאית