אפל הציגה מודל מבוסס AI לעיבוד תמונות באמצעות הנחיות מילוליות

מודל MGIE פותח על ידי חוקרי אפל עם חוקרים מאוניברסיטת קליפורניה ומאפשר לעבד ולשנות תמונות באמצעות הנחיות מילוליות וללא צורך בתוכנת עריכת תמונות

בצנרת של אפל: כלי לאופטימיזציה של מודעות.

בניגוד למיקרוסופט, מטא, או גוגל, אפל עדיין לא הציגה חידושים גדולים בתחום ה-GenAI. אולי כדי להדביק קצת מהפער, פרסמו חוקרי אפל דגם חדש מבוסס AI, המאפשר למשתמשים לעבד תמונה באמצעות הנחיות מילוליות ללא צורך בתוכנת עריכת תמונות.

המודל – MGIE (ר"ת של MLLM – Guided Image Editing), שאפל פיתחה עם אוניברסיטת קליפורניה בסנטה ברברה, יכול להיות מיושם על משימות של עריכת תמונות פשוטות ומורכבות יותר, כמו שינוי אובייקטים ספציפיים בתמונה כדי להפוך אותם לצורה אחרת, או שינוי בהירות, הוספת פילטרים, שינוי גודל ועוד.

המודל משלב שני שימושים שונים במודלים של שפה מולטי-מודאלית. ראשית, הוא לומד כיצד לפרש את הנחיות המשתמשים. ואז הוא "מדמיין" איך תיראה העריכה (למשל, הנחיה של  שמיים כחולים יותר בתמונה תתפרש כהגברת הבהירות בחלק השמיים של תמונה).

בעת עריכת תמונה עם MGIE, המשתמשים צריכים רק להקליד מה הם רוצים לשנות בתמונה. הפרסום הציג דוגמה של עריכת תמונה של פיצה פפרוני. הקלדת ההנחיה "הפוך את זה לבריא יותר" מוסיפה לתמונה ירקות. תמונה של טיגריסים בסהרה שנראית כהה, הפכה לבהירה יותר לאחר ההנחיה למודל "להוסיף ניגודיות כדי שיהיה יותר אור".

"במקום הדרכה קצרה אך מעורפלת, MGIE מפרש את הכוונה החזותית  ויוצר עריכה סבירה לתמונה. אנו עורכים מחקרים מקיפים מהיבטי עריכה שונים ומוכיחים ש-MGIE שלנו משפר ביעילות את הביצועים תוך שמירה על יעילות תחרותית. אנו גם מאמינים שהמסגרת המודרכת MLLM יכולה לתרום למחקר חזון ושפה עתידי", אמרו החוקרים בפרסום.

אפל הפכה את MGIE לזמין להורדה דרך GitHub, וגם מאפשרת להריץ אותו מהממשק הוובי של Hugging Face Spaces. החברה לא אמרה מה תוכניותיה עבור המודל מעבר למחקר.

כך פועל מודל MGIE.

כך פועל מודל MGIE. צילום: לכידת מסך ממסמך MGIE

 

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים