איך AI עוזרת לאבחן שביעות רצון ממוצר? הכירו את גישת Embeddings

בשיטה של Embeddings, במקום להסתמך על דומיינים ותיקים בלבד, ניתן להשתמש בכותרות ותיאורי אתרים כדי לסווג את התחום העסקי של האתר בצורה מדויקת ומותאמת אישית

מתי הורוביץ, מהנדס AI בכיר באלמנטור.

לאחרונה מצאתי את עצמי מתמודד עם אתגר מורכב; במסגרת עבודה על כלי ה-Copilot שפיתחתי באלמנטור, המנחש בעזרת בינה מלאכותית איזה מקטע עיצובי כדאי להכניס לדף, עלה אצלי הצורך להבין באיזה תחום עסקי האתר עוסק, במיוחד כשהאתר חדש ולא מוכר. במהלך הניסיון לפתור את הבעיה הבנתי, שמדובר בבעיה שחברות רבות מתמודדות איתה, במיוחד כאשר עולם האינטרנט פורח ומדי יום נוצרים כ-1.4 מיליון אתרים עסקיים חדשים, ורק בשנת 2023 נוצרו יותר מ-200 מיליון אתרי אינטרנט חדשים.

המטרה: זיהוי תחום עסקי

הרעיון היה לבחון האם יש קשר בין תחום עסקי שבו האתר עוסק לבין הצלחת ה ה-Copilot. האם ישנם תחומים שבהם הוא עובד טוב יותר לעומת תחומים בהם יש מקום לשיפור? הגישה הפשוטה היא לסווג את האתר לפי הדומיין שלו, לדוגמה, ynet.co.il כשייך לעסקי החדשות או facebook.com כשייך לרשתות החברתיות.

הבעיות עם הספקים הקיימים

ראשית, ישנה בעיה של חוסר מידע, כאשר ספקי המידע בדרך כלל יודעים לסווג דומיינים פופולריים או ותיקים, אבל על דומיינים חדשים המידע מוגבל. שנית, הקטגוריות כלליות והסיווגים של ספקי המידע הם ברמות עליונות בלבד. לדוגמה, אתר של רופא שיניים ואתר של קופת חולים יסווגו שניהם תחת קטגוריית "רפואה".

הפתרון: Embeddings

כדי להתמודד עם האתגר הזה, פיתחתי שיטה חדשה לאיתור הקטגוריה העסקית של אתר – בעזרת Embeddings. למי שלא מכיר, מודל Embeddings מקבל טקסט ומחזיר וקטור עם מספרים שמייצגים את המשמעות של הטקסט. לדוגמה, הייצוג של המילה "רפואה" עשוי להיות [4,4,4] ואילו "חדשות" [8,8,8]. אם נבקש את הייצוג של "מרפאת עיניים" ונקבל [4,4,5] שדומה לייצוג של "רפואה" – נוכל להבין שמדובר בתחום הרפואה.

במקום להשתמש בדומיין עצמו, הצעתי להשתמש בכותרת האתר ובתיאור האתר. בעזרת AI הגדרתי רשימה של קטגוריות עסקיות מובילות, וכל הצעה שה-Copilot מייצר מסווגת לקטגוריה העסקית שהכי קשורה לכותרת ולתיאור האתר. התהליך כולל שני שלבים: בשלב הראשון – יצירת טבלה עם עמודת הקטגוריה ועמודת הייצוג המספרי. בשלב השני – יצרתי רכיב שמבצע: שליפה של כותרת ותיאור האתר מתוך ה-HTML שלו, בקשה של הייצוג ממודל Embeddings, השוואה מול הייצוגים של הקטגוריות שהוגדרו ורישום הקטגוריה הכי קרובה לצד ההצעה הנוכחית של Copilot.

היתרונות:

עלות נמוכה: העלות של מודל Embeddings זולה מאוד בהשוואה לספקי נתונים.

תמיכה בדומיינים חדשים ואתרים ללא דומיין: השיטה מבוססת על כותרת האתר והתיאור שלו, ולא על הדומיין, התנועה והלינקים לאתר.

סיווג מותאם אישית: ניתן להגדיר קטגוריות ספציפיות לפי הצורך.

קטגוריות מרובות: אפשר לסווג לתחומים מרובים שמתאימים לאותו אתר.

"הכלי שפותח מציג תוצאות מדויקות וטובות יותר בהשוואה לספקי הנתונים הקיימים ופותח אפשרויות נוספות לשימוש בבינה מלאכותית בזיהוי תחומים עסקיים של אתרים"

המגבלות:

כותרות לא ברורות: לא כל האתרים כוללים כותרת שממנה אפשר להבין את המשמעות הקטגורית.

סיכון זיהוי כ-בוט: יש לעבוד נכון מבחינת זיהוי ה-IP כ-בוט שסורק אתרים.

שפות שונות: מודל Embeddings גדול יכול ליצור הבדל בין שפות שונות, לדוגמה, "עורך דין" בעברית רחוק מעט מהמילה "Lawyer" באנגלית, וכדי לקרב ביניהם, צריך להשתמש במודל קטן יותר, שנותן פחות משמעות להבדל בין השפות, ומצד שני מאבד עוד אבחנות במשמעות הטקסט. אי לכך, צריך לבחון לפי הצורך הספיציפי באיזה מודל להשתמש.

הסתמכות על תוכן האתר: ספקי המידע הקיימים מנתחים, בין השאר, תנועה וקשרים בין אתרים, שזה מידע אובייקטיבי יותר, בעוד שסיווג על פי התוכן של יוצר האתר נותן משקל יתר למדד סובייקטיבי.

מה יצא בפועל

לאחר הרצה של שבועיים בלבד התחלנו לראות סימנים מובהקים לקטגוריות עסקיות שהמוצר עובד עבורם בצורה טובה יותר לעומת קטגוריות עסקיות שהמוצר מתאים פחות, ובהתאם יכולנו לתכנן את המשך פיתוח המוצר באופן מיטבי לקטגוריות העסקיות השונות.

לסיכום, בשיטה של Embeddings, במקום להסתמך על דומיינים ותיקים בלבד, ניתן להשתמש בכותרות ותיאורי אתרים כדי לסווג את התחום העסקי של האתר בצורה מדויקת ומותאמת אישית. היתרונות כוללים עלות נמוכה, תמיכה בדומיינים חדשים ויכולת לסווג קטגוריות מרובות ומדויקות יותר. עם זאת, ישנן גם מגבלות שיש לקחת בחשבון. הכלי שפותח מציג תוצאות מדויקות וטובות יותר בהשוואה לספקי הנתונים הקיימים ופותח אפשרויות נוספות לשימוש בבינה מלאכותית בזיהוי תחומים עסקיים של אתרים.

 

הכותב הוא מהנדס AI בכיר באלמנטור.

תגובות

(2)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. "מהנדס" AI אמיתי

    פרסומת מגוחכת לאלמנטור, שמגחיכה את עצמה עוד יותר בהתיימרות של המפרסם לקרוא לעצמו "מהנדס". בקושי פרומפטים אתם כותבים איזה מהנדס בראש שלך?אלמנטור בתקופת התרסקות ומנסים להאחז בקרנות ה-AI

אירועים קרובים