תוכן שיווקי

נוגמי מסייעת לאוניברסיטת תל אביב והמרכז הבינתחומי לצרכי מחקר BIG DATA על HADOOP באתר המסחר באינטרנט מהגדולים בעולם

09/11/2014 17:48
האם קיימים הבדלים בהתנהגות גברים ונשים וכלפיהם בפלטפורמת המסחר האינטרנטית? Nogamy

10 שבועות. זהו חלון הזמן שהוקצה לנו לגשת ולנתח את נתוניה של חברת המסחר האלקטרוני באינטרנט מהגדולים ומהמצליחים בעולם.

החברה, פתחה לאחרונה מעבדה ייחודית המאפשרת לחברות סטארטאפ ולצוותי מחקר אקדמים נבחרים בארץ גישה למאגרי מידע היושבים בסביבת HADOOP – Cluster של אלפי מחשבים ומעל ל- Petabyte של נתונים.

עבור חוקרים אקדמאים וחברות BI, עשרות מילארדי טרנזקציות של נתוני מכירות ומסחר, המתפרשים על פני שנים רבות, הם ממש בחזקת אוצר והזדמנות אמיתית לבחון היפותזות מעולמות השיווק, הצריכה וההתנהגות.

ד"ר תמי קריכלי כץ מהמפקולטה למשפטים והמחלקה לסוציולוגיה באוניברסיטת תל אביב וד"ר טלי רגב מהמחלקה לכלכלה במרכז הבינתחומי היו בין הצוותים שקיבלו כרטיס כניסה ישיר לעולם העשיר של נתוני המכירות הללו.

על מנת להצליח להתמודד עם הזמן הקצוב והאתגר הטכני שבטיפול בנתונים בסביבת HADOOP, חברו ד"ר רגב וד"ר קריכלי כץ לחברת נוגמי, חברת BI ו- BIG DATA ישראלית.

 

האם אליסון תצליח למכור את המקדחה שלה?

מטרת המחקר שאיתו יצאנו לדרך היתה לבחון האם קיימים הבדלים בהתנהגות גברים ונשים וכלפיהם בפלטפורמת המסחר האינטרנטית. האם מתייחסים לגברים ונשים בצורה שונה, גם כאשר הם קונים ומוכרים את אותו המוצר בדיוק? האם יקבלו מחיר שונה? האם העסקה תסגר מהר או לאט יותר? האם גברים ונשים בוחרים ללכת לשיטות מכירה שונות (מכירה רגילה/פומבית/מו"מ ישיר מול הקונה)? והאם אישה שמוכרת מוצר גברי תצליח יותר או פחות מגבר שמוכר את אותו המוצר? כמות השאלות שעמדו על הפרק היתה עצומה.

השלב הראשון שחברת נוגמי התמודדה עימו הוא להבין כמה שיותר מהר את הנתונים במאגר העצום, למפות את מאות המאפיינים של כל מכירה, לחבר נתונים ממקורות שונים, לבדוק את מידת איכות הנתונים, ולזקק את הנתונים שחשובים לשם המחקר (למשל: דירוג המוכר, איכות המודעה שפרסם, מאפייני המוצר, קיטלוג המוצר ועוד) .

בעזרת שימוש ב- HIVE, PIG, ו- Python, נאספו, טויבו וחוברו הנתונים הרלוונטים לכדי מאגר אחד שיאפשר הרצת השערות המחקר בצורה נוחה. הסקריפטים שנכתבו הפעילו מאחורי הקלעים אלפי ג'ובים של Map Reduce שרצו על פני כל ה- Cluster העצום. יתרונותיו של HADOOP נתגלו בבירור, כאשר חישובים מורכבים על פני היסטוריה של שנים רצו תוך שעות בודדות.

כריס, האם את/ה גבר או אישה?

ליבו של המחקר היה ההבדל בין נשים וגברים, אך במהרה הסתבר לנו כי אתר המסחר הפסיק לאסוף נתונים על ההשתייכות המגדרית של המשתמשים לפני מספר שנים. לכן, כחלק מהמחקר, פותח תהליך המזהה מתוך השם הפרטי של המוכר והקונה, מהי רמת הסבירות שהוא גבר או אישה. לשם כך שילבנו נתונים ממאגרי נתונים חיצוניים של שמות פרטיים אמריקאים ( מפקד אוכלוסין, נתוני הביטוח הלאומי האמריקאי ועוד), בכדי לנבא מה הסבירות שמדובר באישה או בגבר. מכיוון שאתר המסחר אינו חושף נתוני לקוחות אישיים כגון שמות, אלגוריתם הזיהוי שבנינו הורץ ע"י האנשים המורשים לכך ואנו קיבלנו לידינו את השיוך של מספר משתמש למגדר.

ובחזרה לאליסון

כשכל הנתונים בידינו, בדקנו בעזרת שימוש בכלי הסטטיסיטי STATA ובאוסף של רגרסיות לינאריות עד כמה המגדר אכן משפיע – על המחיר הסופי, על זמן המכירה ועוד. ממצאי המחקר עדין מעובדים ומנותחים בימים אלו, אך מבדיקות ראשוניות כבר ניתן לראות שכן קיים הבדל בין נשים וגברים בעת המסחר באתר.

בהינתן אותו מוצר, בעל אותם מאפיינים ואותו דירוג למוכר, נשים מקבלות מחיר נמוך יותר מגברים. המקום היחיד בו נשים מקבלות מחירים גבוהים יותר מגברים הוא דווקא כאשר הן מוכרות מוצרים גבריים (מעניין לשער מדוע…). כמו כן, נשים נוטות ללכת פחות למסלול מכירה שכולל בתוכו משא ומתן ישיר.

אין ספק, שהתשתית הטכנולגית HADOOP שעל בסיסה עבדנו, אפשרה את היכולת לנתח את הנפחים העצומים של הנתונים ולהגיע למסקנות ולתובנות מעניינות בזמן כה קצר.

 

אירועים קרובים