על Data Mining מתמטיקה ומה שביניהם
חוק בסיסי במתמטיקה אומר באופן ברור: כשאתה פותר שאלה תשתמש בכל הנתונים שקיימים, אין נתון מיותר, לא השתמשת בכל הנתונים? כנראה שאתה טועה בכיוון החשיבה שלך ● עולם הBig Data פוגש את המתמטיקה
שעת ערב מאוחרת . ישבתי לעזור לבני ולחבר שלו בשיעורי מתמטיקה, הם התכוננו לבוחן שהיה להם למחרת . עבדו על דף תרגילים שהכין המורה. בכל שאלה כמה סעיפים. אתם יודעים איך זה .
בהתחלה הבטתי מהצד . לראות במה הם מתקשים. מהר מאד עליתי על תופעה שחזרה על עצמה . השניים לא התקשו עם הסעיף הראשון בשאלה שלרוב היה קל יותר . כשהגיעו לסעיף השני ברוב המקרים נתקעו. בנוסף הם ניסו להגיע לפתרון במהירות על ידי שימוש בחלק מהנתונים לרוב אלו הראשונים שקפצו להם לעין
וכאן הם הסתבכו . חוק בסיסי במתמטיקה אומר באופן ברור : כשאתה פותר שאלה תשתמש בכל הנתונים שקיימים. אין נתון מיותר . לא השתמשת בכל הנתונים ? כנראה שאתה טועה בכיוון החשיבה שלך. לא סתם כתוב לך שמדובר במשולש ישר זווית , זה בשביל משפט פיתגורס למשל . לא סתם כתוב שישר הוא תיכון , זה בשביל שתדע ששני חלקי הצלע שמולו שווים באורכם . בקיצור אין נתון מיותר. הכל נועד להקל על החשיבה ולהגיע לתשובה .
ברם, זה לא הכל. חוק שני במתמטיקה מלמד שכל סעיף בשאלה רבת סעיפים מוביל בעצמו לפתרון ולא רק שמותר להשתמש בתוצאת הסעיף עצמו לפתרון הסעיף הבא אלא פשוט חובה לעשות זאת. יותר נכון לומר שבלי שימוש בתוצאת הסעיף שרק פתרת כנתון חדש לסעיף הבא לא תצליח לפתור את המשך השאלה .
חוקים ברורים. כללים פשוטים שמקלים על לימוד המתמטיקה . כל הנתונים נמצאים שם לא במקרה ובכולם יש להשתמש . וכל נתון חדש שמתגלה בסעיף אחד חובה שיהווה בסיס מידע לפתרון הסעיף הבא. אז נזכרתי שיש עוד עולם מידע בו החוקים הללו תופסים וחשוב שנתייחס אליהם. זהו עולם ה Data Mining כפי שמתוחזק על ידי Data Scientists בארגון שמיישם ומפעיל פלטפורמות של Big Data
בהמון סיטואציות של חקר ביצועים ואנליזת מידע מגיעים למידע ראשוני. מידע בסיסי שהופק ונוצר מהפעלת האלגוריתמים ההתחלתיים הפשוטים. שתי השאלות מעולם המספרים שהוצגו למעלה רלבנטיות למינוף גם כאן :
1. האם השתמשנו ברוב המידע שברשותנו לצורך פתרון הסוגיה העסקית?
2. מה ניתן ללמוד מהמידע שנתקבל לצורך יצירת ופתרון שאלה עסקית חדשה ?
אמחיש זאת על ידי דוגמא מהעולם העסקי הפיננסי : נניח שבעולם ה Big Data העסקי עליו הרחבתי בטורים קודמים אנו מנסים ליצור פרופיל עסקי לגבי קבוצות של לקוחות לפי מרכיבי פעילותם . כלומר Clusters שיוכלו לשמש אותנו לצרכי שיפור שירות/ מקסום הצעת ערך ללקוח ועוד.
יישום הכלל הראשון של שימוש במירב המידע מתבטא בכך שהמידענים שנגשים לפצח את השאלה משתמשים בשני סוגי המידע שברשות הארגון : המידע המובנה והמידע הלא מובנה . משמע לא מסיקים מסקנות ויוצרים פרופיל רק ממה שידוע לבנק כגון : מחזור בחשבון/ גיל/ וותק/ משכורת / רמת הוצאות / דירוג סיכון ועוד אלא מרחיבים ומכניסים לקדירת המידע גם תוצאות של הפעלת כלי מידע לא מובנה כגון : ניתוח טקסט / ניתוח קולי / ניטור פעילות באינטרנט ועוד.
יישום הכלל השני של למידה מהמידע שנוצר לצורך יצירת שאלה חדשה יכול לבוא לידי ביטוי על ידי קבלת הנתונים הראשונים של הרצת הפרופילים ואז תחקור עומק לגבי פרופיל בודד מתוך הממצאים אותו פרופיל שהתקבל כמורכב ביותר או המסקרן ביותר ומינופו עד כדי יצירת מסע לקוח ואפילו הגדרת סגמנט חדש עם אסטרטגיה עסקית שירותית ומכירתית
העיקר שנזכור שאין סביבנו מידע מיותר . יש סביבנו מידע שעוד לא גילינו מה לעשות איתו.
תגובות
(0)