בלי תיקונים וטעויות: עיבוד מסמכים סרוקים ללא מגע יד אדם – יש דבר כזה

הטיפול בחשבוניות PDF מעמיס על ארגונים ● פתרונות חדשים ומבוססי בינה מלאכותית מחלצים נתונים אוטומטית - חוסכים זמן וכסף ומונעים טעויות אנוש

צביקה ישראלי, סמנכ"ל פתרונות אנטרפרייז בגליל סופטוור.

ארגונים מכירים היטב את אתגר הטיפול בכמויות עצומות של חשבוניות ספקים, הזמנות, תעודות משלוח ומסמכים פיננסיים אחרים, שנשלחים אליהם כקובצי PDF מקוריים או סרוקים.

המעבר לחשבוניות בקובצי PDF צמצם באופן ניכר את השימוש בדפי נייר ואיפשר לארכב ולתייק דיגיטלית את החשבוניות באופן קל ופשוט. אבל, מהצד השני של המטבע, עדיין יש לבצע תהליך קליטה לחשבוניות במערכות הארגון, כגון מודול כספים של מערכות ERP או מערכות רכש אחרות, ותהליך קליטת החשבוניות כרוך בחילוץ שדות הטקסט הרלוונטיים מכל חשבונית (שם ספק, ח.פ, מספר הזמנה, מספר חשבונית, פריטים, מחירים ליחידה, סה"כ מחיר, מע"מ, אחוזי הנחה ועוד), והקלדתם למערכות הארגון.

כל מי שניסו בעבר להעתיק טקסט מקובצי PDF שיש בהם מבנה טבלאי, או מקבצי PDF סרוקים, נתקלו בקשיים רבים ובסופו של דבר, במרבית המקרים, העדיפו לקרוא את הטקסט מכל שדה רלוונטי בחשבונית, ולהקליד אותו באופן ידני למערכת המחשוב.

"שירות חדש מסוגל לקלוט מסמכי PDF מקוריים וסרוקים כאחד, ולחלץ מהם את כל שדות הטקסט הרלוונטיים עבור הארגון. המידע המחולץ מועבר בפורמטים המתאימים לטעינה ישירה למערכות הארגוניות

המצב הנוכחי: אתגרים בניהול מסמכים פיננסיים

ארגונים רבים מקבלים מדי חודש מאות, אלפי ואף עשרות אלפי חשבוניות, תעודות משלוח והזמנות במסמכי PDF, חלקם מקוריים וחלקם מסמכים סרוקים באיכות שונה. בנוסף לשונות באיכות הסריקה ובתצורת החשבוניות, מדובר בקבצים המתווספים לאותו חלק בעייתי של נתונים ארגוניים הנשמר בפורמטים שאינם מובנים, כולל מסמכים סרוקים ותכתובות.

כיום, הדרך המקובלת בארגונים רבים לטיפול בחשבוניות אלה היא באמצעות קליטה ידנית. המשמעות היא שעובדים בארגון מקבלים מיילים, ובאופן ידני מחלצים את הקבצים, ומקלידים את תכולתם לתוך מערכות כספים או מערכות ERP שונות, לאחר מכן חותמים את החשבונית ומצרפים אותה כצרופה לרשומה שיצרו במערכת הארגונית.

אופן הטיפול הנוכחי בנושא זה סובל ממספר חסרונות: זמן עיבוד ארוך מאוד – לעיתים ארגונים מעסיקים מספר קלדנים שמתקשים לסיים טיפול בכל החשבוניות במסגרת כל חודש; העסקת קלדנים וזמן העיבוד הארוך המתלווה מייצרים הוצאה משמעותית; הקלדה ידנית עלולה לכלול טעויות אנוש, שלפעמים לא פשוט לתקן.

חילוץ הנתונים מהן היה כרוך בקשיים. חשבוניות PDF סרוקות.

חילוץ הנתונים מהן היה כרוך בקשיים. חשבוניות PDF סרוקות. צילום: אילוסטרציה. מקור: ויקימדיה

כיצד נעשה חילוץ טקסט מסורתי ממסמכים סרוקים?

חילוץ טקסט ממסמכי PDF סרוקים ומתמונות נעשה עד לאחרונה באמצעות טכנולוגיית זיהוי תווים אופטי (OCR) בלבד. החיסרון של טכנולוגיה זו, כשהיא פועלת באופן עצמאי, הינו חוסר היכולת שלה "להבין" את הקונטקסט של המסמך ולהתמודד עם מבנים טבלאיים (כמו אלה שיש בחשבוניות), בעיקר כשהם פרוסים על פני מספר עמודים.

בשלב מסוים, נוספו למערכות OCR רבות גם יכולות בינה מלאכותית, שמאפשרות לבצע Document Understanding, כך שהפתרון יכול "להבין" את הקונטקסט של המסמך ולסייע לפענח אותו בצורה נכונה. אך גם במקרה זה, הפתרונות התקשו, ועדיין מתקשים, להתמודד בצורה אמינה וטובה עם מבנים טבלאיים, בעיקר אלה שפרוסים על פני מספר עמודים ומשלבים עברית, אנגלית ומספרים.

כדי להתגבר על חסרונות אלה, נוספו לפתרונות אלה גם יכולות למידת מכונה, שחייבו את הארגונים "לאמן" את הבינה המלאכותית.

למעשה האימון הוא תהליך שנקרא תיוג (Labeling), ומבוצע לכל מבנה חשבונית של כל ספק באופן שתאפשר לבינה המלאכותית "להכיר" את מבנה החשבוניות של כל ספק קיים, ובהמשך של כל ספק עתידי. לעיתים מדובר בארגון עם אלפי ספקים, כולל כאלה שמתחלפים או נוספים מדי פעם, ויש לתייג כל פרט בכל מבנה חשבונית של כל אחד מהם.

התוצאה של תצורה זו הפכה את הפתרונות המוצעים למורכבים, יקרים, מחייבים תחזוקה מתמדת ולבסוף –  מספקים תוצאות חלקיות, כשחשבוניות רבות לא טופלו על ידי הפתרונות לאור זיהוי או פיענוח שגויים.

שירותי חילוץ אוטומטיים

לאחרונה התווספו שירותים חדשניים שמבוססים גם הם על טכנולוגיות מתקדמות של עיבוד תמונה ובינה מלאכותית. אלא שבשונה מהפתרונות המסורתיים, שירותים חדשניים אלו כוללים מספר מנגנונים ייחודיים, תוך כדי שימוש במגוון מודלים של בינה מלאכותית ויכולות למידת מכונה, המאפשרים להפוך את התהליך לאוטומטי לחלוטין, ללא צורך באימון המערכת ובאחוזי הצלחה הקרובים לשלמות. בנוסף, השירות מבצע מגוון רחב של בדיקות שפיות שונות, על מנת להבטיח את הדיוק המוחלט בחילוץ הנתונים.

השירות מסוגל לקלוט מסמכי PDF מקוריים וסרוקים כאחד, ולחלץ מהם את כל שדות הטקסט הרלוונטיים עבור הארגון. המידע המחולץ מועבר בפורמטים המתאימים לטעינה ישירה למערכות הארגוניות.

למעשה, שירות זה מייתר את כל המנגנונים מבוססי כוח האדם הפועלים כיום לביצוע משימות אלה, ומציע את היתרונות הבאים: ללא צורך בהעסקת קלדנים; הפחתה משמעותית של טעויות לעומת הקלדה ידנית; עיבוד מהיר וסיום קליטת חשבוניות בתוך זמן קצר; יכולות ניתוח מעצם הפיכת המידע למידע מובנה.

בעזרת שימוש במנגנונים החדשים, שאינם דורשים התאמות, העולם צועד צעד נוסף אל עבר תהליכים דיגיטליים מלאים.

הכותב הוא סמנכ"ל פתרונות אנטרפרייז בגליל סופטוור

תגובות

(1)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

  1. חיים רביצקי

    מעניין מאד. הייתי שמח לראות את זה סורק חשבוניות מורכבות מאד. שם מתחילות הבעיות.

אירועים קרובים