סקירה: FineReader 11 של ABBYY
סדרת FineReader של ABBYY, שמציגה כבר את הגרסה ה-11 שלה, מחלצת וממירה טקסטים מסוגים רבים של מסמכים והופכת אותם לטקסטים קריאים שקל לחפש בהם, לחלץ מהם מידע ולעבד אותם ● גרסת ה-Pro שלה התגלתה כסוס עבודה מהיר שסורק דף A4 מהמדפסת, עמוס מלמעלה ועד למטה בטקסט ובתמונות, ב-2-3 שניות לכל היותר ● כמו כן, אחוזי הדיוק של התוכנה גבוהים מאוד וניתן לבצע במסגרתה תהליך אימות שמאפשר לנפות שגיאות סריקה מול מילון מובנה ● הציון הסופי: 87
אנחנו מצויים כיום בדור עמוס במידע. ב-IT מתייחסים כיום למונח Big Data – ולא בכדי. כמות המידע שנצברת מדי יום בכל עסק, אפילו קטן, יכולה להכריע אם לא מוכנים אליה. המידע כיום הוא כל דבר שניתן לאגור: מסמכים, קבצי PDF, תמונות, סרטונים. קבצים מורכבים, מודעות עם מעט מלל, הרבה מלל עם מעט תמונות שמלוות אותו… מידע כיד הדמיון הטובה.
עם זאת, חזון העולם ללא נייר לא ממש מתממש. למעשה, גם כיום, כשמשתמש ממוצע מצויד לפחות בתיבת דואר אלקטרוני אחת, הרבה מאוד חומרים שאנחנו מקבלים מגיעים אלינו בפורמט מודפס שכדי לשלב אותו במערכת צריך לסרוק אותו פנימה בפורמט כזה או אחר: טקסט, תמונה או אולי בכלל קובץ PDF.
אבל, בסופו של דבר, צריך לשלוף מהמידע, ולא משנה כיצד הוא משתלב במערכת ומה צורתו, נתונים שיכולים באמת לעזור לצורך מסוים. בהרבה מאוד מקרים מדובר בנתונים טקסטואליים גרידא, ובמקרה של חיפושים טקסטואליים – קצת קשה לעשות זאת באופן ישיר על כל סוגי המסמכים. כך, אנחנו חוזרים למקום שבו תמיד היינו: יש צורך להמיר את המסמכים שאנחנו רוצים לנתח, לחקור, לקרוא ולחלץ מהם מידע לפורמט טקסטואלי נגיש, בר חיפוש וקל להמרה לאחר מכן.
כאן נכנסות לתמונה תוכנות OCR, שמחלצות וממירות טקסטים מסוגים רבים של מסמכים והופכות אותם לטקסטים קריאים שקל לחפש בהם, קל לחלץ מהם מידע וקל לעבד אותם.
כשאומרים תוכנת OCR, אין ספק שאחת הידועות בהן היא סדרת FineReader של ABBYY, שמציגה כבר את הגרסה ה-11 של התוכנה שלה, בגרסת Professional (שמחירה 689 שקלים למשתמש יחיד) ובגרסת Corporate (שעולה 1,650 שקלים לרישיון צף ארגוני, שמאפשר התקנה דרך הרשת לתחנות).
הסריקות
בדקנו את גרסת ה-Pro והתרשמתי. מעבר לכך שהתוכנה התגלתה כסוס עבודה מהיר, שסורק דף A4 מהמדפסת עמוס מלמעלה ועד למטה בטקסט ובתמונות (הבדיקה בוצעה ממדפסת שמחוברת למחשב באופן אלחוטי) ב-2-3 שניות לכל היותר, התברר שהיא יודעת להתמודד היטב גם עם דפים קצת כהים. היא טובה גם עם דפים שלא נמצאים באופן ישיר לחלוטין על זכוכית הסריקה.
אולם, מהירות הסריקה היא בדרך כלל שולית. איכות הסריקה הרבה יותר חשובה, וכאן הופתענו בהחלט לטובה. אנחנו לא יכולים להתחייב על אחוזי הדיוק של התוכנה, אבל מדובר באחוז גבוה מאוד. מעבר לכך, לאחר הסריקה אפשר לעבור בתוך התוכנה לתהליך אימות שמאפשר לנפות שגיאות סריקה מול מילון מובנה. בכל מסמך שבדקנו התברר שחלק גדול מהשגיאות שהמערכת סימנה לאחר הסריקה לא היו כאלה. מפלס בטיחות גבוה? כנראה. לאחר כמה מסמכים החלטנו להמיר מסמכים ישירות לוורד (Word) ולהריץ את בדיקת האיות הפנימית שלו. התהליך היה קצר מאוד.
יכולת ההמרה של PDF לטקסט
הזכרנו את המהירות לעיל. ובכן, באחת הבדיקות שלנו רצינו לבדוק את יכולת ההמרה של מסמך PDF לטקסט. בחרנו מסמך של כ-50 עמודים, ולאחר מספר דקות הסריקה הסתיימה כשמהערכת אפילו מתלוננת על בעיית משאבים. ושוב, ההמרה הייתה איכותית למדי, בדיוק כמו במקרה של מאפיין נוסף של התוכנה: היכולת להמיר טקסט מתוך תמונות. בדקנו כמה לכידות מסך וכמה פרסומות שכוללות טקסט, והתוצאה הייתה תמיד ברמה גבוהה.
תכונות של התוכנה
FinrReader 11 מספקת מגוון רחב מאוד של מאפיינים ניתנים להגדרה. כך, למשל, אפשר להגדיר כיצד התוכנה תתנהג במקרה של סקירה לפי סוגי המסמכים אליהם ומהם רוצים להעביר למידע. מעבר לכך אפשר באופן כללי גם לבחור לבצע סריקה בשחור לבן בלבד, מה שמזרז עוד יותר את ההמרה, ובמקרה של משתמשים שאינם זקוקים לתבנית המקורית של המסמך, אפשר לוותר גם על זה, כך שהסריקה המהירה הופכת למהירה עוד יותר, אבל כמובן שבמקרה של מסמכים ארוכים מאוד זה יכול להיות משמעותי, במיוחד אם באמת זקוקים לטקסט בלבד. ניתן אפילו לקבוע רשימת מטלות שיבוצעו בשעות מסוימות – כך למשל אפשר להכין תיקייה עם קבצי PDכ להמרה והיא תומר כולה באופן אוטומטי לפורמט של התוכנה שבוחרים, גם בשעות שלא נמצאים ליד המחשב (כל עוד לא מכבים אותו, כמובן).
תכונה אחרת מעניינת היא אפשרות להמיר מסמכים לפורמטים שונים של ספרים אלקטרוניים.
התוכנה תומכת, מעבר לברירת לאנגלית/עברית, ב-189 שפות, כשהמילונים של אותן שפות ניתנים לעריכה ולעדכון על ידי המשתמש, כולל במהלך בדיקת המסמכים בתוך התוכנה עצמה.
המחיר
תג המחיר של ABBYY FineReader 11 יחסית גבוה, וזו אינה תוכנה שמיועדת למי שממיר מסמכים באופן נדיר. אבל עבור מי שעבודתו דורשת המרת מסמכים ביום יום, מדובר בכלי רב עוצמה שקל מאוד לשימוש על פניו, ועם זאת מאפשר עומק הגדרות ואפשרויות ושליטה מדוקדקת במהרה של המסמכים והכנתם לכדי קבצים קריאים.
ציון סופי: 87
חסרה היכולת לאחד קובצי pdf