אתר העיתונות היהודית ההיסטורית: 2.5 מיליון דפי עיתונים באתר אחד
האתר, המופעל על ידי הספרייה הלאומית בירושלים, מנגיש לציבור כל פיסת עיתונות יהודית מאז שנת 1783 בכל שפה בה דיברה הקהילה בכל מקום בעולם – והכל באמצעות סריקה ידנית ● כעת גם גיליונות הארץ, הנחשב לוותיק בישראל, יועלו למאגר
"היום אנחנו עם קרוב ל-2.5 מיליון דפי עיתונים באתר, ומעריכים שתוך 3 שנים יהיו 3.5 מיליון דפי עיתונים. העיתון המוקדם ביותר באתר הוא משנת 1783, כאשר העיתון האחרון הוא משנת 2014", אמר אורן וינברג, מנהל הספרייה הלאומית האמונה על אתר העיתונות היהודית ההיסטורית, בראיון לאנשים ומחשבים.
בהסתמך על תוכנת Active Paper של אוליב-תוכנה, האתר העלה לרשת את מרבית העיתונים וכתבי העת היהודיים שיצאו לאור בעבר, כולל עיתונים נדירים ביותר שהגישה אליהם הייתה עד כה בלתי אפשרית.
לדברי וינברג, "בעזרת האתר ניתן לראות בנקודת זמן מסוימת בהיסטוריה מה כתבו על אירוע או נושא כלשהו בעיתון יהודי באיסטנבול, בניו יורק או בפולין, ולקבל תמונת מצב רחבה על העניין".
האתר, פרי יוזמתם של אוניברסיטת תל-אביב והספרייה, "מביא את מהפכת המחשוב לתחום זה, ומציע את האפשרות לבצע חיפוש מלא בכל המלל שפורסם בעיתון מסוים לאורך כל שנותיו".
הוא מכיל קרוב ל-300 כותרים וכולל מגוון רחב של שפות ובכללן שפות עבריות, מערביות, לדינו, יידיש ושפות נוספות של קהילות בהן היהודים ישבו, כמו גם כמובן אנגלית, צרפתית ועוד.
"המטרה שלנו היא להנגיש לקהל הרחב את העיתונות היהודית בכל השפות מרחבי העולם, גם עיתונות עברית מישראל, על ידי ביצוע דיגיטציה של עיתונים היסטוריים. זהו המאגר הגדול ביותר היום של עיתונות יהודית שזמין חופשי לכל העולם", הוסיף וינברג.
פיתוח והרחבת היקף החומרים באתר
בימים אלו מקדמת הספרייה מספר פרויקטים במסגרת פיתוח והרחבת היקף החומרים באתר, בראשם שיתוף פעולה להעלאת גיליונות היסטוריים של עיתון הארץ. "'הארץ' הוא העיתון הוותיק בארץ שעדיין מופיע, והנהלת העיתון הסכימה לאפשר הנגשה של רוב העיתון לציבור באופן מלא וחינמי. זה מוסיף לנו נפח מאוד גדול של עיתון מאוד חשוב שהתחיל לפני כמאה שנה. בנוסף, קיבלנו הסכמה גם לתת רישיון הנגשה לעיתון חדשות, שהיה העיתון היומי הראשון בצבע", אמר וינברג.
פרויקטים נוספים אחרים הם העלאה לאתר של עיתונות יהודית בארצות הברית ועיתונות ערבית מהתקופה המנדטורית. "יש לנו פרויקט של עיתונות בערבית מהתקופה המנדטורית והעות'מנית הכולל מאה אלף פריטי עיתונות ערבית מתחומי ארץ ישראל. אנחנו ממשיכים כל הזמן להרחיב את היצע התכנים", הסביר וינברג.
פרויקט אחר מקודם בשיתוף פעולה עם הספרייה הלאומית הפולנית ואוניברסיטת הרווארד להעלאת העיתונות היהודית מפולין לאתר, פרוייקט אחר עוסק בהעלאת עיתונות יהודית מארצות הברית לאתר בשיתוף פעולה עם אוניברסיטת ניו יורק, הספרייה הציבורית של ניו יורק, אוניברסיטת קולומביה וההיברו יוניון קולג'".
חומרי העיתונות שמועלים נבחרים על ידי ועדה מיוחדת בראשה עומד המנהל האקדמי של הספרייה, פרופ' ירון צור מאוניברסיטת תל-אביב. "יש עוד הרבה מאוד עיתונים שהיינו רוצים להגיע אליהם. סדר העדיפות נקבע בוועדה, כאשר כמעט כל הכסף לפרויקט מתקבל מתורמים ודורש גם להגיע להסכמות עם בעלי הזכויות, שיאפשרו להנגיש אותם. זו מערכת גדולה ומורכבת שמחברת מו"לים ובעלי עיתונים, פאן טכנולוגי ואת הצד האקדמי של הבחירה, לצד המשתמשים", אמר וינברג.
הטכנולוגיה שמאחורי האתר ואתגריה
"בהיבט הטכנולוגי אנחנו מבצעים סריקה מהמקור או ממיקרופיל עם סורקים שונים, הכל נעשה ידנית. אחר כך אנו מעבירים עיבוד גם לתהליך של OCR להמרת הצילום מהדף לטקסט. כל זאת ברמות שונות, באיכויות שונות ממקורות שונים, ובשפות שונות", אמר וינברג.
"אנחנו רואים היום שכמות ההפקדות הדיגיטליות הולכת וגדלה משמעותית. המערכות מתמודדות עם קליטה של נפחי מידע מאוד גדולים, לא רק עיתונות אלא גם ספרים. יש הרבה אתגרים שקשורים לשימור המידע והדיגיטלי והנגשתם, שלעיתים יותר מורכבים משימור ארכיוני נייר", הסביר וינברג.
אחד האתגרים, אמר, "הוא למשל הצורך בטרנספורמציה של פורמטים כשפורמט משתנה או כלי ההנגשה של אותם פורמטים משתנים. כמו כן יש צורך בהתאמת ממשקים בנפחי מידע מאוד גדולים בקליטה, שבניגוד לעבר בו ניתן היה לקבל עיתון יחיד ממקורות שונים, היום ישנן מערכות שונות עם קבצים בודדים לעיתון. במקום גיליון אחד, אנחנו מקבלים חמישים קבצים של עיתון שאינם ממוקמים בסדר הנכון. אנחנו עוברים על הרבה מאוד עיתונים שמופקים כך".
"אנחנו אמורים לעבור למערכות חדשות. המערכות שלנו מאוד ישנות. הכוונה היא לשפר משמעותית את חווית המשתמש ולהכיל את הכמויות גדולות בהרבה", סיכם וינברג.
יש מה ללמוד מהאתר הזה מעולה