"המטרה: לשמור את אוצרות המורשת הישראלית באינטרנט"
פרויקט קציר האינטרנט של הספרייה הלאומית מבקש לרכז את כל האתרים והאוספים שעוסקים בארץ ישראל ובעם היהודי שהועלו לרשת ולא נמצאים בשום מקום אחר ● לדברי הדר מילר, מנהל הפרויקט, "מדובר באתגר טכנולוגי גדול"
"דפי אינטרנט מתכלים מהר מאוד, בין 50 ל-100 יום לאחר פרסומם ואם לא שומרים אותם בצורה מסודרת, לא ניתן לראות אותם", כך אמר הדר מילר, מנהל פרויקט קציר האינטרנט בספרייה הלאומית. מילר דיבר בכנס משתמשי ויקיפדיה (Wikipedia), שהתקיים בסוף השבוע.
פרויקט קציר האינטרנט של הספרייה הלאומית מתיימר לתעד את המורשת הישראלית והציונית על גווניה השונים, כפי שהיא מופיעה ברשת. המטרה היא להנגיש את אוצרות התרבות שלנו בכלל, ובפרט כאלה שלא מופיעים בספרים או במדיה אחרת. מילר סיפר כי הפרויקט נמצא בימים אלה בשלב מתקדם וייפתח לקהל הרחב בסוף אפריל. עיקר המימון הגיע מיד הנדיב והשאר מתקציב הספרייה הלאומית, אם כי בעתיד היחס צפוי להשתנות.
"החזון שלנו הוא לשמור ברשת ולהנגיש את האוספים של מדינת ישראל, ארץ ישראל, המזרח התיכון, העם היהודי והאות העברית, שלא היו בספרים אלא נולדו ישר לרשת", אמר מילר. "המטרה שלנו היא לשמור את כל האינטרנט הישראלי בספרייה ולאפשר לאנשים לצפות באתרים באינטרנט כפי שהם היו בנקודות מסוימות".
הוא ציין כי "עד לשנים האחרונות, תהליך האיסוף של החומרים הללו היה פשוט למדי, מאחר שכמות יצרני התוכן הייתה אמנם רבה אך ברורה ומוגדרת. כיום, הודות לוויקיפדיה, יצרני התוכן – כותבי הערכים באנציקלופדיה החופשית – רבים יותר מאי פעם".
לדברי מילר, "בתחילה ישומרו אתרים בעלי סיומת il. ולאחר מכן נפנה לאסוף אתרים בעברית באשר הם. מדובר באלגוריתם לא פשוט. אנחנו מאנדקסים את הדפים כדי שאנשים יוכלו למצוא כתבות ומידע על מה שהם מחפשים בטווח תאריכים שהם יבחרו".
הוא ציין כי "בשלב הראשון, המאגר יהיה נגיש רק למשתמשים שיגיעו לספרייה הלאומית, אולם כבר עכשיו אנחנו עובדים מול הגורמים הרלוונטיים כדי לאפשר גישה גם מבחוץ". לדבריו, "המטרה שלנו היא לבצע קציר של כל האינטרנט הישראלי בכל שנה, אולם בנושאים מסוימים, נבצע את השימור בתדירות גבוהה יותר".
"השימור – אתגר טכנולוגי גדול"
מילר התייחס גם להיבט הטכנולוגי של הפרויקט. הוא ציין כי "כל דגימה מסתכמת בכ-30 טרה-בייט, לא כולל וידיאו, ורק האחסון שלה עולה 30 אלף דולר".
לדבריו, "השכבות הטכנולוגיות של הספרייה הלאומית מתבססות כולן זו על זו. ביסוד המערכת נמצאים בסיסי נתונים ומערכות לאחסון מידע. השכבה השנייה היא שכבת השימור הדיגיטלי, שמכונה Roseeta. מדובר במערכת הרבה יותר מורכבת מסתם מערכת גיבוי. היא מאפשרת קריאה של קבצים שלא נתמכים על ידי מעבדי תמלילים, כדי לאפשר נגישות אליהם גם בעוד 100 שנה. כשמדברים על קבצים שבנויים רק מתווים המשימה מאוד פשוטה. אלא שבאינטרנט יש שילוב בין תווים, תמונות, אודיו ו-וידיאו, מה שהופך את השימור הדיגיטלי לאתגר. בשכבה הבאה נמצאות שלוש מערכות מיחשוב לניהול הארכיון והספריות, ומערכת לניהול נכסים דיגיטליים. הרכיבים בשכבה העליונה מאפשרים לגשת לאוספים, לעלעל בהם, למצוא את מה שרוצים ולהציג את המידע בצורה כפי שהמשתמשים מצפים", הוסיף.
מילר ציין כי "האתגרים הטכנולוגיים בפרויקט היו גדולים. כשקוצרים אינטרנט, זה לא כמו להעתיק ספר. יש גם קישורים בין אתרים, יש אתרים שבעצמם מבוססי בסיסי נתונים, צריך להגדיר עומק".
"יש לזכור שגוגל (Google) מכיל רק 20% מהאינטרנט. אנחנו רוצים להגיע גם לדפים שלא נמצאים שם. בעיה נוספת היא שאנחנו לא יכולים לבדוק אם בדפים אין קוד עוין ואם דף מסוים היה נגוע בזמן הדגימה, מה שאומר שהמשתמשים בו בעתיד עלולים להידבק בווירוס. יש גם בעיה של זכויות יוצרים: אין לנו אפשרות לדעת אם בעל האתר שאנחנו דוגמים לא מפר זכויות של מישהו אחר", הוסיף.
תגובות
(0)