חוקרי יבמ השיגו שיא מהירות באחסון נתונים: סרקו ומיינו 10 מיליארד קבצים ב-43 דקות – פי 37 מהיר יותר מבעבר

חוקרים מהמעבדות בסן חוזה השיגו את השיא באמצעות מערכת GPFS הפועלת על גבי אשכול של 10 מערכות בעלות שמונה ליבות ואחסון מבוסס SSD

חוקרים של יבמ (IBM) הציגו בסוף השבוע שיא מהירות באחסון של נפחים גדולים במיוחד. החוקרים ממעבדות הענק הכחול בסן חוזה שבקליפורניה הצליחו לסרוק ולמיין 10 מיליארד קבצים על גבי מערכת בודדת בתוך 43 דקות בלבד. המדובר בשיפור של פי 37 משיא הטיפול הקודם בקבצים, אשר עמד ב-2007 על מיליארד קבצים בשלוש שעות.

האפשרות להגדיל בשיעור כה גבוה את נפחי המידע המאוחסן על גבי מערכת בודדת, במקום לבזר אותו בין מספר גדול של שרתי אחסון הדורשים ניהול נפרד, עתידה לפשט את משימות הניהול ולייעל את תהליכי העבודה בארגונים המטפלים בנתוני ענק.

ההישג הטכנולוגי התאפשר בזכות התקדמות במערכת ניהול הקבצים המקבילית, GPFS, אותה החלה יבמ לפתח עוד ב-1998. השימוש במערכת ניהול קבצים אחת, תוך מידרוג והרחבה של מספר הקבצים ונפח האחסון הכולל, מתאים במיוחד ליישומים הדורשים גישה מהירה לכמויות גדולות של מידע, דוגמת מערכות כריית מידע, עיבוד נתונים סייסמיים, ניהול סיכונים, ניתוח פיננסי, חיזוי אקלים ומחקר מדעי.

השיא בוצע על גבי מערכת GPFS הפועלת על גבי אשכול של 10 מערכות בעלות שמונה ליבות, ואחסון מבוסס SSD. מנוע החוקים של מערכת הקבצים מאפשר לשרת כל סוג של נתונים, ולבצע את מכלול משימות הניהול. האלגוריתם של מערכת ניהול הקבצים מאפשר שימוש מלא בכל ליבות המעבדים של מערכות האחסון, בכל שלבי העבודה: קריאת נתונים, מיון, והערכה על פי בסיס החוקים. מערכות GPFS מנצלות את מאגרי הזיכרון בשבבי פלאש, בנפח כולל של 6.8 טרה-בייט בלבד, ששולבו במערך האחסון השלם. זאת, על מנת להציע גישה מהירה במיוחד לנתונים, ולקצב גבוה של העברת נתונים.

דיסק הפלאש משמש לשמירת נתוני-על (meta-data), על מנת לאפשר למערך האחסון כולו לבצע מאות מיליוני פעולות קלט-פלט בשניה, תוך שמערכת ה-GPFS מזהה, בוחרת וממיינת את הקבצים הנכונים מתוך 10 מיליארד הקבצים המאוחסנים.

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים