שירות Cloud Foundry של VMware: תקלה רודפת תקלה
פלטפורמת הפיתוח, שנמצאת עדיין בשלבי בטה, סבלה בחודש שעבר מתקלה קלה באספקת הכוח - אך טעות אנוש החמירה את המצב ● כתוצאה מכך, ציינה VMware, "כל מאזני העומס, הנתבים והתקני הפיירוול קרסו, חלק מתשתיות ה-DNS הפנימיות שלנו הושבתו ואיבדנו לחלוטין את התקשורת החיצונית"
הרכבת ארכיטקטורה לאספקה של שירותי מיחשוב במתכונת ענן אינה משימה פשוטה. ככל שמנסים לארגן יותר משאבים, כן גוברים הסיכויים שמשהו ישתבש. לאחר שבאמזון (Amazon) למדו זאת על בשרם, מגיע תורה של VMware.
לא מכבר השיקה VMware פלטפורמה חדשה והחלה להציע שירותי אירוח למפתחים בכתובת CloudFoundry.org. ב-25 באפריל חלה תקלה בשירותי Cloud Foundry, ובמסגרת הניסיונות להתאושש קרס השירות, שהיה מושבת גם ב-26 באפריל.
בדומה לאמזון, גם ב-VMware מסרבים להרחיב בפרטים על הפרשה, מעבר למה שפורסם בבלוג הרשמי. "הבלוג של Cloud Foundry הוא המקור הטוב ביותר למידע על ההשבתה", נמסר מהחברה. "אנחנו מעדכנים אותו באופן קבוע, כדי לשמור על שקיפות כלפי הקהילה".
דקל טנקל, אחד המפתחים והמנהלים של שירותי CloudFoundry.org, פרסם הודעה בבלוג שבה ציין, כי בתחילה נתגלתה תקלה בספק כוח של מארז איחסון. התקלה לא הייתה אירוע בלתי צפוי, ובמיחשוב ענן, ברגע שמתגלה תקלה באספקת הכוח אמור להתבצע מעבר אוטומטי למקור כוח אחר או לעותק גיבוי. "זה דבר שיכול לקרות מדי פעם", כתב טנקל.
אולם, המשיך, "במקרה זה, התוכנה, מערכות הניטור והנהלים שלנו לא היו מסונכרנים היטב. האירוע לא טופל כנדרש, וכתוצאה מכך – הכריז הבקר על אובדן תקשורת לאמצעי איחסון שהיה נחוץ לצורך עיבוד של פעולות רבות". רק לאחר שעות רבות הבינו טנקל ואנשיו שבעצם לא אבדה התקשורת לאמצעי האיחסון אלא "בסך הכול" חלה תקלה בספק כוח. לאחר שהיא תוקנה, שבו השירותים לפעול כסדרם.
כדי להפיק מהתקרית את הלקחים המתאימים ולמנוע תקריות דומות בעתיד התיישבו אנשי התפעול של VMware לכתוב נהלים חדשים. אולם, במסגרת הגיבוש של הנהלים ביצע אחד מהם פעולה שגרמה להשבתה מלאה של השירותים. "כל מאזני העומס, הנתבים והתקני הפיירוול קרסו, חלק מתשתיות ה-DNS הפנימיות שלנו הושבתו ואיבדנו לחלוטין את התקשורת החיצונית", ציין טנקל. התקלה החדשה תוקנה רק לאחר 13 שעות, ב-26 באפריל.
אם בתקלה הראשונה איבדו "רק" חלק מהמשתמשים את הגישה לנתונים שלהם, הרי שבתקלה השנייה, על אף שהיישומים פעלו כסדרם, המשתמשים לא יכולים היו להגיע אליהם כלל.
תגובות
(0)