להתאושש מההתאוששות
במציאות שלנו, שלל תרחישי האסון האפשריים גדול, והחברות בשוק הישראלי משקיעות יותר ויותר מזמנן ומתקציביהן בהיערכות מתאימה ● ישנו עיסוק אינטנסיבי בשאלה "תוך כמה זמן נצליח להתאושש ולחזור לשירות?" ● רק שמשם הדרך עוד ארוכה
המציאות שבה אנו חיים בישראל מזמנת לנו לעתים קרובות אירועים בלתי מתוכננים, מפתיעים ולא צפויים. הורגלנו כבר לחשוב בצורה מתגוננת וצופת עתיד, בעיקר כשמדובר בפגיעה בנו, בסביבתנו ו/או ביכולת שלנו לנהל את שגרת חיינו. שלל תרחישי האסון האפשריים גדול, והחברות בשוק הישראלי משקיעות יותר ויותר מזמנן ומתקציביהן בהיערכות מתאימה – הן בשל סיבות מסחריות והן בשל רגולציה במגזרים הרלבנטיים.
כאנשי IT וטכנולוגיה אנו מרבים לעסוק בתרחישי אסון גדולים, מצבי חירום ושאר מַרְעִין בִּישִׁין. אדוארד מרפי (ע"ע "חוק מרפי") אמר שכל מה שיכול להתקלקל יתקלקל. הניסיון מלמד שלא צריך טיל בעל ראש נפץ בליסטי שיפגע במתקן המחשוב שלנו וישבית אותו – רוב ההשבתות של מתקני מחשוב, דטה סנטרים, או תשתיות תקשורת, נובעות מסיבות פרוזאיות בהרבה כגון: הצפת מים, פגיעה בכבל קרקעי, שריפה, טעויות אנוש וכדומה.
פרויקטים של המשכיות עסקית (BCP), ו/או התאוששות מאסון (DR), מרבים לעסוק בשאלות שקשורות לתרחיש האסון עצמו, ולתהליכים המלווים אותו – החל מתהליכים ניהוליים, עסקיים, והמשך בתהליכים טכנולוגיים וטכניים. ישנו עיסוק אינטנסיבי בשאלה "תוך כמה זמן נצליח להתאושש ולחזור לשירות?"
התאוששות מלאה לא רק של התשתיות
הפרמטרים העיקריים בהקשר זה הם: ה-RTO (ר"ת Recovery Time Objective) כלומר משך הזמן הכולל שייקח לתשתיות המחשוב לפעול מחדש באתר החלופי, וגם ה-RPO (ר"ת Recovery Point Objective) שהוא הנקודה בזמן שעד אליה יהיה המידע שלנו עדכני לאחר ההתאוששות. המהדרין מציינים גם את ה-RSO (ר"ת Recovery Service Objective) שהוא הזמן הכולל להתאוששות מלאה לא רק של התשתיות, אלא גם של האפליקציות והשירות.
חברות משקיעות משאבים מאסיביים בכתיבה של נהלים, הוראות עבודה, תרגולים יבשים ורטובים, ונסיון להשיג את המטרות RTO / RPO / RSO שהוגדרו. עם זאת, כדאי אולי לחקור את המשמעויות של אירוע שכזה יותר לעומק ולעסוק גם בשאלות שהרבה מהחברות נמנעות לעסוק בהן.
אחת השאלות החשובות בהקשר זה היא "כיצד נתאושש מההתאוששות"?
לאחר אירוע אסון, (וגם אם הצלחנו להתאושש לאתר חלופי בצורה מלאה), נרצה בשלב כלשהו לחזור לאתר הייצור העיקרי ולהיערכות התפעולית הרגילה. לרצון זה השלכות הקשורות גם להיערכות הפיזית שלאחר האירוע, שטחי משרד זמניים, קווי תקשורת, ופריסת כוח האדם החדשה.
מצב תפעולי בעייתי
בנוסף – בשל אילוצי תקציב, רבות החברות שמגבילות את ההשקעה שלהן במתקן חלופי ובציוד שבו. כפשרה אנו רואים לעתים מצב שבו תשתיות המחשוב באתר החלופי עונות רק בצורה חלקית על השירות הנדרש במערכות הייצור (למשל, באתר החלופי נמצא רק 75% מכוח המחשוב של אתר הייצור).
המשמעות של היערכות זו הינה שבשעת חירום (ולאחר אירוע התאוששות) יוכלו מערכות החברה לעבוד רק בצורה חלקית באתר החלופי. דבר זה יחייב אותנו לחזור לאתר הייצור העיקרי במהירות האפשרית על מנת שלא לפגוע בעסקי החברה, ולמעשה מעמיד את החברה במצב תפעולי בעייתי.
אותה "חזרה מההתאוששות" מהווה נקודת סיכון שיש להתייחס אליה. גם לאירוע זה נדרשת מדיניות, דרושים נהלים, הוראות עבודה מפורטות, תהליכי החלטה ורצף מוסדר של פעולות בכל הרמות. כדאי לתת את הדעת לשיקום של אתר הייצור הראשי שנפגע, ובמיוחד לזמן הנדרש להחזירו למצב זהה למצב שבו פעל לפני תרחיש האסון.
יש לבחון את השפעת מהלך החזרה על זמינות המערכות, והאם הוא עלול לגרום להשבתות כלשהן של רכיבים עסקיים קריטיים. גם את ה"התאוששות מההתאוששות" יש לתרגל בכל הרמות ולמול כל התרחישים השונים, וגם בתהליך זה יש להשקיע השקעה ניכרת שדומה להשקעה המוכרת בהמשכיות עסקית ה"רגילה" תחת תרחישי החירום הנפוצים.
הכותב הינו יועץ בכיר בשטראוס אסטרטגיה
תגובות
(0)