כאוס אינג'ינירינג, או: למה ליצור בלגן מכוון במערכות?

כיצד ניגשים לבצע הנדסת כאוס? איך אותו בלגן מסייע לשמור על הסדר? ולמה זה טוב בכלל? עידו בן דוד, מנהל מעורבות בכיר ב-Cloud IL, מסביר

עידו בן דוד, מנהל מעורבות בכיר ב-Cloud IL.

Chaos Engineering, או הנדסת כאוס, הוא אחד ממושגי הבאזזז הנוכחיים בעולמות הפיתוח וההנדסה. ארגונים רבים ומהנדסים רבים מבינים את היתרונות של יצירת הבלגן בתחום, כדי להבין איפה יש כשלים בפיתוח ולדעצ מה לעשות כשנתקלים בהם בסביבת הפרודקשן.

אחת מהגדרות המומחים להנדסת הכאוס היא "ניסויים במערכת מבוזרת על מנת לגרום לכשלים מלאכותיים, כדי לבנות אמון ביכולתה של המערכת לעמוד בתנאים 'סוערים' בפרודקשן". עידו בן דוד, מנהל מעורבות בכיר ב-Cloud IL, אמר כי "הנדסת הכאוס היא תכנון וביצוע ניסויים בתוכנות המפותחות כדי לצבור כישלונות. המטרה היא להשיג שרידות ואמינות של המערכות המבוזרות במקרים של כשלים בפרודקשן, בזמן אמת".

בן דוד אמר בכנס Lynx DevCon של אנשים ומחשבים, שהתקיים לפני ימים אחדים בבורסה לניירות ערך בתל אביב, כי "הנדסת הכאוס גורמת למערכות מורכבות לעבוד ביחד, על אף שיכולה להיות הזרקה של בעייתיות לכל אחת מהן. המטרה היא למנוע את המקרים האלה. לכן, יש צורך להזריק מדי פעם כשלים למערכת – התפרצות של משתמשים או של דאטה, ותקלות ברכיבים אלה ואחרים".

Cloud IL היא ספקית ענן חדשה. על פי ההגדרה באתר של החברה, היא "משלבת את היתרונות הטכניים של היפר-סקיילרים בענן עם שקיפות ותאימות, המתאפשרים על ידי שיתוף פעולה עם שותפים מקומיים מהימנים". החברה מציעה שירותי תשתיות ורשת, פלטפורמת דאטה, קונטיינרים, אבטחה ועוד – בעיקר במתכונת של שירותים מנוהלים. היא משתמשת בטכנולוגיית KVM (ר"ת Kernel-based Virtual Machine), שקיימת באירופה מ-2017. לחברה יש שלושה דאטה סנטרים בישראל – בטירת כרמל, בהר חוצבים ובלוד. לדברי בן דוד, "השירותים שלנו דומים לאלה שנותנות ספקיות הענן הגדולות, אבל בעלות משמעותית יותר נמוכה, ועם תמיכה ישראלית וצוותים ישראליים".

"לא צריך לחכות שהשריפות יהיו גדולות ונרחבות"

"השאלה היא לא האם יהיו תקלות בפרודקשן ובכלל, אלא מתי. לא צריך לחכות שהתקלות האלה יקרו ואז לכבות את השריפות כשהן גדולות ונרחבות, אלא בכל יום להזריק שריפות קוטנות למערכת ולדעת להתמודד אתן", אמר בן דוד.

הוא ציין כי על מנת לעשות זאת צריך ליצור תרחישי הפעלה. אלא שלפניהם, וכדי שלא יהיה כישלון ידוע מראש, קיים צורך שהרשת והטיימליין לביצוע של אותם תרחישים יהיו מתוכננים היטב. "המתודולוגיה היא הפוכה מכאוס והיא הפתרון לו", הוסיף בן דוד. "כדי שהיא תעבוד, צריך לדעת מה המטרה של כל רכיב ואת התלות שלו ברכיבים אחרים, ולתכנן איזה ניסוי עושים בצורה מאוד זהירה, על מנת לדאוג שהשריפה לא תגדל יותר ממה שצריך. כמו כן, חייבים שכל רכיב יהיה מנוטר, כדי להבין איזה מהם נפגע".

בן דוד ציין כי ביצוע מיטבי של התהליך מבוסס על הכלים, האנשים והמתודולוגיות לטיפול בתקריות. "חייבים לדעת שהמערכת יודעת להתמודד עם שריפות", אמר. כמו כן, הוסיף, "קיים הצורך שההנהלה והעובדים יירתמו לכך".

הוא המליץ "להריץ את הנדסת הכאוס בסביבת הייצור, על עומסי עבודה אמיתיים. יש עננים שיש בהם סביבות עבודה שמיועדות במיוחד לבלגן ההנדסה".

לסיכום אמר בן דוד כי "מתודולוגיה של כאוס אינג'ינירינג לא אמורה ליצור כאוס, אבל היא יכולה ליצור אחד כזה. צריך להיזהר מכך ולמנוע מקרים כאלה מראש".

תגובות

(0)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אין לשלוח תגובות הכוללות דברי הסתה, דיבה, וסגנון החורג מהטעם הטוב

אירועים קרובים