مایکروسافت 365؟ بیشتر شبیه مایکروسافت 364 – چرا قطعی دیروز ثابت می کند که این شرکت ها هنوز یک برنامه پشتیبان برای اینترنت ندارند

احساس میکنم این روزها در «روز گروندهاگ» زندگی میکنم: زیرساخت سرور عظیم از بین میرود و خدمات ضروری اینترنت را برای مردم غیرفعال میکند و خطر تمرکز بیش از حد زیرساختهای گفته شده را در یک مکان ایجاد میکند، در مورد آن صحبت میکنم و مشکل دوباره اتفاق میافتد.
به هر حال این حادثه دوباره تکرار شد. سرویس های مایکروسافت از کار افتاد. 365، Outlook، Teams و Azure با آن همراه شدند. آیا به این نگاه می کنید؟ دلیل اصلی این امر “برخی از زیرساخت های خدمات در آمریکای شمالی” است. فقط بنابراین سیاره نابود شد.
درست مانند قطعی AWS در اکتبر گذشته، من دوباره با یک دفاع اینجا هستم. برای عشق به همه چیز، یک طرح پشتیبان تهیه کنید. دنیا آنقدر به اینترنت وابسته است که در مواقع اضطراری برنامه B وجود ندارد.
آیا این “USA-EAST-1” دوباره تکرار می شود؟
بنابراین بیایید تقارن را در اینجا با قطع AWS در سال گذشته پیدا کنیم، زیرا تفاوتهایی وجود دارد که همگی منجر به یک کانون مشابه میشوند. تفاوت ها به اندازه کافی ساده هستند:
- مشکل AWS به دلیل یک مشکل DNS در منطقه سرور US-EAST-1 (دفتر تلفن اینترنت همه شماره تلفن ها را فراموش کرده است) ایجاد شد که نیمی از اینترنت را غیرفعال کرد.
- قطعی مایکروسافت به دلیل نقص در زیرساخت خدمات آمریکای شمالی بود که مانع از پردازش صحیح ترافیک شد. پررونق شدن باجه عوارض تراکم دیجیتال را بدتر کرد و خدمات را متوقف کرد.
بنابراین، اینها موضوعات متفاوتی هستند، اما هر دو یک موضوع اساسی را برجسته می کنند: وابستگی بسیار متمرکز به یک منطقه خاص برای اجرای زیرساخت محاسبات ابری جهان.
به نقل از مونیکا ایتون، بنیانگذار و مدیر عامل Chargebacks911 و Fi911 از مقاله قبلی من، وقتی یکی از این شرکت ها عطسه می کند، “نیمی از اینترنت آنفولانزا می گیرد.”
اما بدتر می شود (و پیچیده تر)
همانطور که می بینید، تلاش اولیه مایکروسافت برای رفع این عدم تعادل های ترافیکی در واقع مشکل را بدتر کرد. گشت بزرگراه ترافیک دیجیتال عظیم را مشاهده کرد و یک مسیر انحرافی را در خیابان کوچکی که برای میلیونها خودرو ساخته نشده بود، مشاهده کرد. بلافاصله گلوگاهی شکل گرفت و جاده زیر سنگینی آن ترک خورد.
مشکل من این نیست که مایکروسافت تلاش کرده است، مشکل من این است که ما در وهله اول اینجا هستیم. و برای وارد شدن به این موضوع باید به تفاوت بین “صفحه داده” و “صفحه کنترل” بپردازم زیرا این چیزی است که در اینجا مهم است.
- “Data Plane” توسط یک شبکه امنیتی چند منطقه در دسترس محافظت می شود. اساساً، اگر دو رایانه متفاوت در دو اتاق مختلف داشته باشید و یکی از لوله ها ترکیده و سیل شود، دیگری به کار خود ادامه می دهد. این همان چیزی است که بیشتر مردم از “زیاد” منظور می کنند.
- “صفحه کنترل” مغزی است که به این رایانه ها می گوید ترافیک را به کجا ارسال کنند و تنها یک نقطه خرابی است. در هر دو قطعی AWS و مایکروسافت، مغز خراب شد و هیچ یک از این افزونگیها در “Data Plane” اهمیتی نداشت.
این بدان معنا نیست که افزونگی برای «هواپیما کنترل» وجود ندارد، اما هر دوی این شرکتها در واقع تعداد زیادی افزونگی داخلی اشتباه دارند. مغزها در یک مکان هستند (چند سرور در یک منطقه) به جای ایجاد پشتیبان خارجی (مغزهای جداگانه در چندین منطقه).
رفع آن ساده نیست
در دفاع از این شرکت ها، این است خیلی یک مهره سخت برای شکستن. اگر بخواهید رمز عبور خود را در مغز تغییر دهید، هر مغزی در جهان باید فورا آن را بداند.
آنها باید دائماً با یکدیگر صحبت کنند، و اگر یکی شروع به توهم کند (به روز رسانی بد نرم افزار یا خطای پایگاه داده رخ دهد)، آنگاه همه مغزهای اضافی دیگر همان اطلاعات نادرست را با هماهنگی کامل دریافت می کنند.
AWS و مایکروسافت از چیزی به نام Static Stability برای کاهش استفاده می کنند. به این معنی که اگر مغز (Control Plane) بمیرد، بدن (Data Plane) باید ادامه دهد. شما نمی توانید رمز عبور خود را تغییر دهید، اما کاربران همچنان باید بتوانند ایمیل ارسال کنند زیرا سرورهای محلی آخرین وضعیت خوب را به خاطر می آورند.
اما قطعی مایکروسافت فقط یک نقص در مغز نبود. در لایه ترافیک بود. بدن خوب به نظر می رسید، اما سیستم عصبی مرکزی (شبکه) قادر به انتقال سیگنال به اندام ها نبود.
اما راه حلی برای این وجود دارد؛ معماری مبتنی بر سلول AWS و مایکروسافت به شدت به سمت این راه حل برای مشکل “مغز غول پیکر” حرکت می کنند، که یک منطقه سرور بزرگ را به صدها محله کوچک مستقل تقسیم می کند. بنابراین اگر یک سلول تحت تأثیر قرار گیرد، هیچ کس دیگری متوجه آن نخواهد شد.
به نظر یک راه حل رویایی می رسد، درست است؟ پس چرا الان این اتفاق نمی افتد؟ پیچیدگی باورنکردنی و مقدار زیادی ارث برای مقابله با آن وجود دارد:
- سلول ها به ترافیک صحیحی نیاز دارند که به آنها هدایت شود و این به یک مسیریاب سلولی نیاز دارد. اگر روتر خراب شود، هیچ یک از این معماری مبتنی بر سلول مهم نیست.
- مایکروسافت 365 یک سیستم عظیم است که 15 سال قدمت دارد. تبدیل این مغز یکپارچه به 100 مینی مغز مانند انجام پیوند مغز به کسی است که در یک ماراتن دونده است.
بنابراین پاسخ کوتاه این است؛ آنها روی آن کار می کنند، اما به همان اندازه که مشکل است، به یک دلیل مهم مانند دیروز باید حل شود.
صبر کنید، آیا دنیا از ما انتظار دارد که کامپیوترها را از ابر اجاره کنیم؟
دراگ مورفی، ویرایشگر رایانه، قطعهای عالی نوشت و لحظهای را که جف بزوس بخش آرام را با صدای بلند گفت: ایده داشتن یک رایانه محلی “دقیقا دوام نخواهد آورد” نوشت. هوش مصنوعی و بحران قیمت رم ما را به سمت این ایده تسریع میکنند که تنها راهی که محاسبات منطقی است، اجاره رایانه از فضای ابری است.
در حالی که من شدیداً مخالفت دارم که جف تمام فیبرهای وجودم را در اختیار بگیرد (بسیاری از چیزها سعی کرده اند در گذشته داشتن رایانه شخصی شما را از بین ببرند، و همه آنها شکست خورده اند)، بیایید یک دقیقه سرگرم شویم.
زیرساختها باید خوب باشد تا این امکان وجود داشته باشد که حتی از راه دور کار کند. کامل. اگرچه بسیاری از اشکالات ویندوز 11 با به روز رسانی در رایانه شخصی شما وجود دارد، حداقل می توانید آن را روشن کنید. هیچ یک از اینها با مسائل زیرساخت ابری مانند این اتفاق نمی افتد.
و اگر برنامه این است که دنیا فقط به رایانش ابری متکی باشد، مشکلات کوچکی مانند این قطعیها میتواند مشکلاتی بسیار بدتر از ناامیدی ناشی از جلوگیری از دسترسی به رایانههای شخصی ابری شما برای انجام بازیها ایجاد کند. این می تواند به طور جدی بر مشاغل کوچک، دولت ها، مراقبت های بهداشتی و موارد دیگر تأثیر بگذارد.
این همان چیزی است که وقتی هر یک از این سر و صداها را به پایان میبرم، میگویم که باید از فناوریای که هر روز استفاده میکنیم، افزونگی بهتری بخواهیم. خیلی چیزها در خطر است که ابر تنها راهی باشد که ما محاسبه کنیم مطلق همیشه یک عنصر محلی باشید.
دنبال کردن راهنمای تام برای Google News و ما را به عنوان منبع ترجیحی اضافه کنید برای مشاهده آخرین اخبار، تحلیل ها و بررسی های ما در فیدهای خود.



