مجله علمی تفریحی بیبیس
0

دانلود کتاب ایجاد بنیادهای SRE – راهنمای گام به گام برای معرفی مهندسی قابلیت اطمینان سایت در سازمان های ارائه دهنده نرم افزار

بازدید 834
  • عنوان: Establishing SRE Foundations
  • نویسنده: Vladyslav Ukis
  • حوزه: انتشار نرم افزار
  • تعداد صفحه: 557
  • سال انتشار: 2022
  • زبان اصلی: انگلیسی
  • نوع فایل: pdf
  • حجم فایل: 9.80 مگابایت

این کتاب بر اساس یک سفر تحول مهندسی قابلیت اطمینان سایت (SRE) از یک سازمان تحویل نرم افزار واقعی در صنعت مراقبت های بهداشتی است. این سازمان یک پلتفرم مبتنی بر ابر برای برنامه ها و خدمات پزشکی اجرا می کند. این پلتفرم در بسیاری از مراکز داده مستقر است و برنامه های کاربردی روی پلت فرم در بیمارستان های سراسر جهان استفاده می شود. برخی از برنامه ها زمانی که بیماران در شرایط بحرانی هستند استفاده می شود. بنابراین، به این نتیجه می رسد که قابلیت اطمینان پلت فرم از اهمیت بالایی برخوردار است. اما قابلیت اطمینان چیست؟ چطور اندازی گیری می کنید؟ چگونه محیطی ایجاد می کنید که در آن تیم های توسعه انگیزه سرمایه گذاری در قابلیت اطمینان را داشته باشند؟ اینها سوالاتی بود که من چندین سال پیش با آن دست و پنجه نرم کردم، زمانی که سازمان تلاش می کرد تا یک پلت فرم قابل اعتماد برای برنامه ها و کاربران به طور یکسان فراهم کند. تشدید مشتریان با مشخصات بالا رایج بود. مردم در مورد اولویت بندی عقب ماندگی ویژگی های جدید در مقابل کار قابلیت اطمینان، همسو نبودند. تیم های عملیاتی برای بهره برداری از محصول با مشکل مواجه بودند. تیم‌های توسعه با خوشحالی ویژگی‌های جدیدی را پیاده‌سازی کردند، اما توجه بسیار کمی به نحوه عملکرد ویژگی‌های موجود در تولید داشتند. برنامه های مدیریت پروژه به شدت تحت تاثیر استقرار تعداد زیادی از رفع فوری غیرمنتظره قرار گرفتند. مشتریان برجسته با تیم رهبری تماس گرفتند و خواستار بازیابی سرویس یا ارائه ویژگی‌های گمشده بودند. همه نظر داشتند که برای بهبود وضعیت چه باید کرد، تا اینکه قطعی بعدی رخ داد و باعث شد نظرات جدیدی پدیدار شود. من چندین سال در کنفرانس QCon لندن شرکت کرده بودم. این کنفرانس به من کمک کرد تا در جریان روندهای جدید در توسعه و عملیات نرم افزار باشم. SRE یکی از موضوعات کنفرانس بود. من از وجود آن آگاه بودم اما شروع به یادگیری در مورد آن نکرده بودم. در یکی از QCons، یک آهنگ کامل به SRE اختصاص داده شد. من زمان قابل توجهی را صرف شرکت در جلسات در آن مسیر کردم. در پایان کنفرانس، برای من واضح بود که SRE در صنعت در حال افزایش است. در حالی که از کنفرانس به محل کار خود سفر می کردم و یادداشت های خود را بررسی می کردم، به این نتیجه رسیدم که زمان مناسبی برای سازمان است که SRE را در تلاش برای بهبود عملیات امتحان کند. هیچ رویکرد ساختارمند دیگری برای انجام عملیات وجود نداشت که من با آن برخورد کرده بودم. آنچه ما خودمان را بدون SRE امتحان کردیم، پیشرفت های قابل مشاهده ای نداشت. بسیاری از شرکت‌ها در کنفرانس گزارش دادند که در انجام عملیات با استفاده از SRE، به هر معنی که بود، موفق بودند. شروع کار آسان به نظر می رسید. این فقط به چند شاخص اساسی نیاز دارد، مانند در دسترس بودن و تأخیر، تعریف اهداف قابل قبول برای هر سرویس، و هشدارهایی درباره زمان شکسته شدن اهداف.

This book is based on a site reliability engineering (SRE) transformation journey from a real software delivery organization in the healthcare industry. The organization runs a cloud-based platform for medical applications and services. The platform is deployed in many data centers and the applications on the platform are used in hospitals around the world. Some of the applications are used when patients are in critical condition. It follows, then, that the platform’s reliability is of paramount importance. But what is reliability? How do you measure it? How do you create an environment where development teams are motivated to invest in reliability? These were the questions I grappled with several years ago when the organization struggled to provide a reliable platform for applications and users alike. High-profile customer escalations were common. People were unaligned regarding backlog prioritization of new features versus reliability work. The operations teams were struggling to operate the product. The development teams happily implemented new features but paid very little attention to how the existing features were running in production. Project management plans were impacted greatly by deployment of large numbers of unexpected hotfixes. High-profile customers called the leadership team demanding that the service be restored or that missing features be delivered. Everyone had an opinion on what needed to be done to improve the situation, until the next outage took place, causing new opinions to emerge. I had attended the QCon London conference for several years. The conference helped me stay abreast of new trends in software development and operations. SRE was one of the topics at the conference. I was aware of its existence but had not started learning about it. At one of the QCons, an entire track was devoted to SRE. I spent a significant amount of time attending sessions in that track. At the end of the conference, it was clear to me that SRE was gaining momentum in the industry. While traveling back to work from the conference and looking over my notes, I decided that it was the right time for the organization to try SRE in an attempt to improve operations. There was no other structured approach to doing operations that I had come across. What we tried ourselves without SRE did not yield visible improvements. Many companies at the conference reported being successful, whatever that meant, in doing operations using SRE. Getting started seemed to be easy. It would only take a couple of basic indicators, like availability and latency, the definition of acceptable targets for each service, and alerts on when the targets would be broken.

این کتاب را میتوانید بصورت رایگان از لینک زیر دانلود نمایید.

Download: Establishing SRE Foundations

نظرات کاربران

  •  چنانچه دیدگاه شما توهین آمیز باشد تایید نخواهد شد.
  •  چنانچه دیدگاه شما جنبه تبلیغاتی داشته باشد تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

بیشتر بخوانید