تعـاریـف و اصطلاحات

رویداد (Event): اتفاق شناسایی شده یک سرویس و یا دارایی، که دلالت بر نقض احتمالی امنیت اطلاعات، نقض حفاظتی، افت کیفیت سرویس و یا قطع سرویس شود.

واقعه (Incident): یک یا مجموعه‌ای از رویدادهای امنیتی/کاربردی ناخواسته یا پیش‌بینی نشده که به احتمال زیاد، عملیات کسب و کار را به خطر انداخته و باعث قطع شدن سرویس‌های نرمال می‌شود.

مشکل (Problem): یک مشکل، علت یک یا چند واقعه را تعریف می‌کند. یک خطای شناخته شده پرتکرار و یا حیاتی با تاثیر بالا به عنوان مشکلی تعریف شده که مورد تجزیه و تحلیل قرار گرفته اما به طور ریشه‌ای برطرف نشده است.

مدیریت مشکل واکنشی (Reactive Problem Management): به وقایعی که قبلاً رخ داده است واکنش نشان می‌دهد و تلاش را برای از بین بردن علت اصلی و تکرار مجدد متمرکز می‌کند. در این مستند عبارت (مدیریت مشکل) به مدیریت مشکل واکنشی اشاره دارد.

مدیریت مشکل فعال (Proactive Problem Management): یک فرآیند مداوم است. این فرآیند منتظر بروز وقایع برای واکنش نشان دادن نیست بلکه همیشه فعال و همیشه در حال ارزیابی و مانور جهت شناسایی آسیب‌پذیری‌ها و ارائه راه‌حل ریشه‌ای است.

مسئولیت‌ها

  • مسئولیت تهیه، بروزرسانی و نظارت بر انجام این سند بر عهده واحد مدیریت سرویس فناوری اطلاعات فناپ سافت می‌باشد.
  • مسئولیت اجرای راه حل‌های شناسایی شده برای مشکلات، برعهده تیم‌ حل کننده مشکل و مطابق با برنامه زمانی تعیین شده می‌باشد.
  • مسئولیت پیگیری اجرای راه حل‌های شناسایی شده برای مشکلات بر عهده مرکز پشتیبانی سرویس می‌باشد.

شرح روش اجرایی

۱- روش اجرا

هنگامی که وقایع بروز می‌کند، نقش مدیریت واقعه، بازگرداندن سرویس در سریع‌ترین زمان ممکن است؛ بدون آن‌که نیازی به شناسایی یا برطرف ساختن علت واقعه باشد. وقایعی که به عنوان مشکل پیگیری می‌شوند:

  • واقعه تأثیر بر کاربران یا فرآیندهای تجاری دارد و باید برطرف شود تا فعالیت عادی کسب و کار انجام شود.
  • مشکلات علل بروز وقایع است، بنابراین برای شناسایی علل، ایجاد راه حل‌ها و توصیه به حل طولانی مدت، نیاز به بررسی و تحلیل دارند. مدیریت مشکل، تعداد و تأثیر وقایع آینده را کاهش می‌دهد.

روش مناسب جهت محاسبه درصد اولویت مشکل در مستند روش اجرایی مدیریت مشکل به تفضیل بیان شده است.

۲- چرخه حیات فرآیند مدیریت مشکل

۱- شناسایی مشکل

فعالیت‌های شناسایی مشکل شامل مراحل زیر می شوند:

  • انجام تجزیه و تحلیل سوابق وقایع / رویدادها.
  • تشخیص موارد تکراری.
  • شناسایی خطری مبنی بر بروز مجدد یک واقعه / تعدد تکرار رویداد؛ در حین مدیریت وقایع / رویدادهای بزرگ.
  • تجزیه و تحلیل اطلاعات دریافت شده از سرویس‌های متاثر و ذینفعان.
  • تجزیه و تحلیل اطلاعات دریافت شده از تیم‌های داخلی، تیم‌های آزمایش و تیم‌های اجرایی پروژه.

۲- کنترل مشکل

فعالیت‌های کنترل مشکل شامل تجزیه و تحلیل مشکل و مستندسازی راهکارها و خطاهای شناخته شده است. راهکارها در سوابق و پرونده‌های مشکل ثبت و ضبط شده است و این امر می‌تواند در هر مرحله انجام شود؛ بدون آنکه لزوماً منتظر ماند تا تجزیه و تحلیل مشکل کامل شود. با این حال، اگر یک راهکار اولیه خیلی زودتر از پایان تجزیه و تحلیل مشکل در کنترل مشکل ثبت، ضبط و مستند شده است، این راهکار باید پس از اتمام تجزیه و تحلیل مشکل، بررسی و بهبود یابد.

۳- کنترل خطا

فعالیت‌های کنترل خطا در واقع خطاهای شناخته شده را مدیریت می‌کنند و این احتمال وجود دارد که این فعالیت‌ها، شناسایی راه‌حل‌های بالقوه دائمی را ممکن سازند. در شرایطی که یک راه‌حل دائمی نیاز به تغییر (Change) دارد، این مسئله باید از دید هزینه، ریسک و مزایا مورد تجزیه و تحلیل قرار گیرد.

۳- ابزارهای اجرایی فرآیند

به‌روش مدیریت مشکل، به واسطه فرم درخواست ریشه‌یابی مشکل Root Cause Analysis (RCA) و با استفاده از پورتال مرکز پشتیبانی سرویس و سامانه فمس در فناپ سافت اجرا می‌گردد.