مقایسه HPE Advanced ECC Support و HPE Fast Fault Tolerance

ویژگی های امنیتی ویندوز ۱۱
1 شهریور 1401
معرفی سرور اچ پی HPE DL380 G10 Plus
1 شهریور 1401
مقایسه HPE Advanced ECC Support و HPE Fast Fault Tolerance

بطور کلی HPE Advanced ECC Support و HPE Fast Fault Tolerance تکنولوژی هایی برای اصلاح خطا در سرور HPE است که در ادامه به بررسی آنها خواهیم پرداخت. در بسیاری از مواقع، Fail شدن و یا خراب شدن سرورهای HPE ناشی از خرابی در حافظۀ دستگاه و سرورها است. با روی دادن این اتفاق عملکرد دستگاه و سرور مختل شده و دسترسی به سرور نیز دچار اختلال می شود. اگر بخواهیم واضح تر توضیح دهیم، می توانیم بگوییم در یک سرویسی که شامل چندین سرور است، ممکن است در حافظۀ تکی خرابی ایجاد شده و یا خطایی در حافظۀ غیر قابل اصلاح بوجود آید. برند HPE برای اینکه از این اتفاقات جلوگیری کند، فناوری RAS را ارائه نموده است. RAS مخفف واژگان قابلیت اطمینان یا Reliability، در دسترس بودن یا Availability و سرویس دهی یا Serviceability است. این مشخصه و قابلیت شامل موارد زیر میشود:

  • HPE Fast Fault Tolerance
  •  Advanced ECC support
  •  Online spare with Advanced ECC support
  • Mirrored memory with advanced ECC support

اکثر سرورهای HPE امکان دارد به دلیل وجود مشکلات نرم افزاری، قطعی برق و یا خطاهای مربوطه به حافظه به مشکل بخورند. این مشکلات و خطاها گاهی قابل اصلاح هستند و گاهی بازیابی می شوند و برخی دیگر از خطاها اصلاح ناپذیر هستند. بدلیل وجود این مشکلات و خطاها به Memory RAS نیاز است. خطاهای قابل اصلاح، اصولا خطاهایی تک بیتی هستند که توسط چیپست ها قابل شناسایی و درست شدن هستند. سرورهای HPE خطاهای یک بیتی را تشخیص داده و شناسایی میکند و این خطاها را اصلاح می کند. این سرورها از error-correcting code(ECC) نیز پشتیبانی می کنند. سرور اِچ پی اِی از طریق چراغ های روی پنل جلویی سیستم و از طریق چراغ های موجود پیام بیش از حد شدن correctable error را هشدار می دهد. همچنین این سیستم به وسیله IML یا HPE Integrated Management Log نیز این کار را انجام می دهد.

 

خطاهای سیستم

خطاهای غیر قابل اصلاح در سرورهای HPE خطاهایی هستند که توسط چیپست شناسایی می شوند اما غیر قابل اصلاح شدن هستند. این خطاها عموما چند بیتی بوده و در ILM ثبت می شوند. خطاهای غیر قابل اصلاح که در یک DIMM جدا شده اند، بلافاصله سیستم را خراب کرده و یا خاموش می کنند. اما این خطاها گاهی باعث خرابی سیستم نیستند و این زمانی اتفاق می افتد که سرور از سیستم عامل پیشرفته یا پردازنده های Intel Xeon  سری Platinum و Gold استفاده می‌ کند. اینگونه خطاها را خطاهای قابل بازیابی می گویند. خطاهای DRAM از دیگر خطاهای سرورهای HPE است که به دو صورت رخ می دهد:

  • Hard error: که به آن خطای سخت نیز می گویند و نشان دهنده این است که مشکل در DIMM وجود دارد. خطای سخت خطایی است که توسط سیستم اصلاح می شود. این خطا باعث می شود که DIMM از خطاهایی که سرور HPE توانایی رفع آن را دارد فراتر برود.
  • Soft error: که خطای نرم نیز نامیده می شود، بر خلاف خطاهای سخت با قسمت DIMM کاری ندارد. خطای نرم زمانی اتفاق می افتد که بیت های ECC یا داده های ECC روی DIMM صحیح نباشد که در این صورت خطا دیگر ادامه نمی یابد. این خطا مانند خطای قبلی مشکل سخت افزاری را به وجود نمی آورد.

خطاهای موجود در سیستم اگر درست کنترل و اصلاح نشوند باعث خاموشی سیستم می شوند. در قدیم با استفاده از سرورهایی با سیستم ECC شرایط رفع خرابی DRAM مهیا بود، اما سیستم های امروزی متفاوت هستند.  امروزه استفاده از ویژگی RAS برای رسیدن به زمانبندی و پایداری مورد انتظار از یک سرور فراهم است. RAS در حافظه، این قابلیت را دارد که DRAM را روی DIMM با خطاهای زیاد را شناسایی کرده و قبل از خطای Hard error آن را تعویض نماید.

 

 

 

HPE Advanced ECC Support

یک حالت پیش فرض جهت محافظت از مموری سرورهای اِچ پی اِی در سیستم های قبل از ROM نسخۀ ۱٫۵ مموری Advanced ECC است. در سیستم های یک و نیم به بعد Fast Fault حالت پیش فرض RAS در همۀ پروفایل ها است. این حالت پیش فرض در پروفایل هایی با تاخیر کم کار نمی کند.  Advanced ECC Support به قانون یا تنظیم RBSU نیاز ندارد و در پلتفرم های Purely بطور پیش فرض فعال است. Advanced ECC زمانی می تواند با اطمینان خطا را اصلاح کند که خطاها چند بیتی باشند و در یک DRAM اتفاق افتاده باشند.

  • ECC خطاهای استاندارد یک بیتی در مموری را اصلاح کرده و توانایی تشخیص خطاهای چند بیتی را دارد. زمانی که ای سی سی کار خود را انجام می دهد، سیگنال خطا به سرور ارجاع داده میشود و سرور را متوقف می کند.
  • Advanced ECC برای مدت زمانی طولانی مورد استفاده است. این ویژگی پیش فرض سرورهای HPE، برای اصلاح خطاها و محافظت از سرور در برابر خطاهای تک بیتی و برخی از خطاهای چند بیتی مخصوصا خطاهای اتفاق افتاده در DRAM است. Advanced ECC در صورتیکه تمام خطاها در یک DRAM روی یک DIMM باشد، توانایی اصلاح خطاهای تک بیتی و ۴ بیتی حافظه را دارد. این قابلیت به دلیل اینکه می‌ تواند خطاهای حافظه را اصلاح کند، نسبت به ECC دارای حفاظت بیشتری است. HPE Advanced فناوری تشخیص خطای حافظه است که سرور هنگام خرابی در DIMM اعلان احتمال افزایش خطای غیر قابل اصلاح شدن را ارائه می کند.

 

 

 

HPE Fast Fault Tolerance

HPE Fast Fault Tolerance یک ویژگی منحصر به فرد و جدید است که برای HPE Memory RAS در نظر گرفته شده است. این ویژگی برای اولین بار در سرور نسل ۱۰ اچ پی که از پردازنده های Intel Xeon Scalable پشتیبانی می کنند، استفاده می شود. سرورهایی که با این ویژگی و حافظه هوشمند HPE پیاده سازی شده اند، در مقابل خرابی ها از یک لایه ی قوی حفاظتی استفاده می کنند. این ویژگی دارای نسخه ی پیشرفته ای از adaptive double device data correction (ADDDC) است. adaptive double device data correction (ADDDC) با همکاری اینتل و HPE ارائه شده است. ویژگی HPE Fast Fault Tolerance دارای بخش های اضافی است که گزینه های بیشتری را برای ترسیم قسمت های خراب حافظه دارا است. این ویژگی نسبت به سرورهایی که فقط از ADDDC استفاده می کنند، مطمئن تر بوده و دسترسی در حافظه را بهتر و بیشتر ارائه می دهد. در نسل های قدیم سرور ADDDC فناوری محافظت از حافظه قوی به شمار می‌ رفت. اما HPE Fast Fault Tolerance نسبت به ADDDC پیشرفته تر است و مزایای SDDC را با در دسترس بودن ADDDC را شامل می شود. این ویژگی فقط زمانی که نیاز به اصلاح خرابی است، بخش هایی از حافظه را در لوک اِستِپ قرار می دهد و عملکرد بیشتری نسبت به ADDDC را ارائه می دهد.

 

 

 

استفاده از مطالب با ذکر منبع بلامانع است. (گرد آوری شده توسط تیم IT سامانه فناوری فرتاک)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *