Архив метки: reliability

Поведение SSD в большой популяции, новое исследование

Я давно слежу за публикациями про поведение жестких дисков, и исследованиями о надежности хранения.
Один из виднейших исследователей этого направления, доктор Bianca Schroeder из университета Торонто, которая многие годы проводит исследования ситуации с поведением и надежностью жестких дисков. Ее группа недавно опубликовала на конференции FAST, материалы которой всегда являются mustread для всех, интересующихся темой хранения данных, работу о том, как ведут себя диски SSD в большой популяции крупного enterprise датацентра (на примере датацентров Google, с которыми у доктора Шредер давние и тесные связи, и которые предоставляют огромное поле для исследований).
Возможно раньше вы встречали ее же исследование, также проведенное совместно с Google, по надежности обычных жестких дисков (http://research.google.com/archive/disk_failures.pdf). Теперь пришла пора посмотреть и на SSD.

Результаты исследования крайне интересны, и, как и в случае исследования HDD, не всегда подтверждают «устоявшиеся убеждения».
Например, стало понятно, что на надежность SSD крайне мало влияет степень их использования (это та самая конечность ресурсов записи у flash, которой все так боятся), но влияет их возраст, впрочем, тот же самый вывод был сделан в 2007-м об обычных HDD, там также вероятность отказов не коррелировала с нагрузкой, но только с их возрастом.
Raw Bit Error Rate (RBER, исправимых в firmware ошибок) на SSD растет медленнее ожидаемого и не коррелирует с Uncorrectable Bit Error Rate (неисправимых диском, видимых пользователю).
В целом можно утверждать, что надежность SSD сравнялась с надежностью HDD. Отказы SSD происходят даже реже, чем у HDD, однако величина UBER несколько выше.

После анализа миллионов «драйво-часов» работы множества экземпляров 10 эксплуатируемых в датацентрах Google моделей SSD, трех разных типов SSD: SLC, MLC и eMLC разных лет выпуска (от 24 до 50nm техпроцесса) стало ясно, что, в подавляющем большинстве случаев, SSD даже в условиях нагруженного датацентра не превышают свой ресурс записи, и их отказы практически не связаны с этим параметром. Ни один из исследованных дисков (самым старшим было около 6 лет) не достиг своего лимита по ресурсу записи.

Также стало очевидно, что (значительно) более дорогие enterprise SLC не имеют более высокого уровня надежности (хотя бы эквивалентного их более высокой стоимости). Уровень надежности оказался сравним для всех участвующих в анализе SSD, вне зависимости от их типа и технологии.

Существование bad blocks — нормальная ситуация для SSD. На от 30 до 80% исследованных SSD (разброс величины для 10 исследованных моделей) возникал хотя бы один bad block за первые 4 года эксплуатации, и на от 2 до 7 процентов — целиком битый чип памяти. Однако возникновение сразу большой группы bad blocks — плохой признак, свидетельствующий о высокой вероятности дальнейшего выхода из строя чипа, или SSD целиком.

Подробнее и со всеми результатами, которые я выпустил за неимением места — в самой работе, ссылка на которую в сборнике материалов FAST’16 приведена выше.
Там же есть и другие интересные работы, например исследование, ясно показывающее (в первый раз это утверждалось в вышепроцитированной работе Шредер и Google о HDD, 2007 года), что высокая температура, вопреки распространенному мнению, сравнительно мало влияет на частоту отказов жестких дисков. А влияет, что интересно — влажность. То есть горячий и «сухой» датацентр по частоте отказов почти не отличался от «классического», холодного и сухого, а вот горячий и «влажный» DC, охлаждающийся с использованием freecooling, обычного уличного воздуха, показывал существенный рост отказов. Впрочем, тоже не катастрофический (AFR, Average Failure Rate дисков вырос в нем до 5,1% с обычных 1,5%).

Еще одно исследование на тему отказов и особенностей работы SSD и Flash, сделанное инженерами Facebook и специалистами Carnegie-Mellon University, и опубликованное в прошлом году, можно найти тут: http://users.ece.cmu.edu/~omutlu/pub/flash-memory-failures-in-the-field-at-facebook_sigmetrics15.pdf

Nutanix «под крышкой»: как обеспечивается надежность хранения данных

nutanix-front3

Этим постом я начну серию «Nutanix под крышкой», переводов официальных technotes о внутреннем устройстве системы, который сейчас пишутся и постепенно выкладываются в resources на офсайте продукта.
В этом посте вы узнаете, как обеспечивать надежность хранения и сохранность данных, не используя RAID, каким образом хранятся данные на дисках, и как они оказываются доступны прикладным задачам, что такое «метаданные», и какую роль они играют в работе системы хранения Nutanix, наконец, что за механизмы приводят все это в движение.

Надежность хранения данных

Nutanix Virtual Computing Platform разработан и сконструирован «с нуля», чтобы обеспечить максимальную надежность так, чтобы успешно парировать возможные отказы оборудования и программные ошибки. Распределенная программная архитектура запускает виртуальный контроллер хранения (virtual storage controller, также Controller VM или CVM) на каждом узле кластера, составляющих вместе распределенную систему. Все узлы работают совместно, собирая отдельные, непосредственно-подключенные (DAS) к этим узлам диски в общее «пространство имен» (single global namespace), которое может быть использовано всеми хостами. Все диски кластерной системы управляются специальной структурой, называющейся Nutanix Distributed Filesystem (NDFS), которая обеспечивает целостность хранимых данных, и защищает их от сбоев узла, самих дисков, или программных ошибок.

Читать далее