Архив метки: fast

Поведение SSD в большой популяции, новое исследование

Я давно слежу за публикациями про поведение жестких дисков, и исследованиями о надежности хранения.
Один из виднейших исследователей этого направления, доктор Bianca Schroeder из университета Торонто, которая многие годы проводит исследования ситуации с поведением и надежностью жестких дисков. Ее группа недавно опубликовала на конференции FAST, материалы которой всегда являются mustread для всех, интересующихся темой хранения данных, работу о том, как ведут себя диски SSD в большой популяции крупного enterprise датацентра (на примере датацентров Google, с которыми у доктора Шредер давние и тесные связи, и которые предоставляют огромное поле для исследований).
Возможно раньше вы встречали ее же исследование, также проведенное совместно с Google, по надежности обычных жестких дисков (http://research.google.com/archive/disk_failures.pdf). Теперь пришла пора посмотреть и на SSD.

Результаты исследования крайне интересны, и, как и в случае исследования HDD, не всегда подтверждают «устоявшиеся убеждения».
Например, стало понятно, что на надежность SSD крайне мало влияет степень их использования (это та самая конечность ресурсов записи у flash, которой все так боятся), но влияет их возраст, впрочем, тот же самый вывод был сделан в 2007-м об обычных HDD, там также вероятность отказов не коррелировала с нагрузкой, но только с их возрастом.
Raw Bit Error Rate (RBER, исправимых в firmware ошибок) на SSD растет медленнее ожидаемого и не коррелирует с Uncorrectable Bit Error Rate (неисправимых диском, видимых пользователю).
В целом можно утверждать, что надежность SSD сравнялась с надежностью HDD. Отказы SSD происходят даже реже, чем у HDD, однако величина UBER несколько выше.

После анализа миллионов «драйво-часов» работы множества экземпляров 10 эксплуатируемых в датацентрах Google моделей SSD, трех разных типов SSD: SLC, MLC и eMLC разных лет выпуска (от 24 до 50nm техпроцесса) стало ясно, что, в подавляющем большинстве случаев, SSD даже в условиях нагруженного датацентра не превышают свой ресурс записи, и их отказы практически не связаны с этим параметром. Ни один из исследованных дисков (самым старшим было около 6 лет) не достиг своего лимита по ресурсу записи.

Также стало очевидно, что (значительно) более дорогие enterprise SLC не имеют более высокого уровня надежности (хотя бы эквивалентного их более высокой стоимости). Уровень надежности оказался сравним для всех участвующих в анализе SSD, вне зависимости от их типа и технологии.

Существование bad blocks — нормальная ситуация для SSD. На от 30 до 80% исследованных SSD (разброс величины для 10 исследованных моделей) возникал хотя бы один bad block за первые 4 года эксплуатации, и на от 2 до 7 процентов — целиком битый чип памяти. Однако возникновение сразу большой группы bad blocks — плохой признак, свидетельствующий о высокой вероятности дальнейшего выхода из строя чипа, или SSD целиком.

Подробнее и со всеми результатами, которые я выпустил за неимением места — в самой работе, ссылка на которую в сборнике материалов FAST’16 приведена выше.
Там же есть и другие интересные работы, например исследование, ясно показывающее (в первый раз это утверждалось в вышепроцитированной работе Шредер и Google о HDD, 2007 года), что высокая температура, вопреки распространенному мнению, сравнительно мало влияет на частоту отказов жестких дисков. А влияет, что интересно — влажность. То есть горячий и «сухой» датацентр по частоте отказов почти не отличался от «классического», холодного и сухого, а вот горячий и «влажный» DC, охлаждающийся с использованием freecooling, обычного уличного воздуха, показывал существенный рост отказов. Впрочем, тоже не катастрофический (AFR, Average Failure Rate дисков вырос в нем до 5,1% с обычных 1,5%).

Еще одно исследование на тему отказов и особенностей работы SSD и Flash, сделанное инженерами Facebook и специалистами Carnegie-Mellon University, и опубликованное в прошлом году, можно найти тут: http://users.ece.cmu.edu/~omutlu/pub/flash-memory-failures-in-the-field-at-facebook_sigmetrics15.pdf