Архив метки: ssd

SSD в HPE HC380 могут быть сняты с гарантии при «интенсивном использовании»

Разбираюсь тут с нашими конкурентами в HPE, точнее — с их новой системой HC380, наталкиваюсь в документации на такое:

hpe-hc380-ssd-warranty-issues

Э-э… HPE, вы это всерьез? У вас SSD warranty is subject to maximum usage limitiaions? На втором десятке лет XXI века, у крупнейшего поставщика энтерпрайз-решений? Знает ли об этом ваша мама ваши клиенты, которым вы продаете HC380?

История пользователя AllFlash VSAN на reddit

Очередная история про боль нашлась на reddit.
Помните, я уже находил такую, где кластер «лег» в процессе ребилда дисков. И саппорт все свалил на дисковый контроллер недостаточной производительности. При том, что до этого момента он вполне себе был в HCL (его убрали только после того случая, в очередной редакции HCL).

Вот новая история, очень похожая на ту. Тоже все было в HCL (до апгрейда на AllFlash, но после апгрейда, как оказалось, дисковый контроллер уже не годился для AllFlash). Диски SATA SSD, подтвержденно поддерживаемые VMware, и ставшие источником проблем. На этот раз в AllFlash конфигурации VSAN 6.2.
Очередной ответ на вопрос: «Почему бы вам просто не составить HCL, и не продавать Nutanix как софт? Пусть бы люди сами себе собирали сервера подешевле
Вот не работает это. Не работает.

Там же, снова, пользователь налетел всем лицом на resync после долгого отсутствия ноды к кластере (у них завис сервер на этапе перезагрузки, когда они с саппортом искали причины проблем, и они смогли его вручную перезапустить только через полтора часа его висения в «press F1 to continue», за это время в работающем кластере накопился большой объем несинканных записей).

SSD, AllFlash и гиперконвергенция

Несколько новостей этих летних месяцев заставили меня написать такой несколько визионерский текст, с которым, возможно, кто-то будет несогласен. Этим летом как-то врывообразно появилось множество публикаций, посвященных SSD, Flash, да и вообще новым технологиям хранения данных, «поднявшимся над горизонтом». Не секрет, что HDD, «жесткие диски», технология, история которой насчитывает уже 60 лет (!) сегодня довольно очевидно стагнирует. Она развивается несколько последних деятилетий уже просто раз в пару лет удваивая емкость, но ничего не добавляя существенно нового. Достаточно ясно, что сегодня HDD это такие «магнитные ленты», давно остановившаяся в своем развитии технология. Она в целом устраивает всех на своем месте, но уже не являнтся «острием прогресса», обреченная на постепенное проваливание в нишу, где когда-то и утонули «магнитные ленты». Развитие IT идет совсем в другом месте.

Все кто внимательно следят за тем, что происходит в отрасли видят, что сегодняшее острие прогресса — так называемые «твердотельные устройства хранеия». SSD стали уже бытовой повседневностью. Например, пока я писал эти строки, я понял, что у меня, в моем многочисленном домашнем IT-парке (2 десктопа, 3 ноутбука, AppleTV, домашний лаб-сервер, три RaspberryPie-подобных девайса) нет ни одного устройства без SSD, исключая стоящий на полке 4-дисковый NAS Synology где я храню фильмы, музыку и бэкапы. Конечно, не только SSD, не нужно забывать про новое направление использования Flash не в форме «эмуляции диска» (а именно это и есть SSD, по большому счету), но и как нативную память, в форме разнообразных NVMe, NVDIMM, и так далее, но SSD — в первую очередь.
Достаточно посмотреть на то, что все вендоры классических СХД сегодня выпустили свои AllFlash системы хранения, избавившись в них от HDD, и предложив пользователям невиданную ранее с обычными «блинами» производительность и latency.

AllFlash06

Но мне бы хотелось особо остановиться на моменте, который, как мне кажется, часто упускают из виду, говоря про AllFlash-системы хранения. Этот момент, как мне видится, чрезвычайно важен, в особенности для гиперконвергентных систем, таких, как наш Nutanix.

Возьмем, например, один из самых свежих образцов современных SSD, доступных на массовом рынке, SSD Samsung EVO 950Pro, в формате M.2, с поддержкой NVMe. Это один из самых производительных SSD, и давайте посмотрим, что это значит.
В техспеке для устройства, емкостью 512GB указаны показатели рандомного чтения (random read) блоками 4K при глубине очереди 32 (Q32) и 4 потоках ввода-вывода равные 300K IOPS. Измерения «реальной жизни», проведенные Storagereview.com для 4K aligned read, с использованием IOmeter по их методике, показывают примерно 200K IOPS для величины Outstanding IOs равной 64. Возьмем эту величину за основу.
200 тысяч IOPS рандомного чтения блоком 4Kбайт означают, что поток данных рандомного (!) чтения через интерфейс ввода-вывода с одного SSD емкостью 512GB равен:
200 000 * 4096 = 819 200 000 байт в секунду = 0,763 Gbyte/s = 6,1 Gbit/s
что означает, что один современный высокопроизводительный SSD для кастомерского рынка, при правильном его подключении и использовании, на рандомных операциях сегодня утилизирует полностью интерфейс SATA-3, или же половину SAS-3 (12Gbit/s). Два таких диска, с суммарной емкостью всего в 1TB, забьют собой канал SAS в 12 гигабит в секунду. И это — два диска, сегодня, без учета завтрашнего дня и перспектив NVMe.
Устройства NVMe с легкостью забьют трафиком канал 40G Ethernet.

А уж когда выйдет на рынок 3D Xpoint, который нам уже «вот-вот» обещают Intel с Micron, то ситуация с попыткой использовать сетевые системы хранения с новыми flash-подобными твердотельными устройствами хранения становится окончательно безнадежной.

Flash-vs-Network-Throughput

Нельзя сказать, что в индустрии этого не понимают. Да, уже с самого начала использования Flash, для хранения для решения этой проблемы что-то пытаются делать, прежде всего это попытка реализовать «многослойное кэширование», где одним из слоев был бы Flash, причем, часто, этот flash переносят поближе к серверу. Однако это все были полумеры. Не секрет, что кэширование, в особенности кэширование записи, сильно усложняет логику работы системы, а многоуровневое каскадное кэширование и double buffering еще и пагубно влияет на latency. Вся эта цепочка переливаний данных «из ведра в ведро», последовательно, во все более быстрое «ведро», конечно, на тот момент, было способом решения, но совсем не идеальным. Доступ к данным на flash все еще оставался на порядок медленнее тех скоростей, которые обеспечивал доступ к DDR DRAM (что убивало любую синхронность операций), плюс создавало множественные сложности с организацией доступа. Постепенно становится ясно, что flash, используемая как кэш к хранилищу данным, это не то, что может полностью раскрыть ее потенциал.

Стало видно, что назревает классическая «революционная ситуация», когда пользователи не хотят жить по-старому, а вендоры СХД — не могут жить по старому, и, что еще более важно, не имеют средств и желания это «по-старому» похоронить, просто потому, что СХД, как архитектура и концепция, используемая с flash и flash-подобными устройствами хранения, изжила себя. Для flash сегодня архитектура, при которой данные хранятся «где-то» в одной «кучке», которую мы целенаправленно держим вместе, раздавая множеству потребителей из одного места по одному (двум) проводам, это очевидная «гиря на ноге». Она существовала только потому, что скорость передачи по каналу SAN была заведомо, на порядки быстрее, чем производительность канала к данным на самом устройстве хранения, то есть к диску, и это позволяло загружать канал SAN, агрегируя в нем множество каналов к HDD. Сегодня, когда один SSD с достаточно пустяковой емкостью в состоянии полностью заполнить своим трафиком весь интерфейс от системы хранения к серверу, эта архитектура очевидно изжила себя.

Я не хочу сказать что СХД умрут вот прям завтра. В конце концов, даже уже давно и справедливо похороненный RAID 5 все еще где-то используется, вопреки всем мрачным прогнозам о его неминуемой смерти. Кому-то вполне хватит для его скромных задач дешевой полочки с 12 дисками SATA, подключенной по 4G FC. Такие пользователи есть, тысячи их.

Но если мы смотрим в будущее, и если нацеливаемся на максимумы производительности, которые может дать нам сегодняшняя технология, то СХД в этом будущем места нет. Они обречены угаснуть как угасают все старые и пережившие свой век технологии, как память на ферритах, или накопители на магнитной ленте, когда-то бывших символами «ЭВМ». Так и шкафы с моргающими рядами лампочек на стоящих рядочками жестких дисках последуют за ними. В будущем, если сохранятся нынешние тренды, а я не вижу, отчего бы им не сохраниться, СХД, как некоему отдельному устройству, где стоят все наши жесткие диски, отдающиеся потом по сети потребителям, этим устройствам в будущем места нет.
Единственный способ эффективно использовать новые методы хранить данные — хранить их максимально близко к CPU и RAM, в идеале — на той же шине, обеспечивая максимально короткий путь между «устройством хранения» и «устройством обработки» этих данных. И это именно то, чем сейчас занимается Nutanix и вся наша гиперконвергентная тусовка из десятка молодых вендоров.

Вот почему, как мне кажется, гиперконвергентность и AllFlash — «созданы друг для друга», и именно сюда, в направлении архитектурного объединения «дисков» и «CPU» будет расти индустрия систем хранения, если она рассчитывает в самом деле использовать все потенциальные возможности будущих устройств хранения, в особенности SSD и NVMe.

SSD на 3.8TB в Nutanix

С сегодняшнего дня у Nutanix появились доступные к заказу диски SSD емкостью 3.8TB (иногда их называют «4TB», но будем занудно-точными;). Это отличная новость, и, дайтобох, не последняя, потому что на горизонте уже диски SSD на 16TB (!), которые начал делать Samsung, и на которые уже облизывается весь дисковый энтерпрайз. Будут. Не сейчас, но скоро. А пока — новые диски, которые все более ясным делают поворот индустрии в целом, и Nutanix в частности, в сторону AllFlash систем. Уже сегодня AllFlash конфигурация у нас может быть совсем незначительно дороже, чем та же по объему дисков конфигурация но в гибридном виде, HDD+SSD, а плюсов довольно много.

Так что, если вы мыслите на перспективу хотя бы ближайших трех лет, мой совет присмотреться к AllFlash. В этой области в ближайший год пойдет очень серьезный прогресс.

UPD:
35 usable TB в 2U на 4 нодах в AllFlash!

2016-08-10_09-23-36

Поведение SSD в большой популяции, новое исследование

Я давно слежу за публикациями про поведение жестких дисков, и исследованиями о надежности хранения.
Один из виднейших исследователей этого направления, доктор Bianca Schroeder из университета Торонто, которая многие годы проводит исследования ситуации с поведением и надежностью жестких дисков. Ее группа недавно опубликовала на конференции FAST, материалы которой всегда являются mustread для всех, интересующихся темой хранения данных, работу о том, как ведут себя диски SSD в большой популяции крупного enterprise датацентра (на примере датацентров Google, с которыми у доктора Шредер давние и тесные связи, и которые предоставляют огромное поле для исследований).
Возможно раньше вы встречали ее же исследование, также проведенное совместно с Google, по надежности обычных жестких дисков (http://research.google.com/archive/disk_failures.pdf). Теперь пришла пора посмотреть и на SSD.

Результаты исследования крайне интересны, и, как и в случае исследования HDD, не всегда подтверждают «устоявшиеся убеждения».
Например, стало понятно, что на надежность SSD крайне мало влияет степень их использования (это та самая конечность ресурсов записи у flash, которой все так боятся), но влияет их возраст, впрочем, тот же самый вывод был сделан в 2007-м об обычных HDD, там также вероятность отказов не коррелировала с нагрузкой, но только с их возрастом.
Raw Bit Error Rate (RBER, исправимых в firmware ошибок) на SSD растет медленнее ожидаемого и не коррелирует с Uncorrectable Bit Error Rate (неисправимых диском, видимых пользователю).
В целом можно утверждать, что надежность SSD сравнялась с надежностью HDD. Отказы SSD происходят даже реже, чем у HDD, однако величина UBER несколько выше.

После анализа миллионов «драйво-часов» работы множества экземпляров 10 эксплуатируемых в датацентрах Google моделей SSD, трех разных типов SSD: SLC, MLC и eMLC разных лет выпуска (от 24 до 50nm техпроцесса) стало ясно, что, в подавляющем большинстве случаев, SSD даже в условиях нагруженного датацентра не превышают свой ресурс записи, и их отказы практически не связаны с этим параметром. Ни один из исследованных дисков (самым старшим было около 6 лет) не достиг своего лимита по ресурсу записи.

Также стало очевидно, что (значительно) более дорогие enterprise SLC не имеют более высокого уровня надежности (хотя бы эквивалентного их более высокой стоимости). Уровень надежности оказался сравним для всех участвующих в анализе SSD, вне зависимости от их типа и технологии.

Существование bad blocks — нормальная ситуация для SSD. На от 30 до 80% исследованных SSD (разброс величины для 10 исследованных моделей) возникал хотя бы один bad block за первые 4 года эксплуатации, и на от 2 до 7 процентов — целиком битый чип памяти. Однако возникновение сразу большой группы bad blocks — плохой признак, свидетельствующий о высокой вероятности дальнейшего выхода из строя чипа, или SSD целиком.

Подробнее и со всеми результатами, которые я выпустил за неимением места — в самой работе, ссылка на которую в сборнике материалов FAST’16 приведена выше.
Там же есть и другие интересные работы, например исследование, ясно показывающее (в первый раз это утверждалось в вышепроцитированной работе Шредер и Google о HDD, 2007 года), что высокая температура, вопреки распространенному мнению, сравнительно мало влияет на частоту отказов жестких дисков. А влияет, что интересно — влажность. То есть горячий и «сухой» датацентр по частоте отказов почти не отличался от «классического», холодного и сухого, а вот горячий и «влажный» DC, охлаждающийся с использованием freecooling, обычного уличного воздуха, показывал существенный рост отказов. Впрочем, тоже не катастрофический (AFR, Average Failure Rate дисков вырос в нем до 5,1% с обычных 1,5%).

Еще одно исследование на тему отказов и особенностей работы SSD и Flash, сделанное инженерами Facebook и специалистами Carnegie-Mellon University, и опубликованное в прошлом году, можно найти тут: http://users.ece.cmu.edu/~omutlu/pub/flash-memory-failures-in-the-field-at-facebook_sigmetrics15.pdf

Работа Nutanix CE с маленькими SSD

Хотел бы предостеречь некоторых наших пользователей, которые ставят Nutanix CE на системы с SSD крайне небольшого размера.
Не забывайте, пожалуйста, что на SSD определенное место (а на SSD небольшого размера в процентах оно весьма значительное) занимают данные самих служб CVM Nutanix.
Вот, например, что показывает наш веб-сервис designbrews.com, сколько места под данные останется на SSD размером 200GB, в «однонодовой» типичной конфигурации Nutanix CE:

Nutanix CE 200 GB SSD effective storage space

Всего 19 гигабайт места вам остается для хранения данных от ваших VM на SSD такого размера!

Вот почему сегодня минимальный размер SSD в наших самых младших системах серии NX-1000 — 480GB, причем в кластере таких нод — три.