Архив за месяц: Август 2016

История пользователя AllFlash VSAN на reddit

Очередная история про боль нашлась на reddit.
Помните, я уже находил такую, где кластер «лег» в процессе ребилда дисков. И саппорт все свалил на дисковый контроллер недостаточной производительности. При том, что до этого момента он вполне себе был в HCL (его убрали только после того случая, в очередной редакции HCL).

Вот новая история, очень похожая на ту. Тоже все было в HCL (до апгрейда на AllFlash, но после апгрейда, как оказалось, дисковый контроллер уже не годился для AllFlash). Диски SATA SSD, подтвержденно поддерживаемые VMware, и ставшие источником проблем. На этот раз в AllFlash конфигурации VSAN 6.2.
Очередной ответ на вопрос: «Почему бы вам просто не составить HCL, и не продавать Nutanix как софт? Пусть бы люди сами себе собирали сервера подешевле
Вот не работает это. Не работает.

Там же, снова, пользователь налетел всем лицом на resync после долгого отсутствия ноды к кластере (у них завис сервер на этапе перезагрузки, когда они с саппортом искали причины проблем, и они смогли его вручную перезапустить только через полтора часа его висения в «press F1 to continue», за это время в работающем кластере накопился большой объем несинканных записей).

Уже 18% систем Nutanix работает на Acropolis Hypervisor

Внутренние данные, которые озвучили сотрудники техподдержки. Уже 18% всех систем Nutanix, из тех, которые посылают репорты в нашей системе Pulse, работают с использованием нашего гипервизора AHV — Acropolis Hypervisor.
Очень неплохой результат, с учетом того, что гипервизор этот появился публично всего полтора года назад.
Полагаю, подавляющая часть этих 18% оттянута у vSphere. Впрочем, доля vSphere все еще остается очень большой. Доля Hyper-V составляет «менее 10%».

Nutanix работает на Cisco UCS!

Новость, про которую мы уж намекали-намекали прошедшие два месяца, все же состоялась.
Мы подписали соглашение с Cisco, по которому они интеграторы-партнеры Cisco начинают продавать Nutanix как ПО для своих серверов Nutanix UCS C (рэковых).

Cisco-ucs-c-240-m4sx

Итак, Nutanix работает на трех из Top-5 вендоров серверного железа. Dell и Lenovo продают нас как OEM, то есть создали собственный продукт с использованием нас как софта и своих серверов как железной платформы, а теперь и Cisco подтянулась. Правда Cisco это не OEM, это в чистом виде реселлер софта. Мы впервые договорились о варианте, когда мы продаем Nutanix в чистом виде как софт. То есть:

Если вы покупаете некоторые модели Cisco UCS C (в частности: C220-M4S, C240-M4L и C220-M4SX, и пока только на эти), в определенной, сертифицированной конфигурации, вы можете, как отдельную позицию, заказать и купить у реселлеров-партнеров Cisco по продукту UCS наш софт Nutanix, и установив (с их помощью) его на эти сервера-платформы, получить Nutanix на Cisco UCS!
Поддержка этому оказывается раздельно (это отличие от OEM-ов), по железу — в Cisco, по Nutanix — в Nutanix, кросс-вендорные случаи разбираются с использованием возможностей альянса TSA-Net, в котором состоим мы оба. В таких спорных случаях лучше обращаться в наш саппорт, как «входную точку».
Смешивать Cisco UCS C с Nutanix с другими кластерами на Nutanix (Nutanix NX, Dell XC, Lenovo HX) — нельзя, по крайней мере сейчас.
Лицензии, как обычно, per node. Нет Starter и Xpress, есть Pro и Ultimate (только эти две).
Cаппорт (в софтовой части), как и раньше, два уровня (production и mission critical), кванты покупаемой поддержки: год, три и пять лет.
Поддержка на Cisco UCS покупается отдельно у Cisco.

В целом история понятная, но есть несколько моментов, на которых мне хотелось бы особо остановиться:

Да, мы в самом деле продаем Nutanix как софт на сторонее для нас железо, не по OEM-соглашению.
Да, это работает на указанных серверах C-series, как в Standalone, так и в Managed Mode, под управлением Cisco UCS Manager.
Да, в Managed mode поддерживается использование FI — Fabric Interconnect (6248 и 6296).
Да, поддерживаются все три обычных гипервизора: ESXi, AHV и Hyper-V.
Да, в принципе, вы можете купить его без покупки серверов, указанных выше. Нежелательно ставит его на уже существующие сервера, за исключением случая, когда уже имеющиеся у вас сервера UCS C2xx в точности соответствуют нашей спеке.
Нет, оно не будет работать на других серверах Cisco или не Cisco (по крайней мере мы это не поддерживаем и не обещаем поддерживать в настоящий момент).
Нет, можно купить не у того же партнера, что продает вам сервера. У любого сертифицированного на продажу Cisco UCS.
Нет, пока это не customer-installable процесс, Nutanix ставит на железо авторизованный реселлер, либо «у себя», и вы получаете готовый к использованию бокс, либо у вас, в ходе обычной процедуры инсталляции приобретенного оборудования.

Подробнее можно почитать на странице http://www.nutanix.com/ucs/, и в Best Practice Guide там же.

SSD, AllFlash и гиперконвергенция

Несколько новостей этих летних месяцев заставили меня написать такой несколько визионерский текст, с которым, возможно, кто-то будет несогласен. Этим летом как-то врывообразно появилось множество публикаций, посвященных SSD, Flash, да и вообще новым технологиям хранения данных, «поднявшимся над горизонтом». Не секрет, что HDD, «жесткие диски», технология, история которой насчитывает уже 60 лет (!) сегодня довольно очевидно стагнирует. Она развивается несколько последних деятилетий уже просто раз в пару лет удваивая емкость, но ничего не добавляя существенно нового. Достаточно ясно, что сегодня HDD это такие «магнитные ленты», давно остановившаяся в своем развитии технология. Она в целом устраивает всех на своем месте, но уже не являнтся «острием прогресса», обреченная на постепенное проваливание в нишу, где когда-то и утонули «магнитные ленты». Развитие IT идет совсем в другом месте.

Все кто внимательно следят за тем, что происходит в отрасли видят, что сегодняшее острие прогресса — так называемые «твердотельные устройства хранеия». SSD стали уже бытовой повседневностью. Например, пока я писал эти строки, я понял, что у меня, в моем многочисленном домашнем IT-парке (2 десктопа, 3 ноутбука, AppleTV, домашний лаб-сервер, три RaspberryPie-подобных девайса) нет ни одного устройства без SSD, исключая стоящий на полке 4-дисковый NAS Synology где я храню фильмы, музыку и бэкапы. Конечно, не только SSD, не нужно забывать про новое направление использования Flash не в форме «эмуляции диска» (а именно это и есть SSD, по большому счету), но и как нативную память, в форме разнообразных NVMe, NVDIMM, и так далее, но SSD — в первую очередь.
Достаточно посмотреть на то, что все вендоры классических СХД сегодня выпустили свои AllFlash системы хранения, избавившись в них от HDD, и предложив пользователям невиданную ранее с обычными «блинами» производительность и latency.

AllFlash06

Но мне бы хотелось особо остановиться на моменте, который, как мне кажется, часто упускают из виду, говоря про AllFlash-системы хранения. Этот момент, как мне видится, чрезвычайно важен, в особенности для гиперконвергентных систем, таких, как наш Nutanix.

Возьмем, например, один из самых свежих образцов современных SSD, доступных на массовом рынке, SSD Samsung EVO 950Pro, в формате M.2, с поддержкой NVMe. Это один из самых производительных SSD, и давайте посмотрим, что это значит.
В техспеке для устройства, емкостью 512GB указаны показатели рандомного чтения (random read) блоками 4K при глубине очереди 32 (Q32) и 4 потоках ввода-вывода равные 300K IOPS. Измерения «реальной жизни», проведенные Storagereview.com для 4K aligned read, с использованием IOmeter по их методике, показывают примерно 200K IOPS для величины Outstanding IOs равной 64. Возьмем эту величину за основу.
200 тысяч IOPS рандомного чтения блоком 4Kбайт означают, что поток данных рандомного (!) чтения через интерфейс ввода-вывода с одного SSD емкостью 512GB равен:
200 000 * 4096 = 819 200 000 байт в секунду = 0,763 Gbyte/s = 6,1 Gbit/s
что означает, что один современный высокопроизводительный SSD для кастомерского рынка, при правильном его подключении и использовании, на рандомных операциях сегодня утилизирует полностью интерфейс SATA-3, или же половину SAS-3 (12Gbit/s). Два таких диска, с суммарной емкостью всего в 1TB, забьют собой канал SAS в 12 гигабит в секунду. И это — два диска, сегодня, без учета завтрашнего дня и перспектив NVMe.
Устройства NVMe с легкостью забьют трафиком канал 40G Ethernet.

А уж когда выйдет на рынок 3D Xpoint, который нам уже «вот-вот» обещают Intel с Micron, то ситуация с попыткой использовать сетевые системы хранения с новыми flash-подобными твердотельными устройствами хранения становится окончательно безнадежной.

Flash-vs-Network-Throughput

Нельзя сказать, что в индустрии этого не понимают. Да, уже с самого начала использования Flash, для хранения для решения этой проблемы что-то пытаются делать, прежде всего это попытка реализовать «многослойное кэширование», где одним из слоев был бы Flash, причем, часто, этот flash переносят поближе к серверу. Однако это все были полумеры. Не секрет, что кэширование, в особенности кэширование записи, сильно усложняет логику работы системы, а многоуровневое каскадное кэширование и double buffering еще и пагубно влияет на latency. Вся эта цепочка переливаний данных «из ведра в ведро», последовательно, во все более быстрое «ведро», конечно, на тот момент, было способом решения, но совсем не идеальным. Доступ к данным на flash все еще оставался на порядок медленнее тех скоростей, которые обеспечивал доступ к DDR DRAM (что убивало любую синхронность операций), плюс создавало множественные сложности с организацией доступа. Постепенно становится ясно, что flash, используемая как кэш к хранилищу данным, это не то, что может полностью раскрыть ее потенциал.

Стало видно, что назревает классическая «революционная ситуация», когда пользователи не хотят жить по-старому, а вендоры СХД — не могут жить по старому, и, что еще более важно, не имеют средств и желания это «по-старому» похоронить, просто потому, что СХД, как архитектура и концепция, используемая с flash и flash-подобными устройствами хранения, изжила себя. Для flash сегодня архитектура, при которой данные хранятся «где-то» в одной «кучке», которую мы целенаправленно держим вместе, раздавая множеству потребителей из одного места по одному (двум) проводам, это очевидная «гиря на ноге». Она существовала только потому, что скорость передачи по каналу SAN была заведомо, на порядки быстрее, чем производительность канала к данным на самом устройстве хранения, то есть к диску, и это позволяло загружать канал SAN, агрегируя в нем множество каналов к HDD. Сегодня, когда один SSD с достаточно пустяковой емкостью в состоянии полностью заполнить своим трафиком весь интерфейс от системы хранения к серверу, эта архитектура очевидно изжила себя.

Я не хочу сказать что СХД умрут вот прям завтра. В конце концов, даже уже давно и справедливо похороненный RAID 5 все еще где-то используется, вопреки всем мрачным прогнозам о его неминуемой смерти. Кому-то вполне хватит для его скромных задач дешевой полочки с 12 дисками SATA, подключенной по 4G FC. Такие пользователи есть, тысячи их.

Но если мы смотрим в будущее, и если нацеливаемся на максимумы производительности, которые может дать нам сегодняшняя технология, то СХД в этом будущем места нет. Они обречены угаснуть как угасают все старые и пережившие свой век технологии, как память на ферритах, или накопители на магнитной ленте, когда-то бывших символами «ЭВМ». Так и шкафы с моргающими рядами лампочек на стоящих рядочками жестких дисках последуют за ними. В будущем, если сохранятся нынешние тренды, а я не вижу, отчего бы им не сохраниться, СХД, как некоему отдельному устройству, где стоят все наши жесткие диски, отдающиеся потом по сети потребителям, этим устройствам в будущем места нет.
Единственный способ эффективно использовать новые методы хранить данные — хранить их максимально близко к CPU и RAM, в идеале — на той же шине, обеспечивая максимально короткий путь между «устройством хранения» и «устройством обработки» этих данных. И это именно то, чем сейчас занимается Nutanix и вся наша гиперконвергентная тусовка из десятка молодых вендоров.

Вот почему, как мне кажется, гиперконвергентность и AllFlash — «созданы друг для друга», и именно сюда, в направлении архитектурного объединения «дисков» и «CPU» будет расти индустрия систем хранения, если она рассчитывает в самом деле использовать все потенциальные возможности будущих устройств хранения, в особенности SSD и NVMe.

SSD на 3.8TB в Nutanix

С сегодняшнего дня у Nutanix появились доступные к заказу диски SSD емкостью 3.8TB (иногда их называют «4TB», но будем занудно-точными;). Это отличная новость, и, дайтобох, не последняя, потому что на горизонте уже диски SSD на 16TB (!), которые начал делать Samsung, и на которые уже облизывается весь дисковый энтерпрайз. Будут. Не сейчас, но скоро. А пока — новые диски, которые все более ясным делают поворот индустрии в целом, и Nutanix в частности, в сторону AllFlash систем. Уже сегодня AllFlash конфигурация у нас может быть совсем незначительно дороже, чем та же по объему дисков конфигурация но в гибридном виде, HDD+SSD, а плюсов довольно много.

Так что, если вы мыслите на перспективу хотя бы ближайших трех лет, мой совет присмотреться к AllFlash. В этой области в ближайший год пойдет очень серьезный прогресс.

UPD:
35 usable TB в 2U на 4 нодах в AllFlash!

2016-08-10_09-23-36

Самодельная лаба на базе Intel NUC под Nutanix CE

Сообщество вот уже несколько месяцев обсуждает варианты сделать оптимальную платформу для того, чтобы покрутить Nutanix CE.
Конечно, всегда есть соблазн сколхозить что-то «из говна и палок», то есть из всякого подручного сисадминского шита. Но вряд ли это будет хорошо работать.
Одной из, на мой взгляд, оптимальных, является сборка с использованием платформы Intel NUC, barebone компьютера, позволяющего сделать достаточно мощный и пригодный для CE аппаратный сетап. Это компактный корпус, с процессором i7, возможностью установки в него памяти DDR4 и двух SSD формата M.2, в том числе с поддержкой NVMe (в настоящее время Nutanix не поддерживает NVMe, но, вероятно, мы будем ее поддерживать в следующем году).
Давайте посчитаем, во что такая лаба нам обойдется, будучи собранной «с нуля» в ценах Amazon.com.

1235iD4F4D63EF60DAD1E

Сама платформа, которая называется целиком: Intel NUC Kit NUC6i7KYK Mini PC BOXNUC6I7KYK1 — 624$
В состав платформы включен CPU i7-6770HQ (4 физических ядра, 45W, up to 3,5GHz), но не включена память и SSD.

1237i67BCD7E749028978

Добавим сюда 32GB DDR4 DRAM в виде кита из двух 16GB SODIMM: Crucial 32GB Kit (16GBx2) DDR4 2133 MT/s (PC4-17000) SODIMM 260-Pin Memory — CT2K16G4SFD8213 — 114$

В Intel NUC нет места для HDD, зато есть два слота для SSD M.2. Для CE нам обязательно нужно два дисковых устройства, причем одно должно быть SSD. Поэтому возьмем оба устройства SSD, и сделаем AllFlash!
Минимальная конфигурация по SSD у нас — 200GB, но не рассчитывайте, что минимальная конфигурация будет работать больше, чем просто «заведется». Если вы посмотрите на доступную емкость SSD ноды с одним SSD емкостью 200GB, вы увидите из этих 200GB доступными вам неутешительные 19GB от всего объема SSD. Дело в том, что значительную, на таком маленьком объеме, часть SSD займет внутренняя информация Nutanix как системы, это база метаданных в Cassandra, данные Curator, /home и кэши. На бОльшем диске эти служебные объемы будут не так заметны. Так что с SSD объемом 200GB все даже заведется. Но не более. Так что не будем экономить на SSD, раз уж мы собираем лабу «для удовольствия» при работе.
Возьмем два SSD формата M.2, например: Sandisk X400 Solid State Drive — Internal (SD8SN8U-512G-1122) — 142$ за каждый, итого — 284$.

Теперь — все. Просуммируем: 624 + 114 + 284 = 1021$.
Набросим долларов 20-25 на доставку этого хабара с Amazon в Россию через какого-нибудь мэйлфорвардера, и мы даже остались в подлимитной беспошлинной сумме в 1000 EUR.

Итого, за чуть больше 1000$ мы получаем AllFlash-платформу с четырехядерным CPU на 3,5GHz, и 32GB RAM, под Nutanix CE. Довольно неплохо для старта.

В статье http://tfindelkind.com/2016/06/17/intel-nuc-nuc6i7kyk-installation-nutanix-community-edition-ce-part1/ автор подробно рассматривает сборку и установку подобной платформы под CE.

Но что делать, если хочется собрать что-то не AllFlash, с дисками HDD и побольше, и, возможно, «для работы»? Разберем и этот вариант в следующем посте.

UPD: пост опубликован в нашем блоге на Хабре: Бюджетный «датацентр» на Nutanix CE