Архив метки: vsan

История пользователя AllFlash VSAN на reddit

Очередная история про боль нашлась на reddit.
Помните, я уже находил такую, где кластер «лег» в процессе ребилда дисков. И саппорт все свалил на дисковый контроллер недостаточной производительности. При том, что до этого момента он вполне себе был в HCL (его убрали только после того случая, в очередной редакции HCL).

Вот новая история, очень похожая на ту. Тоже все было в HCL (до апгрейда на AllFlash, но после апгрейда, как оказалось, дисковый контроллер уже не годился для AllFlash). Диски SATA SSD, подтвержденно поддерживаемые VMware, и ставшие источником проблем. На этот раз в AllFlash конфигурации VSAN 6.2.
Очередной ответ на вопрос: «Почему бы вам просто не составить HCL, и не продавать Nutanix как софт? Пусть бы люди сами себе собирали сервера подешевле
Вот не работает это. Не работает.

Там же, снова, пользователь налетел всем лицом на resync после долгого отсутствия ноды к кластере (у них завис сервер на этапе перезагрузки, когда они с саппортом искали причины проблем, и они смогли его вручную перезапустить только через полтора часа его висения в «press F1 to continue», за это время в работающем кластере накопился большой объем несинканных записей).

Что бы вы хотели знать о VSAN и EMC VxRail (но не догадывались спросить;)

9cff0216a1cc4461ab6f6de87b15af37[1]

В связи с выходом новых продуктов на VSAN — EMC VxRail, маркетинговая машина EMC запустилась, и начала свою работу по продвижению нового продукта семейства EVO:Rail. Новостей о «новом революционном продукте от изобретателей гиперконвергенции» будет много по всем каналам, как у EMC и заведено. Тем не менее для нас, технарей, важно сохранять трезвый взгляд, и знать не только о достоинствах, но и недостатках продукта, в конце концов CIO отрапортуют на chairman’s board о внедрении и пойдут пить свои коктейли, а нам с этим всем жить.
Поэтому я бы хотел остановиться на некоторых моментах VSAN/VxRail, о которых как-то не слишком говорят в презентации продукта.
Поэтому я и написал нижеследующий пост.

Я уже упоминал это, но обратил внимание, что часто этот факт как-то минует сознание многих.
Есть VSAN 1.0, который работает на vSphere 5.5. Он имеет кучу недостатков, о которых я писал раньше в этом блоге. VMware провела большую работу над ошибками, и выпустила следующую версию, которая стала сразу называться «VSAN 6.0». Однако так как VSAN это модуль ядра, то VSAN 6.0 нельзя поставить на vSphere 5.5. Вам придется обновиться на vSphere 6.0. Все бы ничего, но, к сожалению, качество релиза vSphere 6 «оставляет желать». Многие компании продолжают сидеть на 5.5 + Updates, в ожидании, пока 6.0 стабилизируется. Но если вы не готовы мириться с многочисленными проблемами vSphere 6.0, и при этом нуждаетесь в VSAN, то единственный выход для вас — VSAN 1.0, со всеми ее проблемами.

Если в вашей системе VSAN выходит из строя SSD, то это ведет к прекращению работы всей дисковой группы, в которую входит этот SSD.

Добавить еще SSD в систему можно только в создаваемую новую disk group.

Если disk latency для HDD вырастает, по каким-то причинам, до 50ms, то этот диск выводится из дисковой группы, так как считается неисправным. Если по каким-то причинам для операций ввода-вывода на SSD также вырастает latency до 50ms, то он также выводится из дисковой группы, но при этом, см. выше, прекращает работу вся дисковая группа! Это поправлено в VSAN 6.2, но, например, EMC VxRail — это сейчас VSAN 6.1!

В VSAN отсутствует поддержка VCAI (View Composer API for Array Integration), что может стать проблемой с производительностью при развертывании большого числа VDI-десктопов разом.

Соотношение 70/30 для Read/Write операций в VSAN Cache не изменяемо. Это также может быть проблемой для ряда нагрузок, отличающихся от типичных (пример — VDI, где в типичной среде записей происходит больше, чем чтений).

Максимальный размер Write buffer — 600GB. Остальное место, если оно есть на SSD (сегодня есть SSD уже и 1,2TB), как я понимаю, просто не используется?

По-прежнему используется крайне спорное решение, когда при выходе из строя ноды кластера VSAN система ожидает его возвращения в строй 60 минут (целый час!), и только потом начинает процедуры ребилда информации и состояния системы. Если в течение этого часа для системы с FTT=1 происходит отказ в еще одной ноде, то, как я понимаю, все становится очень плохо.

Дедупликация, компрессия, а также Erasure coding доступно ТОЛЬКО на All-Flash системах, и недоступны на Hybrid-конфигурациях (SSD+HDD).

Официально поддержка SAP Core появилась только в VSAN 6.2, см выше про VxRail, а Oracle RAC и Windows Clustering — только с VSAN 6.1.

Я стараюсь писать это в каждом competitive-посте, напишу и тут: Я не являюсь глубоким специалистом в продуктах VMware. Если вы видите тут какое-то утверждение, которое не соответствует действительности, и готовы со ссылками на документацию указать мне на это, то напишите в комментариях, я откорректирую пост. Я стремлюсь к тому, чтобы вся информация в этом блоге была максимально достоверной и качественной.

UPD: Заходите в комментарии, там тоже есть много интересного. Я рад, что мое замечание о намерении избежать FUD-а и оперировать фактами было замечено, очень часто комментарии к подобным статьям не менее важны и содержательны, чем сам пост. Как только я разберусь с приведенными контраргументами, я обновлю пост там, где это он заслуживает.

VSAN и его работа при node fault может вас неприятно удивить.

Прекрасная во всех отношениях история нашлась на reddit.
С чего все началось: «My VSAN Nightmare»
И чем все закончилось: «Root cause analysis»

В двух словах:
Человек сделал из нескольких своих серверов Dell ноды VSAN, и все было прекрасно, пока однажды одна из нод не упала (PSOD из-за ошибки в DIMM памяти на сервере). Когда ее заменили несколькими днями спустя, и вернули ноду в строй, добавив заодно в нее дисков, через час после ее включения обратно, легла на этот раз ВСЯ система, прямо во время работы.
Какое-то время было потрачено на разбирательство, была подключена поддержка вендора, и все закончилось ответом из техподдержки VMware, привожу его в сокращении и с переводом.

«The RAID controllers that were being used in your environment are the H310s. While this controller is fully functional, it offers very low IO throughput. In particular, its very low queue depth (25) means that it can’t support moderate-to-high IO rates.
While this controller was certified and is in our Hardware Compatibility List, its use means that your VSAN cluster was unable to cope with both a rebuild activity and running production workloads. While VSAN will throttle back rebuild activity if needed, it will insist on minimum progress, as the user is exposed to the possibility of another error while unprotected. This minimum rebuild rate saturated the majority of resources in your IO controller. Once the IO controller was saturated, VSAN first throttled the rebuild, and — when that was not successful — began to throttle production workloads. »

Вы используете в вашей системе RAID контроллер H310s. Хотя это контроллер полностью работоспособен, его производительность на вводе-выводе очень низкая. Кроме этого, у него очень маленькая длина очереди ввода-вывода (25), означающая, что он не может обрабатывать нагрузки уровня от средних до высоких.
Хотя этот контроллер был сертифицирован и находится в нашем Hardware Compatibility List, при его использовании ваш кластер VSAN не смог одновременно обработать трафик ребилда и вашу рабочую нагрузку системы. Хотя VSAN, когда это возможно, и стремится ограничить объем операций по ребилду, для этой задачи требуется хотя бы минимальный прогресс, так как пользователь может столкнуться с новым отказом в то время, пока он остается незащищен (ребилд незакончен). Этот минимум нагрузки ребилда съел большую часть ресурсов ввода-вывода вашего контроллера. Когда контроллер оказался загружен, VSAN сначала ограничила трафик ребилда, а затем, когда это не достигло результата, начала ограничивать рабочий трафик системы.

Какой полезный урок мы можем извлечь из этой истории? Ну, во-первых, стоит отметить, что не всегда присутствие в HCL означает работоспособность. Мне постоянно приходится отвечать на вопрос: «Если вы софтверная компания, то почему вы продаете продукт вместе с платформой, не проще дать HCL и пусть пользователь соберет», вот, не проще, ничуть.
Во-вторых, конечно, история с тем, что трафик ребилда в VSAN настолько большой, что, при использовании некоторых, включенных в HCL контроллеров, нормально работающих в штатной ситуации, может убить «кластер» (не только эту ноду, но вообще весь кластер, Карл!) это, вообще, отлично.
В третьих, это повод получше изучить схему работы VSAN при отказе ноды и ее ребилде, при котором у VSAN создается ТАКОЙ трафик. Пользуясь случаем, скажу, что ничего подобного у Nutanix при «ребилде» нет. Но про это я напишу следующий пост.

Nutanix или VMware VSAN? Критерии выбора

mortal-kombat-2011

Когда мне приходится рассказывать про Nutanix интересующимся пользователям, в разговоре обязательно, рано или поздно всплывает вопрос: «А чем Nutanix лучше, чем VMware VSAN?»
Так уж исторически получилось, что именно VSAN в России является, по моим наблюдениям, основным конкурентом Nutanix. Это, кстати, не так в мире, но в России, в первую очередь из-за долгого периода бесплатной «беты» у VSAN — так.
И вот какие, как мне кажется, у VSAN недостатки, в порядке субъективной их важности.

1. VMware
Это VMware, и больше ничего. Для меня это один из самых значимых минусов, но многие, возможно, с недоумением спросят: В чем же здесь минус, лидер рынка, и все такое? Откровенно говоря, меня, да и не только меня, напрягает любой «вендорлок», насколько бы ни был «лидером рынка» его вам навязавший.
Я в жизни видал достаточно компаний, которые начиная с красивых поступков и прочего don’t be evil, и становясь фактическими монополистами, сильно меняли свое отношение к своим пользователям.
Помните же шутку про «да куда он денется с подводной лодки?» И в случае вендролока эта шутка — про вас.
Потому что на этой «подводной лодке» сейчас — вы. И плывете на ней следующие три, пять, а может и больше лет. Поэтому выбор продукта, которое сразу и существенно замыкает вас на одного единственного разработчика решений мне кажется сегодня поступком неосмотрительным.
Вот почему это — первый мой аргумент против VSAN.

2. vSphere 6.0
Если вы следите за моими постами про VSAN, то помните, что VSAN 5 имел множество весьма существенных недостатков. Часть из них была поправлена в VSAN 6. И, казалось бы, выбор VSAN 6 сегодня — естественнен. Но, вам следует помнить, что для использования VSAN 6 вы должны также использовать VMware vSphere 6. Нельзя использовать VSAN 6 на, например, vSphere 5.5U2. Однако не все готовы, или могут, прямо вот так, сейчас, перейти на новую vSphere. Тут и вопросы совместимости, и факт того, что из HCL vSphere 6 пропало множество популярных систем, да и просто, для многих компаний такое обновление затратно по времени и усилиям. Но — если вы не хотите мириться с многочисленными недостатками VSAN 5 — готовьтесь к переходу на vSphere 6, и никак иначе.

3. Функциональная бедность
VSAN использует network RAID (а не распределенное хранение, как у Nutanix), со всеми присущими ему минусами. В нем нет встроенной компрессии, дедупликации; Он использует SSD как кэш, а не как storage tier (это значит, что емкость SSD не прибавляется к емкости хранения HDD, и не увеличивает ее, как увеличивает тиринг у Nutanix). Там отсутствует поддержка VAAI, Shadow Clones, меньше эффективная емкость SSD (всего 600GB write buffer максимум). Снэпшоты по-прежнему приводят к существенному (меньшему, чем в v5, но все равно весьма заметному) падению производительности. Также явно плохо реализована изоляция задач (проблема «шумного соседа») в рамках одного кластера, ресурсоемкая задача может сильно повлиять на работу других VM того же кластера.

4. Доступ к данным через сеть/отсутствие Data Locality
Важная особенность VSAN в том, что доступ к данным штатным образом осуществлятся через 10G сеть. Данные пишутся и читаются через сеть и коммутатор в нормальном, рабочем режиме (а не только при нештатной недоступности данных локально, как у Nutanix), что может вести к повышенному времени задержек и перегрузке «межнодовой» 10G-магистрали, а также меньшей надежности.

5. Ограниченный набор моделей у EVO:RAIL
До сентября доступна всего одна модель EVO:RAIL, бедная как по мощности (примерно соответствует 1000-й серии Nutanix предыдущего поколения), так и по возможностям, к тому же для EVO:RAIL доступен только VSAN 5.0, а 6.0 поступает к партнерам только через 180 дней после релиза.
Вы, возможно, скажете: что нам тут в России тот EVO:RAIL, мы соберем сами, что захотим, и поставим на самосбор vSphere/VSAN. Все так. Но поддержка такой конструкции будет совсем не та, что предлагается у EVO:RAIL, равно как и у Nutanix.
О стоимости самосбора, впрочем, стоит поговорить отдельно, в специальном посте.

6. Не рекомендован вендором под Primary Data
Хотите — верьте, хотите — нет, но VMware VSAN not recommended for primary workload. Primary workloiad это весь business-critical, это «боевые» базы данных, электронный документооборот и почта, все критически-важные для компании сервисы. Да, кроме primary workload у компаний есть еще много чего повиртуализировать. Тут и весь Test/Dev, вспомогательные и инфраструктурные задачи. Но все же странно брать продукт, в котором для primary data не уверен сам производитель? Отсутствие поддержки не означает, что это не работает, согласен, есть достаточно примеров, когда это не поддерживается производителем, но у многих нормально работает. Это озачает, что сама VMware для таких задач VSAN не рекомендует, и, в случае чего, откажется искать ответ, когда вы придете со своим «как-то у меня это странно работает». И это определенный риск.
Это существенная разница с Nutanix, который не просто работает и поддерживается, но и прямо рекомендуется на разнообразные задачи, которые можно называть Primary Data, для бизнес-критичных и ответственных задач. У нас есть практика крупных OLTP-баз данных на наших системах, реализации SAP на Oracle, на Nutanix, системы Nutanix широко используется в банках и госсекторе, и прочее подобное. И у нас это поддерживается.

Таким образом, как вы видите, «с моей колокольни» у VSAN хватает минусов. Являются ли они минусами и для вас — решать вам. Но моя задача состоит в том, чтобы вы «на берегу» ясно представляли, что идеальных решений нет, и, несмотря на мощную маркетинговую поддержку, у VSAN есть свои «тараканы». Помните про них, принимая решение.

X vs. Y: VSAN 6.0. Что нового?

Я уже писал в этом блоге подробный разбор того, чем Nutanix отличается от VSAN (EVO:RAIL), однако там речь шла о VSAN 5.0. В версии 6.0 было многое поправлено и изменено, но все ли? Этим мы сегодня и займемся.
Читать далее

X vs. Y: Nutanix и VMware EVO:RAIL

Несколькими постами ранее я начал серию обзоров конкурентов Nutanix, с подробными разбором «кто есть кто», и что конкуренты предлагают в сравнении с продуктами Nutanix, и начал я с SimpliVity OmniCube.

Продолжим наше исследование ландшафта рынка гиперконвергентных систем, и представленных на нем продуктов. Следующим заметным игроком на нем является VMware со своим уже хорошо известным VSAN, и недавно объявленным новым «хардварным апплаенсом» на его базе — EVO:RAIL.
Давайте посмотрим, что интересного предлагает Vmware, и как они смотрятся в сравнении с Nutanix.
Для начала несколько слов, что же такое EVO:RAIL, и чем он отличается от VSAN, продукта уже, в общем, известного пользователям.

SYS-2027PR-HTR_25[1]

Читать далее

Цены на VMware VSAN — возвращаясь к напечатанному

После небольшого перерыва, вызванного обострением личной жизни дорогой редакции данного блога :), возвращаемся к нашей тематике.
Как и предсказывалось, этой весной VMware зарелизила свое решение VSAN, о котором я уже писал несколько раньше, рассматривая вопрос, является ли VSAN конкурентом Nutanix.
А сегодня мы, наконец, можем сравнить эти решения еще и с точки зрения затрат на их покупку, ведь до сих пор VSAN была бесплатной «бетой», а сейчас это уже полноценный продукт, стоящий денег.
И немалых, как выяснилось после релиза.
Работающие с VMware уже знают, что лицензионная политика и ценообразование у лидера рынка довольно жесткие.
Прочитать подробный разбор «во что обойдется праздник жизни» можно в блоге VMGU.ru тут: http://www.vmgu.ru/news/vmware-virtual-san-vsan-pricing

Да, конечно, это все равно существенно дешевле, чем Nutanix Box, но, снова отсылаю вас к разбору прошлого поста, это и решения совсем для разных сегментов, и «убить» Nutanix VSAN сможет только в довольно узком сегменте low-end. Да и то, в связи с выходом софтверного нутаникса в скором времени — даже это остается вопросом. Но, тсс, ждем официальных новостей и анонсов.

Nutanix и VMware vSAN: есть ли конкуренция?

Одним из самых часто встречающихся утверждений, касательно конкурентов Nutanix, является мнение, что с выходом в свет VMware vSAN, технологии, позволяющей строить «виртуальный SAN-сторадж» из дисков, размещенных локально, в хост-серверах, «у Nutanix нет будущего». Мол, придет VMware, и всей своей чудовищной мощью все «вынесет». История про «нечто, убийцу чего-то» повторяется уже так часто, что, как мне кажется, должна считаться дурным тоном. Однако люди, всерьез уверенные, что на рынке может существовать только одна модель смартфона, планшета, гипервизора виртуализации или кластерной конвергентной системы не переводятся.
Давайте же подробнее посмотрим, где и как именно собирается конкурировать Nutanix с «убийцей Nutanix».

Если вы все же проберетесь глубже общего маркетингового шума, и трезвым взглядом посмотрите на ситуацию, вы, как и я, возможно, поразитесь тому, на каком, в сущности, пустом месте этот шум создан.

Во-первых, стоит отметить, что VMware vSAN это решение, существующее только под одну платформу и один гипервизор — VMware vSphere, так как использует возможности ядра ESXi 5.5. Напротив, Nutanix — это «hypervisor-agnostic» система, используя ее, вы не привязываетесь к какому-то одному вендору гипервизоров, сколь бы хорош он ни был сам по себе. vSphere — прекрасный продукт, сам по себе. Но многие его особенности, например в области лицензирования, могут вас, по меньшей мере удивить. А для больших систем, такие удивления могут довольно дорого обойтись вашей компании. История с ограничениями на vRAM, так хорошо помогшая продвижению MS Hyper-V на рынок, совсем свежа в памяти.
Еще два-три года назад, для мощной enterprise-class системы виртуализации просто не было выбора, был лишь один вендор, предлагавший гипервизор с достаточным уровнем фич. Сегодня это не так. Стремительно растет доля MS Hyper-V, версия 3 которой уже успела захватить довольно существенную долю рынка, и зарекомендовала у ее использующих себя очень хорошо. Слегка отстает KVM, который, будучи крайне быстр и производителен сам по себе, что подтверждают результаты бенчмарков, долго страдал от отсутствия достойного инструментария управления. Тем не менее, в настоящий момент идет довольно активный передел долей рынка, вполне возможно, что в этом захочет участвовать, выбором системы виртуализации, и ваша компания. Завязываться в этой ситуации на решение, вендорлочащее вас на систему одного производителя — не слишком дальновидно.

Во-вторых, следует понимать, что VMware vSAN и Nutanix Complete Cluster это все же системы несравнимого порядка. Размер кластера vSAN ограничен в размерах, и эти ограничения даже менее размеров кластера VMware, в vSAN может быть всего 8 хостов. Пруф на масштабируемость VMware продемонстрировала всего на 7 хостов. Но Nutanix-то может держать кластер в по меньшей мере 48 узлов, и это совершенно несравнимые масштабы и области рынка. VMware vSAN это, несмотря на то, что это отрицает сама VMware, есть попытка «перезапуска» не слишком удачного VSA — Virtual Storage Appliance, поэтому она и ориентирована скорее на Low-Enterprise, где ее ограничения вполне разумно-достаточны. Но для Nutanix это лишь самое «дно», самый «дешевый конец» их рынка! И если вашим задачам удовлетворяет vSAN — пользуйтесь, но это сравнение велосипеда и карьерного самосвала. Достаточно велосипеда — отлично, наслаждайтесь. Но их этого ничуть не следует, что должны немедленно начать беспокоиться и готовиться к банкротству производители самосвалов. Покупатели на самосвалы найдутся, и производители велосипедов их ну никак у самосвалов не отобьют!

Но почему бы VMware не начать развивать vSAN в полноценное, широкомасштабное решение, которое сможет «вынести» однажды из отрасли классические сетевые стораджи и классический SAN, и стать «вторым», или даже «первым» Nutanix-ом? И вот тут появляется «в третьих».
В третьих, следует помнить, кому принадлежит компания VMware. А принадлежит она — крупнейшему в отрасли производителю «классических» систем хранения. продажи которого в области решений виртуализации есть весьма значительная доля их общих продаж, и который, я уверен, не будет в восторге от идеи создать в подконтрольной компании решение, позволяющее в перспективе прекратить, или существенно снизить продажи их систем хранения на рынке виртуализации.
У меня нет в данном случае пруфов, но с точки зрения банальной логики мне кажется, что эта мысль лежит на поверхности. Ограничения в vSAN останутся, и будут для VMware иметь не столько технические, сколько «политические» причины. И вот их-то преодолеть будет, как показывает мой опыт, куда сложнее.

Таким образом, когда VMware Virtual SAN выйдет из своей затянувшейся «беты», она, безусловно, займет какую-то долю рынка. Но вряд ли это будет существенная дола рынка самого Nutanix, скорее всего это будут небольшого масштаба, вспомогательные решения, типа Test/Dev и системы в небольших компаниях, которым все перечисленные ограничения не будут важны. Вряд ли вы увидим переход как с полномасштабных классических SAN-стораджей, так и с систем Nutanix, активно продающихся уже сейчас. Так что, как мне кажется, говорить о VMware Virtual SAN, как об «убийце Nutanix» будет несколько преждевременно и недальновидно.