Архив рубрики: techtalk

Как это работает?

Почему SSD на СХД «классике» такие медленные?

Вот что пишет, например, HPE в своем официальном гайде по сайзингу HPE 3Par в отношении SSD:

На странице 11 написано:

1100 IOPS с диска 480GB MLC и 4000 IOPS для дисков 1920 и 3840GB ?!! Да, это официальный гайдлайн для сайзинга 2-Tier storage SSD+FC.
При этом знаете, сколько эти «SSD на 4000 IOPS» в листе у HPE стоят?

Ну, ОК, допустим в стритпрайсе эти диски не 26 тысяч долларов, существенно меньше. Может даже на 80% дешевле. ;)

Но как вы думаете, сколько этот же диск дает IOPS, по спекам вендора, то есть, будучи вставленным в обычный тестовый сервер, как локальный диск?

Вот диски, которые мы используем у себя в Nutanix, это популярная «серверная», энтерпрайзная серия Samsung SM863A, с высокими показателями надежности при большом трафике записи. Официальный сайт говорит следующее:

28 тысяч на запись блоками 4K, и 95 тысяч — чтения.

Куда делась разница?
Съелсь в latency.

Длинный путь блока, от приложения в OS, в буфера, в HBA, в буфера коммутатора, в кэш OS СХД, на диски, а, затем, в обратный путь, не позволяет приложению продолжать ввод-вывод со скоростью, которую мог бы обеспечить SSD, будь он «поближе» к серверу.

Но все меняется в случае архитектуры HCI, где диск расположен локально к процессору, где путь к данным от приложения в памяти сервера до дисков гораздо короче.

Это как раз то, что дает нам возможност показывать вот такие результаты:

Два с половиной миллиона IOPS на random read блоком 8K, используемым на нашей файловой системе DSF, при median latency менее 1ms.
На скриншоте — недавно установленный у заказчика 18-узловой кластер. Таким образом средняя производительность ОДНОГО сервера-ноды (с парой SSD включенных локально) в данном кластере 2 500 000 / 18 = 139 000 IOPS random read 8K, при тестовом datasize 12GB, то есть, в среднем, 69 500 IOPS с каждого SSD.

Как мне кажется, более чем убедительная иллюстрация, насколько важна архитектура HCI с новыми быстрыми flash-дисками. Старая, «классическая» архитектура просто не в состоянии дать им показать все, на что они потенциально способны. Устанавливая SSD в «классику» мы, по сути, хороним большую часть их потенциальной производительности.
Именно HCI потенциально способен дать SSD и NVMe шанс показать их скорость.

Nutanix Flow — микросегментация виртуальной сети

Микросегментация — это, наряду с другим нашим ключевым продуктом, облачным оркестратором Nutanix Calm, одна из наиболее важных новинок в вышедшем в конце декабря релизе AOS 5.5 (codename Obelix).
Так как Microsegmentation слишком длинное имя для коммерческого продукта, как продукт данная технология будет носить имя Nutanix Flow.

В релизе 5.5 мы, как это у нас принято, представили Tech Preview, своеобразную «гамма»-версию для ознакомления в тестовой среде, а в следующем обновлении, выходящем в конце февраля-марте, и называющемся 5.5.1, микросегментация будет объявлена финальным, «продакшн-реди» релизом, готовым к использованию.

Nutanix Microsegmentation (Flow) можно рассматривать как своеобразный встроенный в систему виртуализации AHV распределенный файрволл виртуальных машин, защищающий виртуальные машины внутри «облака» инфраструктуры.
Вместо привычной схемы, когда внешним файрволлом защищается «периметр» облака, но при этом, как правило, внутри облака сетевая защита обычно либо довольно примитивна, либо вовсе не используется, и «зловред», попавший внутрь облачного пространства имеет все возможности «гулять по буфету» среди слабозащищенных VM и перехватывать любой трафик, в Nutanix предлагают использовать защиту не только периметра инфраструктуры, но всей инфраструктуры, каждой виртуальной машины, причем эта защита встроенная, легко конфигурируема с помощью групп VM и назначаемых политик, не использующая механизма оверлейных сетей, типа VXLAN, и не требующая перенастройки сетевого оборудования.

Возможно вы возразите, что, при необходимости, изоляцию групп VM можно реализовать с помощью механизмов VLAN. Однако, сетевики не дадут соврать, для инфраструктур даже в несколько десятков VM, конфигурирование, а также поддержание в случае нормальной жизни фермы хостов виртуализации, сложной схемы десятков сегментов VLAN-ов скоро превращается в серьезную головную боль. А что говорить не о десятках, а сотнях, тысячах виртуальных машин, мигрирующих между десятками хостов виртуализации датацентра, в зависимости от их загрузки, или даже перемещающихся между датацентрами!
Сегодня в крупном бизнесе, не только хостинговом, это уже реальность.

Было бы здорово, если бы можно было привязывать сегмент сети не на уровне внешнего коммутатора, а применяя политику в конкретной VM в среде виртуализации! И, разумеется, такие решения начали появляться. Наиболее известным таким решением является VMware NSX, который, несмотря на свою высокую цену и сложность, нашел себя на рынке, хотя, безусловно, сложность реализации, как и цена, затрудняют его широкое использование.
Nutanix в этой области, как и с нашим гипервизором AHV, пошел путем, когда реализуется наиболее востребованная функциональность в первую очередь, и не ставится задача сделать «швейцарский нож» (который обычно, давайте начистоту, как нож — никакой). Именно поэтому, поглядев на то, какая функциональность NSX пользователями виртуальных сред, используется более всего, мы начали делать свой «энэсикс» с поэтессами.

Итак, Nutanix Flow — это наша собственная реализация концепции микросегментации для нашего гипервизора AHV, и пока только для него. Если вы используете в качестве гипервизора на Nutanix vSphere — для вас есть NSX. Мы хотели бы реализовать Flow для vSphere, но пока это планы не ближайшего будущего.

Так как Flow — полностью софтверная реализация, он также будет работать на продуктах наших OEM-партнеров, например Dell XC, Lenovo HX, и так далее, в том числе и на Software-only инсталляциях.

Для использования Flow вам нужен AOS 5.5 и новее, свежая версия AHV и Prism Central, наш бесплатный инструмент администрирования, работающий из appliance VM, например, там же, в среде Nutanix. Несмотря на то, что Flow «встроен в ядро» AOS, и будет работать в том числе и без Prism Central, для настройки политик нужен Prism Central.

Основные возможности Flow это:

  • Распределенный stateful firewall, интегрированный в ядро AHV, минимально загружающий CPU и память при работе.
  • Централизованное управление этим firewall, встроенное в Prism Central, использующее схему политик, автоматически обновляемых в ходе жизненного цикла приложений и VM.
  • Встроенная визуализация правил и применяемых политик.
  • Возможность настраивать service chaining, например, перенаправлять сетевые потоки на системы контроля, аплаенсы файрволлов, антивирусов, помещать VM или их группы в карантин, простым назначением политики группе, и так далее.

Как происходит формирование и назначение политики для виртуальной машины? В отличие от классической настройки правил файрволла, состоящей из указания source IP address/port, destination IP address/port и протокола, то есть привязанных к категории IP-адреса, Nutanix Flow базируется на концепции «групп приложений». Вы создаете (или используете из предустановленных) категорию AppType (например: AppType:Microsoft Exchange), затем дополняете ее категорией AppTier (например: AppTier: Edge Transport Server или AppTier: Mailbox Server), и, наконец, связываете VM с соответствующей категорией в группу, которой в дальнейшем назначаете политику. В политике вы можете определить и задать inbound flows, которые могут быть ограничены набором источников, например, ими могут быть другие группы и категории, а также задать исходящие flows. Последние по умолчанию открыты, но вы также можете задать в них группы и категории.

В Nutanix Flows существует три типа политик: Application policies, Isolation policies и Quarantine policies.
Первая, application policy, может применяться для защиты приложений в VM, путем выборочного задания входящих и исходящих потоков к приложению и от него.
Вторая, isolation policy, применяется для изоляции всего трафика групп, например, отделить группу «DevTest» от «Production», «HR» от «Finance» или «MoscowDC» от «StPetersburgDC».
Наконец, третья, quarantine policy, применяется для полной изоляции группы или контейнера от всех прочих VM и приложений, например, в случае необходимости расследования инцидента взлома, подозрений на вирус, и так далее.
Политики могу комбинироваться между собой, при этом приоритет комбинирования политик осуществляется в порядке: Quarantine — Isolation — Application. То есть, например, назначение политики карантина автоматически перекрывает все действующие ниже по приоритету политики Isolation и Application, немедленно после ее применения.

Сложные схемы действия и комбинации упрощаются наличием специального monitoring mode, при котором созданные политики применяются в специальном тестовом режиме, позволяя проверить правильность настроек пред фактическим применением политик.

Ну и, конечно, облегчает процесс настройки и назначения политик наш интерфейс визуализации.

Например, мы хотим подразделению HR в группе San Jose разрешить доступ к отправке электронной почты на Edge-сервер по порту SMTP. Необходимая политика в визуальном редакторе будет выглядеть:

А если мы захотим пропускать исходящий трафик через service chain, например через application-level firewall, просто добавим его, щелкнув ниже на галку Redirect through service chain и выберем нужный firewall в списке.

Nutanix Flow не использует оверлейные сети, например, VXLAN, что существенно упрощает настройку и использование, и не требует специального отдельного контроллера SDN. Вся работа осуществляется на стандартных сетевых уровнях. Например, firewall в Flow работает на уровне L4 (TCP), и осуществляет stateful проверку сетевого трафика с L2 по L4 включительно. При этом, при необходимости более глубокой проверки на уровнях выше L4, возможна интеграция со сторонними продуктами, так, например, уже реализована совместная работа с Palo Alto Networks PANW VM-series firewall, для контроля трафика вплоть до Application Layer (L7). Если у пользователя уже развернуты свои средства firewall, они могут продолжать работать параллельно с Flow.

Обычно, для начала использования Flow не требуется изменений в топологии сети, если она уже сконфигурирована у пользователя. Все операции Flow происходят внутри виртуальной инфраструктуры, на AHV vSwitch. Политики, назначенные VM, продолжают исполняться даже в случае изменения выданного VM IP-адреса (при этом используется ARP spoofing, чтобы идентифицировать VM и ее новый IP, и обновить установки политики), и в случае переезда VM на другой хост.

Пока не поддерживается и не обрабатывается трафик IPv6 (но мы планируем добавить его обработку в будущем), поэтому сейчас, чтобы гарантировать отсутствие «бреши» через IPv6, и, если, как правило, ваша инфраструктура его не использует, лучше его полностью блокировать на файрволлах периметра.

Максимальное число политик, которые можно создать и применить достаточно велико и определяется доступной памятью CVM. При тестировании в Nutanix был создан однажды миллион правил на хосте, и это все работало, так что Flow готов работать даже в очень больших и сложных сетевых инфраструктурах.

Ну и самое приятное: в настоящий момент для Tech Preview микросегментация в AHV бесплатна. После выхода ее в статус GA, пользователю потребуется лицензия, приобретаемая отдельно. Квант — на хост, на срок от года до 5 лет (per-node, per-year), техподдержка включена в стоимость. Общая стоимость останется невысокой, я не могу говорить о ценах, но она будет минимум вдвое ниже чем, например, лицензия NSX Advanced, дающую схожую функциональность для vSphere. Будет существовать, конечно, и Trial (на 60 дней).

Для наших клиентов, у которых системы находятся на поддержке, обновление AOS и AHV приедет автоматически (его только останется скачать и установить обновление, без прерывания работы системы), и, если они уже используют Prism Central, обновление его позволит сразу же начать использовать Flow.

Таким образом, Acropolis Hypervisor — теперь сегодня это не только гипервизор, но и встроенная в гипервизор SDN (Software-defined Network), и если вы искали решение для микросегментации виртуальной среды, а NSX показался вам слишком дорогим и сложным, то самое время посмотреть на Nutanix Flow, возможно это то, что вам нужно.

Оригинал орубликован в блоге компании на Habrahabr: https://habrahabr.ru/company/nutanix/blog/348846/

Как протестировать HCI правильно?

Коллега опубликовал в блоге на Хабрахабре (который мы, к сожалению, в последнее время подзабросили), статью о правильных методах тестирования производтельности HCI и SDS, на примере VDI-инфраструктуры.

https://habrahabr.ru/company/nutanix/blog/348182/

Nutanix AHV и что мы будем делать с Meltdown/Spectre

«А теперь, Машенька, о главном…» (с)

Год начинается весело. Если вы пропустили все на свете, то, в двух словах: обнаружена крупная и довольно пакостная уязвимость в большинстве ныне используемых процессоров Intel (и некоторых других архитектур — тоже). Условно вся эта группа уязвимостей названа Meltdown/Spectre, и за подробным описанием я отсылаю на специализированные сайты. Связана эта уязвимость с технологией выполнения программного кода, широко применяемой в CPU сегодня, и, потенциально, может быть использована для доступа к пользовательским данным. Любым данным. Ключам, паролям, произвольным блокам данных, лишь бы в памяти. Процесс злоумышленника может потенциально извлекать из недоступной ему, в обычном состоянии, памяти соседних процессов (и других VM, например), ее содержимое. Самое плохое, что починить ее так, как это обычно делается, правкой микрокода CPU — невозможно.
Пока, в пожарном порядке, производители OS выкатывают патчи, изолирующие память ядра от памяти пользовательских процессов, разными способами. К сожалению, у всех этих патчей есть неприятное побочное свойство: они существенно ухудшают эффективность работы процессоров, и, потенциально (обратите внимание на то, что я часто использую выражение «потенциально», да?) могут заметно ухудшить общую производительность систем. Степень падения производительности разная. В наихудшем случае, при наихудшем стечении обстоятельств, говорят о 20% снижения. Впрочем, существуют задачи, сочетания оборудования и характера операций на CPU, на которых падение незначительно, или вовсе отсутствует.

Если вы используете в качестве гипервизора на Nutanix VMware ESXi или MS Hyper-V — устанавливайте патчи, разработанные VMware и Microsoft (для vSphere смотрите сюда: https://kb.vmware.com/s/article/52085). В этом случае платформа Nutanix для вас ничем не отличается от любой x86 платформы под этим гипервизором. ОЧЕНЬ внимательно читайте текущее состояние дел с порядком установок патчей, там сейчас творится форменный цирк с конями. Обязательно проверяйте ситуацию со стабильностью ваших задач перед выкаткой патчей в продакшн.

Если вы используете Nutanix AHV, то тогда смотрите ниже.

Уязвимость типа Meltdown (Rogue Data Cache Load (CVE-2017-5754 — CVSSv3 7.9)). Более простая в использовании, и поэтому, в принципе, более опасная, но, так как Meltdown не может напрямую использоваться из гостевой VM для атаки на гипервизор, он не опасен для AHV и поэтому фиксить Meltdown в Nutanix AHV нет необходимости.

Уязвимость типа Spectre. Ее использование более сложно реализуется, но она может быть использована для атаки на гипервизор, и ее необходимо пофиксить на уровне гипервизора.

Существует два вида уязвимости Spectre: Вариант 1 и Вариант 2.

Spectre Var1 (Bounds Check Bypass (CVE-2017-5753 — CVSSv3 8.2)) требует минимального изменения в коде, так как уязвимый код НЕ ПРИСУТСТВУЕТ в подсистеме KVM ядра.

Spectre Var2 (Branch Target Injection (CVE-2017-5715 — CVSSv3 8.2)) требует четыре отдельных фикса.

Кроме этих четырех фиксов будет добавлена конфигурируемая пользователем опция CPU IBRS mode (Indirect Branch Restricted Speculation). CPU IRBS может быть включен (on) или выключен (off).

Значение CPU IRBS по умолчанию — off. В этом состоянии замедление работы CPU отсутствует, но есть потенциальная, крайне малая, впрочем, из-за примененных выше фиксов в коде, закрывающих большинство «лазеек», возможность использовать уязвимость Spectre.

В значении CPU IRBS on использование Spectre, даже потенциальное, полностью исключается, однако может наблюдаться некоторое снижение производительности, из-за ухудшения эффективности выполнения кода процессором.

Выбор пользователя, какой именно режим предпочесть.

В Nutanix продолжают работать над более эффективным и элегантным способом решения задачи устранения уязвимости, вероятно результат будет опубликован в течение следующих нескольких недель.

Фиксы для AOS версий 5.0.x и 5.1.x применяются на AHV version 20160925.103, и доступны с Nutanix support portal, а также будут включены по умолчанию в AOS версий 5.0.5 и 5.1.4, выходящих вскоре.
Фиксы для AOS версий 5.5.x применяются на AHV version 20170830.85, и доступны с Nutanix support portal, а также будут включены по умолчанию с AOS версии 5.5.1.

Подробнее информацию по этой теме смотрите на странице Security Advisores. Официальный док — тут: SecurityAdvisory07-v6. Документ обновляется, текущая версия, на момент публикации этой записи — шестая, самую свежую версию смотрите на сайте Nutanix.

UPD: Версия Security Adisory по этой проблеме обновилась до v7.

UPD2: This updated microcode from Intel has been deemed problematic in certain scenarios, and in some cases, can cause further side effects that are undesirable in virtual environments.
Removed recently released AHV versions 20170830.85 and 20160925.103 from the portal. Instead we will be delivering these AHV versions by way of direct AOS version upgrades. AOS versions 5.5.0.4, 5.1.4 and 5.0.5 will soon be available and packaged with AHV versions 20170830.85 and 20160925.103 respectively. By packaging these updates directly with an AOS update we can default disable VM use of IBRS, the affected and problematic portion of the microcode update.
Remediation:
1) If you have already updated AHV to 20170830.85 or 20160925.103 then it is recommended you upgrade to AOS version 5.5.0.4, 5.1.4 or 5.0.5 once they are available, and reference KB#5104, or contact Nutanix Support, for further information.
2) If you have not yet upgraded AHV to the aforementioned versions then it is recommended to wait and upgrade to AOS version 5.5.0.4, 5.1.4 or 5.0.5 once they are available, and then upgrade your hosts to the packaged AHV version. In this scenario, it is unnecessary to contact Nutanix Support for additional information. Reference KB#5104 for additional information.

Nutanix принял решение в нашем продукте для борьбы с Meltdown/Spectre использовать технологию Retpoline, разработанную командой Google, вместо плохо себя зарекомендовавшего пути с «тремя патчами» Intel.

Конфигурация «1-Node» Nutanix

Как вы уже наверное слышали, у Nutanix появляется особый класс систем, которые я в целом затрудняюсь называть «кластер». Это однонодовые системы, которые, подобно тому, что вы уже, возможно, видели в Community Edition, могут работать как «кластер, состоящий из одной ноды». Раньше мы такое позволяли использовать в качестве Backup Target, а вот теперь, хорошо подумав, разрешили использовать и для запуска VM. Но подумали мы и правда тщательно, и вот ниже я перечислю все моменты, о которых вам будет нужно знать, прежде чем вы будете интересоваться предметно таким «сверхдешевым» Nutanix.

Пункт номер ноль. Это НЕ SMB решение. Это решение для рынка так называемого ROBO (Remote Office/Branch Office). Поэтому минимальная закупка таких 1-Node Nutanix — 10 штук.
То есть если у вас структура компании с множеством (десятком и более) небольших удаленных филиалов, и вы выбрали Nutanix в качестве решения для основной инфраструктуры, и при этом вам нужно оснастить Nutanix-ами филиалы и удаленные офисы, на которых практически нет вычислительной задачи, а данные для защиты все равно реплицируются на «большой» Nutanix в головной компании, то вот тогда это то, что вам нужно. В филиалы тогда идут недорогие однонодовые Nutanix, управляемые из Prism Central головного офиса. И в целом вы решаете задачу защиты данных через их репликацию в центральную систему, минимальная локальная защита у вас будет (об этом ниже). При этом типовая задача у вас для такого офиса — держать «AD, DHCP, DNS, Firewall, VPN до «головы», пять VDI операционистов, почту и файлопомойку» — то с этим вот сюда. Получается такой «филиальный допофис-ин-э-бокс», заливаемый за 30 минут и готовый к использованию «просто включи в сеть».

1. Пока мы подготовили две специальные модели для этого направления, это NX-1175S-G5 (1N1U) и NX-1155-G5 (1N2U). Обратите внимание, 1175S означает single socket, 1 pCPU. Модель 1155 уже была доступна, это 1-Node Backup Target, теперь на ней разрешено запускать Guest VMs.

Конфигурация NX-1175S-G5:
CPU: 1x 2620v4 (8-core) or 1x 2650v4 (12-core)
Memory: 64G or 96G or 128G or 256G
Hybrid:
SSD: 2x 480G or 2x 960G or 2x 1.9TB
HDD: 2x 2TB or 2x 4TB or 2x 6TB
All-Flash:
SSD: 4x 480G or 4x 960G or 4x 1.9TB
Network: 2x1GbE LOM (built-in) + Add-on NIC (Optional) : 2x1GbE or 2x10GbE (SFP+ or Base-T)
Power Supply: 1 (only!)

Сетевая конфигурация, доступная для NX-1155-G5:
4x1GbE, Add-on NIC (Optional): Dual-Port 10 GbE SFP+, Dual-Port 10 GbE BASE-T, or Quad-Port 10 GbE SFP+

2. «Расширение кластера» для 1-Node нет и не планируется. То есть, купить и установить 1-Node, потом докупить еще две и расширить на них, сделав «полный» кластер нельзя.
Однако можно собрать «большой» Nutanix Cluster из трех и более NX-1175S, но только НЕ расширением 1-Node, а переинсталляцией, с нуля. Дальше такой 1375S можно скейлить обычным для Nutanix способом, это будет обычный трех- и более нодовый кластер Nutanix из 1U Single CPU нод 1175S.

3. CVM на такой системе занимает 6 vCPU и 20GB RAM

4. Так как наша архитектура подразумевает репликацию блоков, то даже на 1-Node она будет, просто две копии блока будут храниться локально. Это не защитит от отказа контроллера или ноды целиком, но отказ одного HDD это может помочь пережить без потери данных. Отказоустойчивость предполагается решать репликацией на main cluster и локальными бэкапами, например с помощью Comtrade HYCU на сторонний NAS.
Так что репликация RF=2 будет, и usable space все равно будет ~50% от raw физических дисков.

5. Нет: дедупликации, ABS и AFS, Erasure Coding, Capacity Analysis на Prism Central.

6. Async DR (репликация на Nutanix в другом DC) — минимальный цикл 6 часов (RPO). Metro Availability конечно же нет тоже.

7. Отказ ноды — ожидаемо offline всего на ней содержащегося.

8. Отказ SSD (одного из двух) — переход хранилища в read only.

9. Гипервизоры: для 1175S — AHV и ESXi, для 1155 — только AHV. Hyper-V нет ни для одной модели.

10. Минимальная версия AOS — 5.5

Чуть позже, как только они будут объявлены, я расскажу и про вариант перечисленного, который будет носить название «2-Node».

AHV Turbo Mode — первые результаты

Интересные результаты показали наши разработчики для AHV Turbo Mode (AKA Frodo).

Напомню, AHV Turbo Mode, как внутренний project codename называвшийся Frodo, это новый способ работать с дисковым хранилищем в Nutanix AHV, оптимизация пути передачи данных и более высокая параллельность обработки очередей, которые теперь могут обрабатываться большим числом ядер CPU на хост-машине, чем было до того в vanilla QEMU. Он появился впервые в AOS 5.5, вышедшем на прошлой неделе.
Это улучшение особенно важно для AllFlash и NVMe машин, выходящих у нас в свет следующем году.
Как вы видите из графика, на обычной VM рост производительности ввода-вывода при увеличении числа параллельных операций практически останавливается в районе 30-40 Outstanding Requests, при этом с использованием AHV Turbo Mode он продолжает свой рост вплоть до 128. Это отличный потенциал для роста производительности для новых AllFlash, так как проявляется эта новая возможность прежде всего на них.

Обновление платформы: G6!

Тем временем подоспели новости, о которых я начну рассказывать с этой недели.
Как вы уже, наверное, слышали, к семье наших OEM-ов (DellEMC и Lenovo) добавляется Fujitsu. Пока это только анонс, и из трех заявленных моделей у Fujitsu доступна в первом квартале будет только одна.

Так что, когда они раскачаются, тогда я об этом и напишу подробно, а пока достаточно этого короткого анонса, потому что дальше — о нас самих.

Да, действительно, Nutanix постепенно идет в направлении software-only модели, но это будет не в следующем году точно. В следующем году нас ждет обновление линейки платформ native Nutanix, связанной с плановым обновлением процессорного ряда Intel, и, соответственно, обновлением наших ODM-партнеров, Supermicro.
Заверешен цикл тестирования, и мы официально объявляем выход поколения Generation 6, на процессорах Intel Skylake.

Вот, что будет в деталях нового и интересного.

Платформы NX-3060 первыми получат обновление до G6.
Мы будеи использовать шасси Supermicro SYS-2029BT-HNC0R-NI22 с материнской платой BigTwin X11DPT-B, на логике Intel C621 PCH (Lewisburg) и процессорами Intel Xeon Silver 4108, 4114 , 4116 и Intel Xeon Gold 5120 ,6130, 6138, 6126. Как вы должно быть знаете, Intel в очередной раз перелопатил номенклатуру процессоров Xeon, и теперь процессоры у них называются «металлами» по семейству и номерами по моделям в семействе. Bronze мы использовать, понятное дело, не будем, а Silver и Gold семейства, используемые в следующем поколении платформ, перечислены выше.
Повышается тактовая частота памяти DDR4, с 2400 до 2666 MHz. Максимальный объем памяти — 768GB на ноду G6 (все конфигурации по памяти — сбалансированные). Пока не поддерживаются 64GB DDR4 DIMM, из-за ограничений платформы по тепловыделению, поэтому максимальная емкость памяти на ноду ограничена на 768GB.

Сразу со старта заявлена поддержка NVMe (на 1.6TB). Разумеется остались SSD (960GB, 1.92TB, 3.84TB) и HDD (2TB только).

Из интересного «под капотом»: в Supermicro (и мы, следовательно, тоже), отказываются от использования SATADOM, SATA Disk-on-Module, внутреннего flash-диска на SATA-шине, с которого у нас грузится baremetal hypervisor. С ним было одно время достаточно проблем, связанных с производительностью и ресурсом. Например, проблемы вызывала Windows Server 2012R2, поставленная на него как хост Hyper-V. Оказалось, она непрерывно пишет неотключаемые логи, и это приводило к скорому выходу из строя SATADOM flash той модели, которую мы использовали примерно пару лет назад. Тогда это потребовало множества гарантийных замен на работающих системах у пользователя. Теперь эта проблема кардинально решена, платформа переходит на пару устройств 240GB SATA 2280FF M.2 в software RAID-1. Декларируется 1 DWPD, так что, как мы ожидаем, названные выше проблемы ушли в прошлое.

Расширяется номенклатура сетевых карт. К уже известным 2port 10G SFP+, 4port 10G SFP+, 2port 10GBaseT добавятся 2port 40G QSFP28 и 2port 25G SFP+, причем до двух карт на ноду! Новый конструктив корпуса дает возможность поставить ДВЕ карты на каждой ноде, и это не считая пары 10GbaseT, встроенных в платформу (на SIOM, Supermicro IO Module).
Так что 40G и 25G будут доступны теперь и на 3000-series. Это вызвано растущей производительностью ноды. Если раньше на midrange-нодах использование таких производительных интерфейсов выглядело сомнительным, так как чтобы загрузить такую полосу ввода-вывода нужна очень солидная производительность CPU и памяти, то теперь, с новыми CPU и, в особенности, с NVMe, это уже становится важным и необходимым.

Энергопотребление 4 нод под нагрузкой — в районе 1700W, рассчитанный worst case — 2080W, среднее тепловыделение 4 нод — 5800 BTU/h, блоки питания при «нашем» вольтаже поддерживают полную redundancy (блок из 4 нод продолжает работу при выходе из строя одного PSU).

Доступность всех перечисленных фич ожидается к концу декабря.

AHV Turbo mode

Наш сотрудник, Josh Odgers, ведущий свой блог тут: http://www.joshodgers.com, недавно опубликовал интересное описание того, как работает AHV Turbo, особый режим работы ввода-вывода, сокращающий путь от UVM (User VM) к CVM (Controller VM) и непосредственно к «железу» через гипервизор.
Как вы уже знаете, CVM у нас находится в User Space гипервизора, и, в отличие от схемы ввод-вывода, например, VSAN, где он осуществляется в Kernel Space. И VMware это все еще позиционирует как большое преимущество, мотивируя это тем, что, дескать, работа в kernel-space более эффективна и более производительна. С одной стороны это так, конечно. С другой, как показывает Nutanix, разница в производительности в данном случае не так значительна, а, между тем, работа в user-space имеет множество преимуществ с точки зрения защищенности и изолированности, безопасности, простоты обновлений и гипервизоро-независимости. Хорошо спроектированная архитектура для user-space практически нивелирует преимущества в производительности для kernel-space, и при этом у нас еще не закончились фичи, позволяющие нам оптимизировать и улучшать процесс ввода-вывода, в особенности если ниже, под CVM и пользовательскими VM лежит наш собственный гипервизор.
Вот, например, как работает режим AHV Turbo, появившийся в новых версиях AHV, и предназначенный, в первую очередь, для оптимизации работы с новыми устройствами хранения, такими как NVMe и 3D Xpoint. В нем Nutanix сократил и спрямил Data IO path между пользовательской VM и «железом» серверной платформы.

На рисунке ниже показывается, как ввод-вывод пользовательской VM (UVM) проходит через подсистему Frodo (служебное имя для Turbo Mode) которая работает в User Space (не в kernel) и затем идет в Stargate (подсистема ввода-вывода) в Controller VM).

Еще одним преимуществом AHV и Turbo mode является то, что администратору не требуется конфигурировать множество адаптеров PVSCSI и распределять виртуальные диски по контроллерам. При добавлении виртуального диска в VM под AHV, многопоточная и много-очередная архитектура используется автоматически, что повышает производительность ввода-вывода как на запись, так и на чтение.
Много-очередной поток ввода-вывода обслуживается с помощью множественных тредов модуля frodo (Turbo mode) и проходит через stargate.

Как показано на рисунке выше, Nutanix с Turbo mode устраняет узкие места, характерные для традиционных гипервизоров, например — причину, по которой VMFS datastore требуется использовать VAAI Atomic Test and Set (ATS) для устранения проблем с большим количеством VM на датасторе (например более 25). Напомню, в классическом VMFS существует ряд операций, которые блокируют датастор целиком, например это любые изменения в метаданных датастора, вызываемые, например, созданием или включением VM, созданием ее снэпшота, запуск Storage vMotion, и так далее. В случае таких операций, без использования VAAI ATS, будет на определенное время, при выполнении этих операций, блокирован ввод-вывод на датастор целиком, для ВСЕХ VM на нем находящихся. Это не слишком страшно, если у вас всего несколько VM на датасторе, и является существенной проблемой когда этих VM на датасторе много, не только потому, что это «тормозит» гораздо больше приложений, но и потому, что при большом количестве VM операции, связанные с блокировкой VMFS, возникают чаще. В случае AHV при использовании Turbo mode, не только каждый vdisk будет иметь свою собственную очередь команд (вместо одной на датастор или контейнер в «классике») но также добавляется и очередь per-vcpu на уровне виртуальных контроллеров.

Вот какие результаты работы AHV Turbo приводит у себя в блоге Джош:

На четырехнодовом блоке четырехлетней давности NX-3450, стоящей в лабе, с двумя SATA SSD на ноду и с отключенным memory read cache, результаты от включения AHV Turbo:
На 25% ниже загрузка CPU на задаче sequential write, при том, что значение производительности практически не изменилось (2929 MBps vs 2964 MBps)
На 27.5% выше sequential read performance (9512 MBps vs 7207 MBps)
На 62.52% увеличилась производительность random read IOPS (510 121 vs 261 265)
На 33.75% увеличилась производительность random write IOPS (336 326 vs 239 193)

И еще из интересного оттуда же. У нас есть клиент, у которого эксплуатируется под Acropolis Hypervisor 1750 нод!

Software-only Nutanix

В связи с тем, что некоторое время назад Nutanix начал шире продавать себя как Software-only вариант, например на платформы HPE ProLiant и Cisco UCS, я решил собрать краткий пост ответов на незаданные (пока) вопросы пользователей, который, я надеюсь, ответит и развеет ряд моментов непонимания для чего это все и зачем, а также насколько это подходит вам.

Практически каждый первый мой собеседник, узнав, что Nutanix это software company и мы продаем наши NX-appliances, взяв готовую x86 платформу, задает вопрос: «А можно купить Nutanix просто как софт?».
Есть короткий ответ на этот вопрос теперь: «Да, можно»
Но, как почти всегда, короткий ответ верен, но неполон. И требует более развернутого пояснения.
А начать стоит с того, что, как это часто бывает, человек, задавая этот вопрос, хочет спросить что-то совсем другое, но, по каким-то причинам, свой вопрос изменяет. На самом деле этот человек хочет спросить, также более длинно:
«Если я куплю только софт, и не буду покупать «железо», то обойдется ли мне это дешевле, смогу ли я тут сэкономить, если поставлю ваш Нутаникс на пыльный Proliant G5, который мы уже хотели совсем выкинуть, но все жалко на него потраченных в 2003-м году денег? Все же знают, что денег стоит только железо, а софт он или совсем дешевый, или бесплатный, на крайняк можно просто его скачать с торрентов, и значит должно быть круто дешевле, да?»
Вот тут, как вы понимаете, ответ на вопрос несколько удлиняется. :)

Во-первых, и прежде всего, стоит остановиться и ответить на вопрос, какую долю от целиком решения составляет в случае Nutanix стоимость его софта. К сожалению еще очень многие люди воспринимают софт как нечто «условно бесплатное», и, например, Microsoft в массовом рынке им в этом часто подыгрывает. Ну, сами судите, мы покупаем ноутбук за 1000 долларов, и на нем Windows, стоимостью 2500 рублей. Очевидно, что если нам нужен только Windows, то избавившись от ноутбука за 1000 долларов, мы круто сэкономим. Да и вообще, мы походим по базару и найдем не макбук, а что-нибудь попроще, а то может купим его с рук, за полцены, на ебэе. А то знаем мы вас, заряжаете, поди, три цены.

Ну, пойдем с конца. Утопией было бы думать, что вы сможете купить ту же платформу Supermicro дешевле, чем мы покупаем ее в Nutanix в Америке, с нашими объемами, долгосрочными контрактами, отношениями с ODM, и положенными всему этому скидками. Да, Nutanix, в целом, как весь appliance — недешев. Но стоимость железа в стоимости решения совсем не так велика, как представляется. Скорее наоборот. В определенных конфигурациях, например, в младших моделях, мы практически отдаем «железо» нашего appliance даром, подавляющую долю цены решения составляет стоимость софта и его поддержки.

То есть, отказавшись от нашего «железа» в составе appliance вы, потенциально, получаете некую (эфемерную, на мой взгляд) «бОльшую гибкость» (допустить ваших собственных ошибок при конфигурировании платформы, например), но, вместе с этим, вполне конкретную проблему с поддержкой, совместимостью всех компонентов решения, с его lifecycle, с уровнем надежности, и так далее. Стоит ли это того? На мой взгляд — нет. Тем не менее, мы, на определенных условиях, пошли навстречу пользователям, и теперь у нас появилась возможность продавать Nutanix как софт на строго определенные платформы в строго определенных конфигурациях. И это будет поддерживаться нашей техподдержкой.

  • У нас появились в партнерском прайсе строчки вида SW-PRO-PRD-3YR. Это и есть Software-only Nutanix.
  • Эта строчка одна на любую платформу.
  • Виды этих строчек – тип лицензии (PRO, ULT), а также вид и длительность поддержки.
  • Сам софт независим от платформы (то есть его можно ставить на UCS, на ProLiant, и так далее, на любую поддерживаемую платформу). Лишь бы платформа была поддерживаемой и соответствовала нашему Compatibility List.
  • Платформа должна в ТОЧНОСТИ соответствовать описанной в HFCL – Hardware AND Firmware Compatibility List. Любые отклонения вида «ой, а у нас SSD тут не такой, а почти такой, просто другого вендора, но он хорошо работает, это ничо?» не поддерживаются. Обычно это означает, что на имеющееся у вас серверное железо это, по крайней мере в поддерживаемом виде, не поставить. Вряд ли оно в точности соответствует нашему HFCL. Как правило это означает, что вы покупаете у вашего поставщика платформу, заказанную в точности в соответствии с HFCL, а потом у партнера Nutanix на него лицензию Software-only Nutanix, и с нашей помощью все это собираете и ставите.
  • Стоимость лицензии не зависит от стоимости платформы (то есть не как у Nutanix appliance сейчас, если это NX-1000, то стоимость лицензии существенно (в разы) ниже, чем, например, у NX-8000, за тот же набор фич), в результате, стоимость лицензии Software-only довольно высока сама по себе, что лишает смысла ставить ее на сравнительно слабые сервера (ну, например, за стоимость SW- можно иногда взять NX-3060, например, ВМЕСТЕ с софтом, плюс еще и железо, получается типа бесплатно). Это делает бессмысленным для пользователя покупку Software-only варианта на сравнительно слабые серверы.
  • Лицензия понодовая. Как и раньше, весь кластер должен иметь один уровень Software license, то есть PRO — то весь PRO. Если ULT — то весь ULT.
  • Лицензия не привязана к платформе, ее можно переносить на другой сервер и даже другую платформу (например год поработало на UCS, и перенесли на ProLiant).
  • Поддержка – это поддержка И обновления. После окончания поддержки перестает оказываться поддержка И предлагаться обновления. Софт продолжает работать так, как работал.
  • «Смеси» (из платформ разных вендоров) в одном кластере не поддерживаются ни с Nutanix, ни с OEM.
  • «Не поддерживаются» означает именно это.

Итак, у нас есть Software-only Nutanix License, спрашивайте у партнеров, но помните про перечисленные выше тонкости и не расчитывайте, что это «ЭсЭмБи», скорее наоборот. Это скорее интересно для крупных компаний и сервис-провайдеров/облачных провайдеров, впрочем, для их объемов мы и раньше продавали Nutanix как софт, просто не особенно это публично афишируя.