Почему вам не нужно ставить в компании OpenStack: практический опыт

У меня тут есть, судя по логам, суперпопулярная статья со ссылкой на пост на Хабре: История двухлетнего опыта использования ceph в веб-хостере и полученный опыт.
Продолжим же инициативу, раз она пользуется успехом у моих читателей.
Пару дней назад там же на Хабре была опубликована статья под заголовком:
Итак, вы решили развернуть OpenStack.
В ней автор рассказывает о собственных злоключениях в течение двух лет, в попытке заставить стабильно работать кластер OpenStack.

Немного цитат:
«В общем, в 2012-м мы развернули OpenStack, на тот момент это был Essex, запустили проект, прожили с такой облачной инфраструктурой до 2014-го года, кажется до релиза Grizzly включительно. Сил и желания поддерживать его дальше не было, и OpenStack был с позором выпилен.

Когда-то давно я даже думал написать статью как правильно его ставить, с комментариями на что обратить внимание. Но знаете, я передумал. Не ставьте его лучше вообще. Просто не связывайтесь.»

Так часто у меня спрашивают про OpenStack, что, как мне кажется, тема требует своего освещения. Как вы, возможно, знаете, уже примерно год у нас есть инструмент, позволяющий встроить и использовать Nutanix как компонент типа hypervisor в среду OpenStack. Но это интересно только пользователям, у которых уже есть развернутся работающая инфраструктура OpenStack, например они уже инвестировали в это продукт, и они не хотят немедленно отказаться от него, но им нравится Nutanix. Для этого варианта мы сделали специальную VM интеграции, которая транслирует вызовы API OpenStack, в наш RESTful API Nutanix. Но, соглашусь с автором, наиболее разумным будет отказ от OpenStack, в стратегической перспективе, а использование нашего интерфейса интеграции может помочь провести переход наиболее безболезненно.

Основные недостатки, по мнению автора: сложность и тяжеловесность.

Когда-то давно, когда мы ставили Essex, там было все относительно просто и понятно. Keystone (служба авторизации), Glance (служба хранилища образов) и Nova (служба управления гипервизорами). Кроме того там еще был Horizon (дашборд) и куча мелких и не очень зависимостей. Каждый узел системы обрастает чуть ли не десятками вспомогательных демонов. На controller node через некоторое время становится страшно смотреть.

Архитектура OpenStack достаточно сильно фрагментирована. Есть очень большое количество «движущихся частей», взаимосвязь который между собой не всегда абсолютно ясна. У вас что-то сломалось? Окей, попробуй понять где это что-то сломалось и почему. OpenStack Foundation похоже гордится, что в OpenStack более 20 миллионов строк кода, даже на главную своего сайта вынесли. Так вот, ЭТО НИФИГА НЕ ДОСТОИНСТВО.
Код в большинстве своем написан на Python. Спасибо, OpenStack, благодаря тебе я возненавидел Python и все что с ним связано.

Дело в том, что являясь OSS, OpenStack пытается быть kind of unix-way. Т.е. под капотом все эти монструозные службы на самом деле дергают десятки и сотни unix-утилит по собственной логике, которую вам придется изучить и возможно даже дебажить.

Нестабильность:

ну вот вы наконец-то запилили инфраструктуру своей мечты, все худо-бедно работает как рассчитывали, но не хватает одной мааааленькой детали. А в новом релизе она есть. Ну по крайней мере по Release Notes.
Окей гугл, давай обновим наш OpenStack. И тут выясняется, что функционал, который вы с радостью использовали — выпилили. Ну потому что. Ну некрасивый он был и вообще, мы лучше сделаем, честно-честно. В следующем релизе. Может быть. А пока вот вам попроще, но ведь работает же! Ну и плевать что не в вашем случае, но работает!

И вообще сырость, в лучших традициях OSS:

А еще очень дивное чувство испытываешь, когда тебе нужен функционал, ну, скажем, деление на зоны. Ну вот есть у тебя машины с большими винтами, есть с SSD, есть с видюхами, хочу разбить кластер на зоны, чтобы виртуалка падала на ту машину, у которой необходимый ресурс есть. Ну ок, читаем доку, вроде бы availability zones подходит. Настраиваем, включаем. И ничего. В доке написано что все должно, а на практике ничего. Лезем в код, а там.
Будет реализовано. В следующем релизе. Может быть. Ну ты понял. Смотри предыдущий пункт.

Автор там, правда, делает вывод в конце:

В общем после полутора лет борьбы с OpenStack мы от него отказались и перешли на другое облако. Управление инфраструктурой стало простым и приятным, а обновлять версий также просто как apt dist-upgrade.
Что это за облако и почему оно удобнее OpenStack я постараюсь рассказать в следующей статье. (Спойлер: это OpenNebula).

Но мы то с вами, посетителями этого блога, знаем еще более правильный вариант. ;)

1242 страницы качественной бумаги

Книга, озаглавленная «Storage Design and Implementation in vSphere 6». 1242 страницы. Второе издание. Тысяча двести сорок две, my ass! Только про то, как правильно подключить к серверу и настроить СХД.

Мы, в Nutanix, в конечном счете, работаем в том числе и для того, чтобы такие книги стали, наконец, админу не нужны.

Nutanix для 1-Tier и Business Critical — опыт компании ЦФТ

Недавно мы завершили испытания системы Nutanix в компании ЦФТ — Центр Финансовых Технологий. Под таким незамысловатым названием скрывается компания-разработчик банковских информационных систем, работающая не только в России, но и за рубежом, с численностью более 2000 человек. ЦФТ входит в TOP-5 крупнейших разработчиков ПО, действующих на российском рынке.
Свыше 500 банков РФ и СНГ используют программные продукты и сервисы ЦФТ: Сберегательный банк РФ, Газпромбанк, «Возрождение», банк «РОССИЯ», «Банк Санкт-Петербург», «Еврофинанс Моснарбанк», «Росгосстрах Банк», Банк «УралСиб», банк «Петрокоммерц», Национальный банк «ТРАСТ», «МДМ Банк», Банк «Финансовая Корпорация Открытие», «Связной Банк», «Восточный Экспресс Банк», «Национальный резервный банк», Банк «Финансово-промышленный капитал», «БКС Банк», Банк «РЕСО Кредит», «Нордеа Банк» и многие другие в странах СНГ.

Сотрудники этой компании несколько месяцев назад тщательно и придирчиво тестировали Nutanix под самую Critical Tier-1 нагрузку разрабатываемых ими программных банковских систем. По результатам тестирования был выпущен отчет, который я и предлагаю ниже вашему вниманию: (PDF)

Nutanix for Critical Tier-1 workload - CFT report

Есть интересные цифры, причем это не «синтетика», а настоящие реальные данные финансовой информационной банковской системы, полученные на живом железе.

Кстати, для внимательных: кто найдет что-то необычное и интересное в тестируемой конфигурации? Там есть кое-что о чем мы публично еще не рассказывали, но вот-вот объявим. :)

AHV Turbo mode

Наш сотрудник, Josh Odgers, ведущий свой блог тут: http://www.joshodgers.com, недавно опубликовал интересное описание того, как работает AHV Turbo, особый режим работы ввода-вывода, сокращающий путь от UVM (User VM) к CVM (Controller VM) и непосредственно к «железу» через гипервизор.
Как вы уже знаете, CVM у нас находится в User Space гипервизора, и, в отличие от схемы ввод-вывода, например, VSAN, где он осуществляется в Kernel Space. И VMware это все еще позиционирует как большое преимущество, мотивируя это тем, что, дескать, работа в kernel-space более эффективна и более производительна. С одной стороны это так, конечно. С другой, как показывает Nutanix, разница в производительности в данном случае не так значительна, а, между тем, работа в user-space имеет множество преимуществ с точки зрения защищенности и изолированности, безопасности, простоты обновлений и гипервизоро-независимости. Хорошо спроектированная архитектура для user-space практически нивелирует преимущества в производительности для kernel-space, и при этом у нас еще не закончились фичи, позволяющие нам оптимизировать и улучшать процесс ввода-вывода, в особенности если ниже, под CVM и пользовательскими VM лежит наш собственный гипервизор.
Вот, например, как работает режим AHV Turbo, появившийся в новых версиях AHV, и предназначенный, в первую очередь, для оптимизации работы с новыми устройствами хранения, такими как NVMe и 3D Xpoint. В нем Nutanix сократил и спрямил Data IO path между пользовательской VM и «железом» серверной платформы.

На рисунке ниже показывается, как ввод-вывод пользовательской VM (UVM) проходит через подсистему Frodo (служебное имя для Turbo Mode) которая работает в User Space (не в kernel) и затем идет в Stargate (подсистема ввода-вывода) в Controller VM).

Еще одним преимуществом AHV и Turbo mode является то, что администратору не требуется конфигурировать множество адаптеров PVSCSI и распределять виртуальные диски по контроллерам. При добавлении виртуального диска в VM под AHV, многопоточная и много-очередная архитектура используется автоматически, что повышает производительность ввода-вывода как на запись, так и на чтение.
Много-очередной поток ввода-вывода обслуживается с помощью множественных тредов модуля frodo (Turbo mode) и проходит через stargate.

Как показано на рисунке выше, Nutanix с Turbo mode устраняет узкие места, характерные для традиционных гипервизоров, например — причину, по которой VMFS datastore требуется использовать VAAI Atomic Test and Set (ATS) для устранения проблем с большим количеством VM на датасторе (например более 25). Напомню, в классическом VMFS существует ряд операций, которые блокируют датастор целиком, например это любые изменения в метаданных датастора, вызываемые, например, созданием или включением VM, созданием ее снэпшота, запуск Storage vMotion, и так далее. В случае таких операций, без использования VAAI ATS, будет на определенное время, при выполнении этих операций, блокирован ввод-вывод на датастор целиком, для ВСЕХ VM на нем находящихся. Это не слишком страшно, если у вас всего несколько VM на датасторе, и является существенной проблемой когда этих VM на датасторе много, не только потому, что это «тормозит» гораздо больше приложений, но и потому, что при большом количестве VM операции, связанные с блокировкой VMFS, возникают чаще. В случае AHV при использовании Turbo mode, не только каждый vdisk будет иметь свою собственную очередь команд (вместо одной на датастор или контейнер в «классике») но также добавляется и очередь per-vcpu на уровне виртуальных контроллеров.

Вот какие результаты работы AHV Turbo приводит у себя в блоге Джош:

На четырехнодовом блоке четырехлетней давности NX-3450, стоящей в лабе, с двумя SATA SSD на ноду и с отключенным memory read cache, результаты от включения AHV Turbo:
На 25% ниже загрузка CPU на задаче sequential write, при том, что значение производительности практически не изменилось (2929 MBps vs 2964 MBps)
На 27.5% выше sequential read performance (9512 MBps vs 7207 MBps)
На 62.52% увеличилась производительность random read IOPS (510 121 vs 261 265)
На 33.75% увеличилась производительность random write IOPS (336 326 vs 239 193)

И еще из интересного оттуда же. У нас есть клиент, у которого эксплуатируется под Acropolis Hypervisor 1750 нод!

Итоги Nutanix .NEXT 2017 part 1

Начнем понемногу разбирать результаты и анонсы, сделанные на нашей главной ежегодной конференции Nutanix.NEXT. Новостей там много, поэтому начнем постепенно разбирать и комментировать то, что было объявлено.

Прежде всего, еще за пару дней до ее начала, появилась новость, что Nutanix подписал соглашение с компанией Alphabet о технологическом сотрудничестве. Напомню, что Alphabet — так теперь называется «большой Google». Так как у Google кроме традиционных бизнесов появилось множество разных новых, пару лет, кажется, назад было принято решение создать «зонтичную» управляющую компанию, в которую будут входить все многочисленные разнородные подразделения Google. Там будет место и для поисковика с рекламой, и для беспилотных автомобилей, роботов, Android, науки, гаджетов, в общем — всего. Туда же относится и облачный проект Google — Google Cloud Platform.

google-cloud-platform

Это третий по размерам игрок на рынке публичных облачных провайдеров, сразу за Amazon Web Services и Microsoft Azure. И вот с Google Cloud Platform мы теперь сотрудничаем для создания нашего Enterprise Cloud New Generation.

Это не значит, что мы немедленно перестаем работать с AWS и Azure. По-прежнему из Nutanix можно будет создать инстанс AWS для хранения там бэкапов, кроме того, мы поставляем с Nutanix предустановку Azure CPS Standard.
А с GCP у нас будут стратегические и далеко идущие задумки по интеграции и созданию по настоящему «гибридного облака», в котором часть ресурсов будет располагаться в датацентре пользователя, а часть — в публичном облаке, с интегрированной платформой управления всей инфраструктурой.

Во-первых, мы объявили о том, что мы будем поддерживать технологии GCP, такие как, например, Kubernetes (разработанная в Google опенсорсная система по управлению контейнеризованными приложениями), и это хорошо комбинируется и дополняется нашим Acropolis Container Services, что позволяет, в перспективе, создать гибридное облако контейнеризованных приложений пользователя.

Во-вторых, наконец-то вышла в свет наша собственная система оркестрации, которую мы называем Nutanix CALM (CALM). Это продукт поглощения в прошлом году команды разработчиков calm.io, вошедших в состав Nutanix, и теперь представившей интегрированное решение по облачной оркестрации на платформе Nutanix.
Оркестрация CALM будет, разумеется, интегрирована с GCP и Kubernetes, с бесшовной миграцией приложений между «облаком» кластера Nutanix и облаком Google Cloud. Разумеется, CALM будет работать и внутри Nutanix, так что у нас появляется своя собственная, полноценная, современная и красивая система оркестрации приложений, с блюпринтами, и всем полагающимся современной системе.
О Nutanix CALM я еще подробнее остановлюсь во второй части.

И, наконец, было объявлено о новой технологической инициативе — Nutanix Xi (это читается «Ци», по-китайски ;), ну или «Зай» если по-американски), создания облачного DR, своеобразного DR-As-A-Service, для пользователей Nutanix.
Nutanix-Xi
Nutanix Xi пока будет доступен только американскому рынку, так как развернут в четырех датацентрах в США (по два на Восточном и Западном побережьях), это также будет использовать возможности GCP.

Цены и доступность перечисленного выше ожидается в первом квартале 2018 года.

Veeam Availability Suite будет нативно работать с Nutanix AHV!

veeam logo

Ждали хороших новостей с .NEXT? Вот вам хорошие новости!
После долгих раздумий Veeam решился:
http://www.businesswire.com/news/home/20170629005954/en/Veeam-Nutanix-Accelerate-Digital-Transformation-Always-On-Enterprise
Veeam становится Premier Availability solution provider для Nutanix, и включит поддержку Acropolis Hypervisor в Veeam Availability Suite.

UPD: Согласно ответам пользователя Gostev в форуме Veeam, поддержка появится в B&R 9.5 Update 3, еще до конца этого года.

Comtrade HYCU — новое решение для бэкапа на Nutanix

Наши партнеры, компания Comtrade, обнародовала на днях новое решение для осуществления бэкапа виртуальной инфраструктуры в среде гипервизора Acropolis AHV. Как вы знаете, до настоящего времени у нас было только одно такое решение в поддерживаемых, это Commvault Simpana. Продукт мощный, но для ряда применений избыточно дорогой. А пока широко и заслуженно популярный Veeam раздумывает (у них есть решение по поддержке Nutanix, но в среде VMware vSphere и для Hyper-V, но не для AHV), молодые и борзые этот рынок откусывают. Вот и Comtrade предложил свой вариант организации резервного копирования для вашей инфраструктуры. Это, вероятно, будет дешевле и проще энтерпрайзного Commvault. Подерживаются «облачные» хранилища, а также NAS (SMB и NFS). Не поддерживаются ленты и SAN, но ленты сегодня это признак тяжелого энтерпрайза, и сегмент их стремительно сужается. Для «тяжелого» энтерпрайза мы ждем еще в этом году интеграции с Veritas Netbackup (он был так давно в IT, что помнил, когда Veritas еще назывался Veritas;), а также, возможно, еще одного относительно известного вендора систем резервного копирования, популярного в SMB и SME.
Ну а для Comtrade HYCU Compatibility Matrix и Datasheet по ссылкам.
Есть 45-дневный Trial.

Это не единственное решение Comtrade для Nutanix, чтобы два раза не вставать упомяну еще их же SCOM MP pack для Windows Server/Hyper-V, а также Comtrade OMS для Operation Management Suite для того же Microsoft.

Software-only Nutanix

В связи с тем, что некоторое время назад Nutanix начал шире продавать себя как Software-only вариант, например на платформы HPE ProLiant и Cisco UCS, я решил собрать краткий пост ответов на незаданные (пока) вопросы пользователей, который, я надеюсь, ответит и развеет ряд моментов непонимания для чего это все и зачем, а также насколько это подходит вам.

Практически каждый первый мой собеседник, узнав, что Nutanix это software company и мы продаем наши NX-appliances, взяв готовую x86 платформу, задает вопрос: «А можно купить Nutanix просто как софт?».
Есть короткий ответ на этот вопрос теперь: «Да, можно»
Но, как почти всегда, короткий ответ верен, но неполон. И требует более развернутого пояснения.
А начать стоит с того, что, как это часто бывает, человек, задавая этот вопрос, хочет спросить что-то совсем другое, но, по каким-то причинам, свой вопрос изменяет. На самом деле этот человек хочет спросить, также более длинно:
«Если я куплю только софт, и не буду покупать «железо», то обойдется ли мне это дешевле, смогу ли я тут сэкономить, если поставлю ваш Нутаникс на пыльный Proliant G5, который мы уже хотели совсем выкинуть, но все жалко на него потраченных в 2003-м году денег? Все же знают, что денег стоит только железо, а софт он или совсем дешевый, или бесплатный, на крайняк можно просто его скачать с торрентов, и значит должно быть круто дешевле, да?»
Вот тут, как вы понимаете, ответ на вопрос несколько удлиняется. :)

Во-первых, и прежде всего, стоит остановиться и ответить на вопрос, какую долю от целиком решения составляет в случае Nutanix стоимость его софта. К сожалению еще очень многие люди воспринимают софт как нечто «условно бесплатное», и, например, Microsoft в массовом рынке им в этом часто подыгрывает. Ну, сами судите, мы покупаем ноутбук за 1000 долларов, и на нем Windows, стоимостью 2500 рублей. Очевидно, что если нам нужен только Windows, то избавившись от ноутбука за 1000 долларов, мы круто сэкономим. Да и вообще, мы походим по базару и найдем не макбук, а что-нибудь попроще, а то может купим его с рук, за полцены, на ебэе. А то знаем мы вас, заряжаете, поди, три цены.

Ну, пойдем с конца. Утопией было бы думать, что вы сможете купить ту же платформу Supermicro дешевле, чем мы покупаем ее в Nutanix в Америке, с нашими объемами, долгосрочными контрактами, отношениями с ODM, и положенными всему этому скидками. Да, Nutanix, в целом, как весь appliance — недешев. Но стоимость железа в стоимости решения совсем не так велика, как представляется. Скорее наоборот. В определенных конфигурациях, например, в младших моделях, мы практически отдаем «железо» нашего appliance даром, подавляющую долю цены решения составляет стоимость софта и его поддержки.

То есть, отказавшись от нашего «железа» в составе appliance вы, потенциально, получаете некую (эфемерную, на мой взгляд) «бОльшую гибкость» (допустить ваших собственных ошибок при конфигурировании платформы, например), но, вместе с этим, вполне конкретную проблему с поддержкой, совместимостью всех компонентов решения, с его lifecycle, с уровнем надежности, и так далее. Стоит ли это того? На мой взгляд — нет. Тем не менее, мы, на определенных условиях, пошли навстречу пользователям, и теперь у нас появилась возможность продавать Nutanix как софт на строго определенные платформы в строго определенных конфигурациях. И это будет поддерживаться нашей техподдержкой.

  • У нас появились в партнерском прайсе строчки вида SW-PRO-PRD-3YR. Это и есть Software-only Nutanix.
  • Эта строчка одна на любую платформу.
  • Виды этих строчек – тип лицензии (PRO, ULT), а также вид и длительность поддержки.
  • Сам софт независим от платформы (то есть его можно ставить на UCS, на ProLiant, и так далее, на любую поддерживаемую платформу). Лишь бы платформа была поддерживаемой и соответствовала нашему Compatibility List.
  • Платформа должна в ТОЧНОСТИ соответствовать описанной в HFCL – Hardware AND Firmware Compatibility List. Любые отклонения вида «ой, а у нас SSD тут не такой, а почти такой, просто другого вендора, но он хорошо работает, это ничо?» не поддерживаются. Обычно это означает, что на имеющееся у вас серверное железо это, по крайней мере в поддерживаемом виде, не поставить. Вряд ли оно в точности соответствует нашему HFCL. Как правило это означает, что вы покупаете у вашего поставщика платформу, заказанную в точности в соответствии с HFCL, а потом у партнера Nutanix на него лицензию Software-only Nutanix, и с нашей помощью все это собираете и ставите.
  • Стоимость лицензии не зависит от стоимости платформы (то есть не как у Nutanix appliance сейчас, если это NX-1000, то стоимость лицензии существенно (в разы) ниже, чем, например, у NX-8000, за тот же набор фич), в результате, стоимость лицензии Software-only довольно высока сама по себе, что лишает смысла ставить ее на сравнительно слабые сервера (ну, например, за стоимость SW- можно иногда взять NX-3060, например, ВМЕСТЕ с софтом, плюс еще и железо, получается типа бесплатно). Это делает бессмысленным для пользователя покупку Software-only варианта на сравнительно слабые серверы.
  • Лицензия понодовая. Как и раньше, весь кластер должен иметь один уровень Software license, то есть PRO — то весь PRO. Если ULT — то весь ULT.
  • Лицензия не привязана к платформе, ее можно переносить на другой сервер и даже другую платформу (например год поработало на UCS, и перенесли на ProLiant).
  • Поддержка – это поддержка И обновления. После окончания поддержки перестает оказываться поддержка И предлагаться обновления. Софт продолжает работать так, как работал.
  • «Смеси» (из платформ разных вендоров) в одном кластере не поддерживаются ни с Nutanix, ни с OEM.
  • «Не поддерживаются» означает именно это.

Итак, у нас есть Software-only Nutanix License, спрашивайте у партнеров, но помните про перечисленные выше тонкости и не расчитывайте, что это «ЭсЭмБи», скорее наоборот. Это скорее интересно для крупных компаний и сервис-провайдеров/облачных провайдеров, впрочем, для их объемов мы и раньше продавали Nutanix как софт, просто не особенно это публично афишируя.

Конфигурация сети в Nutanix Acropolis Hypervisor — на русском

В конце апреля мы публиковали перевод на русский документа Nutanix Acropolis Hypervisor best practices, а сегодня я рад представить новый перевод:
Конфигурация сети в Nutanix Acropolis Hypervisor BP-2071 v.1 RUS.

По ссылке вы найдете PDF с подробным описанием того, как конфигурируется и организуется сетевая подсистема в AHV, как настроить балансировку нагрузки по портам, как организовать VLAN-ы, как настроить работу по множественным сетевым портам и виртуальным интерфейсам OpenvSwitch. Конечно, в большинстве случаев вы вполне можете оставить вашу систему в конфигурации по умолчанию, но если у вас есть специальные требования к сетевой подсистеме — этот документ для вас.
Знакомьтесь, если есть замечания по переводу, то можно оставлять в комментариях.