Nutanix Acropolis Block Service: планы на ближайший релиз

Уже не раз в этом блоге я упоминал про ABS, Acropolis Block Service, нашу фичу, с помошью которой вы можете создать на хранилище Nutanix блочный LUN, и отдать его по iSCSI 10G внешним хостам, используя часть пространства Nutanix как своеобазную «SDS СХД». Сервис этот развивается, и вот какие новые фичи были объявлены на ближайший релиз.

abs

В настоящее время в списке поддерживаемых OS на внешних хостах: RHEL 6 и 7, CentOS 6 и 7, Oracle Linux 6 и 7, Microsoft Windows Server 2008 R2, 2012 и 2012 R2.
В ближайшем релизе сюда добавятся VMware ESXi 5.5 и 6.
Последние в настоящий момент не поддерживаются, но, как видите, будут. Это означает, что вы сможете использовать Nutanix как внешнее хранилище для уже существующих у вас хостов виртуализации, например, на время переходного периода, миграции, и так далее. Не думаю, что использовать Nutanix только как SDS будет хорошей идеей, в результате вы лишаетесь множества плюсов, присущих Nutanix как решению. Но как вспомогательный способ решить какие-то конкретные задачи инфраструктуры это вполне работает.

В 5.0 ожидается Online LUN resizing.

Также мы ожидаем механизм Dynamic load balancing, который поможет распределять и динамически ребалансировать нагрузку по нодам в зависимости от их загрузки.

В 5.0 также появится CHAP authentication и IP/IQN based whitelisting, что позволит обеспечить необходимый некоторым инфраструктурам уровень защиты.

Новое внедрение Nutanix в России

У нас мало опубликованных success stories среди наших внедрений в России (и Казахстане), поэтому каждый, даже маленький, опубликованный кейс — ценен.
Очередное внедрение провел партнер компании OCS — «Магистраль Телеком».
Далее — текст пресс-релиза, предоставленного OCS:

Nutanix внедрен в ФБУН «Центральный НИИ эпидемиологии Роспотребнадзора»

Гиперконвергентная платформа NX-1365-G4 производства компании Nutanix была внедрена в федеральном бюджетном учреждении науки «Центральный НИИ эпидемиологии Роспотребнадзора» усилиями группы специалистов заказчика, интегратора «Магистраль Телеком» и дистрибутора OCS. Потребность в обновлении ИТ-инфраструктуры вызвана физическим износом существующей аппаратной платформы и необходимостью обеспечения более высоких показателей производительности и хранения данных. Наилучшим образом с этими задачами справляется серверная виртуализация на основе платформы Nutanix.

Для обеспечения работы системы использовалась традиционная трехуровневая архитектура: сервера + SAN сеть + система хранения. В связи с физическим устареванием аппаратной платформы и необходимостью сокращения сроков подготовки и выдачи данных для бизнес-подразделений, служба информационных технологий инициировала процесс выбора новой инфраструктуры.

В результате создания виртуальной инфраструктуры удалось серьезно сэкономить на физическом размещении оборудования в датацентре. Высокая плотность виртуальных серверов позволяет разместить всю инфраструктуру в 2-х юнитах на каждой площадке. За счет инновационных сервисов данных, таких как автоматическое распределение, дедупликация, сжатие данных удалось серьезно увеличить показатели производительности. Возможность неограниченного линейного масштабирования позволяет расти по мере потребности. Решение является высоко отказоустойчивым и способно продолжать предоставлять сервисы при выходе из строя до 40% аппаратных ресурсов с минимальными потерями производительности. Удобство использования  достигается за счет одной web-консоли для управления всей платформой. Наличие Rest API позволило быстро организовать полную автоматизацию инфраструктурного решения, в том числе управление  кластером, контроль, поиск и устранение неполадок, анализ производительности.

ФБУН «ЦНИИ эпидемиологии Роспотребнадзора» является одним из главных разработчиков в стране теоретических основ и концепций в области эпидемиологии, изучения социально-экономического значения инфекционных болезней, патогенеза, диагностики, терапии и профилактики инфекционных болезней. Надежная ИТ-инфраструктура является необходимым условием для нормального функционирования организации.

«Сейчас мы рассматриваем возможность применения технологий Nutanix для защиты данных и непрерывности бизнес-процессов. Это может быть реализовано при помощи технологии Metro Availability и репликации данных между площадками. Мы очень довольны эксплуатационными показателями Nutanix, такими как производительность, простота обслуживания и высокая отказоустойчивость», – считают в службе информационных технологий учреждения.

Будни саппорта Nutanix, октябрь

Интересные данные показал наш саппорт.
Я некоторое время назад упоминал, что они в августе рассказали, что из систем, которые подключены в Pulse (нашу систему репортинга и автоматического саппорта) в августе 28% систем уже работало на AHV. Но оставался вопрос, какое число систем саппорт не видит, так как они не в Pulse.
Так вот, по последним сведениям в Pulse включены 43% проданных систем.

В настоящее время на 34% нод установлена наша самая свежая версия — NOS 4.7 (на 32% — предпоследняя, весенняя, 4.6). Суммарно на последней и предпоследней версиях сидит уже 66% нод. Отличный результат.

nos-installed

Величина зарегистрированных саппортом software defects (попросту — багов, CFDs — Customer Found Defects) снижается с марта, хорошо коррелируя с выходом релиза 4.6 GA и в октябре снизилась ниже 1%, до 0,7%. То есть на ~60 000 инсталлированных нодов каких-то проблем с софтом Nutanix встречалось всего 385 штук!
При этом число инсталлированных нодов за год практически удвоилось.

SLA по кейсам уровня P2 (229 штук за месяц), P3 (937) и P4 (218) составил 99%, по кейсам P1 (critical, 46 штук, менее 1 часа реакции) — 98%.

.NEXT 2016 Vienna и новые анонсы

У нас сейчас идет большая партнерская конференция .NEXT, на которой делаются важные анонсы и презентации новых фич и продуктов. Большую часть я лично уже знаю, но так как мы, как сотрудники, находимся под «мораторием», рассказывать я могу только когда они, эти новости, объявляются публично.

Вот некоторые из новостей. Уже большинство знает, что у нас выходит вот-вот новая мажорная версия NutanixOS 5.0, со множеством новинок, как и полагается мажорной версии.
Вот только некоторые из них:

Визуализация сети. Когда у вас инфраструктура с десятком хостов, парой десятков VLAN-ов и vSwitch-ей, несколькими сотнями VM на них, становится критически важно иметь инструмент, позволяющий разобраться во всей этой лапше. Теперь средства визуализации сетевой инфраструктуры встроены в Prism GUI.

networkvisual3

Микросегментация сети в AHV. С помощью TCP-based механизмов, на Level 4, мы будем уметь сегментировать сеть внутри Nutanix, создавая что-то похожее на VMware NSX, изолируя VM друг от друга. Релиз ожидается в первом квартале 2017 года, в версии NOS «5.0 +1».

nutanix-prism-stack-b

У нас теперь есть self-service portal. О нем давно и часто просили пользователи. Его можно было сделать и самим, например, с помощью средств нашего RESTful API, но теперь он есть наш собственный.

blog_one-click-004

Наконец, мы официально объявили о поддержке работы Nutanix на серверах Cisco UCS B-series, blade. Ранее, как вы помните, мы уже анонсировали поддержку Cisco UCS C-series, rackmounted. Теперь к ним добавились блейдовые, очень популярные, например, в США, системы. С ними существует специфическая проблема. Blades принципиально ориентированы на работу с минимумом дисков локально, предполагается, что корзина blades будет подключена в внешнему стораджу, по какому-нибудь FCoE, поэтому в конструктиве серверов B-series обычно просто нет места больше чем на 2-4 диска. В результате была придумана любопытная схема. В сервера B-series ставятся SSD, и они делаются all-flash compute nodes, а для объемов хранения к корзине подключаются сервера C-series, служащие storage-only nodes. Несмотря на такое разделение следует акцентировать внимание на том факте, что, как и в NX-системах, наличие AllFlash нод требует использования AllFlash кластера, то есть storage-nodes также должны быть AllFlash. C нашими новыми SSD это позволяет установить в C240-M4 24 штуки 1.6TB SSD, эта величина будет удвоена с началом поддержки 3.2TB SSD на UCS, а в свете существенного падения цен и роста емкости SSD в последние годы, это (all-flash системы) становится все более интересно.
Но как быть с лицензиями на гипервизор, например на VMware? Не обойдутся ли storage-only-ноды слишком дорого с точки зрения лицензирования гипервизора? Тут тоже интересный финт. Storage nodes могут работать под бесплатным AHV, совместно с нодами ESXi на B-series.

blog_b-series-02

blog_b-series-03

Скоро еще :)

Разбираемся в запутанной теме лицензирования Oracle в HCI

Перевод поста в нашем блоге, оригинал тут:
http://next.nutanix.com/t5/Nutanix-Connect-Blog/Reducing-Oracle-Licensing-Cost-on-Nutanix/ba-p/13656

Президент VCE, Chad Sakac, недавно опубликовал пост о ситуации с лицензированием, метко озаглавленный: «Oracle, вы меня печалите, разочаровываете и раздражаете». Тем не менее есть определенные шаги, которые пользователи Nutanix NX (а также Dell XC и Lenovo HX) могут сделать, чтобы оптимизировать лицензирование Oracle на платформе Nutanix Enterprise Cloud Platform.

Nutanix имеет статус Oracle Gold Partner, и является далеко оторвавшимся лидером в запуске Oracle DB и Oracle RAC на HCI-системах, мы их поддерживаем в продакшне в некоторых наших клиентах уже около 2 лет. Я не нашел ни одного опубликованного референса по установке и использованию Oracle RAC на какой-либо другой HCI-системе. Свойственная Nutanix надежность, производительность и масштабируемость и зрелость продукта завоевывают голоса бизнеса, когда он рассматривает гиперконвергентное (HCI) решение.

The Nutanix Enterprise Cloud Platform
существенно сокращает TCO, при сравнении со стоимостью владения «классических» инфраструктур (серверы+SAN+СХД). Кроме этого с Nutanix вы получаете лучше производительность, упрощение администрирования и безопасности при работе с виртуализованными инстансами Oracle.

На верхнем уровне главные преимущества Nutanix Enterprise Cloud:

  • Ресурсы как серверные, вычислительные, так и ресурсы хранения объединены в стандартных x86-серверах, что позволяет реализовать стратегию pay-as-you-grow и масштабирование типа scale-out.
  • Вся функциональность реализовано в ПО, в виде software-defined решения.
  • Для приложений обеспечивается наикратчайший путь к его данным, за счет размещения их на той же ноде, что и самого приложения, причем преимущественно данные размещаются на SSD.
  • Данные, метаданные и операции могут быть распределены по всему кластеру серверов-нод.
  • Система обладает способностями самовосстановления и выдерживает отказы своих компонентов.
  • Управляемая с помощью API
  • Один пул хранения (storage pool) Nutanix позволяет разместить и обслуживать множество кластеров vCenter (в случае vSphere), упрощая управление средой хостов виртуализации и хранилищем.

Как лицензируется Oracle
В виртуальной среде Oracle лицензируется серверный хост (нода кластера). После того, как пользователь приобретет лицензии на ядра/процессоры данного серверного хоста (ноды), он может запускать на нем столько баз данных, сколько захочет. Рекомендуется использовать процессоры с максимально высокой тактовой частотой и низким числом ядер, чтобы свести к возможному минимуму число и стоимость лицензий.

Oracle лицензируется обычно попроцессорно/поядерно, одним из следующих способов:

Per-core: Обычно используется для баз данных, middleware, BI, и т.д.
Это наиболее часто используемый вариант лицензирования Oracle. Oracle использует схему «множителей» (multipliers), ориентируясь на физическую инфраструктуру платформы (x86, SPARC, Power, и т.д.). Ниже приводится скриншот из документации Oracle, помогающий понять, что имеется ввиду.

Oracle Core Factor Table:
02/12/2016 Oracle Software Investment Guide

1677i245dc85487648930

Named User Licenses: Чаще всего используется для Dev/Test/QA. В этой схеме организация лицензирует определенное число пользователей, которые имеют право использовать систему.

Unlimited License Agreement (ULA): безлимитная лицензия на определенный набор продуктов. Это могут быть база данных, middleware, BI и другое.

Application Specific Licensing: В этой схеме лицензируются определенные приложения или модули. Например, можно лицензировать 50K пользователей платежных операций, 500 пользователей финансового отдела, и т.д.

Пользователь Oracle , например, может сделать 10-нодовый кластер Nutanix Enterprise Cloud Platform, на котором создает 2-нодовый кластер ESXi для SQL сервера, и 6-нодовый кластер ESXi для прочих задач, например, для размещения там других виртуальных серверов приложений. Он по-прежнему может использовать Nutanix Prism для управления единой storage fabric, но определенная задача, например, Oracle DB, будет «заперта» в своем выделенном сегменте кластера ESXi, выделенного под эту задачу, и только этот сегмент должен быть пролицензирован Oracle. Эта схема ничем не отличается, с точки зрения лицензирования Oracle, от использования СХД, обслуживающей два физически разделенных кластера ESXi, на двух наборах физических серверов. Такое разделение лицензий Oracle позволяет значительно проще управлять тем, сколько ядер пользователь добавляет в кластер, по сравнению с традиционной инфраструктурой.

Основные преимущества использования гиперконвергентной платформы для Oracle:
Кроме уже перечисленного выше, есть еще ряд полезных особенностей и преимуществ Nutanix Enterprise Cloud для Oracle.

Упрощение структуры хранилища Oracle Database
Nutanix позволяет вам упростить то, как устроено хранилище базы данных. Вы можете сделать всего две дисковые группы Oracle ASM, каждая из которых будет состоять из одного и более дисков Nutanix, нет необходимость конфигурировать и настраивать RAID.

1679if12844231d031dbb

Pay-as-You-Grow Scale-Out Performance
Платформа Nutanix представляет собой единую платформу хостинга приложений, как для Oracle, так и для других задач, масштабирующуюся в соответствии с потребностями пользователя и его задач. Пользователь может выбрать минимальную конфигурацию из всего 3 нод, и увеличивать масштабы своей системы небольшими шагами, по мере возникновения необходимости в этом, небольшими инкрементами объемов или вычислительной мощности.

У Nutanix также есть специальные storage-only ноды, которые не исполняют код Oracle, и работают под гипервизором Nutanix AHV. Эти ноды позволяют расширить емкость хранения кластера Nutanix, при этом они не требуют лицензирования ни со стороны VMware, ни со стороны Oracle.

Преимущества, которые я разделил на те, что относятся к «железу» и те, что относятся к «софту».

Преимущества на стороне «железа»

Лучше уровень использования серверов и хранилища: переместив хранилище непосредственно в сервер, и, тем самым, сократив значения latency, мы позволим Oracle DBA разместить на том же железе больше баз данных.
Консолидация лицензий: Используемый в Nutanix интеллектуальный тиринг данных и локальный доступ к данным позволяет получить более высокую производительность на ядро и более высокую плотность задач на ноду, чем в классических инфраструктурах.
Снижение стоимости интеграции инфраструктуры: системы Nutanix являются готовым решением всего стека, от системы виртуализации до хранилища данных.
Снижение TCO: высокая плотность размещения ведет к лучшему коэффициенту использования места и энергии, снижая занятое в датацентре место и требования по электропитанию и охлаждению.
Встроенная функциональность: Nutanix приходит со встроенными, нативными средствами защиты данных и катастрофоустойчивости, а также средствами повышения эффективности хранения (например, компрессия баз данных), что устраняет необходимость в покупке сторонних средств такого рода, и дополнительных затрат на их использование.
Возможность смешивать разные типы нод: наличие в общем кластере нод разной специализации, например, с высокой вычислительной мощностью, или, например, с большой емкостью и плотностью хранения, позволяет оптимизировать затраты на решение как с точки зрения оборудования, так и лицензий Oracle.

Преимущества на стороне «софта»

Увеличение производительности админов/DBA: Nutanix обеспечивает управление всей инфраструктуры из единого интерфейса с настраиваемыми дашбордами, в котором легко управлять и оценивать потенциальные точки роста инфраструктуры, что помогает DBA управлять работой системы более эффективно и с меньшими рисками.
Увеличение производительности системы: Data Locality и автоматический tiering устраняет проблему «noisy neighbor», увеличивает производительность и масштабируемость баз данных
Автоматизация: использование RESTful API помогает автоматизировать развертывание и клонирование production в dev/test, создавая основу для системы DBaaS (Database as a Service Cloud).
Снижение числа проблем: компоненты целостного решения Nutanix поставляются предварительно протестированными на совместимость.
Проактивный анализ и моделирование сценариев: инструмент Prism Central обеспечивает доступ к превосходным средствам аналитики и моделирования сценариев
Упрощение структуры хранения баз данных: Достаточно сделать всего две дискгруппы в ASM, каждая из них будет располагаться на одном или нескольких дисках Nutanix. Нет необходимости делать RAID.

Виртуализация физических серверов

Запуская Oracle на физическом железе вы, зачастую, получаете низкий уровень использования оборудования. Виртуализация Oracle поверх одного из популярных гипервизоров, таких как ESXi, Hyper-V, Oracle VM или нашего собственного Acropolis Hypervisor (AHV) не только консолидирует ресурсы, но также значительно увеличивает показатели использования оборудования, что эффективно высвобождает лицензии и ресурсы для их использования в других проектах.

Nutanix позволяет виртуализировать физические серверы очень легко. В отличие от традиционной, «классической» инфраструктуры тут нет централизованного хранилища и SAN-фабрики, нет и необходимости администрировать или настраивать их. Использование Nutanix AHV вдобавок позволяет устранить затраты на приобретение и поддержку, а также на стоимости администрирования системы виртуализации и инструментов управления ей.

Администраторам Oracle DB понравятся возможности защиты и восстановления данных из crash-consistent и application-consistent снэпшотов. Админ может перевести Oracle DB в hot backup mode, снять с базы данных снэпшот или клонировать раздел данных, например, для test/dev копии. Наши снэпшоты и клоны — нативный механизм нашей платформы.

Пример
Nutanix недавно поставил 44 узла для проекта замены классической 3-Tier инфраструктуры Oracle DB, работавшей без использования виртуализации, для компании, одном из крупных разработчиков ПО.
Таблица 1 показывает схему размещения оборудования в стойках датацентра.
Таблицы 2 и 3 показывают сравнение старой и новой схемы

1680idfa1ab5fa0c784f3
Table 1: Physical Rack Layout for Oracle on Nutanix

1681i20bd0ee3c9c53b11
Table 2 Physical Footprint Comparison for SaaS Oracle: Nutanix vs. Legacy

1683iba2072395dd42443
Table 3 Physical Footprint Deltas for SaaS Oracle: Nutanix vs. Legacy

Пример расчета лицензий Oracle

Пример основывается на ценах лицензий, опубликованных 18 августа 2016. Цены могут меняться со временем, и порядок цен в расчете действителен только на момент публикации.
Давайте сравним «классическую» 3-Tier инфраструктуру с использованием физического «железа» на AIX, HPUX или иного UNIX/Linux, и работающую на Nutanix.
В случае физических серверов Oracle принимает множитель для лицензий Processor Core Factor равный единице (1х), а для x86 он будет равным 0.5x.

В ценах листпрайса Oracle DB Enterprise Edition стоит $47500, добавим сюда опции Diagnostics ($7500), Tuning ($5500) и Partitioning ($11500), что увеличивает сумму на $24000. Исходим из того, что нам нужно 10 лицензий на CPU, как для физической инфраструктуры, так и для Nutanix.

«Классика»: 10 X 1 X ($47,500 + $24,000) = $710,500

Nutanix: 10 X 0.5 X ($47,500 + $24,000) = $357,500

А ведь кроме этого виртуализация позволяет вам лучше использовать ресурсы сервера, например, можно разместить не одну, а две базы данных на том же 10-ядерном сервере, что эффективно снизит в этом случае стоимость лицензий до $187750 на базу данных, что составит 1/4 от стоимости лицензий Oracle на физической «классике».

И в отличие от «классики» нет дополнительных затрат на СХД и SAN. Занятое пространство в стойке, потребленное электричество и выделение тепла также уменьшится, а стоимость затрат на администрирование существенно снизится, так как Nutanix устраняет часть затрат, связанных с администрированием СХД и автоматизирует значительную часть задач, связанных с обновлением OS/firmware/гипервизора.

Спасибо Murali Sriram, Michael Webster, Sachin Chheda, Tom Dau, Jim LeVan, Rob Simpson и Edison Diaz за помощь в написании этой статьи и правки.

Дополнительно смотрите материалы:

Licensing Databases on EMC and VMware Technology.  2016. Houses of Brick Technologies White Paper.
Scale-Out Performance Testing with Nutanix Storage-Only Nodes. Josh Odgers. 07/14/2016.  joshodgers.com.
What is the Cost of Oracle Database License? Let’s Find Out! 07/28/2016. Pawan Kumar Yaddanapudi. orskl.com
Oracle Software Investment Guide. 02/12/2016. Oracle.com.
Database Licensing. 2015. Oracle.com.
Oracle on Nutanix Best Practices. September 2014. Nutanix.com.
A Few Words on Oracle Licenses. 03/01/2013. The Oracle Alchemist.
IDC Customer Spotlight: ASM International July 2016 IDC Report

SSD в HPE HC380 могут быть сняты с гарантии при «интенсивном использовании»

Разбираюсь тут с нашими конкурентами в HPE, точнее — с их новой системой HC380, наталкиваюсь в документации на такое:

hpe-hc380-ssd-warranty-issues

Э-э… HPE, вы это всерьез? У вас SSD warranty is subject to maximum usage limitiaions? На втором десятке лет XXI века, у крупнейшего поставщика энтерпрайз-решений? Знает ли об этом ваша мама ваши клиенты, которым вы продаете HC380?

История двухлетнего опыта использования ceph в веб-хостере и полученный опыт.

Интересный пост на Хабре, описывающий опыт веб-хостера FirstVDS в его попытках сделать кластер на ceph, и честное описание всех значительной части проблем, которые они хапнули в процессе. Полезное и душеспасительное чтение для всех, кто рассматривает ceph как enterprise-grade решение.
Вкратце, бегло о lessons learned:

* Процесс «выучивания уроков» занял примерно два года, на сегодняшний день. Первая версия была собрана осенью 2014 года.

* Не все x86 сервера «одинаково полезны». Купленные специально под кластер сервера оказались глючными.

Чтобы опробовать новую архитектуру и избавиться от прежних недостатков, собрали тестовый стенд. И тут выяснилось интересное — специально купленные для сборки первой версии серверы оказались «палёными». Системная шина всех серверов работала медленно. В результате, все устройства, связанные с северным и южным мостами — карты IB, подключенные по PCI-E, диски, память — также работали медленно. Это объясняло большую часть проблем, с которыми мы столкнулись. В качестве пробы взяли несколько свободных нод, на которых обычно запускаем клиентские VDS. По тех. характеристикам они почти ничем не отличались. Собрали и запустили кластер на этих машинах, стали прогонять тесты. Всё летает! … купили новые серверы на базе Xeon 2630 …

* Далекая от оптимальности схема восстановления избыточности в ceph, требующая ручной регулировки.

Кластер справлялся с задачами — при выходе из строя дисков или нод целиком, он продолжал функционировать. Однако, каждая перебалансировка превращала ситуацию в критическую. При добавлении нового диска сглаживали пик нагрузки, используя веса. Вес отвечает за степень использования конкретного физического носителя. Устанавливаем новый диск, ставим вес 0 — диск не используется. После этого увеличиваем вес постепенно, и перебалансировка происходит маленькими порциями. Если же диск выходит из строя, то веса не срабатывают: ~1 Тб реплик надо «размазать» по оставшимся дискам сразу, и Ceph надолго уходит в режим записи данных, загружая диски «пустой» работой.

* Перестроение кластера ceph на ходу вызывает существенную нагрузку на серверы и влияет на нормальную работу приложений

* Для построения в чистом виде гиперконвергентной системы, когда одни и те же сервера являются и узлами хранения и хостами виртуализации, ceph оказался малопригоден.

При увеличении количества VDS кластер начинал работать нестабильно, и мы переносили клиентские машины на обычные ноды. …
После нескольких итераций стало ясно, что ситуация кардинально не меняется. Приняли решение перенести клиентов на обычные ноды и расформировать кластер.
Первая версия кластера не оправдала ожиданий. Клиенты сталкивались с дисковыми тормозами, а мы уделяли слишком много времени технической поддержке кластера.

* Несбалансированная система с купленными «для экономии» дисками SATA большой емкости стала проблемой при увеличении нагрузки.

* Сетевая распределенная запись на хранилище, без data locality, одновременно с высокой загрузкой кластера по вводу-выводу — зло.

* SSD в режиме кэша в ряде специфических ситуаций, например замене вышедшего из строя диска и последующей перебалансировке, работает плохо.

Около 5-ти месяцев система замечательно работала, радуя нас и клиентов. Так было, пока количество клиентов не достигло критического значения. Вместительные диски по 4-8 Тб всё-таки вылезли нам боком. При заполнении диска уже наполовину, он превращался в бутылочное горлышко — большое количество файлов, принадлежащих разным VDS, располагались на одном физическом носителе, и ему приходилось обслуживать большое количество клиентов. При выходе его из строя перебалансировка тоже проходила тяжело — надо перераспределить большой объём информации. SSD-кэш в таких условиях плохо справлялся со своими обязанностями. Рано или поздно диск кэша переполнялся и давал сигнал — с этого момента я ничего не кэширую, а только записываю сохраненную информацию на медленный HDD-диск. HDD-диск испытывает в это время двойную нагрузку — обрабатывает прямые обращения, которые поступают минуя кэш, и записывает сохраненные в кэше данные. Хранилище хорошо работало, пока дело не доходило до изменения дисковой конфигурации. Выпадение диска или добавление нового сильно замедляло общую пропускную способность хранилища.

* Низкое качество кода ceph, может привести к серьезным проблемам с разрушением хранилища данных.

Используйте LTS-выпуски Ceph. Не рассчитывайте, что будете накатывать новую версию с каждым релизом. Обновление — потенциально опасная операция для хранилища. Переход на новую версию повлечёт изменения в конфигах, и не факт, что хранилище заработает после обновления. Отслеживайте багфиксы — они бэктрекаются из новых версий в старые.

* Баги могут уничтожить как работу кластера в целом, так и содержимое хранилища.

18 февраля 2016 мы столкнулись с критическим багом Ceph: в процессе скидывания кэша на диск происходила некорректная запись блока данных. Это приводило к отключению процессов ceph-osd всех дисков, где хранились реплики злосчастного блока. Система сразу лишалась трёх дисков, а значит и всех файлов, размещенных на них. Запускался процесс перебалансировки, но не мог завершиться до конца — ведь из системы пропадали все три копии как минимум одного блока данных (и соответствующего файла), с которого началась проблема. Консистентность хранилища была под угрозой. Мы вручную удаляли ошибочные блоки, перезапускали процессы ceph-osd, но это помогало ненадолго. Ошибочная запись повторялась, балансировка начиналась снова, и хранилище рушилось. …
Напряженный поиск в интернете дал результат — закрытая бага в последнем на тот момент релизе Ceph Hammer. Наше хранилище запущено на предыдущей версии — Firefly.
Предупредили клиентов о недоступности серверов и приступили к обновлению. Переключились на другой репозиторий, в который залит фикс баги, выполнили yum update, перезапустили процессы Ceph — не помогло. Ошибка повторяется. Локализовали источник проблемы — запись из кэша в основное хранилище — и отключили кэширование полностью. Клиентские серверы заработали, но каждая перебалансировка превращалась в ад. Диски не справлялись с обслуживанием системной балансировки и клиентского чтения-записи.
Решили проблему кардинально — отказались от SSD-кэша

* Для полноценной работы кластера ceph требуется allflash конфигурация.

поставили SSD-накопители в качестве основных. Тут помогли ноды с большим количеством дисковых корзин, предусмотрительно купленные для кластера хранения. Заменяли постепенно: сначала добавили по четыре SSD в оставшиеся пустые корзины на каждом сервере, а после балансировки данных, стали по одному заменять старые HDD-диски на SSD. Делали по схеме: удаление диска, установка диска, балансировка данных, удаление, установка, балансировка и так далее по кругу, пока в нодах не остались только SSD. Заменяли на горячую …
Использовали промышленные накопители Samsung 810 размером 1 Тб. Не стали использовать SSD большего размера, чтобы не провоцировать ситуацию «узкого горлышка», когда на одном физическом носителе располагается много данных, и, следовательно на него приходится большое количество обращений.
Таким образом, постепенно мы заменили все накопители на SSD. И наступило счастье

Мои выводы (которые могут не совпадать с выводами авторов оригинального поста): ceph в продакшне — опыт для людей с железными яйцами. Скупой платит. И хорошо если только дважды. И тем более хорошо, если только деньгами. Забудьте об отпусках с семьей и отключенном на ночь звонке телефона. Это не для вас теперь.
Зато не скучно. :)

Oracle RAC на внешних хостах с использованием Acropolis Block Services (ABS)

Интересный эксперимент провели у нас в лабе. Был запущен Oracle RAC 12.1 на двух хостах Lenovo (бывш. IBM) x3850, подключенных к 4 нодам кластера Nutanix (NOS 4.7) с использованием Lenovo HX7500 в AllFlash конфигурации (суммарное число нод в кластере было 6, как видно из скриншота ниже, но 2 в тесте не участвовали и в ABS подключены не были).
Причем так как не стояла задача достигнуть максимально возможных результатов, не делалось никакого тюнинга баз, и эксперимент проводился параллельно с другими операциями на этом экспериментальном кластере, в частности там же в этот момент было развернуто около 100 рабочих мест в XenDesktop и 4 вспомогательные базы в MS SQL.

Тем не менее, было достигнуто около 90K IOPS на OLTP-подобной нагрузке (70% Read / 30% Write) при средней latency около 1ms.
Суммарная производительность всех 6 узлов кластера, обрабатывавшего кроме нагрузки Oracle RAC еще и другие задачи лабы, составила около 200.000 IOPS

sn-2057-oracle-rac-with-abs_image5

А это показания непосредственно Enterprise Manager-а Oracle.

sn-2057-oracle-rac-with-abs_image6

Показания значений latency

sn-2057-oracle-rac-with-abs_image7

Выброс latency в районе 8:35 — это создание снэпшота AWR — Automatic Workload Repository.

При тесте в качестве генератора OLTP-подобной нагрузки использовался SLOB v2.3.

Конфигурация тестовой платформы:

Four-node HX7500 all-flash (prerelease hardware version) running Nutanix AHV:

  • 24x 800 GB SSDs per node
  • 2x Intel E5 v3 CPUs per node
  • 256 GB of RAM per node
  • 2x 10 GbE NICs per node

Two-node Lenovo x3850 X6 running Oracle Linux and Oracle 12c in RAC configuration:

  • 512 GB of RAM per node
  • 2x 40 GbE per node
  • 2x 10 GbE per node

sn-2057-oracle-rac-with-abs_image3

Nutanix AHV 4.7
Oracle Linux v7.1 x86_64
Oracle 12cR1 Grid Infrastructure v12.1.0.2
Oracle 12cR1 Database v12.1.0.2

На каждой ноде Oracle RAC был установлен Oracle Linux 7.1 x86_64 с 72 cores на 512 GB памяти, 128 GB выделено Oracle SGA (System Global Area).
Oracle ASM disk groups использовали 4 MB allocation unit (AU). Параметры ASM:

Database data — 24 тома 500GB
Online Redo Logs — 6 томов 30GB
FRA — 6 томов 100GB
OCR/Vote Disk — 6 томов 20GB

Для подключения томов к хостам Oracle использовался iSCSI 10GBE.

VMware исполняется 17 лет!

Совсем недавно я в этом блоге отметил 60 лет, исполнившихся HDD. А сегодня еще одна важная дата, пусть некруглая, это все равно повод вспомнить, что 17 лет назад была образована компания VMware. Компания, так важно и сильно изменившая наш IT-мир и современные датацентры. Тогда, 17 лет назад, виртуализация и гипервизоры сперва были просто неким забавным способом запустить Linux на Windows, и поиграться с ним на компьютере админа. Сперва это рассматривалось просто возможностью выполнять другую OS на персоналке, например для учебных или тестовых целей. Но прошло совсем немного лет, и стало ясно, что цели у новой компании куда более дальние. Сегодня же виртуализация, на мой взгляд, совершила переворот, сравнимый с приходом «персональных компьютеров» и «серверов стандартной архитектуры» на смену мэйнфреймам, переворот, который осознавался далеко не сразу и не всеми.
Так что не стоит забывать то, что всего 17 лет назад родилась компания, которая эту революцию сделала возможной, и поздравления коллегам из VMware с этой датой!