Насколько эффективны средства компрессии данных у Nutanix?

Интересный пост опубликовал в своем блоге один из инженеров Nutanix, Майкл Вебстер.
Он рассмотрел некоторые результаты от работы наших средств снижения data footprint, такие как компрессия, дедупликация, erasure coding. Каждый из них имеет свою область применений. Например образы VM в VDI Full Clone, а также серверные VM хорошо дедуплицируются, так как, обычно, содержат много идентичных файлов и данных. Напротив, базы данных часто плохо дедуплицируются, но зато хорошо сжимаются. Erasure Coding не работает для активных данных, но довольно неплохо показывает себя при хранении «холодных» данных в больших по числу нодов кластерах.
Вот какие интересные результаты показывал Майкл в своем посте:

База данных Oracle RAC с TPC-C-подобным доступом. Здесь более всего работает компрессия.

DB-TPCC-compression

Кластер VMware Management: vCenter, его база, VMware Management Tools и инфраструктурные сервера, такие как MS AD, DNS, и так далее.

VMW-MGMTcluster

MS Exchange на 20 тысяч почтовых ящиков.

EXCH-20K

Большая VDI с разными типами VM, как Linked Clone (сжимаются), так и Full Clone (и сжимаются, и дедуплицируются).

VDI-dedupe-comp

Сложная, большая инфраструктура. 10 хостов с тяжелыми VM (70 штук на 10 хостов), общий объем хранения — более 500TB. Экономия — почти двукратная, из 371TB записанных данных удалось «сократить» разными способами более 175TB.

SRV-big-infra

В большой инфраструктуре (на примере, как видите, около петабайта хранения!) все три метода могут работать одновременно. На скриншоте Prism ниже видно, что вклад внесла и компрессия, и Erasure Coding.

Combined

Интересно, что включение компрессии при тестировании может существенно исказить результаты, если тест «не понимает» таких хитрых финтов. Вот, например, что происходит с тестом JetStress, которым принято тестировать инфраструктуры Exchange.

ExchangeJetStress3450

Как видите, «операционный объем» существенно уменьшился, соответственно, при тестировании получатся лучше результаты.

Напомню, что в Nutanix для работы компрессии и дедупликации не требуется использовать AllFlash (что необходимо в VSAN). Вот это вот все работает и на гибридных, общедоступных конфигурациях из HDD+SSD. Это полностью программно реализовано, и не требует специальных аппаратных акселераторов (как, например, требуется SimpliVity). Лицензия, которая требуется для MapReduce (отложенной, наиболее эффективной) компресси и дедупликации — Pro, однако протестировать вы все можете даже в Starter. Снэпшоты и клоны, которые, кстати, тоже очень эффективные средства снижения data footprint, выше не учитывались.

Оригинальный пост на английском тут: http://longwhiteclouds.com/2016/05/23/real-world-data-reduction-from-hybrid-ssd-hdd-storage

Насколько эффективны средства компрессии данных у Nutanix?: 6 комментариев

    1. Nemat

      ИМХО, тут нет потери производительности дисковой подсистемы, а наоборот выигрыш. Незначительная потеря у вычислительной подсистемы (CPU). Итоговая производительность в целом повыше будет.

    2. Maxim

      Для post-process процессов потеря ноль, даже наоборот — меньше данных поднимать с физического стоража.

    3. romx Автор записи

      Никакой, это offline process, выполняемый в такты простоя системы. А за счет того, что при дедупликации дедуплицируется (читай — пропорционально увеличивается) и «кэш», это потенциально, при некоторых видах нагрузки, может привести даже к повышению производительности системы в целом.

  1. Ancient

    Последний CE сжатие, без Erasure Coding, дедупликация пока в режиме perfomance tier.
    http://joxi.ru/5mdWEQxh65KPr1
    Скромно конечно, но очень радует после proxmox+ceph(ovirt+gluster туда же). Решение невероятно крутое, я бы даже сказал слишком. Учитывая такое сжатие ограничения CE — версии ооочень отодвигаются.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *