Архив метки: data footprint

Насколько эффективны средства компрессии данных у Nutanix?

Интересный пост опубликовал в своем блоге один из инженеров Nutanix, Майкл Вебстер.
Он рассмотрел некоторые результаты от работы наших средств снижения data footprint, такие как компрессия, дедупликация, erasure coding. Каждый из них имеет свою область применений. Например образы VM в VDI Full Clone, а также серверные VM хорошо дедуплицируются, так как, обычно, содержат много идентичных файлов и данных. Напротив, базы данных часто плохо дедуплицируются, но зато хорошо сжимаются. Erasure Coding не работает для активных данных, но довольно неплохо показывает себя при хранении «холодных» данных в больших по числу нодов кластерах.
Вот какие интересные результаты показывал Майкл в своем посте:

База данных Oracle RAC с TPC-C-подобным доступом. Здесь более всего работает компрессия.

DB-TPCC-compression

Кластер VMware Management: vCenter, его база, VMware Management Tools и инфраструктурные сервера, такие как MS AD, DNS, и так далее.

VMW-MGMTcluster

MS Exchange на 20 тысяч почтовых ящиков.

EXCH-20K

Большая VDI с разными типами VM, как Linked Clone (сжимаются), так и Full Clone (и сжимаются, и дедуплицируются).

VDI-dedupe-comp

Сложная, большая инфраструктура. 10 хостов с тяжелыми VM (70 штук на 10 хостов), общий объем хранения — более 500TB. Экономия — почти двукратная, из 371TB записанных данных удалось «сократить» разными способами более 175TB.

SRV-big-infra

В большой инфраструктуре (на примере, как видите, около петабайта хранения!) все три метода могут работать одновременно. На скриншоте Prism ниже видно, что вклад внесла и компрессия, и Erasure Coding.

Combined

Интересно, что включение компрессии при тестировании может существенно исказить результаты, если тест «не понимает» таких хитрых финтов. Вот, например, что происходит с тестом JetStress, которым принято тестировать инфраструктуры Exchange.

ExchangeJetStress3450

Как видите, «операционный объем» существенно уменьшился, соответственно, при тестировании получатся лучше результаты.

Напомню, что в Nutanix для работы компрессии и дедупликации не требуется использовать AllFlash (что необходимо в VSAN). Вот это вот все работает и на гибридных, общедоступных конфигурациях из HDD+SSD. Это полностью программно реализовано, и не требует специальных аппаратных акселераторов (как, например, требуется SimpliVity). Лицензия, которая требуется для MapReduce (отложенной, наиболее эффективной) компресси и дедупликации — Pro, однако протестировать вы все можете даже в Starter. Снэпшоты и клоны, которые, кстати, тоже очень эффективные средства снижения data footprint, выше не учитывались.

Оригинальный пост на английском тут: http://longwhiteclouds.com/2016/05/23/real-world-data-reduction-from-hybrid-ssd-hdd-storage