Интересный пост опубликовал в своем блоге один из инженеров Nutanix, Майкл Вебстер.
Он рассмотрел некоторые результаты от работы наших средств снижения data footprint, такие как компрессия, дедупликация, erasure coding. Каждый из них имеет свою область применений. Например образы VM в VDI Full Clone, а также серверные VM хорошо дедуплицируются, так как, обычно, содержат много идентичных файлов и данных. Напротив, базы данных часто плохо дедуплицируются, но зато хорошо сжимаются. Erasure Coding не работает для активных данных, но довольно неплохо показывает себя при хранении «холодных» данных в больших по числу нодов кластерах.
Вот какие интересные результаты показывал Майкл в своем посте:
База данных Oracle RAC с TPC-C-подобным доступом. Здесь более всего работает компрессия.
Кластер VMware Management: vCenter, его база, VMware Management Tools и инфраструктурные сервера, такие как MS AD, DNS, и так далее.
MS Exchange на 20 тысяч почтовых ящиков.
Большая VDI с разными типами VM, как Linked Clone (сжимаются), так и Full Clone (и сжимаются, и дедуплицируются).
Сложная, большая инфраструктура. 10 хостов с тяжелыми VM (70 штук на 10 хостов), общий объем хранения — более 500TB. Экономия — почти двукратная, из 371TB записанных данных удалось «сократить» разными способами более 175TB.
В большой инфраструктуре (на примере, как видите, около петабайта хранения!) все три метода могут работать одновременно. На скриншоте Prism ниже видно, что вклад внесла и компрессия, и Erasure Coding.
Интересно, что включение компрессии при тестировании может существенно исказить результаты, если тест «не понимает» таких хитрых финтов. Вот, например, что происходит с тестом JetStress, которым принято тестировать инфраструктуры Exchange.
Как видите, «операционный объем» существенно уменьшился, соответственно, при тестировании получатся лучше результаты.
Напомню, что в Nutanix для работы компрессии и дедупликации не требуется использовать AllFlash (что необходимо в VSAN). Вот это вот все работает и на гибридных, общедоступных конфигурациях из HDD+SSD. Это полностью программно реализовано, и не требует специальных аппаратных акселераторов (как, например, требуется SimpliVity). Лицензия, которая требуется для MapReduce (отложенной, наиболее эффективной) компресси и дедупликации — Pro, однако протестировать вы все можете даже в Starter. Снэпшоты и клоны, которые, кстати, тоже очень эффективные средства снижения data footprint, выше не учитывались.
Оригинальный пост на английском тут: http://longwhiteclouds.com/2016/05/23/real-world-data-reduction-from-hybrid-ssd-hdd-storage