Интересный пост опубликовал в своем блоге один из инженеров Nutanix, Майкл Вебстер.
Он рассмотрел некоторые результаты от работы наших средств снижения data footprint, такие как компрессия, дедупликация, erasure coding. Каждый из них имеет свою область применений. Например образы VM в VDI Full Clone, а также серверные VM хорошо дедуплицируются, так как, обычно, содержат много идентичных файлов и данных. Напротив, базы данных часто плохо дедуплицируются, но зато хорошо сжимаются. Erasure Coding не работает для активных данных, но довольно неплохо показывает себя при хранении «холодных» данных в больших по числу нодов кластерах.
Вот какие интересные результаты показывал Майкл в своем посте:
База данных Oracle RAC с TPC-C-подобным доступом. Здесь более всего работает компрессия.
Кластер VMware Management: vCenter, его база, VMware Management Tools и инфраструктурные сервера, такие как MS AD, DNS, и так далее.
MS Exchange на 20 тысяч почтовых ящиков.
Большая VDI с разными типами VM, как Linked Clone (сжимаются), так и Full Clone (и сжимаются, и дедуплицируются).
Сложная, большая инфраструктура. 10 хостов с тяжелыми VM (70 штук на 10 хостов), общий объем хранения — более 500TB. Экономия — почти двукратная, из 371TB записанных данных удалось «сократить» разными способами более 175TB.
В большой инфраструктуре (на примере, как видите, около петабайта хранения!) все три метода могут работать одновременно. На скриншоте Prism ниже видно, что вклад внесла и компрессия, и Erasure Coding.
Интересно, что включение компрессии при тестировании может существенно исказить результаты, если тест «не понимает» таких хитрых финтов. Вот, например, что происходит с тестом JetStress, которым принято тестировать инфраструктуры Exchange.
Как видите, «операционный объем» существенно уменьшился, соответственно, при тестировании получатся лучше результаты.
Напомню, что в Nutanix для работы компрессии и дедупликации не требуется использовать AllFlash (что необходимо в VSAN). Вот это вот все работает и на гибридных, общедоступных конфигурациях из HDD+SSD. Это полностью программно реализовано, и не требует специальных аппаратных акселераторов (как, например, требуется SimpliVity). Лицензия, которая требуется для MapReduce (отложенной, наиболее эффективной) компресси и дедупликации — Pro, однако протестировать вы все можете даже в Starter. Снэпшоты и клоны, которые, кстати, тоже очень эффективные средства снижения data footprint, выше не учитывались.
Оригинальный пост на английском тут: http://longwhiteclouds.com/2016/05/23/real-world-data-reduction-from-hybrid-ssd-hdd-storage
А какая при этом потеря производительности дисковой подсистемы?
ИМХО, тут нет потери производительности дисковой подсистемы, а наоборот выигрыш. Незначительная потеря у вычислительной подсистемы (CPU). Итоговая производительность в целом повыше будет.
Для post-process процессов потеря ноль, даже наоборот — меньше данных поднимать с физического стоража.
Никакой, это offline process, выполняемый в такты простоя системы. А за счет того, что при дедупликации дедуплицируется (читай — пропорционально увеличивается) и «кэш», это потенциально, при некоторых видах нагрузки, может привести даже к повышению производительности системы в целом.
Последний CE сжатие, без Erasure Coding, дедупликация пока в режиме perfomance tier.
http://joxi.ru/5mdWEQxh65KPr1
Скромно конечно, но очень радует после proxmox+ceph(ovirt+gluster туда же). Решение невероятно крутое, я бы даже сказал слишком. Учитывая такое сжатие ограничения CE — версии ооочень отодвигаются.
Спасибо, интересные данные.