Что делать, если на Nutanix случайно удалены важные данные?

Допустим, вы случайно грохнули vDisk с базой данных вашей компании, или еще что-то столь же важное. Случится может с каждым. Что делать?

don-t-panic

1. Не паниковать!
Как и в большинстве других файловых систем сегодня, при удалении на ней файла блоки, в которых хранится информация, не удаляются физически. На Nutanix они даже не мгновенно высвобождаются. Поэтому, не паникуя, нужно максимально быстро сделать следующий шаг:

2. В консоли CVM дать команду:
allssh genesis stop curator

allssh — выполнит эту команду на всех хостах, когда вы запустите ее только на одном из них
genesis stop — это команда, указывающая менеджеру сервисов Genesis остановить указанную далее службу.
curator — служба менеджера кластера Nutanix, именно он занимается очисткой удаленных vDisk-ов. Цикл сканирования partial scan проходит раз в 60 минут (например, для переноса данных с hot на cold tier), так что если вы успели остановить curator приведенной командой раньше, чем будет запущен цикл сканирования и очистки, то данные гарантированно останутся целыми.

3. Свяжитесь с техподдержкой.
Вероятность восстановить данные полностью после их удаления достаточно велики, если вы без промедления остановили службу curator.

Важно: эти действия не приводят к остановке работы кластера и других VM с вашими приложениями! Все VM по-прежнему будут работоспособны, пока вы извлекаете удаленные данные из контейнера кластера Nutanix.

Что делать, если на Nutanix случайно удалены важные данные?: 17 комментариев

  1. Дмитрий

    Добрый день!
    Вопрос не в тему.
    Можете подсказать интеграторов Nutanix в России или где найти их список?

    1. romx Автор записи

      У нас три дистрибутора:
      Навика-Дата
      Мерлион
      OCS

      Из партнеров-интеграторов:
      Техносерв

      Остальные все небольшие.
      А с какой целью интересуетесь?

      1. Дмитрий

        Имеется ЦОД. В нём кластер hyper-v 2012r2 (сервера+схд). Задача организовать резервный цод с репликацией из основного и обратно (растояние 1км, линк 10Gb). Можно ли организовал резервный цод на Nutanix и настроить hyper-v реплику с основным цод? (В основном оставить текущее оборудование).

        1. romx Автор записи

          Если оба ДЦ будут на Nutanix — да. Если только один наш, то (по крайней мере просто) — нет.

  2. Николай

    Роман,
    А я правильно понял, что миграция горячих блоков (тиринг) с HDD на свободное место в SSD делается ILM’ом по команде от curator каждые 60 минут?

      1. Николай

        Роман, спасибо.
        Тогда второй вопрос — согласно Nutanix Bible, при миграции данных с SSD на HDD работает обычный LRU (Least Resent Used). При миграции данных с HHD на SSD это тоже LRU?

        1. romx Автор записи

          Там настраиваемо, но по умолчанию, как я помню, используется метод: «поднять блок с HDD на SSD, если за 30 секунд к нему было два и более обращения». Два — чтобы избежать замусоривания кэша при задачах типа бэкапа, которые «трогают» блок, но, в реальности, не требуют срабатывания при этом ILM.

          1. Николай

            Роман, тут тогда не очень понятно как соотносится «задача раз в 60 минут» и «за 30 секунд 2 обращения».
            То что вы пишите, больше похоже на Unified Cache/Content Cache для Multi Touch Pool., т.е для кэширования, а не для тиринга. А эти 30 секунд — время через которое «забывается», что было прошлое обращение для перемещения в пределах Unified Cache.

          2. romx Автор записи

            Вы сейчас разные вещи путаете.
            Раз в 60 минут сносится «вниз» при прохождении таска «ILM». Поднимается «наверх» блок по другому.
            В кэш (content cache) ноды оно попадает сразу, после первого же чтения. Но если чтение повторяется, то тогда блок переходит на hot tier.

  3. Николай

    Роман,
    Насколько я вижу в Nutanix Bible — SSD используется под Unified Cache (Кэш на чтение размером 20GB), OpLog (кэш на запись), Extent Store (хранение данных в SSD-Tier),
    + служебные разделы (Nutanix Home + Cassandra). По кэшу все более-менее понятно, а мой вопрос в тиринге.
    Цитата с рисунка 11-19: «ILM will move heavily accessed data to the local SSD… «. Т.е. то, что данные при чтение пойдут в 20GB Unified Cache это понятно, но как/когда/по какому критерию данные перемещаются из HDD в SSD в рамках ExtentStore? В Nutanix Bilble и блогах этот вопрос почему-то игнорируется.
    P.S. Насколько я понял из той же Nutanix Bible и блогов, данные вниз сносятся, в первую очередь, при заполнении всех SSD на 75% (curator_tier_usage_ilm_threshold_percent (Default=75))

    1. romx Автор записи

      > но как/когда/по какому критерию данные перемещаются из HDD в SSD в рамках ExtentStore?

      Ну я как раз на этот вопрос и ответил. К блоку было два обращения за 30 секунд — он переносится назад, на SSD.

      1. Николай

        Роман,
        Вы пишите «В кэш (content cache) ноды оно попадает сразу, после первого же чтения. Но если чтение повторяется, то тогда блок переходит на hot tier.». Тогда объясните на пальцах, чем это отличается от DSF Unified Cache, в котором MultiTouch Pool лежит в том числе на SSD? Он делает ровно тоже самое — перемещает блок, к которому был второй запрос из RAM (Single Touch Pool в Unified Cache) на SSD (ну, через некоторое время, когда RAM в MultiTouch Pool кончится, но это не принципиально, в данном случае) согласно LRU, но в Unified Cache SSD Pool, который 20GB. См. рисунок 11-6 и 10-6.

        И, во-вторых, а где здесь тиринг-то? LRU дважды запрашиваемых блоков — чистое кэширование, о чем и пишется в главе про Unified Cache. Тиринг, обычно, подразумевает наличие heatmap’ов всех блоков за некоторое время (t), TOP N которых мы переместим на более быстрый Tier, т.е. данных о ЧАСТОТЕ запрашиваемых блоков за некоторое время, а не время последнего обращения.

        1. romx Автор записи

          1. Отличается структурой хранения, вероятно.
          Как я понимаю, в content cache блок ранится иначе, чем в extent store. В том числе отличается политика его вытеснения из него, как я понимаю.

          2. Для меня тиринг, это когда блок находится ИЛИ на Tier 1 ИЛИ на Tier 2. Кэширование, это когда он находится И в кэше И на Tier-е хранения. То есть SSD, используемый как кэш — не суммируется с объемом HDD. А в случае Tier-а — суммируется.

          1. Николай

            Роман,
            Ок, ну в любом случае, я правильно понял, Nutanix не учитывает кол-во обращений к данным при перемещении их между уровнями хранения и кешом (кроме как 1 или >1)?

          2. romx Автор записи

            Видимо так. Если за час блок не «потрогали» — он «холодный», и перемещается на cold tier в очередном цикле миграции блоков.

  4. Andrey

    Николай, данные переезжают с HDD на SSD либо если к ним идет больше N обращений в единицу времени, либо если диск прибили (SSD pinning) к SSD-SATA уровню.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *