Обзор дедупликации данных

2 ответа

Два используемых ключа командной строки приводят к следующему: и . Поскольку документация () описывает:

Это комбинация, в которой вы вошли: будет удалять (как указано при запуске без аргументов), а режим «Резервное копирование» поражает большинство разрешений, чтобы читать файлы «нормально» нечитабельно, чтобы сделать полные резервные копии.

«Режим резервного копирования» в описании справки не определен. Вы должны знать, что API поддерживает флаг , который в сочетании с определенным правом доступа (который предоставляется группе «Администратор» по умолчанию — также группа операторов резервного копирования, duh) обходит обычную защиту файлов.

Ты не знал этого? Тогда вы также можете не знать, что robocopy не была первоначально частью Windows вообще — она была частью дополнения, называемого «Windows Resource Kit», который использовался в основном программистами и жесткими системными администраторами в тот же день, и хотя это был выпущен в дистрибутив Windows в Windows Server 2008, он никогда не получал никакого внимания — кроме дополнительных параметров производительности, woot! В частности, нет внимания со стороны менеджеров программ, посвященных пользовательскому интерфейсу или удобству использования . Так что это сырой бит, который можно использовать — или неправильно! — на свой страх и риск.

(Хорошее эмпирическое правило: не используйте параметры командной строки, которые вы действительно не понимаете.)

Информация, которую вы хотели бы узнать о доступе к файлу режима резервного копирования:

Ниже приведены последующие результаты с использованием других предоставленных ответов и тестирования с помощью дедуплицированного адресата. ( Meta: Я не знаю, должен ли я включать это как редактирование в нижней части моего исходного вопроса. )

Командная строка Robocopy развивалась так, чтобы выглядеть следующим образом:

Параметры и назначение:

/MIR — зеркальный источник в пункт назначения и удалять файлы и каталоги в месте назначения, если они больше не присутствуют в источнике
/COPYALL — копировать всю информацию о файле: данные, атрибуты и метки времени, списки контроля доступа NTFS, информацию о владельце, информацию об аудите (не все включены по умолчанию)
/DCOPY: DAT — копировать всю информацию каталога — данные, атрибуты, временные метки (исходная временная метка создания не копируется по умолчанию, обычно это изменяется на дату, когда она была скопирована Robocopy)
/NP — Не показывать прогресс
/Z — использование перезапускаемого режима
/B — копирование файлов в режиме резервного копирования (я не знаю, требуется ли это для пользовательских каталогов, где они являются эксклюзивным владельцем, исключая администратора. Этот параметр уничтожит дедуплицированный тома назначения без исключения «Сведения о системном томе», ) литий>
/J — копирование с использованием небуферизованного ввода-вывода (более быстрая копия больших файлов с несколькими гигабайтами)
/SL — копирование символических ссылок, а не целевых
/MT: 128 — Используйте максимальные потоки ЦП (лучше использовать 10-гигабитный Ethernet и много процессорных ядер).
/R: 1 — Если ошибка доступа к файлу, повторите попытку 1 раз
/W: 10 — Если ошибка доступа к файлу, подождите 10 секунд перед повторной попыткой
/LOG + — Запишите вывод в текстовый файл, добавьте, если файл журнала уже существует
/TEE — Печать результатов на экран и файл журнала
/XD — Исключить каталоги и все в них. Имена с пробелами в них должны быть заключены в кавычки: «Recycler» «Recycled» «$ Recycle.bin» «Информация о системном томе»
/XF — Исключить файлы: файлы виртуальной памяти и гибернации, если они присутствуют в источнике: «pagefile.sys» «swapfile.sys» «hiberfil.sys»

Окончательный повторный запуск:

Кроме того, я не знаю правильных каналов для сообщения об ошибках в Microsoft, но я связан с этим обсуждением в нижней части документации по дедупликации Microsoft на веб-сайте Windows IT Pro Center :

Jobs

Data Deduplication uses a post-processing strategy to optimize and maintain a volume’s space efficiency.

Job name	Job descriptions	Default schedule
Optimization	The Optimization job deduplicates by chunking data on a volume per the volume policy settings, (optionally) compressing those chunks, and storing chunks uniquely in the chunk store. The optimization process that Data Deduplication uses is described in detail in .	Once every hour
Garbage Collection	The Garbage Collection job reclaims disk space by removing unnecessary chunks that are no longer being referenced by files that have been recently modified or deleted.	Every Saturday at 2:35 AM
Integrity Scrubbing	The Integrity Scrubbing job identifies corruption in the chunk store due to disk failures or bad sectors. When possible, Data Deduplication can automatically use volume features (such as mirror or parity on a Storage Spaces volume) to reconstruct the corrupted data. Additionally, Data Deduplication keeps backup copies of popular chunks when they are referenced more than 100 times in an area called the hotspot.	Every Saturday at 3:35 AM
Unoptimization	The Unoptimization job, which is a special job that should only be run manually, undoes the optimization done by deduplication and disables Data Deduplication for that volume.

Часто задаваемые вопросы

Чем отличается дедупликация данных от других средств оптимизации?
Есть несколько важных различий между дедупликацией данных и другими распространенными решениями для оптимизации хранения.

Чем отличается дедупликация данных от хранилища единственных копий?
Хранилище единственных копий (SIS) является предшественником технологии дедупликации данных и впервые было представлено в выпуске Windows Storage Server 2008 R2. Для оптимизации тома хранилище единственных копий выявляло в нем полностью идентичные файлы и заменяло их логическими ссылками на одну копию такого файла, размещенную в общем хранилище SIS. В отличие от хранилища единственных копий, дедупликация данных способна уменьшить пространство, занимаемое файлами, которые не полностью идентичны, но имеют некоторые одинаковые элементы, а также файлами, в которых встречается много повторяющихся элементов. Хранилище единственных копий считается устаревшим начиная с выпуска Windows Server 2012 R2, а в Windows Server 2016 его полностью заменила дедупликация данных.
Чем отличается дедупликация данных от сжатия NTFS?
Сжатие NTFS используется файловой системой NTFS на уровне тома. Эта необязательная функция NTFS оптимизирует каждый файл по отдельности, сжимая его во время записи. В отличие от сжатия NTFS, дедупликация данных использует для экономии места одновременно все файлы на томе. Это гораздо эффективнее, чем сжатие NTFS, ведь файл может одновременно иметь как внутреннее дублирование данных (которое устраняется сжатием NTFS), так и сходство с другими файлами в томе (которое не устраняется сжатием NTFS). Кроме того, дедупликация данных использует модель постобработки. Это означает, что новые или измененные файлы записываются на диск в неоптимизированном виде, и лишь затем дедупликация данных оптимизирует их.
Чем отличается дедупликация данных от форматов архивации файлов, таких как ZIP, RAR, 7Z, CAB и т. д.?
Форматы ZIP, RAR, 7Z, CAB и другие выполняют сжатие для определенного набора файлов. Как и в случае с дедупликацией данных, оптимизируются повторяющиеся фрагменты внутри файлов и в разных файлах. Однако вам необходимо выбрать файлы, которые должны быть включены в архив. Семантика доступа также отличается. Чтобы получить доступ к определенному файлу в архиве, необходимо открыть архив, выбрать файл, а затем распаковать его для использования. Дедупликация данных работает незаметно для пользователей и администраторов, не требуя никаких ручных операций. Кроме того, дедупликация данных сохраняет семантику доступа — оптимизированные файлы выглядят для пользователя точно так же, как и раньше.

Можно ли изменить параметры дедупликации данных для выбранного типа использования?
Да. Хотя дедупликация данных обеспечивает рациональные значения по умолчанию для рекомендуемых рабочих нагрузок, вам может потребоваться настроить параметры для наиболее эффективного использования хранилища. И не забывайте, что в некоторых случаях .

Можно ли вручную запускать задания дедупликации данных?
Да, . Это удобно, если запланированное задание не было выполнено из-за недостатка системных ресурсов или ошибки. Кроме того, есть специальное задание отмены оптимизации, которое запускается только вручную.

Можно ли просмотреть историю запусков заданий дедупликации данных?
Да, .

Можно ли изменить расписание по умолчанию для заданий дедупликации данных?
Да, . Важнее всего изменять расписание дедупликации данных в тех случаях, когда нужно обеспечить достаточное время для завершения заданий, чтобы дедупликация данных не претендовала на ресурсы, требуемые для рабочей нагрузки.

Настройка хранилища DPM

Чтобы избежать проблем с фрагментацией и сохранить эффективность, хранилище DPM размещается с использованием VHDX-файлов, находящихся на дедуплицированных томах. 10 динамических VHDX-файлов по 1 ТБ каждый создается в каждом томе и прикрепляется к DPM

Обратите внимание, что для того, чтобы воспользоваться выигрышем от дедупликации, выделяется 3 ТБ избыточного объема в хранилище. По мере того как при выполнении дедупликации будет освобождаться дополнительное пространство в хранилище, могут создаваться новые VHDX-файлы в этих томах, чтобы занять освобождающееся место

Мы протестировали сервер DPM с присоединенными к нему VHDX-файлами в количестве до 30.

Выполните следующую команду, чтобы создать виртуальные жесткие диски, которые будут добавлены позже на сервер DPM.

Затем добавьте созданные виртуальные жесткие диски на сервер DPM следующим образом.

Обратите внимание, что на этом шаге выполняется настройка пула носителей в качестве диска или дисков, на которых DPM хранит реплики и точки восстановления для защищенных данных. Этот пул является частью конфигурации DPM и отделен от пула дисковых пространств, используемого для создания томов данных, описанных в предыдущем разделе

Дополнительные сведения о пулах носителей DPM см. в разделе Конфигурация дискового пространства и пулов носителей.

Что такое дедупликация данных What is Data Deduplication?

Дедупликация данных, часто называемая дедупликацией, — это функция, которая помогает снизить влияние избыточных данных на затраты на хранение. Data Deduplication, often called Dedup for short, is a feature that can help reduce the impact of redundant data on storage costs. Если дедупликация данных включена, она оптимизирует свободное место в томе за счет проверки данных тома на наличие дублирующихся частей. When enabled, Data Deduplication optimizes free space on a volume by examining the data on the volume by looking for duplicated portions on the volume. Дублирующиеся части набора данных тома сохраняются один раз и (при необходимости) сжимаются для дополнительной экономии. Duplicated portions of the volume’s dataset are stored once and are (optionally) compressed for additional savings. Дедупликация оптимизирует избыточные данные, не нарушая достоверность или целостность данных. Data Deduplication optimizes redundancies without compromising data fidelity or integrity. Дополнительные сведения о работе дедупликации данных см. в разделе Как работает дедупликация данных? More information about how Data Deduplication works can be found in the ‘How does Data Deduplication work?’ на странице Understanding Data Deduplication (Понимание процесса дедупликации данных). section of the Understanding Data Deduplication page.

KB4025334 содержит сведение исправлений для дедупликации данных, включая важные исправления надежности, и настоятельно рекомендуется устанавливать его при использовании дедупликации данных с windows Server 2016 и windows Server 2019. KB4025334 contains a roll up of fixes for Data Deduplication, including important reliability fixes, and we strongly recommend installing it when using Data Deduplication with Windows Server 2016 and Windows Server 2019.

функции служба хранилища реплики

Полная защита от потери данных, репликация на уровне блоков. Синхронная репликация обеспечивает полную защиту от потери данных, а репликация на уровне блоков исключает возможность блокировки файлов.
Удобное развертывание и управление. Реплика хранилища предназначена для простоты использования. создание партнерства репликации между двумя серверами может использовать центр администрирования Windows. Развертывание растянутых кластеров осуществляется с помощью интуитивно понятного мастера в знакомом диспетчере отказоустойчивости кластеров.
Гость и узел. Все возможности реплики хранилища можно использовать и в виртуализированных гостевых развертываниях, и в развертываниях на основе узла. это означает, что гости могут реплицировать свои тома данных, даже если они работают на платформах виртуализации, отличных от Windows, или в общедоступных облаках при условии использования Windows Server в гостевой системе.
Репликация на основе SMB 3. Реплика хранилища использует проверенную и отработанную технологию SMB 3, впервые представленную в Windows Server 2012. Это означает, что в реплике хранилища доступны все расширенные возможности SMB, такие как непосредственная поддержка нескольких каналов и SMB в сетевых RDMA-адаптерах RoCE, iWARP и InfiniBand.
Безопасность. В отличие от продуктов множества поставщиков в реплике хранилища реализована ведущая в отрасли технология безопасности. Сюда входит подписывание пакетов, полное шифрование данных AES-128-GCM, поддержка ускорения шифрования Intel AES-NI и предварительной проверки подлинности с целью предотвращения атак «злоумышленник внутри». Для проверки подлинности между узлами реплика хранилища использует Kerberos AES256.
Высокопроизводительная начальная синхронизация. Реплика хранилища поддерживает заполненную начальную синхронизацию, где в целевой объект уже добавлено подмножество данных из старых копий, резервных копий или поставляемых дисков. При начальной репликации копируются только различающиеся блоки, которые могут сократить время первоначальной синхронизации и предотвратить использование ограниченной пропускной способности для данных. Агрегирование и расчет контрольной суммы блока реплики хранилища показывает, что производительность начальной синхронизации зависит только от скорости хранилища и сети.
Группы согласованности. порядок записи гарантирует, что такие приложения, как Microsoft SQL Server, могут записывать данные на несколько реплицируемых томов и быть в последовательной записи на целевой сервер.
Делегирование пользователя. Пользователям могут предоставляться права на управление репликацией. При этом им не обязательно быть участниками встроенной группы администраторов на реплицированных узлах. Доступ этих пользователей к несвязанным областям ограничен.
Сетевое ограничение. Чтобы обеспечить достаточную пропускную способность для приложения, ПО для резервного копирования и управления, серверы и реплицированные тома могут позволять использование реплики хранилища лишь в отдельных сетях.
Тонкая подготовка. В дисковых пространствах и устройствах SAN поддерживается тонкая подготовка. Эта возможность при разных условиях позволяет обеспечить почти мгновенную начальную репликацию.

служба хранилищаная реплика включает следующие функции.

Компонент	Сведения
Тип	На основе узла
Синхронная	Да
Асинхронный	Да
Независимость от оборудования для хранения данных	Да
Единица репликации	Том (раздел)
создание кластера stretch Server Windows	Да
Межсерверная репликация	Да
Межкластерная репликация	Да
Транспорт	SMB 3
Сеть	TCP/IP или RDMA
Поддержка ограничения сети	Да
RDMA*	iWARP, InfiniBand, RoCE v2
Требования к брандмауэру сетевого порта репликации	Один порт IANA (TCP 445 или TCP 5445)
Поддержка нескольких путей или каналов	Да (SMB 3)
Поддержка Kerberos	Да (SMB 3)
Шифрование и подписывание Over-the-Wire	Да (SMB 3)
Отработка отказа для каждого тома	Да
Поддержка хранилища с тонкой подготовкой	Да
Встроенный пользовательский интерфейс управления	PowerShell, диспетчер отказоустойчивости кластеров

* Может потребоваться оборудование для работы на длинных расстояниях и кабели.

Часто задаваемые вопросы

Вопрос. VHDX-файлы DPM должны быть размером 1 ТБ. Означает ли это, что DPM не может выполнять резервное копирование виртуальных машин, SharePoint, баз данных SQL Server или файловых томов размером более 1 ТБ?

Ответ. Нет. DPM объединяет несколько томов в один для хранения резервных копий. Таким образом ограничение на размер файла 1 ТБ не влияет на размер источников данных, резервное копирование которых может выполнять DPM.

Вопрос. Похоже, что VHDX-файлы хранилища DPM могут быть развернуты только на удаленных файловых ресурсах SMB. Что произойдет, если сохранить VHDX-файлы резервных копий на дедуплицированном томе на том же компьютере, на котором запущена виртуальная машина DPM?

Ответ. Как отмечалось выше, DPM, Hyper-V и дедупликация являются операциями, требующими больших объемов хранения и большой вычислительной мощности. Объединение в одной системе всех трех функций может привести к избыточному потреблению пропускной способности ввода-вывода и процессорной мощности, что может создать препятствия в работе Hyper-V и его виртуальных машин. Если вы решили поэкспериментировать с настройкой DPM на виртуальной машине с томами резервного хранилища на одном и том же компьютере, следует провести тщательные наблюдения за производительностью, чтобы убедиться, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности для обслуживания всех трех функций на одном компьютере.

Вопрос. Вы рекомендуете определить отдельные специальные окна для дедупликации и для резервного копирования. Почему нельзя включить дедупликацию во время резервного копирования, выполняемого DPM? Мне нужно создавать резервную копию моих баз данных SQL каждые 15 минут.

Ответ. Дедупликация и DPM являются операциями, требующими больших объемов хранения. Запуск обеих функций одновременно может оказаться неэффективным и привести к нехватке пропускной способности ввода-вывода. Чтобы защищать рабочие нагрузки более одного раза в день (например, SQL Server каждые 15 минут) и включить дедупликацию в это же время, необходимо гарантировать, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности для избежания нехватки ресурсов.

Вопрос. Согласно описанной конфигурации, DPM должен быть запущен на виртуальной машине. Почему нельзя включить дедупликацию на томе реплики и выполнять теневое копирование томов напрямую, а не на VHDX-файлы?

Ответ. Дедупликация выполняется по каждому тому с обработкой отдельных файлов. Поскольку оптимизация при дедупликации выполняется на уровне файлов, поддержка технологии VolSnap, которую DPM использует для хранения резервных копий данных, не предусмотрена. При работе DPM на виртуальной машине Hyper-V сопоставляет операции с томами DPM на уровне VHDX-файлов, что позволяет оптимизировать резервные копии данных и получать больше экономии пространства хранения при дедупликации.

Вопрос. В описанном примере конфигурации используются только тома размером 7,2 ТБ. Можно ли создавать тома большего или меньшего размера?

Ответ. При дедупликации запускается один поток для каждого тома. Если размер тома будет больше, потребуется больше времени для выполнения его оптимизации. С другой стороны, в томах меньшего размера находится меньше данных, в которых можно найти повторяющиеся блоки, а следовательно, экономия получится меньше. Таким образом для оптимальной экономии рекомендуется задать размер тома с учетом общего объема обновлений и аппаратных возможностей системы. Более подробные сведения об определении размера тома, используемого при дедупликации, можно найти в разделе «Определение размеров томов для дедупликации в Windows Server». Более подробные сведения об определении размера тома, используемого при дедупликации, см. в разделе Определение размеров томов для дедупликации данных.

Frequently asked questions (FAQ)

I want to run Data Deduplication on the dataset for X workload. Is this supported?
Aside from workloads that are known not to interoperate with Data Deduplication, we fully support the data integrity of Data Deduplication with any workload. Recommended workloads are supported by Microsoft for performance as well. The performance of other workloads depends greatly on what they are doing on your server. You must determine what performance impacts Data Deduplication has on your workload, and if this is acceptable for this workload.

What are the volume sizing requirements for deduplicated volumes?
In Windows Server 2012 and Windows Server 2012 R2, volumes had to be carefully sized to ensure that Data Deduplication could keep up with the churn on the volume. This typically meant that the average maximum size of a deduplicated volume for a high-churn workload was 1-2 TB, and the absolute maximum recommended size was 10 TB. In Windows Server 2016, these limitations were removed. For more information, see .

Do I need to modify the schedule or other Data Deduplication settings for recommended workloads?
No, the provided were created to provide reasonable defaults for recommended workloads.

What are the memory requirements for Data Deduplication?
At a minimum, Data Deduplication should have 300 MB + 50 MB for each TB of logical data. For instance, if you are optimizing a 10 TB volume, you would need a minimum of 800 MB of memory allocated for deduplication (). While Data Deduplication can optimize a volume with this low amount of memory, having such constrained resources will slow down Data Deduplication’s jobs.

Optimally, Data Deduplication should have 1 GB of memory for every 1 TB of logical data. For instance, if you are optimizing a 10 TB volume, you would optimally need 10 GB of memory allocated for Data Deduplication (). This ratio will ensure the maximum performance for Data Deduplication jobs.

Вопросы, связанные с производительностью резервного копирования

После того как некоторый набор файлов будет дедуплицирован, при доступе к ним может наблюдаться незначительное снижение производительности. Это связано с тем, что требуется дополнительная обработка для доступа к файлам в формате дедуплицированных файлов. В этом сценарии файлы представляют собой набор файлов VHDX, которые непрерывно используются DPM во время окна резервного копирования. Последствия дедупликации этих файлов заключаются в том, что операции резервного копирования и восстановления могут выполняться немного медленнее, чем без дедупликации. Как и любой продукт резервного копирования, DPM является тяжелой рабочей нагрузкой по операциям записи, а по операциям чтения он проявляет себя главным образом во время процедуры восстановления. По вопросам, связанным с производительностью резервного копирования и влиянием на нее дедупликации, предлагаются следующие рекомендации.

Операции чтения и восстановления. Влияние на операции чтения обычно незначительно и не требует особого внимания, поскольку функция дедупликации кэширует дедуплицированные фрагменты.
Операции записи и резервного копирования. При определении окна резервного копирования следует планировать увеличение времени создания резервных копий приблизительно на 5–10 %. (Это увеличение по сравнению с ожидаемым временем выполнения резервного копирования при записи на недедуплицированные тома.)

Установка репликации DFS

Репликация DFS входит в роль «Файловые службы и службы хранилища». Средства управления для DFS («Управление DFS», модуль репликации DFS для Windows PowerShell, а также средства командной строки) устанавливаются отдельно в составе средств администрирования удаленного сервера.

Репликацию DFS можно установить с помощью Windows Admin Center, диспетчера сервера или PowerShell, как описано в следующих разделах.

Чтобы установить DFS с помощью диспетчера серверов

Откройте диспетчер серверов, щелкните Управление, а затем нажмите кнопку Добавить роли и компоненты. Откроется мастер добавления ролей и компонентов.
На странице Выбор сервера выберите сервер или виртуальный жесткий диск автономной виртуальной машины, на который требуется установить DFS.
Выберите службы ролей и компоненты, которые следует установить.
- Чтобы установить службу репликации DFS», на странице Роли сервера выберите Репликация DFS.
- Чтобы установить только средства управления DFS, на странице Компоненты разверните узлы Средства администрирования удаленного сервера, Средства администрирования ролей, Средства файловых служб, а затем выберите Средства управления DFS.
  
  Компонент Средства управления DFS устанавливает оснастку «Управление DFS», модули «Пространства имен DFS» и «Репликация DFS» для Windows PowerShell, а также средства командной строки, но не устанавливает на сервер никаких служб DFS.

Установка репликации DFS с помощью Windows PowerShell

откройте Windows PowerShell сеанс с повышенными правами пользователя, а затем введите следующую команду, где < name — это > служба роли или компонент, который требуется установить (в следующей таблице приведен список релевантных служб ролей или компонентов).

Служба роли или компонент	Название
Репликация DFS
Средства управления DFS

Например, для установки средств распределенной файловой системы, включенных в компонент средств удаленного администрирования сервера, введите:

Для установки таких частей компонента средств удаленного администрирования сервера, как «Репликация DFS» и «Средства распределенной файловой системы», введите:

Типы данных	Возможная экономия места
Общие данные	50-60%
Документы	30-50%
Библиотека приложений	70-80%
Библиотека VHD(X)	80-95%

2 ответа

Jobs

Часто задаваемые вопросы

Рекомендации по использованию технологии Data Deduplication в Windows Server 2012

Настройка хранилища DPM

Что такое дедупликация данных What is Data Deduplication?

функции служба хранилища реплики

Часто задаваемые вопросы

Frequently asked questions (FAQ)

Вопросы, связанные с производительностью резервного копирования

Установка репликации DFS

Чтобы установить DFS с помощью диспетчера серверов

Установка репликации DFS с помощью Windows PowerShell