Репликация
Обзор логической репликации
16
Авторские права
© Postgres Professional, 2017–2024
Авторы: Егор Рогов, Павел Лузанов, Илья Баштанов, Алексей Береснев
Фото: Олег Бартунов (монастырь Пху и пик Бхрикути, Непал)
Использование материалов курса
Некоммерческое использование материалов курса (презентации,
демонстрации) разрешается без ограничений. Коммерческое
использование возможно только с письменного разрешения компании
Postgres Professional. Запрещается внесение изменений в материалы
курса.
Обратная связь
Отзывы, замечания и предложения направляйте по адресу:
Отказ от ответственности
Компания Postgres Professional не несет никакой ответственности за
любые повреждения и убытки, включая потерю дохода, нанесенные
прямым или непрямым, специальным или случайным использованием
материалов курса. Компания Postgres Professional не предоставляет
каких-либо гарантий на материалы курса. Материалы курса
предоставляются на основе принципа «как есть» и компания Postgres
Professional не обязана предоставлять сопровождение, поддержку,
обновления, расширения и изменения.
2
Темы
Логическая репликация
Уровни журнала
Публикации и подписки
Обнаружение и разрешение конфликтов
Варианты использования реплики
3
Логическая репликация
Публикующий сервер
читает собственные журнальные записи
декодирует их в изменения строк данных
отправляет подписчикам
Сервер-подписчик
получает записи из потока репликации
применяет изменения к своим таблицам
Особенности
публикация-подписка: поток данных возможен в обе стороны
требуется совместимость на уровне протокола
возможна выборочная репликация отдельных таблиц
При физической репликации только один сервер (мастер) выполняет
изменения и генерирует журнальные записи. Остальные серверы
(реплики) только читают журнальные записи мастера и применяют их.
При логической репликации все серверы работают в обычном режиме,
могут изменять данные и генерировать собственные журнальные
записи. Любой сервер может публиковать свои изменения, а другие —
подписываться на них. При этом один и тот же сервер может как
публиковать изменения, так и подписываться на другие. Это позволяет
организовать произвольные потоки данных между серверами.
Публикующий сервер читает собственные журнальные записи, но не
пересылает их подписчикам не в исходном виде (как при физической
репликации), а предварительно декодирует их в «логический»,
независимый от платформы и версии PostgreSQL вид. Поэтому для
логической репликации обычно не нужна двоичная совместимость,
реплика должна лишь понимать протокол репликации. Также можно
получать и применять изменения не всех объектов, а только отдельных
таблиц.
4
Логическая репликация
публикующий
сервер
select, insert
update, delete
подписчик
wal sender
сегменты WAL
select, insert
update, delete
сегменты WAL
logical replication
worker
или его
физическая
реплика
На публикующем сервере процесс wal_sender формирует журнальные
записи, отражающие изменения в публикуемых данных, а фоновый
процесс logical replication worker на сервере-подписчике получает
информацию от публикующего сервера и применяет ее.
Подписчик может получать изменения не только напрямую
с публикующего сервера, но и с его физической реплики. В этом
случае отправку изменений подписчику выполняет процесс wal_sender
физической реплики. Такая схема работы полезна для уменьшения
нагрузки на публикующий сервер.
5
Публикации и подписки
Публикация
включает одну или несколько таблиц базы данных
можно указать столбцы и фильтр для строк
обрабатывает команды INSERT, UPDATE, DELETE, TRUNCATE
выдает изменения построчно после фиксации транзакции
использует слот логической репликации
Подписка
получает и применяет изменения
возможна начальная синхронизация
без разбора, переписывания и планирования — сразу выполнение
возможны конфликты с локальными данными
Логическая репликация использует модель «публикация-подписка».
На одном сервере создается публикация, которая может включать ряд
таблиц одной базы данных. Начиная с версии 15 можно опубликовать
только часть данных таблицы: указать набор столбцов и задать условие
фильтрации для строк. Другие серверы могут подписываться на эту
публикацию: получать и применять изменения.
Реплицируются только измененные строки таблиц (а не команды SQL).
Команды DDL не передаются; таблицы-приемники на подписчике надо
создавать вручную. Но есть возможность автоматической начальной
синхронизации содержимого таблиц при создании подписки.
После фиксации транзакции информация о строках, которые она
изменила, извлекается из записей WAL на сервере публикации — эта
процедура называется логическим декодированием. Сформированные
сообщения пересылаются подписке по протоколу репликации
в формате, независимом от платформы и версии сервера.
Применение изменений происходит без выполнения команд SQL
и связанных с этим накладных расходов на разбор и планирование.
С другой стороны, результат выполнения одной команды SQL может
превратиться в множество однострочных изменений.
6
Уровни журнала
Параметр wal_level
minimal < replica < logical
восстановление восстановление восстановление
после сбоя после сбоя после сбоя
восстановление восстановление
из резервной копии, из резервной копии,
репликация репликация
логическая
репликация
Чтобы публикующий сервер смог сформировать сообщения
об изменениях на уровне табличных строк, в журнал необходимо
помещать дополнительную информацию, в частности идентификаторы
затрагиваемых при репликации строк и сообщения о фактах изменения
определений таблиц и типов данных. Это позволяет подписчику
в любой момент знать структуру объектов, участвующих в репликации.
Такой расширенный уровень журнала называется logical. Поскольку по
умолчанию используется уровень replica, для логической репликации
потребуется изменить значение параметра wal_level на публикующем
сервере.
8
Конфликты
Режимы идентификации для изменения и удаления
столбцы первичного ключа (по умолчанию)
столбцы указанного уникального индекса с ограничением NOT NULL
все столбцы
без идентификации (по умолчанию для системного каталога)
Конфликты — нарушение ограничений целостности
репликация приостанавливается до устранения конфликта вручную
Вставка новых строк происходит достаточно просто. Интереснее
обстоит дело при изменениях и удалениях — в этом случае надо как-то
идентифицировать старую версию строки. По умолчанию для этого
используются столбцы первичного ключа, но при определении таблицы
можно указать и другие способы (replica identity): использовать
уникальный индекс или использовать все столбцы. Можно вообще
отказаться от поддержки репликации для некоторых таблиц (по
умолчанию не реплицируются таблицы системного каталога).
Поскольку таблицы на сервере публикации и сервере подписки могут
изменяться независимо друг от друга, при вставке новых версий строк
возможны конфликты — нарушения ограничений целостности. В этом
случае процесс применения записей приостанавливается до тех пор,
пока конфликт не будет разрешен вручную.
10
Ограничения
Не реплицируются
команды DDL
значения последовательностей
большие объекты (lo)
изменения представлений, материализованных представлений и
внешних таблиц
Не поддерживаются
автоматическое разрешение конфликтов
Логическая репликация имеет довольно много ограничений.
Не реплицируются команды DDL — все изменения схемы данных надо
переносить вручную.
Реплицироваться могут только обычные базовые таблицы
и секционированные таблицы. То есть нельзя реплицировать
отношения другого рода, такие как представления, материализованные
представления и внешние таблицы.
Не реплицируются значения последовательностей. Это означает,
что если сервер-подписчик добавляет строки в таблицу с суррогатным
уникальным ключом, для которой настроена репликация, возможны
конфликты. Конфликтов можно избежать, выделяя двум серверам
разные диапазоны значений последовательностей, или используя
вместо них универсальные уникальные идентификаторы (UUID).
Нет возможности автоматического разрешения конфликтов.
Эти ограничения уменьшают применимость логической репликации.
11
Особенности
Ссылочная целостность
для TRUNCATE нужно включать в публикацию все таблицы,
на которые ссылаются внешние ключи
Нужно постоянное соединение
неактивный слот препятствует удалению сегментов WAL
и удерживает горизонт очистки
Могут вызвать проблемы
массовые изменения данных
изменения, сделанные долгими транзакциями
Для правильной репликации команды TRUNCATE нужно включать
в ту же публикацию все таблицы, на которые ссылаются внешние
ключи опустошаемой таблицы.
Соединение между серверами публикации и подписки должно быть
достаточно стабильным. При разрыве слот репликации становится
неактивным и сервер вынужден хранить сегменты WAL до момента
восстановления соединения. Неактивный слот также удерживает
горизонт очистки.
Изменения реплицируются построчно, поэтому выполнение на
публикующем сервере команды SQL, затрагивающей много строк,
приведет к повышенной нагрузке на подписчик.
Конфигурация по умолчанию не очень хорошо справляется с долгими
транзакциями — они увеличивают нагрузку на публикующий сервер,
поскольку публикация передает изменения только после фиксации
транзакции. Параметр подписки streaming позволяет сгладить
проблему: подписка может получать изменения строк без задержки
и либо накапливать их во временном файле, либо сразу же применять,
если есть свободный фоновый процесс.
12
1. Консолидация
центральный
сервер
select, insert
update, delete
региональный
сервер
wal sender
региональный
сервер
wal sender
select, insert
update, delete
сегменты WAL
select, insert
update, delete
сегменты WAL
logical repl.
worker
logical repl.
worker
сегменты WAL
получение и консолидация
данных нескольких филиалов
Рассмотрим несколько задач, которые можно решить с помощью
логической репликации.
Пусть имеются несколько региональных филиалов, каждый из которых
работает на собственном сервере PostgreSQL. Задача состоит
в консолидации части данных на центральном сервере.
Для решения задачи на региональных серверах создаются публикации
необходимых данных. Центральный сервер подписывается на эти
публикации. Полученные данные можно обрабатывать с помощью
триггеров на стороне центрального сервера (например, приводя
данные к единому виду).
Такая же схема, развернутая наоборот, позволяет, например,
передавать справочную информацию от центрального сервера
региональным.
С точки зрения бизнес-логики также есть множество особенностей,
требующих внимания. В каких-то случаях может быть проще
периодически передавать данные в пакетном режиме.
На иллюстрации: на центральном сервере работают два процесса
приема журналов, по одному на каждую подписку.
13
2. Обновление серверов
обновление основной версии
без прерывания обслуживания
старый сервер
select, insert
update, delete
новый сервер
сегменты WAL
13.6
16.2
Задача: обеспечить обновление основной версии сервера без
прерывания обслуживания клиентов.
Поскольку между разными основными версиями нет двоичной
совместимости, физическая репликация не помогает. Однако
логическая репликация дает возможности для решения этой задачи.
Как обычно, требуются внешние средства для переключения
пользователей между серверами.
Вначале создается новый сервер с желаемой версией PostgreSQL.
14
2. Обновление серверов
обновление основной версии
без прерывания обслуживания
старый сервер
select, insert
update, delete
новый сервер
wal sender
logical repl.
worker
сегменты WAL
13.6 16.2
начальная
синхронизация
Затем между серверами настраивается логическая репликация всех
необходимых баз и данные синхронизируются. Это возможно благодаря
тому, что для логической репликации не требуется двоичной
совместимости между серверами.
15
2. Обновление серверов
новый сервер
обновление основной версии
без прерывания обслуживания
16.2
select, insert
update, delete
сегменты WAL
После этого клиенты переключаются на новый сервер, а старый
выключается.
На самом деле процесс обновления с помощью логической репликации
гораздо более сложен и сопряжен со значительными трудностями.
Несколько подробнее он рассматривается в курсе DBA2, тема
«Обновление сервера».
16
3. Мастер-мастер
основной сервер
основной сервер
select, insert
update, delete
сегменты WAL
select, insert
update, delete
сегменты WAL
wal sender
logical repl.
worker
logical repl.
worker
wal sender
кластер, в котором
данные могут изменять несколько серверов
Задача: обеспечить надежное хранение данных на нескольких
серверах с возможностью записи на любом сервере (что полезно,
например, для геораспределенной системы).
Для решения можно использовать двунаправленную репликацию,
передавая изменения в одних и тех же таблицах от одного сервера
к другому и обратно.
Двунаправленная репликация появилась в PostgreSQL 16: можно
одновременно опубликовать таблицу и подписаться на ее изменения
на другом сервере.
Конечно, прикладная система должна быть построена таким образом,
чтобы избегать конфликтов при изменении данных в одних и тех же
таблицах. Например, использовать глобальные уникальные
идентификаторы или гарантировать, что разные серверы работают
с разными диапазонами ключей.
Надо учитывать, что система мастер-мастер, построенная на
логической репликации, не обеспечивает сама по себе выполнение
глобальных распределенных транзакций и, следовательно,
согласованность данных между серверами. Кроме того, никаких
средств для автоматизации обработки сбоев, подключения или
удаления узлов из кластера и т. п. в PostgreSQL не предусмотрено —
эти задачи должны решаться внешним средствами.
17
Итоги
Логическая репликация передает изменения строк
отдельных таблиц
разнонаправленная
совместимость на уровне протокола
Модель публикация — подписчик
Следует учитывать имеющиеся ограничения
18
Практика
1. Настройте логическую репликацию произвольной таблицы
в другую на том же самом сервере.
2. Настройте двунаправленную логическую репликацию одной
и той же таблицы на двух разных серверах.
1. Если попробовать выполнить обычные действия, команда CREATE
SUBSCRIPTION «повиснет». Внимательно изучите документацию:
2. Склонируйте второй сервер из резервной копии, как было показано
в демонстрации.
При создании подписок на обоих серверах укажите следующие
параметры: copy_data = false, origin = none.