Репликация
Обзор логической репликации
16
Авторские права
© Postgres Professional, 2017–2024
Авторы: Егор Рогов, Павел Лузанов, Илья Баштанов, Игорь Гнатюк
Фото: Олег Бартунов (монастырь Пху и пик Бхрикути, Непал)
Использование материалов курса
Некоммерческое использование материалов курса (презентации,
демонстрации) разрешается без ограничений. Коммерческое
использование возможно только с письменного разрешения компании
Postgres Professional. Запрещается внесение изменений в материалы
курса.
Обратная связь
Отзывы, замечания и предложения направляйте по адресу:
Отказ от ответственности
Компания Postgres Professional не несет никакой ответственности за
любые повреждения и убытки, включая потерю дохода, нанесенные
прямым или непрямым, специальным или случайным использованием
материалов курса. Компания Postgres Professional не предоставляет
каких-либо гарантий на материалы курса. Материалы курса
предоставляются на основе принципа «как есть» и компания Postgres
Professional не обязана предоставлять сопровождение, поддержку,
обновления, расширения и изменения.
2
Темы
Логическая репликация
Публикации и подписчики
Уровни журнала
Обнаружение и разрешение конфликтов
Особенности работы триггеров
Задачи, решаемые с помощью логической репликации
Ограничения
3
Логическая репликация
Механизм
публикующий сервер читает собственные журнальные записи,
декодирует их в изменения строк данных и отправляет подписчикам
сервер-подписчик применяет изменения к своим таблицам
Особенности
публикация-подписка: поток данных возможен в обе стороны
требуется совместимость на уровне протокола
возможна выборочная репликация отдельных таблиц
При физической репликации только один сервер (мастер) выполняет
изменения и генерирует журнальные записи. Остальные серверы
(реплики) только читают журнальные записи мастера и применяют их.
При логической репликации все серверы работают в обычном режиме,
могут изменять данные и генерировать собственные журнальные
записи. Любой сервер может публиковать свои изменения, а другие —
подписываться на них. При этом один и тот же сервер может как
публиковать изменения, так и подписываться на другие. Это позволяет
организовать произвольные потоки данных между серверами.
Публикующий сервер читает собственные журнальные записи, но не
пересылает их подписчикам в исходном виде (как при физической
репликации), а предварительно декодирует их в «логический»,
независимый от платформы и версии PostgreSQL вид. Поэтому для
логической репликации обычно не нужна двоичная совместимость,
реплика должна лишь понимать протокол репликации. Также можно
получать и применять изменения не всех объектов, а только отдельных
таблиц.
4
Логическая репликация
публикующий
сервер
select, insert
update, delete
подписчик
wal sender
сегменты WAL
select, insert
update, delete
сегменты WAL
logical replication
worker
или его
физическая
реплика
На публикующем сервере процесс wal_sender формирует журнальные
записи, отражающие изменения в публикуемых данных, а фоновый
процесс logical replication worker на сервере-подписчике получает
информацию от публикующего сервера и применяет ее.
Подписчик может получать изменения не только напрямую
с публикующего сервера, но и с его физической реплики. В этом
случае отправку изменений подписчику выполняет процесс wal_sender
физической реплики. Такая схема работы полезна для уменьшения
нагрузки на публикующий сервер.
5
Публикации и подписки
Публикация
включает одну или несколько таблиц базы данных
можно указать столбцы и фильтр для строк
обрабатывает команды INSERT, UPDATE, DELETE, TRUNCATE
выдает изменения построчно после фиксации транзакции
использует слот логической репликации
Подписка
получает и применяет изменения
возможна начальная синхронизация
без разбора, переписывания и планирования — сразу выполнение
возможны конфликты с локальными данными
Логическая репликация использует модель «публикация-подписка».
На одном сервере создается публикация, которая может включать ряд
таблиц одной базы данных. Начиная с версии 15 можно опубликовать
только часть данных таблицы: указать набор столбцов и задать условие
фильтрации для строк. Другие серверы могут подписываться на эту
публикацию: получать и применять изменения.
Реплицируются только измененные строки таблиц (а не команды SQL).
Команды DDL не передаются; таблицы-приемники на подписчике надо
создавать вручную. Но есть возможность автоматической начальной
синхронизации содержимого таблиц при создании подписки.
После фиксации транзакции информация о строках, которые она
изменила, извлекается из записей WAL на сервере публикации — эта
процедура называется логическим декодированием. Сформированные
сообщения пересылаются подписке по протоколу репликации
в формате, независимом от платформы и версии сервера.
Применение изменений происходит без выполнения команд SQL
и связанных с этим накладных расходов на разбор и планирование.
С другой стороны, результат выполнения одной команды SQL может
превратиться в множество однострочных изменений.
6
Уровни журнала
Параметр wal_level
minimal < replica < logical
восстановление восстановление восстановление
после сбоя после сбоя после сбоя
восстановление восстановление
из резервной копии, из резервной копии,
репликация репликация
логическая
репликация
Чтобы публикующий сервер смог сформировать сообщения
об изменениях на уровне табличных строк, в журнал необходимо
помещать дополнительную информацию, в частности идентификаторы
затрагиваемых при репликации строк и сообщения о фактах изменения
определений таблиц и типов данных. Это позволяет подписчику
в любой момент знать структуру объектов, участвующих в репликации.
Такой расширенный уровень журнала называется logical. Поскольку
по умолчанию используется уровень replica, для логической репликации
потребуется изменить значение параметра wal_level на публикующем
сервере.
8
Конфликты
Режимы идентификации для изменения и удаления
столбцы первичного ключа (по умолчанию)
столбцы указанного уникального индекса с ограничением NOT NULL
все столбцы
без идентификации (по умолчанию для системного каталога)
Конфликты — нарушение ограничений целостности
репликация приостанавливается до устранения конфликта вручную
Вставка новых строк происходит достаточно просто. Интереснее
обстоит дело при изменениях и удалениях — в этом случае надо как-то
идентифицировать старую версию строки. По умолчанию для этого
используются столбцы первичного ключа, но при определении таблицы
можно указать и другие способы (replica identity): использовать
уникальный индекс или использовать все столбцы. Можно вообще
отказаться от поддержки репликации для некоторых таблиц
(по умолчанию не реплицируются таблицы системного каталога).
Поскольку таблицы на сервере публикации и сервере подписки могут
изменяться независимо друг от друга, при вставке новых версий строк
возможны конфликты — нарушения ограничений целостности. В этом
случае процесс применения записей приостанавливается до тех пор,
пока конфликт не будет разрешен вручную.
10
Триггеры на подписчике
При обычной работе
в обслуживающих процессах (session_replication_role = origin или local)
ENABLE TRIGGER
ENABLE ALWAYS TRIGGER
При применении реплицированных изменений
в процессе logical replication worker (session_replication_role = replica)
ENABLE REPLICA TRIGGER
ENABLE ALWAYS TRIGGER
только на уровне строк (за исключением начальной синхронизации)
Срабатывание триггеров на сервере-подписчике имеет некоторые
особенности.
При применении изменений, полученных из публикации, обычные
триггеры работать не будут. Это удобно, если на обоих серверах
созданы одинаковые таблицы с одинаковым набором триггеров:
в таком случае триггер уже отработал на публикующем сервере и его
не надо выполнять на подписчике.
Если нужно, чтобы триггер все-таки срабатывал, его необходимо
определить как репликационный (ALTER TABLE … ENABLE REPLICA
TRIGGER) или универсальный (ENABLE ALWAYS TRIGGER).
Изменения реплицируются построчно, поэтому работают только
триггеры таблиц на уровне строк (FOR EACH ROW), но не на уровне
оператора (FOR EACH STATEMENT). Исключение составляет
начальная синхронизация — при ней срабатывают триггеры и на
уровне строк, и на уровне оператора.
При обычной работе срабатывают «обычные» триггеры (просто
созданные командой CREATE TRIGGER, или явно разрешенные
командой ALTER TABLE … ENABLE TRIGGER) и универсальные
триггеры (ENABLE ALWAYS TRIGGER).
Сервер отличает обычный процесс от процесса, применяющего
реплицированные изменения, с помощью параметра сеанса
session_replication_role. По умолчанию параметр имеет значение origin,
а процесс logical replication worker задает ему значение replica.
12
Задачи: консолидация
центральный
сервер
select, insert
update, delete
региональный
сервер
wal sender
региональный
сервер
wal sender
select, insert
update, delete
сегменты WAL
select, insert
update, delete
сегменты WAL
logical repl.
worker
logical repl.
worker
сегменты WAL
получение и консолидация
данных нескольких филиалов
Рассмотрим несколько задач, которые можно решить с помощью
логической репликации.
Пусть имеются несколько региональных филиалов, каждый из которых
работает на собственном сервере PostgreSQL. Задача состоит
в консолидации части данных на центральном сервере.
Для решения задачи на региональных серверах создаются публикации
необходимых данных. Центральный сервер подписывается на эти
публикации. Полученные данные можно обрабатывать с помощью
триггеров на стороне центрального сервера (например, приводя
данные к единому виду).
С точки зрения бизнес-логики есть множество особенностей,
требующих внимания. В каких-то случаях может быть проще
периодически передавать данные в пакетном режиме.
На иллюстрации: на центральном сервере работают два процесса
приема журналов, по одному на каждую подписку.
13
репликация справочников
Задачи: справочники
центральный
сервер
региональный
сервер
региональный
сервер
сегменты WAL
сегменты WAL
сегменты WAL
select, insert
update, delete
wal sender
wal sender
select, insert
update, delete
logical repl.
worker
select, insert
update, delete
logical repl.
worker
Другая задача: на центральном сервере поддерживаются справочники,
актуальные версии которых должны быть доступны на региональных
серверах.
В этом случае схему надо развернуть наоборот: центральный сервер
публикует изменения, а региональные серверы подписываются на эти
обновления.
14
кластер, в котором данные могут изменять несколько серверов
основной сервер
основной сервер
select, insert
update, delete
сегменты WAL
select, insert
update, delete
сегменты WAL
wal sender
logical repl.
worker
logical repl.
worker
wal sender
Задачи: мастер-мастер
Задача: обеспечить надежное хранение данных на нескольких
серверах с возможностью записи на любом сервере (что полезно,
например, для геораспределенной системы).
Для решения можно использовать двунаправленную репликацию,
передавая изменения в одних и тех же таблицах от одного сервера
к другому и обратно.
Двунаправленная репликация появилась в PostgreSQL 16. Система
умеет различать источники репликации (origin), и при создании
подписки можно указать, чтобы с публикующего сервера не
отправлялись изменения, помеченные определенным источником.
Конечно, прикладная система должна быть построена таким образом,
чтобы избегать конфликтов при изменении данных в одних и тех же
таблицах. Например, использовать глобальные уникальные
идентификаторы или гарантировать, что разные серверы работают
с разными диапазонами ключей.
Надо учитывать, что система мастер-мастер, построенная на
логической репликации, не обеспечивает сама по себе выполнение
глобальных распределенных транзакций и, следовательно,
о согласованности данных между серверами придется позаботиться
отдельно.
15
Ограничения
Не реплицируются
команды DDL
значения последовательностей
большие объекты (lo)
изменения материализованных представлений, внешних таблиц
Могут вызвать проблемы
массовые изменения данных
Не поддерживается
автоматическое разрешение конфликтов
Логическая репликация имеет ряд ограничений.
Не реплицируются команды DDL — все изменения схемы данных надо
переносить вручную.
Реплицироваться могут только обычные базовые таблицы
и секционированные таблицы. То есть нельзя реплицировать
отношения другого рода, такие как представления, материализованные
представления и внешние таблицы.
Не реплицируются значения последовательностей. Это означает,
что если сервер-подписчик добавляет строки в таблицу с суррогатным
уникальным ключом, для которой настроена репликация, возможны
конфликты. Конфликтов можно избежать, выделяя двум серверам
разные диапазоны значений последовательностей, или используя
вместо них универсальные уникальные идентификаторы (UUID).
Изменения реплицируются построчно, поэтому выполнение на
публикаторе команды SQL, затрагивающей много строк, приведет
к повышенной нагрузке на подписчик.
И, как уже говорилось, нет возможности автоматического разрешения
конфликтов.
Эти ограничения уменьшают применимость логической репликации.
16
Итоги
Логическая репликация передает изменения строк
отдельных таблиц
разнонаправленная
совместимость на уровне протокола
Модель «публикация — подписка»
Следует учитывать имеющиеся ограничения
17
Практика
Мы открываем второй магазин. Он работает независимо
от основного (свои пользователи, склад, закупки и продажи),
но имеет тот же ассортимент.
1. Разверните второй сервер из резервной копии, как показано
в демонстрации. Очистите таблицу операций.
2. Организуйте репликацию справочников книг и авторов
из основного магазина во второй. Предполагается, что эти
таблицы могут меняться только на основном сервере.
Убедитесь, что изменения названий книг и т. п. передаются
на второй сервер, но изменения наличного количества
происходят на двух серверах независимо.
18
Практика+
1. На двух серверах ведутся однотипные таблицы
бухгалтерских транзакций. Требуется консолидировать все
записи в ту же таблицу на одном из серверов (например,
для целей построения общей отчетности).
Предложите способ различить «свои» и «чужие» записи
и предотвратить конфликты при логической репликации.
Реализуйте предложенную схему.
2. Настройте логическую репликацию в обратном направлении.
Проверьте работу двунаправленной репликации.
1. Исходите из следующего вида таблицы транзакций:
CREATE TABLE transactions (
trx_id bigint PRIMARY KEY GENERATED ALWAYS AS IDENTITY,
debit_acc integer NOT NULL,
credit_acc integer NOT NULL,
amount numeric(15,2) NOT NULL
);
2. Чтобы публикация не отправляла реплицированные изменения,
задайте подписке параметр origin = none.