Торговый эквайринг 0,99%Торговый эквайринг 0,99%Этот баннер поменяется, а условия останутся навсегда!Этот баннер поменяется, а условия останутся навсегда!Подробнее

РассылкиИдеи для бизнесаБизнес с нуляМаркетплейсыБухгалтерияЛайфстайлСправочникШаблоны документов
РассылкиИдеи для бизнесаБизнес с нуляМаркетплейсыБухгалтерияЛайфстайлСправочникШаблоны документов

Нужно протестировать маркетинговую стратегию или оценить спрос на продукт, но данных для этого не хватает. Их или не собирали, или они устарели, или даже нарушают конфиденциальность пользователей. Что делать? Создавать синтетические данные и анализировать их. Я расскажу о том, что такое синтетические данные и почему на них делают ставку крупные компании в сфере ритейла, финтеха и маркетинга.

Что такое синтетические данные

Синтетические данные — это искусственно созданная информация. Она похожа на реальные данные, но не содержит сведений о конкретных людях или событиях. С такими данными можно прогнозировать поведение пользователей, тестировать гипотезы, обучать модели и запускать персонализированные кампании без юридических и репутационных рисков.

Рассмотрите таблицу. В реальных данных — список существующих людей и их персональные данные. В синтетических — статистически похожие профили (возрастные группы, диапазоны доходов, распределение по городам), но все записи искусственные и не связаны с людьми.

Реальные данныеСинтетические данные
Анна. 29 лет. Москва. ЗП 180 000 рублей.Ольга. 31 год. Москва. ЗП 195 000 рублей.
Иван. 42 года. Санкт‑Петербург. ЗП 270 000 рублей.Алексей. 44 года. Санкт‑Петербург. ЗП 260 000 рублей.
Мария. 35 лет. Екатеринбург. ЗП 150 000 рублей.Елена. 36 лет. Пермь. ЗП 148 000 рублей.
Дмитрий. 51 год. Казань.ЗП 320 000 рублей.Сергей. 49 лет. Казань. ЗП 330 000 рублей.

В России в 2024–2025 годах резко ужесточились требования к бизнесу: базы данных должны храниться на территории страны, уведомления об утечках — отправляться в Роскомнадзор за 24 часа, а за повторные нарушения грозят штрафы до 18 млн рублей. Аналогичная история по всему миру: GDPR в Европе, новые законы в США, подтягивается Азия.

Даже если по умолчанию убирать из данных имена и телефоны, среди характеристик пользователей остаются уникальные комбинации признаков. Например, «женщина, 54 года, живет в городе с населением <100 тыс., купила ноутбук за 120 000 ₽» — в маленьком городе такой покупатель может быть один. Если сопоставить эту строку с внешними источниками (соцсети, публичные реестры), человека можно идентифицировать. Хотя такие данные хороши для точного анализа, их слив может серьезно навредить репутации компании.

Реальные данныеОбезличенные данныеСинтетические данные
Заказ №1012 — Анна, 29 лет, Москва, купила кроссовки за 5 200 ₽Заказ №1012 — [Клиент А], 25–30 лет, Москва, категория: обувь, цена: 5–6 тыс. ₽Заказ №2015 — Марина, 30 лет, Москва, купила кеды за 5 100 ₽
Заказ №1013 — Иван, 42 года, Санкт‑Петербург, купил наушники за 3 800 ₽Заказ №1013 — [Клиент B], 40–45 лет, СПб, категория: электроника, цена: 3–4 тыс. ₽Заказ №2016 — Алексей, 44 года, Санкт‑Петербург, купил колонку за 3 900 ₽
Заказ №1014 — Мария, 35 лет, Екатеринбург, купила рюкзак за 2 600 ₽Заказ №1014 — [Клиент C], 30–40 лет, Урал, категория: аксессуары, цена: 2–3 тыс. ₽Заказ №2017 — Елена, 36 лет, Пермь, купила сумку за 2 500 ₽
Заказ №1015 — Дмитрий, 51 год, Казань, купил ноутбук за 68 000 ₽Заказ №1015 — [Клиент D], 50–55 лет, Поволжье, категория: компьютеры, цена: 60–70 тыс. ₽Заказ №2018 — Сергей, 49 лет, Казань, купил планшет за 66 500 ₽
Аватар дайджеста

Рассылка: как вести бизнес в России

Пять полезных писем пришлем сразу после подписки. В них — бизнес‑идеи, готовые промпты для нейросетей, советы, как выбрать налоговый режим и получать пассивный доход

Аватар дайджеста

Как создаются синтетические данные

Процесс генерации синтетических данных включает четыре этапа:

  1. Анализ исходных данных. Алгоритмы «смотрят» на настоящие данные и снимают с них статистический портрет. Он состоит из перечня закономерностей, связей между разными строками информации, аномалий. Например, алгоритм отмечает, что с ростом дохода растет и средний чек в магазине.
  2. Обучение модели. На базе анализа строится модель, которая учится воспроизводить логику исходного датасета. Здесь в ход идут инструменты машинного обучения: генеративно‑состязательные сети (GAN), где одна нейросеть придумывает, а другая критикует, или вариационные автоэнкодеры (VAE), которые умеют сжимать и восстанавливать данные, находя в них глубинные закономерности. По сути, модель учится имитировать реальность.
  3. Генерация данных. Дальше начинается самое интересное — модель «сочиняет» новые записи. Они выглядят реалистично: те же диапазоны значений, те же связи между переменными. Но ни одной настоящей строки из исходного файла там нет.
  4. Проверка качества. Последний этап — контроль. Нужно убедиться, что синтетика действительно похожа на оригинал и подходит для бизнес‑задач. Для этого сравнивают распределения, корреляции, иногда даже «прогоняют» синтетические данные через те же модели или дашборды, что и реальные. Если графики и выводы совпадают — данные годные. Если нет — модель дообучают.
Процесс создания синтетических данных: анализ исходных данных, обучение модели, генерация данных, проверка
Синтетические данные валидны, потому что проходят через несколько этапов обработки. В начале процесса выбирают и анализируют исходные данные — на этом этапе отсеивается информация, которая может повлиять на статистику. В конце все синтетические данные проходят проверку и сравнение с исходником

Чтобы синтетические данные были полезными, они должны точно отражать характеристики реальных данных. Чтобы добиться этого, используют несколько подходов — от сложных нейросетей до старых добрых статистических моделей:

  1. Генеративные модели. Тут на сцену выходят GAN и VAE — алгоритмы, которые можно сравнить с актером‑импровизатором и строгим режиссером. Один «придумывает» данные, другой проверяет, похоже на оригинал или нет. Так модель учится создавать синтетику, которая сохраняет ключевые закономерности: распределения, корреляции, редкие события.
  2. Математическое моделирование. Иногда достаточно статистики. Берем реальные распределения (например, сколько процентов клиентов попадает в тот или иной возрастной сегмент) и строим данные, которые повторяют эту структуру. Это как ожившая таблица вероятностей. Подходит там, где важно сохранить числовые закономерности.
  3. Симуляции. Здесь в игру вступает моделирование процессов. Представим, что мы хотим изучить поведение покупателей при дефиците товара или редкие сбои в платежной системе. В реальной жизни собрать такие данные почти невозможно, а симуляция позволяет «прокрутить» сценарий и сгенерировать статистику на будущее. Этот подход активно используют, например, фармкомпании для тестирования гипотетических клинических сценариев. Многие европейские банки перешли на синтетические данные при тестировании систем антифрода. Реальных кейсов с редкими атаками у них не хватает, а синтетика позволяет смоделировать мошеннические схемы и заранее обучить алгоритмы.

Совсем избежать ошибок все равно невозможно. Синтетика может сглаживать острые углы и упрощать реальность. Еще есть риск переобучения: если «кормить» алгоритм только синтетикой, он начнет ловить ее искусственные особенности и переносить их на настоящие данные. Важна и база данных, которую берут для обучения модели: если в них будет некорректная информация, алгоритм не сможет это проверить и сделает неверные выводы — все исследование нужно будет начинать заново.

Как использовать синтетические данные

По данным Datacebo, программное обеспечение SDV (Synthetic Data Vault) скачали более 7 млн раз, а около 10 % компаний из списка Fortune 500 уже экспериментируют с синтетическими данными. Nvidia, Google, OpenAI и другие технологические гиганты используют «синтетику» для обучения ИИ‑моделей, особенно когда реальные данные исчерпаны. Исследователи предсказывали, что в ближайшие годы до 60 % данных, используемых аналитических проектах, станут синтетическими. Вот как их можно использовать уже сейчас.

Способ 1. Тестирование маркетинговых гипотез. Маркетинг всегда работает с предположениями: «А что если новая акция увеличит средний чек?», «Как изменится конверсия, если поменять креатив?». Синтетические данные позволяют прогнать эксперимент «в песочнице». Алгоритмы создают выборку, которая статистически похожа на вашу реальную аудиторию: распределение по возрасту, доходам, регионам, покупательскому поведению. На этих искусственных данных можно протестировать воронку продаж, промо‑механику или даже реакцию на новый продукт.

Предположим, компания планирует запустить новый продукт и хочет понять, как потенциальные клиенты будут взаимодействовать с ним на сайте. Используя синтетические данные, можно смоделировать виртуальные покупательские пути, включая просмотр страниц, добавление товаров в корзину и совершение покупок. Для этого используются анонимизированные транзакционные данные, на основе которых генерируются синтетические профили пользователей. Затем можно провести A/B‑тестирование различных ценовых стратегий или рекламных сообщений, смоделировать разные сценарии поведения и оптимизировать пользовательский путь.

Рассмотрим пример. В 2024 запустился в России появился сервис для работы с синтетическими данными. Главная идея проста: дать аналитикам и маркетологам возможность проверять гипотезы и обучать модели так, будто у них есть доступ к реальной базе клиентов, но без риска нарушить законы о персональных данных.

Алгоритмы сначала изучают настоящие данные и «снимают слепок» их структуры: какие клиенты встречаются чаще, как показатели связаны между собой. Затем на основе этого слепка строится генератор, который «сочиняет» новые записи — не настоящих людей, а двойников, похожих на аудиторию статистически.

Качество синтетики оказалось настолько высоким, что модели, обученные на ней, показывали результаты, уступающие по качеству на 2–3 процента. Для бизнеса это означает, что можно тестировать новые продукты, сценарии коммуникаций или рекламные гипотезы, не задействуя клиентскую базу.

Обычно доступ к реальным данным — это месяцы согласований и юридических проверок. Синтетика снимает эти барьеры: гипотезы проверяются быстрее, эксперименты становятся дешевле, а риск утечки конфиденциальной информации фактически обнуляется.

Способ 2. Персонализация клиентского опыта. Персонализация давно стала стандартом, но у бизнеса здесь вечный конфликт: чтобы сегментировать аудиторию, нужны реальные данные, а работать с ними все сложнее и из‑за законов, и из‑за рисков утечки. Синтетические данные снимают это противоречие.

Алгоритмы сначала строят обобщенную модель поведения клиента: какие покупки он делает, в каких категориях чаще всего тратит деньги, какие каналы использует. Эта информация не хранится в явном виде — она превращается в статистический портрет, а на его основе создаются синтетические профили. Получаются виртуальные «двойники» аудитории: семьи с детьми, молодые профессионалы, пенсионеры.

Дальше можно тестировать сценарии персонализации: кому зайдут скидки на продукты первой необходимости, кому — бонусные баллы, а кому — спецпредложения на премиум‑товары. Все это сначала «прокручивается» на синтетических сегментах, а уже потом доходит до реальной базы. Такой подход экономит время и снижает риск ошибки в коммуникации.

Рассмотрим пример. HP Tronic, крупный ритейлер электроники, столкнулся с классической задачей: как персонализировать клиентский опыт, не имея возможности свободно работать с реальными данными.

Сначала компания собрала общий портрет своей аудитории: что чаще покупают разные сегменты, какие категории товаров предпочитают, как реагируют на скидки и спецпредложения. Это был не список покупателей, а агрегированные закономерности — своего рода «среднестатистические привычки».

На основе этих закономерностей алгоритмы сгенерировали целую линейку искусственных клиентов: семьи, которые чаще берут бытовую технику; молодых специалистов, выбирающих гаджеты; студентов, реагирующих на промо‑акции. Каждый профиль выглядел как реальный, но за ним не стоял конкретный человек.

Дальше HP Tronic проверил на синтетических клиентах разные сценарии персонализации. Система моделировала реакции этих профилей, как если бы это были настоящие покупатели. Результаты оказались практичными: компания увидела, какие сегменты лучше реагируют на определенные предложения, и запустила персонализированные кампании на реальную аудиторию. На этапе реального запуска конверсия кампаний HP Tronic в Чехии выросла на 136%.

Способ 3. Оценка рыночного потенциала. Собираются исходные данные — продажи, цены, сезонность, типичные поведенческие паттерны. Если собственных данных мало, берут агрегированные отраслевые показатели или открытые источники. На их основе строятся синтетические массивы: например, данные о том, как покупатели могут реагировать на повышение цен или скидки. Эти данные не отражают конкретных людей, но воспроизводят рыночные закономерности.

Дальше включается моделирование. Компания может «прокрутить» десятки сценариев: рост цен на 5 или 10 процентов, запуск акций «1+1», снижение стоимости старых моделей. Система показывает, как изменятся продажи и выручка в каждом случае. По сути, это виртуальная лаборатория, где можно проверить гипотезы, не выводя их сразу на рынок.

Рассмотрим пример. Компания Electric Twin разработала платформу, которая позволяет моделировать «синтетические популяции»: семьи, студентов, профессионалов с высоким доходом. Они не совпадают с конкретными людьми, но действуют так же, как настоящие сегменты рынка.

Эти синтетические аудитории используются для оценки рыночного потенциала: компания может смоделировать десятки сценариев и заранее увидеть, как разные сегменты на них отреагируют. По результатам верификации точность прогнозов достигает 95% совпадения с фактическим поведением клиентов, что позволяет бизнесу принимать решения почти так же надежно, как если бы они опирались на реальные исследования.

В итоге Electric Twin фактически создала виртуальную лабораторию для оценки спроса и стратегий: то, что раньше требовало недель опросов и больших бюджетов, теперь можно проверить за часы и без рисков для приватности данных.

Способ 4. Защита данных при совместной работе. Безопасный обмен данными — один из главных вызовов для компаний, особенно когда речь идет о партнерских проектах или работе в международных сетях. Передавать реальные базы нельзя: законы о персональных данных это запрещают. При этом бизнесу нужны цифры для анализа, тестов и прогнозов. Здесь и вступают в игру синтетические данные.

Смысл в том, что синтетика открывает компаниям доступ к совместной работе и обмену инсайтами, не создавая рисков утечек. Она сохраняет ценность данных и снимает ограничения, мешающие бизнесу двигаться быстрее.

Рассмотрим пример. Platforma и HFLabs разработали совместную программу лояльности. Запустить такую сложно: нужно определить, где пересекаются клиентские базы, не нарушая закон о персональных данных, который запрещает передавать имена, телефоны и адреса третьим лицам.

Platforma и HFLabs нашли решение — использовать синтетические идентификаторы вместо реальных данных. Персональные записи преобразуются в хеши и передаются в «федеративный хаб», где алгоритмы ищут пересечения. При этом каждая компания видит только совпадения в аудитории, но не получает доступ к чужой базе.

Сложность в том, что даже небольшая разница в исходных данных полностью меняет хеш. Чтобы сохранить точность, разработчики внедрили систему синонимов: алгоритм учитывает разные написания имен, варианты записи телефонов и электронных адресов. Для ускорения обработки больших массивов применили кластеризацию, которая позволяет разделять данные на группы и снижать нагрузку на систему.

В результате компании смогли безопасно сопоставить клиентские базы и использовать эту информацию для разработки совместных маркетинговых предложений. Такой подход исключает риск утечек и при этом открывает возможности для более персонализированной работы с аудиторией.

Кто и как может использовать синтетические данные

Для генерации качественных наборов нужны алгоритмы вроде GAN или VAE, мощные вычислительные ресурсы и команда специалистов, которые понимают, как работают статистика, корреляции и генеративные модели.

Теоретически любой бизнес может попробовать синтетику, но на практике для малого бизнеса это часто оказывается неоправданным: без исходных массивов данных итоговые записи будут далеки от реальности, а стоимость серверов и подписок на специализированные сервисы может превысить потенциальную выгоду. Гораздо проще и дешевле воспользоваться альтернативами — открытой статистикой, мини‑опросами через Google Forms или анализом поведения аудитории в соцсетях.

Основную выгоду синтетические данные приносят крупным компаниям, у которых много чувствительной информации и строгие требования к ее защите. Это банки, телеком, маркетплейсы, медицинские учреждения. Для них синтетика становится инструментом, позволяющим обучать рекомендательные системы, прогнозировать спрос и тестировать маркетинговые сценарии без риска утечек.

Заключение

Я работаю аналитиком в агентстве и не понаслышке знаю, как быстро синтетические данные становятся стандартом для крупных компаний. В проектах с большими массивами информации и жесткими требованиями к конфиденциальности именно они помогают сократить затраты на исследования, ускорить вывод продуктов, безопасно обмениваться данными между подразделениями и даже моделировать экономические сценарии в условиях неопределенности.

В банках, телекоме, ритейле и медицине синтетика уже перестала быть «модной опцией» — это часть конкурентного преимущества. Но для малого бизнеса ситуация иная: создание синтетических данных требует слишком серьезных ресурсов и компетенций. Чаще всего проще и эффективнее работать с открытыми источниками, собственными опросами или тестовыми кампаниями.

Из моего опыта и анализа мировых и российских кейсов очевидно: синтетические данные — не временный тренд, а устойчивый ответ на запрос рынка. Когда доступ к реальным данным ограничен, а требования к их защите ужесточаются, именно синтетика позволяет бизнесу сохранять гибкость, точность и скорость принятия решений.

Расчетный счет для бизнеса

Предложение от Т‑Банка

Расчетный счет для бизнеса
  • Бесплатное открытие, онлайн. Реквизиты — в день заявки
  • Первые два месяца — бесплатное обслуживание
  • Любые платежи ИП и юрлицам внутри банка — 0 ₽
Узнать больше

АО «ТБанк», лицензия №2673

Станислав

Ни слова про риск-ориентированный подход при оценке вероятности риска реидентификации ПДн в результате синтезирования.


Больше по теме
Новости

Подпишитесь на рассылки

Собираем самые полезные материалы, интересные мероприятия и важные новости в коротких письмах. Вы можете подписаться на одну из рассылок или на все сразу.

62K подписчиков

Дважды в неделю

Как вести бизнес в России

Важные новости, бизнес‑кейсы, разборы законов и практические советы для предпринимателей

15K подписчиков

Раз в неделю

Как зарабатывать на маркетплейсах

Новости торговых площадок, инструкции для селлеров и лайфхаки успешных продавцов

20K подписчиков

Раз в две недели

Мероприятия для бизнеса

Анонсы вебинаров, конференций и других событий для предпринимателей

3K подписчиков

Раз в две недели

Рассылка для бухгалтеров

Новости и советы, которые помогут упростить работу и больше зарабатывать