sales uplift что это
Uplift моделирование в пакете R
Uplift моделирование в пакете R
1. Введение в “Uplift” моделирование
Uplift моделирование – прогнозный метод машинного обучения, служащий для определения величины эффекта воздействия на потребителя. Uplift моделирование применяется при:
Uplift моделирование позволяет сегментировать потребителей, что приводит к увеличению ROI маркетинговой кампании:
Пояснить необходимость учета специфики отклика разных групп потребителей при планировании маркетинговых акций поможет следующий график:
Вероятность отклика потребителя в зависимости от участия в промо-акции
(синий – участвовал, черный – нет)
Классическим примером неудачного планирования промо-акции, без учета уже сформировавшегося желания или нежелания сделать приобретение, является следующий реальный пример:
Мы разработали модель отклика клиентов на промо-акцию и сделали рассылку каталогов по топ-30% клиентов. В результате, с учетом затрат на печать и рассылку, ROI был даже хуже, чем в контрольной группе, где мы не делали ничего.
Почему?!
Скорее всего, большая часть из этой рассылки сделала бы покупку и без участия в промо-акции (“sure thing”).
2. Методология “Uplift” моделирования
Uplift моделирование сегментирует потребителей и анализирует разницу отклика в 2-ух выборках:
С математической точки зрения “uplift” (“аплифт”) определяется как изменение вероятности совершения желаемого события (покупка, клик, возобновление подписки) в ответ на акцию:
P(Y=1| i, a=1) — P(Y=1| i, a=0)
Уже на этапе определения uplift становится понятной нетривиальность поиска решения такой задачи, т.к. uplift не может быть непосредственно измерен: клиент не может одновременно находится и в промо- и в контрольной группе.
Для решения этой задачи существует несколько подходов, которые условно можно разделить на 2 группы:
Прямые
Аплифт, как и в первом случае, вычисляется как разница между вероятностью совершения покупки данным клиентом в контрольной и промо группах.
Непрямые
После определения оптимальных подмножеств, для членов этого подмножества вычисляется аплифт как разница между вероятностью наступления благоприятного события в промо и контрольной группах.
И в том и в другом случае после анализа тестовой (пробной) промо-акции впоследствии таргетируются только группы клиентов, с макимально прогнозируемым аплифтом.
Прямые методы просты в реализации и интуитивно понятны, но, как правило, отличаются невысокой точностью. Непрямые методы являются “черными ящиками”, но отличаются более высокой точностью.
3. Примеры успешных реализаций*
Кейс 1. Telenor.
Кейс 2. Charles Schwab.
4. Исследование данных
4.1 Что такое R
R – это объектно-ориентированный, скриптовый язык статистической обработки данных. R – это де-факто стандарт статистического моделирования в академическом мире. Большинство передовых статистических алгоритмов вначале реализуются в R (Random Forest, Lasso, Ridge Regression etc), а затем мигрируют в коммерческие пакеты. Причиной популярности R являются:
140 тыс. вопросов и ответов), где можно найти ответ практически на любой вопрос.
R имеет реализованные функции для моделирования аплифт в двух пакетах:
uplift (by Leo Guelman): пакет имеет функции для генерация данных, тренировки и валидации моделей (CCIF, RF, KNN), а также функции для презентации и визуализации результатов моделирования.
Information (by Kim Larsen): пакет реализует несколько алгоритмов (Net WOE, Net IV) для выбора оптимального набора параметров при аплифт моделировании. Кроме того, пакет содержит реальную базу данных маркетинговой кампании, которая будет использоваться в данном примере.
4.2 “Базовый” аплифт
Для начала, загрузим необходимые пакеты:
Пакет Information содержит интересующие нас данные в виде двух объектов:
которые мы для начала объединим в один большой датасет:
Датасет состоит из 20’000 строчек (кейсов), с 70 численными переменными, которые описывают профайл клиентов компании. Ларсен не раскрывает смысл, стоящий за той или иной переменной (data book отсутствует), однако для нас важны 3 переменные:
Определим количество сделавших покупки в контрольной и в промо группах и назовем разницу “базовым” аплифтом. Эта величина будет являться бенчмарком, который мы будем пытаться усовершенствовать в результате моделирования:
Графическое отображение вероятности совершения покупки в контрольной и промо группах:
4.3 Является ли аплифт в 0.2% статистически значимым?
Т.к. мы имеем дело со сравнительной небольшой выборкой в 20’000 кейсов, а 20.14% и 19.95% отличаются всего лишь на 0.2%, интересно было бы ответить на вопрос:
является ли такое отличие статистически значимым? Иначе говоря, при повторном проведении промо акции, всегда ли мы гарантированно получим более высокую частоту покупок в промо группе, пусть даже на 0.2%?
Для начала, попробуем визуализировать следующий мысленный эксперимент:
сделаем из нашей тестовой выборки в 20’000 кейсов 10 случайных выборок меньшего размера (например 15’000 кейсов), и посмотрим на распределение частоты совершения покупок в контрольной и промо группах.
Для того чтобы окончательно убедиться в отсутствии статистической значимости увеличения частоты покупок в данной выборке, проведем формальный тест на разницу в частоте покупок в контрольной и промо группах:
Т.к. доверительный интервал включает в себя 0, то при текущем планировании промо-акции мы не можем исключить того, что на некоторых выборках частота покупок в контрольной группе будет выше чем в промо группе (в чем мы уже убедились на случайных выборках в начале этого раздела).
5. Моделирование
Небольшая проверка, чтобы убедиться, что структура данных сохранилась:
Для того, чтобы у нас была возможность сравнивать качество различных моделей, кросс-валидацию будем проводить на 5-ти фиксированных выборках:
Кросс валидация происходит следующим образом:
Таким образом, в конце мы имеем 10 пар средних и дисперсий для аплифта в 10 децилях (в данном случае 200 пар значений mean и sd для 10 глубин и 10 децилей)
Таким образом мы видим, что при использовании всех доступных аттрибутов:
Внимание: аплифты не аддитивны и не усредняются (см. пример расчета аплифта для нескольких децилей ниже)
Фактический аплифт на датасете, который был в “сейфе” (модель не “видела” этих данных), достаточно близок к усредненному аплифту на тренинговом датасете, и в большинстве случаев даже лучше, чем прогнозируемый аплифт.
Посмотрим цифры поближе:
Пример расчета кумулятивного аплифта для нескольких децилей
Если глядя на синие графики, полученные на тренинговых сетах, мы бы спланировали акцию в топ-3 децилях (с учетом дисперсии) при помощи модели с глубиной взаимодействия 9:
что означало бы аплифт в
50% (или, говоря простым языком, увеличение отклика клиентов на 50%)
Посмотрим, сможем ли мы улучшить результат путем сортировки аттрибутов по показателю NIV (кросс-валидация результатов показала,что оптимальным будет набор из топ 30 аттрибутов). Кросс-валидируем глубину взаимодействия на 30 топовых фичах:
Посмотрим, какой аплифт нам бы дало применение этих моделей на “боевой” выборке:
Посмотрим повнимательнее на модель, построенную на Top30 аттрибутах (отфильтрованных при помощи функции NIV из пакета Information ), глубина взаимодействия 10:
Для топ-3 децилей (которые мы бы определили исходя из поведения нашей модели на тренинговом сете, с учетом дисперсии прогнозов):
Заключение
Планирование промо-акций должно учитывать не вероятность отклика клиента (купит/не купит), а маржинальный эффект промо акции на решение индивидуума:
Наиболее оптимальным клиентом для промо акции является индиивидуум, у которого веротяность совершения покупки, вследствие участия в промо, возрастет (“persuadables”).
R, программная среда статистической обработки и анализа данных, предоставляет несколько инструментов для аплифт моделирования, которые позволяют спланировать промо акции оптимальным образом, увеличивая вероятность отклика клиента на 50 и более процентов.
Помимо увеличения процента отклика в промо акциях, аплифт моделирование используется для оптимизации и увеличения ROI маркетинговых кампаний в таких отраслях как:
О2О в деталях: как бренды продвигают продукты между онлайном и офлайном
В условиях пандемии и экономической турбулентности маркетологи все больше обращают внимание на online-2-offline-кампании. Эксперты отдела аналитики programmatic-платформы Segmento подготовили обзор О2О-исследований по кампаниям за 2020 год. Эти данные показывают, какие бренды и категории в первую очередь заинтересованы в подобных кампаниях, а также какие рекламные форматы и инструменты оценки эффективности они используют
Информация становится новой универсальной мировой валютой. Так, маркетинговые исследования создают для бизнеса необходимое знание о том, как часто пользователь ищет бренд или товар и рассматривает ли он в принципе вариант его приобретения. Платформа Segmento провела за прошедший год большой массив O2O-исследований, используя методологию Sales Lift и Offline CR, показывающие, насколько эффективно происходит конверсия из показов рекламы в офлайн- и онлайн-покупки.
Sales-lift — это методика оценки влияния digital и других видов рекламы на продажи в розничных точках. Мониторинг проводится до, во время и после окончания проектов. При этом важно не только оценивать рекламируемый бренд, но и анализировать его в комплексе с другими товарами и категориями, изучая ситуацию в других магазинах и у конкурентов.
В обзор попали исследования Segmento, которые проводились c 1 сентября 2019 года по настоящее время. При подсчете за 100% было взято общее количество всех исследований за этот год по отраслям и в % — для Offline CR и Sales Lift. На первое место закономерно попали продукты питания и медицинские товары, но одежда и ретейл прочно удерживают третье и четвертое место.
Следующим пунктом мы проанализировали множество рекламных креативов и рассмотрели, как распределяются кампании по целям. Первый пункт — акционная реклама, связанная со сбытовой, performance-рекламой, например сезонные или промоакции. Вторым пунктом идет имиджевая коммуникация, которая была нацелена на охват и построение знания о продукте или бренде.
Ниже представлена выгрузка по отдельным объектам рекламы в различных товарных категориях. По наполнению шире всего представлены сферы продуктов питания и медикаментов; пандемия оказала явное влияние на потребление определенных продуктов с большим сроком хранения, а также товаров здорового питания.
Здесь мы также можем проследить определенный интерес потребителей к покупке одежды, в том числе для туризма и активного отдыха.
По месяцам 2019/2020 годов рекламные кампании с исследованиями распределились следующим образом: традиционные сезонные всплески осенью и весной, причем март и апрель лидируют по количеству исследований.
Ниже график, демонстрирующий, как выглядит распределение кампаний по наличию или отсутствию в них методики измерения Brand Lift.
Brand Lift — инструмент, которые позволяет оценить влияние коммуникации на значение брендовых метрик, таких как узнаваемость, запоминаемость, предпочтение и намерение. Значение данных метрик определяется путем опроса после проведения кампании.
В зависимости от регионов, где проводились измерения продаж, картина выглядит так: лидируют федеральные кампании, за ними Москва, Санкт-Петербург и города-миллионники с высокой покупательной способностью.
Прочие данные из исследования представлены на графиках ниже.
O2O-коммуникации: Sales Lift и анализ логов — дорого, но эффективно
Какие маркетинговые задачи успешно решает новая технология, рассказали в Traffic Isobar, «Эвотор» и Genius group
Процесс проведения исследования
Если в основе аудиторного сегмента лежит информация от ритейлера, то подготовка базы отчета Sales Lift, включая сбор необходимых показателей, происходит на стороне розничной сети, как правило, в подразделении по работе с большими данными. Далее информация попадает в агентство. Здесь специалисты на основе полученных цифр пишут аналитический отчет, выдвигают гипотезы, верифицируют их с ритейлом и клиентом, смотрят на конкурентное окружение в момент проведения промо, а также на рекламную активность. Таким образом они учитывают огромное количество факторов.
У рекламных площадок есть инструментарий для оценки эффективности рекламного взаимодействия посредством CRM-данных. Логика сопоставления всегда одна: важно действие, которое произошло после показа рекламы или цепочки коммуникации с пользователем. Логика эта подходит и большинству компаний, чьи знания используют для формирования аудиторных сегментов — телекому, ритейлу, ОФД, online-кассам, а значит, технически провести Sales Lift можно почти со всеми носителями информации.
По MAC-адресам обычно замеряют доходимость, но рекламные площадки, которые умеют работать и с MAC-адресами, и с CRM-данными, позволяют исходя из аудитории, которая получена одним способом, измерить конверсию другим способом.
Игорь Оганесян, директор по развитию рекламных продуктов и монетизации данных компании «Эвотор»:
Предположим, вы клиент, формировавший аудиторный сегмент при помощи MAC-адресов, полученных от поставщиков вайфай-аналитики. Но конверсию измеряете посредством CRM-данных, так как у вас есть данные о покупках. Поставщиком информации для оценки эффективности рекламной кампании в этом случае является не сторонняя компания, а непосредственно ваша. У нее есть своя CRM или CDP, содержащая данные об аудитории, купившей что-то в период действия рекламной кампании. Базовая реализация Sales Lift и предполагает заливку CRM-данных и оценку конверсии.
Сроки подготовки
Если при формировании аудиторного сегмента мы обогащали знания одного носителя знаниями другого, например «мэтчили» ОФД с телекомом, срок проведения исследования составит около двух месяцев с момента окончания рекламной кампании. Это время складывается из трех периодов:
Транзакционное окно — срок, который выжидают по итогам рекламной кампании, наблюдая, как участники целевого сегмента продолжают покупать рекламировавшийся товар, поскольку не все товары приобретают день в день. Конкретный период транзакционного окна зависит от специфики рекламируемого товара, но в среднем составляет от 21 до 45 дней. Параллельно происходит подготовка официальных документов для получения контрольного сегмента от оператора фискальных данных (ОФД), на юридическое согласование которых как раз и уходит пара недель. Эти документы демонстрируют связь контрагентов между собой и с клиентом и позволяют минимизировать риски недобросовестного использования сведений о продажах.
Условный клиент поручает своему рекламному агентству получить сегмент. Рекламное агентство перепоручает получить сегмент компании-разработчику рекламных решений, а она — телеком-оператору, который направляет официальный запрос в ОФД и получает сегмент.
Срок ожидания исследования Sales Lift можно сократить, если аудиторные сегменты сформированы на базе знаний только одного носителя. К примеру, знания ритейлеров не нуждаются в обязательном дополнительном обогащении, а значит, в процессе реализации рекламной кампании и подготовки отчета можно избежать как минимум двух мэтчингов.
Ольга Петрова, генеральный директор агентства Traffic Isobar:
Во время подготовки первых отчетов в партнерстве с ритейлерами готовую аналитику клиентам приходилось ждать по два месяца. Новый инструмент требовал пересмотра бизнес-процессов на стороне розничной сети, а также накопления опыта по сбору сегментов. Сейчас эти этапы пройдены, и процесс подготовки отчета Sales Lift занимает в среднем от трех до пяти недель после завершения рекламной кампании.
В будущем технологии работы с данными о конечных продажах в секторе FMCG будут идти по пути ускорения. Вероятно, через какое-то время совместными усилиями игроков рынка появятся интерфейсы, подобные programmatic-решениям, в которых все показатели доступны постоянно.
Анализ логов
Кроме привычного исследования Sales Lift, при отработке аудиторного сегмента на определенных рекламных площадках есть возможность оценить эффективность более детально — на базе анализа логов.
Лог — информация о происходящем внутри рекламной площадки: кому, когда и как была показана реклама. Причем, «когда» обозначает время, а вот «кому» можно посмотреть, как правило, лишь по аудитории, которая была «сконверчена» — совершила целевые действия.
Сначала требуется предоставить CRM-файл или данные по доходимости рекламной площадки, если речь идет об offline-конверсиях в посещения. В этом случае отчет демонстрирует, сколько раз рекламу увидел конкретный пользователь, совершивший покупку (расчет эффективной частоты), разницу во времени показов, был клик или не было и прочее.
По оценкам экспертов, примерная стоимость такой аналитики в пять раз превышает цену базового отчета, но она того стоит, поскольку дает возможность проверять гипотезы: верно ли была выбрана ЦА, способы и механики взаимодействия с ней и др.
Игорь Оганесян, директор по развитию рекламных продуктов и монетизации данных компании «Эвотор»:
Для рекламной площадки анализ логов — дело сложное и затратное. Это ручной труд, очень небыстрый, ведь если на выходе нужны адекватные результаты, приходится отсеивать пласты лишних сведений. В то же время именно анализ логов как инструмент позволил рекламным площадкам за несколько лет существующей практики серьезно отладить свою внутреннюю работу.
Сегодня среди рекламных площадок, работающих на российском рынке, анализ логов для клиентов осуществляют, например, платформа MyTarget и DSP сотовых операторов.
Геннадий Нагорнов, CEO Genius Group:
Работа с большим количеством партнеров среди носителей знаний показывает, что далеко не всем доступны возможности аналитики логов на стороне Mail.ru Group. Компания жестко контролирует соблюдение privacy своих пользователей и строит отношения лишь с теми, у кого понятное происхождение базы и устойчивые идентификаторы.
Мэтчинг с логами других площадок теоретически возможен, но имеет много ограничений. Поэтому на рынке и появился устоявшийся набор платформ, которые применимы для подготовки отчетов Sales Lift. Остальные рекламные площадки, как правило, используют в целях таргетинга.
Тем не менее, несмотря на сложности, Sales Lift в целом и аналитика логов в частности позволяют более глубоко оценить результаты рекламной кампании и выявить их причины.
Sales uplift что это
С помощью Uplift-моделирования компании могут узнать, как именно улучшить коммуникации, считает Валерий Бабушкин, начальник отдела по управлению развитием данных X5 Retail Group. 22 ноября эксперт выступит на AI Conference в Москве с докладом «Uplift-моделирование: зачем и как?».
В интервью для московской AI Conference специалист рассказал, чем полезно Uplift-моделирование, какому бизнесу стоит его использовать, и поделился кейсом своей компании.
Интервьюер: AI Conference (AIC).
Респондент: Валерий Бабушкин, начальник отдела по управлению развитием данных X5 Retail Group (ВБ).
AIC: Как вы считаете, компаниям в каких индустриях стоит использовать Uplift-моделирование?
ВБ: Uplift-моделирование – это поиск оптимальной стратегии коммуникаций. Соответственно, этот метод подойдет любой компании, которая работает с широкой аудиторией, предлагает покупателям скидки, запускает акции и предложения.
Чем чаще и дольше люди пользуются каким-то сервисом, тем больше денег они приносят компании. В 90-95% случаев аналитика о коммуникациях начинается с модели оттока. Она выдает данные о том, с какой вероятностью конкретный пользователь перестанет пользоваться услугами и покупать товары.
Если вероятность ухода клиента высокая, организация предлагает клиенту скидку – он воспользуется предложением и продолжит покупать товары и пользоваться услугами. Компания, в свою очередь, заработает на этой продаже больше, чем потеряет на скидке.
Важно учесть четыре варианта развития событий, когда клиенту предлагают скидку:
AIC: Подходит ли такой метод ML начинающему бизнесу?
ВБ: Когда компания только выходит на рынок, у нее еще нет клиентской базы или она небольшая. Соответственно, такой бизнес вряд ли начнет предлагать скидки пользователям, чтобы удержать или вернуть их. В общем, такой метод не подходит «новичкам».
Теоретически сделать Uplift-моделирование на начальной стадии можно, но без крупной базы клиентов его будет не на чем построить.
AIC: Что именно о пользователях удается выяснить с помощью Uplift-моделирования?
ВБ: Со стороны Uplift-модели компании не нужны данные о пользователе. Главное – понять, как изменится поведение конкретного клиента, когда ему будет предложена скидка.
Если вероятность, что человек купит товар без скидки, составляет 50%, а со скидкой – 70%, значит, Uplift в этом случае – 20%. Затем, зная, сколько стоит коммуникация с клиентом, компания может посчитать, какую прибыль принесут эти 20%. В результате можно решить, выгодна ли скидка.
AIC: Какие данные использует Uplift-моделирование, чтобы проанализировать поведение пользователей?
ВБ: Это данные о покупках и о профиле покупателей. Модель отбирает максимально схожих клиентов, которые отличаются друг от друга только методом коммуникаций с ними. Поэтому желательно собрать максимум информации о пользователях: историю покупок, возраст, пол и т.д.
AIC: Как именно определить, какие пользователи готовы купить товар только со скидкой?
ВБ: В Uplift-моделировании очень важно собрать данные, на которых можно «обучиться». Для этого собирают обучающий набор – абсолютно похожие друг на друга покупатели. Например, в группу объединяется 1000 человек со схожим поведением в плане предпочтения продуктов. Среди них выбирают 500 случайных людей, отправляют им рассылку о скидке, остальные остаются без предложения.
Далее важно проследить за изменениями в какой-либо метрике – среднем чеке или конверсии. Изменения в этом случае происходят только в результате коммуникации, например рассылки.
Если клиенты покупали товар в 70% случаев, а со скидкой купили в 80% ситуаций, значит, Uplift составляет 10%. На основе этих данных скидки и предложения рассылаются целенаправленно.
AIC: Какой из методов Uplift-моделирования самый эффективный в ритейле?
ВБ: Существует подход, при котором строятся две модели и производится вычитание. Может быть достаточно и одной модели.
Самый эффективный подход – предсказывать и моделировать Uplift напрямую.
AIC: Когда получены результаты Uplift-моделирования, какие дальнейшие действия необходимо предпринимать?
ВБ: Получая результаты, компания знает, как действовать дальше – кому и когда стоит предлагать скидки и акции.
Например, если у компании десятки миллионов пользователей, а скидка нужна только одному миллиону, SMS-рассылки должны охватывать только миллион человек. Рассылка «по всем» будет пустой тратой денег. Если учесть, что предложения о скидках делают не один раз в год, потраченная на бессмысленные рассылки сумма может достигать миллиардов рублей в год.
AIC: Расскажите о реальном применении Uplift-моделирования на примере вашей компании. Каких результатов удалось добиться, использовав этот метод ML?
ВБ: В рамках пилота мы применили Uplift-моделирование к аудитории в 500 тысяч человек. В результате акция, где X5 Retail Group впервые применила этот метод машинного обучения, привела к росту среднего чека и конверсии.
В крупном бизнесе с большим оборотом воздействие даже на 1% пользователей приносит огромные деньги. Поэтому чем больше бизнес, тем важнее задуматься о его оптимизации с помощью больших данных.
AIC: О чем вы расскажете на AI Conference в Москве?
ВБ: На конференции я расскажу о способах построения Uplift-моделей, подробно разберу и сравню три из них. Также я объясню, какие варианты построения моделей существуют внутри каждого из этих методов, какими могут быть цели и как применить все это на практике.
Узнайте больше об Uplift-моделировании и его преимуществах от эксперта X5 Retail Group на AI Conference!