Starbucks: Исследовательский анализ данных мобильных приложений от Starbucks

Анализ мобильных данных Starbucks для понимания поведения клиентов и повышения эффективности предложений

Введение

Раз в несколько дней Starbucks рассылает предложение пользователям мобильного приложения. Предложение может быть просто рекламой напитка или реальным предложением, таким как скидка или BOGO (купите один, получите второй бесплатно). Некоторые пользователи могут не получать никаких предложений в течение определенных недель. Набор данных, который мы собираемся проанализировать, содержит смоделированные данные, которые имитируют поведение клиентов в мобильном приложении Starbucks Rewards.

Не все пользователи получают одинаковое предложение, и это задача, которую мы собираемся решить сегодня.

Вы можете найти полный код для этого проекта по ссылке ниже.

anup-t-patil/Starbucks-EDA-Capstone-Project
Ответы на бизнес-вопросы о поведении клиентов на основе данных приложения Starbucks. Вы можете найти блог, который я написал на…github.com

 

Этот пост будет разделен на 3 части:

  1. Деловые вопросы
  2. Анализ и очистка данных
  3. Ответы
  4. Заключение
  5. Будущие улучшения

<сильный>1. Деловые вопросы

Мы постараемся ответить на следующие вопросы бизнеса:

  1. Сколько мы теряем из-за предложений?
  2. Какие клиенты часто заканчивали предложение, не просматривая его?
  3. Как распределяется доход между типами клиентов?

2. Анализ и очистка данных

Давайте начнем очистку и визуализацию данных.

У нас есть 3 файла данных:

Данные содержатся в трех файлах:

  • Portugal.json — содержит идентификаторы предложений и метаданные о каждом предложении (длительность, тип и т. д.).
  • profile.json — демографические данные по каждому клиенту
  • расшифровка.json — записи о транзакциях, полученных предложениях, просмотренных предложениях и завершенных предложениях.

А. Кадр данных портфеля:

Портфолио содержит справочный список всех рекламных категорий и подтипов, предлагаемых Starbucks.

Этот набор данных имеет 5 столбцов и 17 000 строк. Столбцы следующие:

  • age (int): возраст клиента.
  • стал_member_on (целое число): дата, когда клиент создал учетную запись приложения.
  • пол (str) : пол клиента (M : мужчина, F : женщина, O : другие).
  • id (str): идентификатор клиента.
  • доход (плавающий): доход клиента.

Который далее необходимо преобразовать в следующий формат, чтобы сделать его более полезным для анализа данных.

Шаги по очистке этого фрейма данных портфеля:

  • Переименуйте имя столбца идентификатора в offer_id.
  • Столбцы каналов должны быть закодированы горячим способом.
  • Столбцы offer_type требуют прямого кодирования.

Б. кадр данных профиля:

  • В наборе данных нет повторяющихся строк.
  • Набор данных содержит 2175 пропущенных значений по каждой из переменных «пол», «доход».
  • Возраст клиентов варьируется от 18 до 101 года. Хотя эти 2175 клиентов были зарегистрированы в возрасте 118 лет, я по-прежнему считал этот конкретный возраст выбросом, потому что очевидно, что с этими 2175 строками в наборе данных что-то не так.

Транскриптзаписывает историю транзакций клиента, количество и подтипы отдельных предложений, отправленных клиенту, и предоставляет данные, необходимые для анализа поведения отдельного клиента. Данные транскрипта собирались в течение одного месяца.

Шаги по очистке этого фрейма данных:

  • Замените значение age 118 на nan.
  • Создайте удобочитаемый формат даты в столбце made_member_on
  • Удаление строк без данных о поле, доходе и возрасте
  • Преобразование значений столбца пола в числовые 0 и 1
  • Добавьте столбцы год начала и месяц начала (для дальнейшего анализа)

Это показывает несколько необычных значений, таких как 118, которые крайне маловероятны, мы заменим их средним значением.

C: кадр данных стенограммы:

Этот набор данных имеет 4 столбца и 306 534 строки. Столбцы следующие:

  • event (str): описание записи (например, транзакция, полученное предложение, просмотренное предложение и т. д.)
  • человек (str): идентификатор клиента.
  • time (int): время в часах с начала теста.
  • значение (словосочетание строк): оно может содержать значения «идентификатор предложения», «количество», «вознаграждение» и/или «сложность».
  • Переименуйте имя столбца человека в customer_id.

Шаги по очистке этого фрейма данных:

  • Извлеките информацию из столбца «Стоимость», чтобы создать новые столбцы, обозначающие предложения, вознаграждение и сумму подарочного сертификата.
  • Заполните значения NA 0

<сильный>3. Ответы на деловые вопросы:

I. Сколько было убытков из-за предложений?

Из приведенной выше визуализации мы получаем числа:

Общая скидка: 5 391 Убыток: 17 802 долл. США

BOGO Всего: 4 616 Убытков: 31 230 долларов США

Есть 8 предложений, и большая часть потерь приходится на предложение BOGO.

II. Какие клиенты склонны заканчивать предложение, не просматривая его?

Визуализация также подтверждает наше предыдущее предположение о клиентах-женщинах, она показывает, что средние расходы на транзакцию для женщин выше, чем для мужчин и других, со средним значением 16,3 долларов США за транзакцию.

III. Связь между средним доходом и типом клиентов

Если мы посмотрим на визуализацию, то не будет большой разницы между клиентами, которые заполнили предложение, не просмотрев его, или нет. Но в целом клиенты, которые завершают предложение, не просматривая его, имеют более высокий средний доход.

Это довольно интуитивно, потому что мы всегда предполагаем, что люди с более высоким доходом меньше заботятся о предложении (ну, у них в любом случае больше денег, поэтому они могут себе это позволить).

4. Вывод

На основании анализа можно сделать несколько выводов.

  1. При незапланированном предложении мы можем «потерять» до 49 032 долларов США дохода в месяц или 588 384 долларов США дохода в год. Таким образом, целевой маркетинг нашего промо очень важен и играет огромную роль.
  2. Клиенты-женщины, как правило, тратят больше, чем клиенты-мужчины, при этом средние расходы на транзакцию составляют 16,3 доллара США по сравнению с 10,4 доллара США соответственно. Женщины-клиенты также склонны заканчивать предложение, даже не просмотрев его сначала, поэтому мы можем быть более осторожными, отправляя им предложение.
  3. В целом клиенты, которые завершили предложение, не просматривая его, имеют более высокий средний доход, особенно в случае предложения со скидкой, где средний доход тех, кто завершает предложение, не просматривая его, и тех, кто его просмотрел, составляет 71 060 долларов США и 67 642 доллара США соответственно.

5. Будущие улучшения

Это то, что рекомендуется для будущей работы на основе результатов анализа данных:

  1. Нам нужно быть более осторожными при отправке предложения, особенно предложения BOGO, которое приносит убытки в размере 31 230 долларов США в этом эксперименте. Одна вещь, которую мы можем сделать, это перестать предлагать BOGO клиентам со средней покупкой › 2 чашек за транзакцию, потому что без предоставления им предложения они все равно склонны покупать › 2 чашки, поэтому предложение BOGO кажется им не важным.
  2. Отправьте меньше предложений клиентам женского пола, особенно предложение скидок. Из данных видно, что средние расходы клиентов-женщин составляют 16,3 доллара США. Таким образом, мы можем захотеть увеличить минимальные затраты на предложение, которое мы отправляем им, потому что это не будет иметь смысла, если мы отправим им предложение с «сложностью» в 10 долларов США, они все равно это выполнят. Поэтому увеличить минимальную покупку до 20 или 25 долларов США было бы лучше.
  3. Возможно, мы захотим настроить «сложность» в зависимости от уровня дохода каждого клиента, чтобы люди с более высоким доходом также имели более высокую «сложность».

Источник: ledsshop.ru

Стиль жизни - Здоровье!