Всем привет. У меня родилась идея по быстрому движку персонализации в интернет-магазине, для которой мне нужен живой траффик, big data. Буду очень признателен, если кто-то сможет скинуть мне логи.
Пойдут любые логи интернет-магазина, из которых можно чему-то научиться и на основе этого сделать какие-то демонстрабельные выводы (например, что покупатель ходит по какому-нибудь разделу только или посещает товары одной группы, значит его нужно поместить в категорию “любимые покупатели этой группы”).
Сложность только в том, что в большинстве логов нет идентификатора покупателя. Правда, там есть IP, которые на первое время сойдут. Но если вдруг есть у кого-то ID покупателя, будет просто прекрасно.
В идеале бы еще получить данные по заказам. Фамилий, имен, емайлов, адресов мне не нужно. Даже названий товаров тоже не обязательно.
По итогам планирую сделать прототип системы, в которую будут поступать сообщения из интернет-магазина, упрощенно в виде логов, и тут же, в реальном времени, на них будут срабатывать правила (планирую использовать движок Drools) вида: “[when] покупатель зашел на 10 страниц из раздела спорт, [then] ему нужно показать баннер про спорт”. Данные о том, что покупателю Х нужно показать такой-то баннер передаются обратно на сайт и при ближайшей загрузке страницы с баннерами он будет показан.
Так вот, системы такой еще нет, но я за выходные или чуть больше точно успею сделать прототип. Меня волнует вопрос производительности. Мне нужно испытать будет все это на больших объемах, большой частоте событий. Для этого и нужны логи.
Результаты опубликую на блоге про hybris/e-commerce. Могу светить или не светить ваши данные – зависит от вашего желания. Из самых ближайших тем к этой там есть система рекомендаций и три статьи про Drools в e-commerce.
http://hybrismart.com/