15 октября 2017 года, 21:08

Третья и четвертая части моего выступления в SAP Moscow. В прошлый раз было про поисковую аналитику, в этот – про фразовые синонимы и автоматическое определение фасетов по поисковому запросу. Пара видео по 10 минут каждое,

Велкам всем интересующимся.

Видео на русском и английском. Английская версия – voiceover + subtitles.

https://hybrismart.com/2017/10/15/sap-hybris-thinking-outside-the-box-part-3-and-4-video-russian-english-multi-word-synonyms-and-automatic-facet-discovery/

https://hybrismart.com/2017/10/15/sap-hybris-thinking-outside-the-box-part-3-and-4-video-russian-english-multi-word-synonyms-and-automatic-facet-discovery/

Шоковая правда о сборе инфы, кук и т.д. на крупных сайтах | 13 октября 2017 года, 19:32

Вы наверняка знаете, что сейчас под угрозой огромного штрафа обязуют сайты предупреждать о сборе инфы, кук и т.д. Некоторые это делают стандартной отпиской “Тут мы что-то собираем, если не доверяете, покиньте сайт”. А на сайте http://hybris.com я увидел как работают правильные продукты для этой цели – TrustArc Cookie Consent Manager. Он показывает все сервисы, и позволяет избирательно из включать-выключать. “Простыня” довольно большая получается, но и любопытная. Как много сервисов используются крупными сайтами для того, чтобы лучше продавать и лучше нас знать и отслеживать)

Списочек нехилый, а?

Acxiom (acxiomapac.com)

Adobe Marketing Cloud – Advertising Services (everesttech.net)

Amazon Ad System (amazon-adsystem.com)

Connexity, Inc. (connexity.net)

Delego Software Inc. (sap-isp-public.delego-cloud.com)

Google Inc. (storage.googleapis.com)

Microsoft Advertising (bat.bing.com, bing.com, c.bing.com)

OnAudience.com (onaudience.com)

Outbrain (outbrain.com)

SAP SuccessFactors Inc (rmk-map-12.jobs2web.com)

The Church of Jesus Christ of Latter-day Saints (eaexplorer.hana.ondemand.com)

Visual IQ (myvisualiq.net)

Walmart (beacon.walmart.com)

Wayfair (wayfair.com)

YaaS (profile.yaas.io)

AdGear Technologies, Inc. (adgrx.com)

Adbrain (adbrn.com)

Adelphic Mobile (ipredictive.com)

Adform (adform.net)

Adition Technologies AG (adfarm1.adition.com)

AdotMob (adotmob.com)

AudienceOne (impact-ad.jp)

AudienceScience, Inc. (revsci.net)

Beeswax (bidr.io)

Bidtellect (bttrack.com)

BrightRoll, Inc. (btrll.com, geo-um.btrll.com)

Cardlytics (cardlytics.com)

Centro DSP (sitescout.com)

Conversant (dotomi.com)

Digital Advertising Consortium Inc. (y.one.impact-ad.jp)

Fluct (adingo.jp)

Geniee (gssprt.jp)

GetIntent (adhigh.net)

InfoLinks (infolinks.com)

Jivox (jivox.com)

Lifestreet (lfstmedia.com)

Ligatus (ligadx.com)

LinkedIn (px.ads.linkedin.com)

LiveIntent, Inc. (i.liadm.com, liadm.com)

Media Innovation Group (MIG) (ibeu2.mookie1.com, mookie1.com)

MediaMath (mathtag.com)

Nativo (postrelease.com)

OpenX (openx.net)

OwnerIQ (owneriq.net)

PulsePoint (contextweb.com)

RadiumOne (gwallet.com)

RhythmOne (formerly Burst Media) (1rx.io)

Rockerbox (getrockerbox.com)

Rocket Fuel (formerly [x + 1]) ru4.com

ScaleOut (socdm.com)

Sharethrough (sharethrough.com)

Simpli.fi Holdings (simpli.fi)

Skimlinks (skimresources.com)

Smaato (smaato.net)

Smart AdServer (smartadserver.com)

Smartclip (sxp.smartclip.net)

SpotXchange (spotxchange.com)

Switch Concepts (delivery.swid.switchadhub.com, switchadhub.com)

Taboola (taboola.com)

Teads.tv (teads.tv)

TellApart, Inc. (tellapart.com)

TripleLift (3lift.com)

Turn Inc. (turn.com)

Twitter (cdn.syndication.twimg.com)

erne.co, omnitagjs.com, s3xified.com

Yahoo (yahoo.com)

Zemanta (zemanta.com)

engage:BDR (ebdr3.com)

i-Behavior (global.ib-ibi.com)

sovrn (formerly Lijit Networks) (lijit.com)

Data Mining & Machine Learning Adventures with Weka | 13 октября 2017 года, 00:35

Сегодня вечером неплохо продвинулся в data mining & machine learning. Рекомендую всем интересующимся темой софт под названием Weka. Это такая мат.библиотека с консольными тулзами, вокруг которых еще есть удобный графический UI.

В качестве тренировки взял 5000 товаров с 1800 характеристиками с ebay (это только 0.25% их базы), разбил на кластеры по похожести только на основе характеристик. Получилось что-то, чехлы отдельно, ноуты отдельно. Новые товары определяются в правильную группу, ура.

Поигрался также с Time series forecasting. Загрузил туда поисковые запросы, по дням за последние недельки две. Weka дает оценку по числу запросов на следующие дни. Кул, полезно. Для вылетающих за пределы оригинального разброса можно нотификации какие-нибудь придумать, это значит заметный рост или падение.

Есть база на 550 тыс. записей с заказами интернет-магазина (№заказа, №товара, цена, №пользователя, дата, время). Не очень пока понимаю, как можно извлечь новые знания из этих через алгоритмы машинного обучения. Вроде всё, что приходит на ум, делается и без зауми. Есть идеи?

https://www.cs.waikato.ac.nz/ml/weka/

Тайные законы текста: что я узнал с Лавренко в свободное время | 12 октября 2017 года, 13:03

(TIL) В свободное время от работы смотрю лекции Лавренко. Сегодня с утра слушал лекцию “Законы текста”.

Например, вы знали, что есть такой закон Ципфа, говорящий, что частота n-го слова в списке самых частых слов любого языка окажется приблизительно обратно пропорциональной его порядковому номеру n?

Или вот есть эмпирический закон Бенфорда: в таблицах чисел, основанных на данных источников из реальной жизни (что угодно – от электрических счетов до номеров домов в городах) цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях), цифра 2 больше, чем, например, 8 и.д.. Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный. Очень интересно.

Или вот закон Хипа. Количество уникальных слов в любом тексте с числом слов N подчиняется закономерности f(N) = k*N^b, где b в большинстве случаев равно 1/2.

Эти законы позволяют, например, проверять данные или текст на “естественность”.

Или вот еще. Для любого очень редкого слова вероятность того, что он встретится в тексте очень низкая, и это понятно. Но если это слово все-таки встречается в тексте, то вероятность того, что оно встретится снова, очень высока.

https://www.youtube.com/playlist?list=PLBv09BD7ez_64T7_6df4362YRhYblYxPv

Unleash Your Data Science Potential with Victor Lavrenkos Playlists! | 11 октября 2017 года, 18:47

Для интересующихся Data Science, очень рекомендую Лавренко (на английском, но он очень простой): https://www.youtube.com/user/victorlavrenko/playlists

При всем уважении к Школе Анализа Данных Яндекса, слушать Воронцова непросто тем, что мозг работает как кипятильник, а знания те же.

https://www.youtube.com/user/victorlavrenko/playlists

Ecommerce in the Russian Countryside: Uncharted Territory | 11 октября 2017 года, 18:07

Прекрасный текст про особенности екоммерса в российской глубинке. Ему уже больше года, вероятно я единственный, кто не читал. Букв много, но интересно

https://vc.ru/16508-barnaul-ecommerce