Data Mining & Machine Learning Adventures with Weka | 13 октября 2017 года, 00:35

Сегодня вечером неплохо продвинулся в data mining & machine learning. Рекомендую всем интересующимся темой софт под названием Weka. Это такая мат.библиотека с консольными тулзами, вокруг которых еще есть удобный графический UI.

В качестве тренировки взял 5000 товаров с 1800 характеристиками с ebay (это только 0.25% их базы), разбил на кластеры по похожести только на основе характеристик. Получилось что-то, чехлы отдельно, ноуты отдельно. Новые товары определяются в правильную группу, ура.

Поигрался также с Time series forecasting. Загрузил туда поисковые запросы, по дням за последние недельки две. Weka дает оценку по числу запросов на следующие дни. Кул, полезно. Для вылетающих за пределы оригинального разброса можно нотификации какие-нибудь придумать, это значит заметный рост или падение.

Есть база на 550 тыс. записей с заказами интернет-магазина (№заказа, №товара, цена, №пользователя, дата, время). Не очень пока понимаю, как можно извлечь новые знания из этих через алгоритмы машинного обучения. Вроде всё, что приходит на ум, делается и без зауми. Есть идеи?

https://www.cs.waikato.ac.nz/ml/weka/

Тайные законы текста: что я узнал с Лавренко в свободное время | 12 октября 2017 года, 13:03

(TIL) В свободное время от работы смотрю лекции Лавренко. Сегодня с утра слушал лекцию “Законы текста”.

Например, вы знали, что есть такой закон Ципфа, говорящий, что частота n-го слова в списке самых частых слов любого языка окажется приблизительно обратно пропорциональной его порядковому номеру n?

Или вот есть эмпирический закон Бенфорда: в таблицах чисел, основанных на данных источников из реальной жизни (что угодно – от электрических счетов до номеров домов в городах) цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях), цифра 2 больше, чем, например, 8 и.д.. Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный. Очень интересно.

Или вот закон Хипа. Количество уникальных слов в любом тексте с числом слов N подчиняется закономерности f(N) = k*N^b, где b в большинстве случаев равно 1/2.

Эти законы позволяют, например, проверять данные или текст на “естественность”.

Или вот еще. Для любого очень редкого слова вероятность того, что он встретится в тексте очень низкая, и это понятно. Но если это слово все-таки встречается в тексте, то вероятность того, что оно встретится снова, очень высока.

https://www.youtube.com/playlist?list=PLBv09BD7ez_64T7_6df4362YRhYblYxPv

Unleash Your Data Science Potential with Victor Lavrenkos Playlists! | 11 октября 2017 года, 18:47

Для интересующихся Data Science, очень рекомендую Лавренко (на английском, но он очень простой): https://www.youtube.com/user/victorlavrenko/playlists

При всем уважении к Школе Анализа Данных Яндекса, слушать Воронцова непросто тем, что мозг работает как кипятильник, а знания те же.

https://www.youtube.com/user/victorlavrenko/playlists

Ecommerce in the Russian Countryside: Uncharted Territory | 11 октября 2017 года, 18:07

Прекрасный текст про особенности екоммерса в российской глубинке. Ему уже больше года, вероятно я единственный, кто не читал. Букв много, но интересно

https://vc.ru/16508-barnaul-ecommerce

Возвращение в мир чат-ботов: история Starchat.ru и робота, который научился материться | 11 октября 2017 года, 13:14

Смотрю на эти увлечения чат-ботами, Алису яндексовскую и т.д. и вспоминаю, как игрался с подобным в 2003 году. У нас был чат, Starchat.ru, где постоянно тусил народ и друг с другом общался.

Чат разрабатывал я, так что ради шутки сделал бота, с которым можно было пообщаться, просто кинув ему личное сообщение. Он постоянно висел в онлайне, и не все еще понимали, что это бот. Когда робот получал сообщение, он искал в чат-логах сообщения, содержащие максимум слов из запроса, и при этом имеющие ответ. Ответом называется следующее сообщение, направленное пользователю кем-то (типа “Вася: да иди ты знаешь куда!” является ответом на сообщение Васи). При наличии нескольких вариантов (а всегда было несколько вариантов), выбирался случайный.

Получился такой робот, который очень забавно отвечает на вопросы. Если его спросить, как его зовут, он всегда будет отвечать разными именами, но отвечать в тему, со смайликами и приписками. Также бот всегда давал адекватные ответы на стандартные вопросы вида “где живешь” или “сколько лет”. Поскольку история накопилась огромная, и говорили там о всем вообще, было сложно найти вопрос, на который система не давала интересный/правильный/забавный ответ.

Так вот, у бота был интересный сайд-эффект. Если начать на него обидно материться, он начинает материться взад еще более обидно. Ну и вообще часто неадекватно реагирует на наезды и упреки. Ну просто потому, что в реальных диалогах на вежливый вопрос отвечают вежливо, а на невежливый – разумеется, грубо. Аудитория там с этим ботом очень развлекалась.

Особенно было интересно читать логи самого бота потом. Там же народ не понимал, что это робот. Его что-то спрашивали, с ним ругались и мирились. Было весело)

Dima Gordy Plugotarenko Sergey Max Nizamov Dmitry Mottl Dmitry Nilov

Бразильская звезда в Лобне: неожиданное жилище для сборной на фоне Мундиаля 2018 | 10 октября 2017 года, 21:19

Почему-то еще в нормальных новостях нет: в “нашу родную Лобню” приедет жить сборная Бразилии. Лобненцы гордятся, бразильцы еще не понимают. Там, конечно, реконструируют стадион уже, но раньше он был в довольно плохом состоянии.. Но забавно, да, бразильская сборная в Лобне на Москвиче 🙂

(https://pp.userapi.com/c625522/v625522342/49cf3/4AqZ0qYyUMk.jpg)

http://www.lobnya.cc/lobnya-stanet-domom-dlya-sbornoj-brazilii-na-vremya-mundialya-2018.html

http://www.lobnya.cc/lobnya-stanet-domom-dlya-sbornoj-brazilii-na-vremya-mundialya-2018.html

Humanitarian Harvest | 10 октября 2017 года, 15:10

И.К. Айвазовский, “Раздача продовольствия” (1892). Картина находилась в галерее Конкорана, в Вашингтоне, позже перешла в частную коллекцию. Да, он писал не только море. Картина посвящена американской гуманитарной кампании 1891-1892 годов, в помощь голодающей России.

Фашистские курочки: история, когда птицы пытались контролировать трафик | 10 октября 2017 года, 07:02

В 1975 году вместо того, чтобы устанавливать дорогие дорожные знаки или “лежачих полицейских”, в Напа, Калифорнии, экспериментировали с использованием куриц, чтобы замедлить автолюбителей на одной из улиц — Streblow Drive, граничащих с парком Кеннеди. Они просто выпустили на улицу 85 куриц бродить по своему усмотрению. Управляющий парком Боб Пелуси: «Только изредка нетерпеливый водитель проезжал сквозь стаю птиц. За девять месяцев мы потеряли всего 12 из них. Можно сказать, что они погибли по долгу службы». http://www.weirduniverse.net/blog/comments/chickens_as_traffic_control

Интересная идея. Вот только думаю, что в российской глубинке курицы эти бы и ночь не пережили. Может, им надо было POLICE на бок, чтобы в случае покушения статья УК отработала?