Тайные законы текста: что я узнал с Лавренко в свободное время | 12 октября 2017 года, 13:03

(TIL) В свободное время от работы смотрю лекции Лавренко. Сегодня с утра слушал лекцию “Законы текста”.

Например, вы знали, что есть такой закон Ципфа, говорящий, что частота n-го слова в списке самых частых слов любого языка окажется приблизительно обратно пропорциональной его порядковому номеру n?

Или вот есть эмпирический закон Бенфорда: в таблицах чисел, основанных на данных источников из реальной жизни (что угодно – от электрических счетов до номеров домов в городах) цифра 1 на первом месте встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях), цифра 2 больше, чем, например, 8 и.д.. Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Объяснение закона Бенфорда заключается в том, что величинам этого мира свойственен экспоненциальный рост, а не линейный. Очень интересно.

Или вот закон Хипа. Количество уникальных слов в любом тексте с числом слов N подчиняется закономерности f(N) = k*N^b, где b в большинстве случаев равно 1/2.

Эти законы позволяют, например, проверять данные или текст на “естественность”.

Или вот еще. Для любого очень редкого слова вероятность того, что он встретится в тексте очень низкая, и это понятно. Но если это слово все-таки встречается в тексте, то вероятность того, что оно встретится снова, очень высока.

https://www.youtube.com/playlist?list=PLBv09BD7ez_64T7_6df4362YRhYblYxPv

Unleash Your Data Science Potential with Victor Lavrenkos Playlists! | 11 октября 2017 года, 18:47

Для интересующихся Data Science, очень рекомендую Лавренко (на английском, но он очень простой): https://www.youtube.com/user/victorlavrenko/playlists

При всем уважении к Школе Анализа Данных Яндекса, слушать Воронцова непросто тем, что мозг работает как кипятильник, а знания те же.

https://www.youtube.com/user/victorlavrenko/playlists

Ecommerce in the Russian Countryside: Uncharted Territory | 11 октября 2017 года, 18:07

Прекрасный текст про особенности екоммерса в российской глубинке. Ему уже больше года, вероятно я единственный, кто не читал. Букв много, но интересно

https://vc.ru/16508-barnaul-ecommerce

Возвращение в мир чат-ботов: история Starchat.ru и робота, который научился материться | 11 октября 2017 года, 13:14

Смотрю на эти увлечения чат-ботами, Алису яндексовскую и т.д. и вспоминаю, как игрался с подобным в 2003 году. У нас был чат, Starchat.ru, где постоянно тусил народ и друг с другом общался.

Чат разрабатывал я, так что ради шутки сделал бота, с которым можно было пообщаться, просто кинув ему личное сообщение. Он постоянно висел в онлайне, и не все еще понимали, что это бот. Когда робот получал сообщение, он искал в чат-логах сообщения, содержащие максимум слов из запроса, и при этом имеющие ответ. Ответом называется следующее сообщение, направленное пользователю кем-то (типа “Вася: да иди ты знаешь куда!” является ответом на сообщение Васи). При наличии нескольких вариантов (а всегда было несколько вариантов), выбирался случайный.

Получился такой робот, который очень забавно отвечает на вопросы. Если его спросить, как его зовут, он всегда будет отвечать разными именами, но отвечать в тему, со смайликами и приписками. Также бот всегда давал адекватные ответы на стандартные вопросы вида “где живешь” или “сколько лет”. Поскольку история накопилась огромная, и говорили там о всем вообще, было сложно найти вопрос, на который система не давала интересный/правильный/забавный ответ.

Так вот, у бота был интересный сайд-эффект. Если начать на него обидно материться, он начинает материться взад еще более обидно. Ну и вообще часто неадекватно реагирует на наезды и упреки. Ну просто потому, что в реальных диалогах на вежливый вопрос отвечают вежливо, а на невежливый – разумеется, грубо. Аудитория там с этим ботом очень развлекалась.

Особенно было интересно читать логи самого бота потом. Там же народ не понимал, что это робот. Его что-то спрашивали, с ним ругались и мирились. Было весело)

Dima Gordy Plugotarenko Sergey Max Nizamov Dmitry Mottl Dmitry Nilov

Бразильская звезда в Лобне: неожиданное жилище для сборной на фоне Мундиаля 2018 | 10 октября 2017 года, 21:19

Почему-то еще в нормальных новостях нет: в “нашу родную Лобню” приедет жить сборная Бразилии. Лобненцы гордятся, бразильцы еще не понимают. Там, конечно, реконструируют стадион уже, но раньше он был в довольно плохом состоянии.. Но забавно, да, бразильская сборная в Лобне на Москвиче 🙂

(https://pp.userapi.com/c625522/v625522342/49cf3/4AqZ0qYyUMk.jpg)

http://www.lobnya.cc/lobnya-stanet-domom-dlya-sbornoj-brazilii-na-vremya-mundialya-2018.html

http://www.lobnya.cc/lobnya-stanet-domom-dlya-sbornoj-brazilii-na-vremya-mundialya-2018.html

Humanitarian Harvest | 10 октября 2017 года, 15:10

И.К. Айвазовский, “Раздача продовольствия” (1892). Картина находилась в галерее Конкорана, в Вашингтоне, позже перешла в частную коллекцию. Да, он писал не только море. Картина посвящена американской гуманитарной кампании 1891-1892 годов, в помощь голодающей России.

Фашистские курочки: история, когда птицы пытались контролировать трафик | 10 октября 2017 года, 07:02

В 1975 году вместо того, чтобы устанавливать дорогие дорожные знаки или “лежачих полицейских”, в Напа, Калифорнии, экспериментировали с использованием куриц, чтобы замедлить автолюбителей на одной из улиц — Streblow Drive, граничащих с парком Кеннеди. Они просто выпустили на улицу 85 куриц бродить по своему усмотрению. Управляющий парком Боб Пелуси: «Только изредка нетерпеливый водитель проезжал сквозь стаю птиц. За девять месяцев мы потеряли всего 12 из них. Можно сказать, что они погибли по долгу службы». http://www.weirduniverse.net/blog/comments/chickens_as_traffic_control

Интересная идея. Вот только думаю, что в российской глубинке курицы эти бы и ночь не пережили. Может, им надо было POLICE на бок, чтобы в случае покушения статья УК отработала?

Second Serve: Uncovering Search Analytics Secrets | 09 октября 2017 года, 22:24

Опубликовал вторую часть видео моего выступления в SAP Moscow две недели назад.

Я рассказываю о Search Analytics — разработке, позволившей найти и исправить проблемы с поиском на сайте через анализ поведения пользователей. Этот подход будет работать на любом сайте, но разработан специально для eCommerce. Позволяет найти такие проблемы как “поисковые запросы, которые не работают достаточно хорошо, а могли бы” или “товары, которые, оказывается, сложно найти”.

Рекомендую к просмотру всем причастным к интернет-торговле и поиску. В данном видео нет ничего про Хайбрис, все только про поиск на сайте. Слайды там же.

Следующую интересную тему ждите на hybrismart.com через недельку.

https://hybrismart.com/2017/10/06/part2-sap-hybris-thinking-outside-the-box-part-2-of-4-video-russian-english-search-analytics/

https://hybrismart.com/2017/10/06/part2-sap-hybris-thinking-outside-the-box-part-2-of-4-video-russian-english-search-analytics/

Автопоиск трендов в данных: от микротрендов до динамических групп | 09 октября 2017 года, 15:18

Коллеги, программисты. А направьте меня матчасть правильную почитать про автопоиск трендов в данных?

К примеру, у вас есть некий журнал событий – не знаю, пусть это будет температура от 10000 датчиков. Нужно понять, какой из датчиков вдруг начал быстро расти.

Первое, что приходит в голову, это находить за небольшой период времени, и анализировать микро-тренд за два-три периода, но подход имеет тучу минусов: начиная от того, что могут быть флуктуации, не связанные с ростом, а во-вторых, некоторые датчики могут очень редко показывать значения по сравнению с периодом анализа, что вызывает проблему правильного подбора периода времени для нахождения среднего значения. Фактически такой подход будет работать только на очень высокой плотности информации о датчиках. А тут она прыгающая – то густо, то пусто для разных датчиков. Ну ок, можно сделать динамические группы и как-то помечать датчики как “частые” и “редкие”. Но все это как-то усложняет, и я чувствую, что не туда у меня мысль катится.

Фактически, нужно строить производную во времени первого и второго порядка и анализировать их форму. Проблема еще и в том, что число датчиков в целом неограничено – одни могут появляться, другие – изчезать. В целом, новые должны попадать в trending тоже.

Что почитать?