Сегодня вечером неплохо продвинулся в data mining & machine learning. Рекомендую всем интересующимся темой софт под названием Weka. Это такая мат.библиотека с консольными тулзами, вокруг которых еще есть удобный графический UI.
В качестве тренировки взял 5000 товаров с 1800 характеристиками с ebay (это только 0.25% их базы), разбил на кластеры по похожести только на основе характеристик. Получилось что-то, чехлы отдельно, ноуты отдельно. Новые товары определяются в правильную группу, ура.
Поигрался также с Time series forecasting. Загрузил туда поисковые запросы, по дням за последние недельки две. Weka дает оценку по числу запросов на следующие дни. Кул, полезно. Для вылетающих за пределы оригинального разброса можно нотификации какие-нибудь придумать, это значит заметный рост или падение.
Есть база на 550 тыс. записей с заказами интернет-магазина (№заказа, №товара, цена, №пользователя, дата, время). Не очень пока понимаю, как можно извлечь новые знания из этих через алгоритмы машинного обучения. Вроде всё, что приходит на ум, делается и без зауми. Есть идеи?
