Коллеги, программисты. А направьте меня матчасть правильную почитать про автопоиск трендов в данных?
К примеру, у вас есть некий журнал событий – не знаю, пусть это будет температура от 10000 датчиков. Нужно понять, какой из датчиков вдруг начал быстро расти.
Первое, что приходит в голову, это находить за небольшой период времени, и анализировать микро-тренд за два-три периода, но подход имеет тучу минусов: начиная от того, что могут быть флуктуации, не связанные с ростом, а во-вторых, некоторые датчики могут очень редко показывать значения по сравнению с периодом анализа, что вызывает проблему правильного подбора периода времени для нахождения среднего значения. Фактически такой подход будет работать только на очень высокой плотности информации о датчиках. А тут она прыгающая – то густо, то пусто для разных датчиков. Ну ок, можно сделать динамические группы и как-то помечать датчики как “частые” и “редкие”. Но все это как-то усложняет, и я чувствую, что не туда у меня мысль катится.
Фактически, нужно строить производную во времени первого и второго порядка и анализировать их форму. Проблема еще и в том, что число датчиков в целом неограничено – одни могут появляться, другие – изчезать. В целом, новые должны попадать в trending тоже.
Что почитать?
