Дата последнего изменения: 23.09.2021
То, что мы получили в ходе анализа, нужно перевести в практическую плоскость
Регрессия - попытка предсказать некоторую величину. Например, расходы на "железо", объём траффика, число запросов к API и так далее. На вход подаются вектора, на выходе получается значение.
Принцип работы - аналогичный: выявление атрибутов, далее выбор алгоритма (Spark MLlib может не сработать в этой задаче, на scikit-learn требуется 1-2 дня).
Это попытка объяснить суть принятых решений. В нашем случае: почему сервер повиснет через 3 часа? Дерево решений поможет понять какие именно атрибуты из собираемых влияют на решаемую проблему. Например: одновременно, увеличивается нагрузка на процессор, уменьшается нагрузка на диск и зигзагообразно скачет трафик - предвестники того, что сервис выйдет из строя.
На основании собранных данных (хиты, логи, анкетирование) строится дерево решений. В Rapidminer полчаса уйдёт на это, в Spark MLlib чуть больше.
Когда приходится "чинить" - это плохо. Это кроме всего прочего - большой удар по репутации. Реактивный подход - это первый, начальный шаг в вашей работе и чем раньше вы закончите с ним и перейдёте к предупреждению проблем - тем лучше.
Проактивный подход - это когда вы на основе построенной модели начинаете принимать решения задолго до проявления их последствий. Это существенно снижает стоимость поддержки. Далее необходимо найти причину проблемы и исправить её.
Стратегия расходов. Тратите мало денег - система падает, тратите много - система не падает. А где оптимум? Оптимум -это место на графике где денег тратиться не много по отношению к уровню получаемой стабильности работы системы.
Правильно сделанные и настроенные модели экономят вам не только деньги, но и людей.