Главная страница Новости кинофильмов Игровые новости Новости спорта Новости технологий Автомобильные новости

River для онлайн-машинного обучения на Python

Новости

River — это библиотека Python для онлайн-машинного обучения. Библиотека позволяет обучать модели машинного обучения на основе потоковых данных.

Введение

Все традиционные алгоритмы машинного обучения, будь то такие простые, как линейная регрессия, или мощные обучающие алгоритмы, такие как xgboost, обрабатывают данные пакетно. Это означает, что эти алгоритмы обрабатывают полный набор данных и соответствуют модели. В случае, если доступны новые данные, требуется подгонка модели с нуля с учетом как новых, так и старых данных.
 
При переобучении модели может возникнуть множество проблем. Иногда для хранения всех данных требуется много памяти, что может негативно сказаться на обучении и замедлить процесс. В некоторых других случаях это может быть ограничено инфраструктурой хранения данных. В некоторых приложениях практически невозможно восстановить старые данные, которые продолжают генерировать новые.

Одним из решений для решения вышеуказанных проблем является онлайн-обучение с использованием потоковых данных. Непрерывно генерируемые данные рассматриваются как поток, что делает их потоковым обучением или инкрементальным обучением. Этот метод широко подходит для приложений Интернета вещей, в которых данные в режиме реального времени собираются датчиками.

Что такое машинное обучение онлайн?

 
Онлайн-машинное обучение — это метод, используемый для обучения моделей машинного обучения в тех приложениях, где для обучения модели на всем наборе данных требуются либо невыполнимые вычисления, либо данные доступны время от времени в последовательном порядке. Поскольку данные находятся в движении и постоянно меняются, необходимо отслеживать поведение потоковых данных, чтобы иметь возможность обрабатывать их всякий раз, когда они доступны.Метод полезен в тех случаях, когда требуется динамическая адаптация алгоритма к новым шаблонам, доступным в данных в течение определенного периода времени.

River: Онлайн-библиотека машинного обучения

 
Некоторые различия между библиотеками и фреймворками, используемыми для обучения моделей на основе данных и потоковой передачи данных, заключаются в следующем:

Обучение модели на основе данных в состоянии покоя Тренировка модели на данных в движении
  • Tensorflow
  • Scikit-learn
  • PyTorch
  • Caffe
  • Spark
  • Creme
  • Scikit-Многопоточный
  • Река
  • <стиль li="выравнивание по тексту: выравнивание по ширине">SOA

    <стиль li="выравнивание по тексту: выравнивание по ширине">Потоковая передача Spark

 

Благодаря River появилась возможность работать с данными на ходу с помощью онлайн-обучения, в отличие от офлайн-обучения.Сообщение River для онлайн-машинного обучения на Python появилось впервые в Techno Dossier.


Другие новости: