Apache Mahout — это библиотека машинного обучения, созданная для обеспечения масштабируемости. Ее основные алгоритмы кластеризации, классификации и пакетной совместной фильтрации реализованы поверх Apache Hadoop с использованием парадигмы map/reduce.
Он содержит различные алгоритмы, которые мы определяем ниже. Каждый из них может определять несколько реализаций. Большинство, но не все реализации являются распределенными.
Классификация — это задача определения того, к какой из множества категорий (подгрупп) относится новое наблюдение, на основе обучающего набора данных содержащий наблюдения (или экземпляры), принадлежность которых к определенной категории известна.
Кластеризация — это задача группировки набора объектов таким образом, чтобы объекты в одной группе (называемой кластером) были более похожи (в некотором смысле или другой) друг к другу, а не к тем, кто находится в других группах (кластерах).
Анализ шаблонов — это метод интеллектуального анализа данных, который включает в себя поиск существующих шаблонов в данных. В этом контексте закономерности часто означают ассоциативные правила.
Регрессионный анализ — это статистический метод оценки взаимосвязей между переменными. Она включает в себя множество методов моделирования и анализа нескольких переменных, когда основное внимание уделяется взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными.
Уменьшение размера — это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор объекта и извлечение объекта.
Эволюционный алгоритм использует механизмы, вдохновленные биологической эволюцией, такие как размножение, мутация, рекомбинация и отбор. Возможные решения задачи оптимизации играют роль индивидов в популяции, а функция приспособленности определяет среду, в которой эти решения “живут”
Коллаборативная фильтрация — это процесс фильтрации информации или шаблонов с использованием методов, предполагающих сотрудничество между несколькими агентами, точками зрения, источниками данных и т.д.
Сходство векторов позволяет сравнивать один или несколько векторов с другим набором векторов.
Словосочетание определяет последовательность слов или терминов, которые встречаются чаще, чем можно было бы ожидать случайно.