Ізоляційний ліс є неконтрольований алгоритм виявлення викидів, який корисний для аналізу великих і різноманітних наборів даних, таких як дані AIS. Він працює шляхом навчання кількох детальних дерев рішень на даних, причому в ідеалі кожне дерево має одну точку даних на кожному аркуші.

Стандартне визначення IsolationForest [1] розглядає лише числові атрибути. Щоб мати можливість навчати алгоритм на наборі даних, що містить як числові, так і категоріальні характеристики, потрібно перетворити категоріальні характеристики в числові ознаки за допомогою техніки, яка називається одним гарячим кодуванням.

Ізоляційний ліс є ансамбль «Ізоляційних дерев», які «ізолюють» спостереження за допомогою рекурсивного випадкового поділу, який може бути представлений структурою дерева. Кількість поділів, необхідних для виділення зразка, нижча для викидів і вища для інлієрів.

Методи виявлення аномалій. Методи виявлення аномалій можна розділити на три основні типи: статистичні методи, методи машинного навчання та методи глибокого навчання. У кожного з них є свої переваги та переваги.

Ізольований ліс виявляє аномалії за допомогою бінарних дерев. Алгоритм має лінійну часову складність і низьку потребу в пам’яті, що добре працює з великими обсягами даних. По суті, для виявлення аномалій алгоритм спирається на характеристики аномалій, тобто на те, що вони нечисленні й різні.

Він може обробляти двійкові, безперервні та категоричні дані. Загалом випадковий ліс є швидкою, простою, гнучкою та надійною моделлю з деякими обмеженнями. Алгоритм випадкового лісу — це методика ансамблевого навчання, яка поєднує численні класифікатори для підвищення ефективності моделі.