Под обработкой в Deductor Studio подразумевается любое действие, связанное с неким преобразованием данных, например, фильтрация, построение модели, очистка и прочее. Собственно в блоке обработки данных и производятся самые важные, с точки зрения анализа, действия. Наиболее важной особенностью механизмов обработки, реализованных в Deductor Studio, является то, что полученные в результате их применения данные можно опять обрабатывать любым из доступных в системе методов. Таким образом, можно строить сколь угодно сложные сценарии обработки.
Подобная функциональность очень важна, т.к. при анализе реальных бизнес данных практически всегда приходится выполнять последовательность действий для получения нужного результата. Например, при построении прогноза в самом простом случае, нужно после импорта данных их очистить, трансформировать, построить модель и применить ее для прогноза на несколько шагов вперед. В действительности же сценарии обработки бывают значительно сложнее. В сценариях сохраняются параметры обработки, поэтому для получения результата на новых данных достаточно всего лишь применить в ним подготовленный сценарий.
В Deductor Studio реализован большой набор механизмов обработки, позволяющий решать широкий класс задач анализа.
Механизм обработки | Описание |
Настройка набора данных | Изменение названия поля, ширины, метки, типа и вида данных, назначения столбца. Кэширование данных. |
Парциальная обработка | Заполнение пропусков, редактирование аномалий, сглаживание, вычитание шума, вейвлет преобразование. Одни из наиболее часто используемых механизмов очистки данных. |
Корреляционный анализ | Оценка зависимости выходных полей данных от входных факторов и устранения незначащих факторов. |
Факторный анализ | Понижение размерности пространства факторов. |
Скользящее окно | Трансформация временного ряда к скользящему окну. Используется при построении автокорреляционных моделей. |
Дата и время | Выделение из дат любого временного интервала (год, месяц, квартал и т.д.). |
Квантование | Преобразование непрерывных данных в дискретные. |
Дубликаты и противоречия | Обнаружение и фильтрация дубликатов и противоречий |
Сортировка | Сортировка записей в заданном пользователем порядке. |
Слияние | Объединение наборов данных, полученных при помощи различных сценариев обработки. |
Замена | Замена данных в выборке по таблице подстановки. |
Фильтрация | Фильтрация записей в таблице по заданным условиям. |
Калькулятор | Добавление полей, рассчитанных по заданным формулам. |
Группировка/разгруппировка | Два взаимосвязанных метода обработки. Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах. Разгруппировка проводит обратную операцию – разбиение полученных общих цифр в соответствии с рассчитанными пропорциями. |
Автокорреляция | Нахождение линейной автокорелляционной зависимости. Метод применяется при обработке временных рядов для обнаружения периодичности, сезонности. |
Линейная регрессия | Классический линейный метод решения задачи регрессии. |
Логистическая регрессия | Популярный метод построения моделей для случаев, когда выходное поле бинарное. |
Прогнозирование | Получение прогноза на несколько шагов вперед на основе модели, построенной любым способом. Например, при помощи нейросети или линейной регрессии. |
Нейронные сети | Многослойные нейронные сети – алгоритмы обратного распространения ошибки и RProp. Нейросети предназначены для решения задач регрессии и классификации. Это мощный современный самообучающийся механизм, способный решать нелинейные задачи. |
Деревья решений | Метод машинного обучения, позволяющий автоматически извлекать из данных закономерности, отображаемые в виде иерархической системы правил, легко интерпретируемых человеком. Метод предназначен для решения задач классификации. |
Самоорганизующиеся карты Кохонена | Мощный самообучающийся механизм кластеризации, позволяющий не только кластеризовать данные, но и отобразить результаты в виде удобных для интерпретации двухмерных карт. |
Ассоциативные правила | Метод анализа, позволяющий находить ассоциативные связи событиями. Например, обнаружить, что при покупки товара Х, с определенной вероятностью приобретут товар Y. Иногда этот метод называют анализом потребительской корзины. |
Пользовательская модель | Создание аналитических моделей на основании жестких правил и экспертных оценок. Расчет выходных значений по готовым формулам. |
Скрипт | Предназначен для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Аналогом скрипта является функция в языках программирования. Ветвь обработки строится один раз, а затем скриптами выполняются заложенные в ней универсальные обработки. |
Условие | С помощью операции условие можно организовать условное выполнение узлов сценария. При этом если заданное условие не выполняется, то узлы сценария, следующие за данным обработчиком, не будут обработаны. |
Команда ОС | Вызов из сценария любого внешнего приложения, реализующего специфичные, отсутствующие в Deductor, механизмы обработки данных. |
Основной акцент в Deductor сделан на самообучающиеся алгоритмы. Данные алгоритмы удачно сочетают в себе мощность математического аппарата с простотой применения. А широкое использование мастеров оказывает дополнительную помощь в освоении современных методов анализа.
Каждый из реализованных механизмов анализа обработки дает ценные результаты, но только их совместное применение и возможность комбинирования обеспечивают совершенно новое качество решений.