Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи. Поэтому пользователю Deductor Studio предлагается много механизмов визуализации, из которых он может выбрать наиболее оптимальные.
Визуализировать данные в Deductor Studio можно на любом этапе обработки. Система самостоятельно определяет, каким способом она может это сделать, например, если будет обучена нейронная сеть, то помимо таблиц и диаграмм, можно просмотреть граф нейросети. Пользователю необходимо выбрать нужный вариант из списка и настроить несколько параметров.
Возможные способы визуализации данных:
Способ визуализации | Описание | Скриншот |
OLAP | Многомерное представление данных. Любые данные, используемые в программе, можно посмотреть в виде кросс-таблицы и кросс-диаграммы. Пользователю доступен весь набор механизмов манипуляции многомерными данными – группировка, фильтрация, сортировка, произвольное размещение измерений, детализация, выбор любого способа агрегации, отображение в абсолютных числах и в процентах. | |
Таблица | Стандартное табличное представлении с возможностью сортировки, экспорта и фильтрации данных. | |
Диаграмма | График изменения любого числового показателя с возможностью детализации данных. | |
Гистограмма | График разброса показателей. Гистограмма предназначена для визуальной оценки распределения данных. Распределение данных оказывает значительное влияние на процесс построения модели. Встроена возможность детализации данных гистограммы. | |
Статистика | Статистические показатели выборки. | |
Диаграмма рассеяния | График отклонения прогнозируемых при помощи модели значений от реальных. Может быть построен только для непрерывных величин и только после использования механизмов построения модели, например, нейросети или линейной регрессии. Используется для визуальной оценки качества построенной модели. Встроенное автоматическое построение гистограммы распределения ошибки. | |
ROC-анализ | ROC-кривая (Receiver Operator Characteristic) – кривая используемая для представления результатов бинарной классификации в машинном обучении. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. | |
Таблица сопряженности | Предназначена для оценки результатов классификации вне зависимости от используемой модели. Таблица сопряженности отображает результаты сравнения категориальных значений исходного выходного столбца и категориальных значений рассчитанного выходного столбца. Используется для оценки качества классификации. Предусмотрены механизмы анализа отклонений. | |
"Что-если" | Таблица и диаграмма для моделей, построенных при помощи линейной регрессии, нейронной сети, дерева решений, самоорганизующихся карт и ассоциативных правил. Позволяют 'прогонять' через построенную модель любые интересующие пользователя данные и оценить влияние того или иного фактора на результат. Активно используется для решения задач оптимизации.
В случае отображения ассоциативных правил, позволяет ввести элементы, входящие в транзакцию и получить все возможные следствия из введенного набора.
|
|
Обучающая выборка | Выборка, используемая для построения модели. Цветом выделяются данные, попавшие в обучающее и тестовое множество с возможностью фильтрации. Необходима для понимания какие записи и каким образом использовались при построении модели. | |
Матрица корреляции | Отображает коэффициенты корреляции, рассчитанные при помощи обработчика Корреляционный анализ. Поддерживается возможность экспорта информации в Excel, HTML и текстовой файл. | |
Коэффициенты регрессии | Таблица коэффициенты, рассчитанные при помощи алгоритма линейной регрессии. Поддерживается возможность экспорта информации в Excel, HTML и текстовой файл. | |
Диаграмма прогноза | Применяется после использования метода обработки – Прогнозирование. Прогнозные значения выделяются цветом. | |
Граф нейросети | Визуальное отображение обученной нейросети. Отображается структура нейронной сети и значения весов. | |
Дерево решений | Отображение дерева решений, полученного при помощи соответствующего алгоритма. Имеется возможность посмотреть детальную информацию по любому узлу и фильтровать попавшие в него данные. | |
Значимость атрибутов | Отображение значимости атрибутов. Рассчитывается при помощи алгоритма построения дерева решений. | |
Дерево правил | Отображение дерева правил, полученных при помощи алгоритма поиска ассоциаций. Правила могут быть сгруппированы как по условию, так и по следствию. | |
Популярные наборы | Часто встречающиеся множества, обнаруженные при помощи алгоритма поиска ассоциативных правил. | |
Правила | Отображает в текстовом виде правила, полученные при помощи алгоритма построения деревьев решений или поиска ассоциативных связей. Такого рода информация легко интерпретируется человеком. | |
Карта Кохонена | Отображение карт, построенных при помощи соответствующего алгоритма. Широкие возможности настройки – выбор количества кластеров, фильтрация по узлу/кластеру, выбор отображаемых полей. Мощный и гибкий механизм отображения кластеризованных данных. | |
Дубликаты и противоречия | Табличное отображение информации после применения обработчика Дубликаты и противоречия. Цветовое выделение обнаруженных дубликатов и противоречий с возможностью автоматической фильтрации. | |
Сведения | Текстовое описание параметров импорта/обработки/экспорта/подключения. Поддерживается возможность экспорта информации в Excel, HTML и текстовой файл. | |
Настроенные визуализаторы могут быть вынесены на панель Отчеты. Таким образом, конечный пользователь сможет просто получить и просмотреть необходимый результат, не задумываясь, каким способом он был получен. Кроме того, конечный пользователь для визуализации данных может воспользоваться специализированным приложением Deductor Viewer.
Наличие большого набора механизмов визуализации позволяет легко проводить разведочный анализ, сравнивать результаты, полученные с применением различных механизмов обработки. Обычно использование механизмов визуализации, благодаря простоте применения, является первым шагом в построении полномасштабной аналитической системы. Таким образом, Deductor обеспечивает возможность начать с наиболее доступного метода анализа – визуализации и перейти со временем к системам с более мощным функционалом.