ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ, СТАТИСТИКА И МАШИННОЕ ОБУЧЕНИЕ: СОСТАВНЫЕ ЧАСТИ НАУКИ О ДАННЫХ

Алимов Равшан Арифович1, Султанова Лола Шарафовна2
1Национальный университет Узбекистана, доктор экономических наук, профессор кафедры «Макроэкономика»
2Национальный университет Узбекистана, кандидат экономических наук, доцент кафедры «Макроэкономика»

Аннотация
Любая новая область деятельности порождает новые профессии. Основная практическая цель профессиональной деятельности в науке о данных - обнаружение закономерностей в данных, извлечение знаний из данных в обобщённой форме. В качестве особенности дисциплины науки о данных указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления.

Ключевые слова: , , ,


Библиографическая ссылка на статью:
Алимов Р.А., Султанова Л.Ш. Интеллектуальный анализ данных, статистика и машинное обучение: составные части науки о данных // Экономика и менеджмент инновационных технологий. 2022. № 6 [Электронный ресурс]. URL: https://ekonomika.snauka.ru/2022/06/19303 (дата обращения: 11.03.2024).

Наука о данных (Data Science) это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе.

На приведенном ниже рисунке показаны следующие важные части Data Science:


Рисунок. Составные части науки о данных [1]

Данные – это часть данных в представлении не нуждается. Для науки о данных – данных достаточно, но для хорошего продукта науки о данных необходимы хорошие и достаточные данные, и это основная задача интеллектуального анализа данных, которую мы подробно обсудим.

  • Бизнес. Когда мы пытаемся решить бизнес-задачу с помощью данных, нам нужно задавать вопросы еще до того, как мы изучим данные. Одна и та же проблема может быть решена по-разному в зависимости от потребностей бизнеса. Например, допустим, авиакомпания хочет увеличить свою клиентскую базу. Если команда маркетинга решит эту проблему, они будут искать потенциальную целевую аудиторию, операционная команда будет с нетерпением ждать изменения времени полета или увеличения количества рейсов и т. д.
  • Математика. Если у вас есть хорошие данные и вы понимаете бизнес-цель, следующая часть – решить проблему. Какие гипотезы решать, как доказывать/опровергать гипотезы, какой метод использовать для решения той или иной задачи – это лишь немногие области, которыми занимается математика или статистика.
  • Технологии. После того, как вы определились с методами и завершили работу над гипотезами, следующая задача – решить проблему наилучшим образом и за более короткое время. Именно для этого нам и нужны технологии. Возможно, вы создали лучшие методы регрессии в теории, но если вы не можете запустить их на реальных данных в кратчайшие сроки, от этого не будет никакой пользы.

Что мы подразумеваем под интеллектуальным анализом данных, статистикой и машинным обучением? Каковы различия между ними? Интеллектуальный анализ данных, статистика и машинное обучение – это дисциплины, основанные на данных, которые помогают организациям принимать более обоснованные решения и положительно влияют на рост любого бизнеса.

Три дисциплины в значительной степени одинаковы, но с небольшими различиями.

Интеллектуальный анализ данных

Интеллектуальный анализ данных – это самый первый шаг продукта Data Science. Интеллектуальный анализ данных – это область, в которой мы пытаемся выявить закономерности в массе данных и сделать первые выводы. Например, вы получили данные и определили пропущенные значения, а затем увидели, что пропущенные значения в основном поступают из записей, сделанных вручную. Мало кто путает интеллектуальный анализ данных с извлечением данных. Интеллектуальный анализ данных вступает в игру после того, как вы собрали данные. Компании используют мощные методы интеллектуального анализа данных в сочетании с передовыми инструментами для извлечения ценной информации из большого объема данных.

Например, Walmart собирает данные о точках продаж из своих более чем 3000 магазинов по всему миру и сохраняет их в своем хранилище данных. Поставщики Walmart имеют доступ к этой базе данных, и они определяют модели покупок среди клиентов Walmart и используют это для поддержания своих запасов в будущем. Хранилище данных Walmart ежегодно обрабатывает более миллиона таких запросов.

Интеллектуальный анализ данных использует возможности машинного обучения, статистики и методов работы с базами данных для анализа больших баз данных и поиска закономерностей. В основном интеллектуальный анализ данных использует кластерный анализ, обнаружение аномалий, анализ правил ассоциации и т. Д., Чтобы выявить закономерности в данных. Короче говоря, интеллектуальный анализ данных обнаруживает скрытые и интересные закономерности, хранящиеся в больших хранилищах данных, используя мощь статистики, искусственного интеллекта, машинного обучения и методов управления базами данных.

Статистика

Статистика является основой всех алгоритмов интеллектуального анализа данных и машинного обучения. Статистика – это наука о сборе, анализе и изучении данных, а также о выводах и прогнозах на будущее. Основная задача статистики – оценить ситуацию по выборочным показателям. Статистика также занимается разработкой опросов и экспериментов для получения качественных данных, которые в дальнейшем можно использовать для оценки населения. Если формально сформулировать задачу статистики, то она будет выглядеть следующим образом.

  • Разработка опросов и экспериментов
  • Обобщение и понимание данных
  • Оценка поведения населения
  • Предсказание или оценка будущего

Статистика используется для суммирования чисел, например, для определения описательной статистики, такой как среднее значение, стандартное отклонение, дисперсия, процентили, проверка гипотез и т. д.

Машинное обучение

Машинное обучение – это часть науки о данных, которая в основном фокусируется на написании алгоритмов таким образом, чтобы машины (компьютеры) могли учиться самостоятельно и использовать полученные знания, чтобы сообщать о новых наборах данных всякий раз, когда они поступают. Машинное обучение использует силу статистики и учится на обучающем наборе данных. Например, мы используем регрессии, классификации и т. д., чтобы учиться на обучающих данных и использовать эти знания для оценки набора тестовых данных.

Интеллектуальный анализ данных против статистики: сходства и различия

Целью интеллектуального анализа данных и статистики является выполнение анализа данных, но это разные инструменты. Процесс интеллектуального анализа данных включал моделирование, прогнозирование и оптимизацию набора данных, в то время как статистика описывает, насколько эффективен набор данных – более или менее.

Таблица 1. Интеллектуальный анализ данных против статистики [1]

Интеллектуальный анализ данных Статистика
Исследовательский – Сначала изучите данные, откройте новые закономерности, а затем стройте теории.

Подтверждающий – сначала представьте теорию, а затем проверьте ее с помощью различных статистических инструментов.

Включает очистку данных

Статистические методы, применяемые к чистым данным

Обычно предполагает работу с большими наборами данных

Обычно предполагает работу с небольшими наборами данных.

Щедро использует эвристическое мышление

Здесь нет места для эвристического мышления.

Индуктивный процесс

Дедуктивный (не предполагает никаких предсказаний)

Числовые и нечисловые данные

Числовые данные

Меньше заботится о сборе данных

Больше беспокоит сбор данных

Некоторые из популярных методов интеллектуального анализа данных включают оценку, классификацию, нейронные сети, кластеризацию, ассоциацию и визуализацию.

Некоторые из популярных статистических методов включают в себя: выводную и описательную статистику.

Машинное обучение против статистики

  • И машинное обучение, и статистика касаются того, как мы учимся на данных, но статистика больше касается выводов, которые можно сделать из модели, тогда как машинное обучение фокусируется на оптимизации и производительности.
  • Статистическое обучение включает в себя формирование гипотезы (создание предположений, которые проверяются перед построением моделей) перед построением модели. В моделях машинного обучения алгоритмы машинного обучения запускаются непосредственно на модели, заставляя данные говорить, а не направляя их в определенном направлении с исходной гипотезой.
  • Статистика – это выборка, популяция и гипотеза, тогда как машинное обучение – это прогнозы, контролируемое и неконтролируемое обучение.
  • Машинное обучение – это создание алгоритмов, которые помогают машинам имитировать человеческое обучение, тогда как статистика – это преобразование данных в агрегированные числа, которые помогают понять структуру данных.
  • Короче говоря, Статистика дает количественную оценку данных из выборки и оценивает поведение населения.
  • Интеллектуальный анализ данных обнаруживает закономерности в данных.
  • Машинное обучение учится на обучающих данных и предсказывает или оценивает будущее

Интеллектуальный анализ данных против машинного обучения

Интеллектуальный анализ данных и машинное обучение подпадают под общее понятие науки о данных, поскольку они оба включают обработку и анализ больших объемов данных. Оба метода используются для решения сложных реальных проблем. Машинное обучение можно использовать как средство проведения интеллектуального анализа данных, а данные, собранные в результате интеллектуального анализа данных, можно использовать для обучения моделей применению методов машинного обучения.

Таблица 2. Интеллектуальный анализ данных против машинного обучения [1]

Интеллектуальный анализ данных

Машинное обучение

Интеллектуальный анализ данных включает в себя извлечение информации из больших объемов неструктурированных данных

Машинное обучение заключается в использовании алгоритмов для построения модели и ее обучения, чтобы можно было вводить новую информацию на основе данных из предыдущих событий

При интеллектуальном анализе данных правила получаются из доступных данных

В машинном обучении используемый алгоритм учит компьютер изучать и понимать правила

Интеллектуальный анализ данных требует вмешательства человека и создан для того, чтобы люди могли в дальнейшем обрабатывать данные

Идея машинного обучения состоит в том, чтобы научить себя так, чтобы не было зависимости от человеческого влияния. Вмешательство человека в случае машинного обучения в основном ограничивается настройкой исходных алгоритмов

В случае интеллектуального анализа данных отсутствует понятие адаптации системы. Интеллектуальный анализ данных так же умен, как и пользователи, которые задают параметры

Вся цель машинного обучения состоит в том, чтобы научиться адаптироваться на основе алгоритмов и новых входных данных

Интеллектуальный анализ данных – это работа с большими объемами необработанных данных для составления прогнозов для бизнеса

Машинное обучение – это применение алгоритмов к структурированным данным

Статистика в интеллектуальном анализе данных

Многие из методов, используемых в интеллектуальном анализе данных, были либо изобретены статистиками, либо в настоящее время интегрированы в область статистики. Многие статистические программные инструменты, такие как SAS, S-Plus, SPSS и STATISTICA, в первую очередь позиционируются как инструменты интеллектуального анализа данных, а не статистические инструменты. Сборщики данных и статистики используют схожие подходы для решения схожих задач. Однако может быть сложно разработать и реализовать эксперименты для бизнеса без использования методов интеллектуального анализа данных. В деловом мире данные обычно подвергаются цензуре по сравнению с данными без цензуры, доступными в научных базах данных. Это означает, что интеллектуальный анализ данных обычно применяется к большим наборам данных, содержащим данные, которые необходимо обрабатывать безопасным образом.

Однако при рассмотрении конкретной методологии или алгоритма Статистика всегда имела дело, прежде всего с числовыми данными. Наборы данных, используемые при интеллектуальном анализе данных, могут представлять собой смесь текста, аудио, изображений, видео, файлов, географических данных и т. д. Целью здесь является поиск интересных закономерностей в данных. Тем не менее, чтобы найти «интересные» шаблоны, необходимо дать определение термину «интересный». Как правило, «интересные шаблоны» в данных должны иметь отношение к предметной области. В случае интеллектуального анализа данных его суть заключается в том, что никто точно не знает, какую закономерность следует найти из данных. Это затрудняет классификацию информации как относящуюся к образцу или общему. Слишком общее определение может привести к переподгонке, а слишком конкретное определение может привести к пропуску закономерностей, которые должны были быть идентифицированы. Применение статистического обучения в таких случаях может быть использовано для определения вероятностных моделей. Он может управлять идентификацией ошибок измерения и статистической значимости различных точек данных. Статистический анализ можно использовать для определения точек данных, на которые влияет первопричина, и тех, которые обусловлены чистой случайностью.

Статистика позволяет использовать прогностическую аналитику и разрабатывать различные классификации, которые могут повлиять на результаты. Эффективный анализ невозможен без статистики. Использование передовых статистических методов, применяемых в процессе интеллектуального анализа данных, может помочь предприятиям увеличить свои доходы, максимизировать операционную эффективность, снизить затраты, а также повысить удовлетворенность клиентов. Использование статистического программного обеспечения для интеллектуального анализа данных действительно может дать компаниям преимущество над конкурентами, помогая увеличить их продажи, а также стимулируя выполнение их бизнеса. Сегодня, чтобы оставаться конкурентоспособными на рынке, постоянно нужно идти в ногу с рыночными тенденциями и делать прогнозы будущих результатов.

Интеллектуальный анализ данных в статистике

Интеллектуальный анализ данных включает в себя процесс тщательного поиска данных с целью выявления закономерностей в данных. Данные обычно неоднородны, но в них будут лежать в основе закономерности. Проблема здесь в том, что иногда некоторые из выявленных паттернов могут быть просто случайными колебаниями, не содержащими никакой другой базовой информации. Статистики склонны рассматривать интеллектуальный анализ данных как процесс поиска закономерностей, которых на самом деле нет. Другая проблема заключается в том, что статистики всегда имели дело с меньшими, более организованными наборами данных по сравнению с теми данными, которые используются при интеллектуальном анализе данных. Кроме того, из-за наличия больших наборов данных статистики часто не знакомы с методами хранения и обработки данных, используемыми для обработки этих больших объемов данных.

Чтобы статистика оставалась актуальной, статистикам необходимо включить некоторые компоненты интеллектуального анализа данных в свои методы. Статистический анализ данных должен включать:

  • изучение новых алгоритмов,
  • методы анализа текста,
  • алгоритмы бэггинга, бампинга и бустинга (т.е. ансамбли моделей, понимаемые как комбинация нескольких алгоритмов обучения),
  • подверженность байесовским сетям убеждений, позволяющих работать с вероятностными событиями.

Рыночная корзина и методы индукции правил, деревья решений, нейронные сети, классификация с использованием этих деревьев и нейронных сетей, кластеризация на основе иерархических методов и самоорганизующихся карт, сопоставление запросов – все это примеры методов, основанных на тесной связи между интеллектуальным анализом данных и статистика.

Предположим, студенты со специализацией в области статистики заинтересованы в получении профессии в области прикладной статистики. В этом случае им полезно узнать больше об алгоритмах интеллектуального анализа данных и более тщательно изучить программное обеспечение, которое можно использовать для реализации этих алгоритмов. Кроме того, эти учащиеся могут извлечь пользу из изучения проблем, связанных с хранением, извлечением и манипулированием большими объемами данных, а также представлением этих данных с помощью привлекательных визуализаций.

Статистический анализ данных

Статистический анализ данных – это междисциплинарная область разработки программного обеспечения. Это вычислительная техника поиска закономерностей в обширных наборах данных, включающая в себя стратегии, использующие умственные способности, машинное обучение и базы данных для извлечения информации из данных.

Процесс интеллектуального анализа данных направлен на извлечение и изоляцию данных из наборов данных и построение их в структуру для дальнейшего анализа. Помимо исследования, он включает в себя предварительную подготовку данных, модели и индукционные размышления, определение актуальности различных точек данных, анализ дисперсии данных и последующую обработку выявленных закономерностей и структур.

Как интеллектуальный анализ данных интегрируется с компонентами статистики?

Большинство специалистов по интеллектуальному анализу данных, как правило, не знают о предметной области, связанной со статистикой, и их клиентах, в то время как статистики не обращают внимания на предметные области интеллектуального анализа данных и клиентские области. Основное внимание в интеллектуальном анализе данных уделяется управлению базами данных и обработке алгоритмов. Статистики сосредотачивают все свое внимание на выявлении неопределенностей и устранении их, а клиенты сосредотачиваются на использовании полученных знаний для принятия деловых решений. Если все эти три стороны сосредоточат свое внимание на достижении сотрудничества, конечный результат может стать реальным улучшением. Статистика как дисциплина не особенно известна своевременным признанием важных результатов и имеет хорошие возможности для улучшения этой дисциплины.

Вот несколько примеров некоторых методов, которые включают в себя включение интеллектуального анализа данных со статистикой [1]:

  1. Описательная статистика: обычно используется для анализа и определения того, какие наборы данных можно в дальнейшем использовать для анализа и принятия решений. Инструменты визуализации данных можно использовать для понимания распределения данных – нормального, равномерного, пуассоновского и т. д., и, следовательно, использовать соответствующие инструменты, основанные на распределении.
  2. Корреляционный анализ в интеллектуальном анализе данных. Корреляционный анализ можно использовать для определения переменных, имеющих отношение к конкретному контексту.
  3. Проверка гипотез. Проверка гипотез – это метод, используемый в статистическом анализе для сравнения определенных статистических атрибутов, чтобы определить, связаны ли два больших набора данных или нет.
  4. Линейная и множественная регрессия. В больших наборах данных, которые используются для интеллектуального анализа данных, существует большое количество потенциальных переменных. Линейная регрессия используется для выявления и выделения переменных, которые существенно влияют на конкретный результат. Множественная регрессия используется для анализа того, как многочисленные факторы, работающие вместе, могут повлиять на конкретный результат.
  5. Выбросы: нерелевантные значения, присутствующие в больших наборах данных, могут существенно повлиять на разброс и распространение данных. Например, предположим, что в бизнесе есть продукт, который имеет первоклассное качество и конкурентоспособную цену, но все еще получает постоянные негативные отзывы от клиентов. В этом случае это может негативно повлиять на бизнес и привести к тому, что бизнес усомнится в его качестве. Может оказаться, что отрицательный отзыв вызван проблемами, связанными с задержкой доставки, которая не имеет ничего общего с самим продуктом.
  6. Размерность: модели множественной регрессии нацелены на определение того, как более чем одна независимая переменная может по-разному влиять на результат. Однако каждый раз, когда в регрессионную модель добавляется новая переменная, неопределенность ее прогностической точности растет экспоненциально. Проблема здесь в том, что для того, чтобы прогноз был точным, необходимо учитывать несколько переменных, но с добавлением каждой переменной точность модели прогнозирования снижается. Это называется проклятием размерности данных. Это обычная проблема, с которой сталкиваются при интеллектуальном анализе данных. Задача состоит в том, чтобы сохранить размерность модели, но в то же время сохранить ее точность. Для достижения этой цели можно использовать два статистических подхода:
  7. Корреляционный анализ: переменные, влияющие на результат аналогичным образом, обычно сильно коррелированы. Следовательно, удаление некоторых из этих переменных может уменьшить количество задействованных переменных, не влияя на точность модели.
  8. Визуализация данных: Визуализация данных дает хорошее представление о коррелирующих переменных. Коррелированные переменные, как правило, визуально группируются в близкие группы, и их легче идентифицировать.

Любая новая область деятельности порождает новые профессии. Специалист по работе с данными т.е. Data Scientist, и специалист по машинному обучению – это новые самые перспективные специалисты будущего. Они – не программисты. Это великолепные математики с большими кросс-дисциплинарными знаниями и суперспособностью к анализу, подкрепленной упорством – потому что шансы с первого раза найти идеальную формулу для обучения искусственного интеллекта близки к нулю. Они должны отыскивать среди всех существующих алгоритмов тот, который лучше подходит для решения задач проекта и понимать, когда что-то идет не так, что именно идет не так. Data scientist понимает, в каком виде данные нужны компьютеру, и в его задачи входить обеспечить их. Незаменимый помощник Data Scientist – специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными [3].

Основная практическая цель профессиональной деятельности в науке о данных - обнаружение закономерностей в данных, извлечение знаний из данных в обобщённой форме. Для объяснения навыков, необходимых для деятельности в этой области, часто используется диаграмма Венна, на которой навыки, требуемые специалисту, отражены на пересечении сфер общепредметного опыта (англ. substantive expertise), практического опыта в информационных технологиях (hacking skills) и знания математической статистики
[4].

В качестве эпистемологической особенности дисциплины указывается приоритет практической применимости результатов, то есть, успешности предсказаний, перед их причинностью, тогда как в традиционных исследовательских областях существенно объяснение природы явления [4].

В сравнении с классической статистикой, на методах которой во многом основывается и наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку. В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели. В сравнении с профессией аналитика, основная цель деятельности которого в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами) [4].


Библиографический список
  1. Леонид Жуков. Профессия Data scientist (PDF). Материалы конференции «Большие данные в национальной экономике». Открытые системы (28 октября 2013).
  2. Vasant Dhar. Data Science and Prediction (англ.) // Communications of the ACM. — 2013. — Vol. 56, no. 12. — P. 64—73.


Все статьи автора «Султанова Лола Шарафовна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: