«Регрессионный анализ показывает, что самоэффективность способствует достижению успеха помимо эффектов когнитивных навыков», — Альберт Бандура

Введение

Регрессионный анализ – это статистический метод, который помогает нам проанализировать и понять взаимосвязь между двумя или более интересующими переменными. Процесс, адаптированный для выполнения регрессионного анализа, помогает понять, какие факторы важны, какие факторы можно игнорировать и как они влияют друг на друга. Чтобы регрессионный анализ был успешным методом, мы понимаем следующие термины:

  • Зависимая переменная:это переменная, которую мы пытаемся понять или спрогнозировать.
  • Независимая переменная. Это факторы, которые влияют на анализ или целевую переменную и предоставляют нам информацию о взаимосвязи переменных с целевой переменной.

Регрессия в науке о данных

Регрессия в науке о данных — очень важная тема. Наиболее распространенные типы регрессии, которые используются в науке о данных, в основном:

  • Линейная регрессия
  • Полномиальная регрессия
  • Логистическая регрессия

Давайте теперь подробно рассмотрим эти типы регрессии и то, как они играют роль в науке о данных.

  1. Линейная регрессия

Линейная регрессия пытается смоделировать взаимосвязь между двумя переменными, подбирая линейное уравнение к наблюдаемым данным. Одна переменная считается объясняющей переменной, а другая считается зависимой переменной. Уравнение линейной регрессии выражается следующим образом:

Некоторые примеры в науке о данных, где можно использовать линейную регрессию:

  • Прогноз зарплаты человека на основе многолетнего опыта —Здесь Опыт становится независимой, а зарплата — зависимой переменной.
  • Прогнозирование урожайности на основе количества осадков (мм).Здесь урожайность является зависимой переменной, а количество осадков (мм) — независимой переменной.

2. Полиномиальная регрессия

Полиномиальная регрессия – это алгоритм регрессии, который моделирует взаимосвязь между зависимой (y) и независимой переменной (x) в виде полинома n-й степени. Уравнение полиномиальной регрессии приведено ниже:

Теперь давайте посмотрим, как полиномиальная регрессия выделяется в случаях, связанных с наукой о данных, по сравнению с линейной:

  • Если мы применим линейную модель к линейному набору данных, она даст нам хороший результат, как мы видели в простой линейной регрессии, но если мы применим ту же модель без каких-либо изменений к не -линейный набор данных, то он даст резкий результат. Из-за чего функция потерь увеличится, частота ошибок будет высокой, а точность снизится.
  • Поэтому для таких случаев, где точки данных расположены нелинейно, нам нужна модель полиномиальной регрессии. Мы можем лучше понять это, используя приведенную ниже сравнительную диаграмму линейного набора данных и нелинейного набора данных.

  • На изображении выше мы взяли набор данных, который расположен нелинейно. Так что, если мы попытаемся покрыть это линейной моделью, то мы ясно увидим, что она почти не покрывает ни одной точки данных. С другой стороны, кривая подходит для покрытия большинства точек данных, которые относятся к полиномиальной модели.
  • Следовательно, если наборы данных расположены нелинейным образом, мы должны использовать модель полиномиальной регрессии вместо простой линейной регрессии.

Вот несколько примеров, когда полиномиальная регрессия будет работать лучше всего:

  • Он используется во многих экспериментальных процедурах для получения результата с использованием этого уравнения.
  • Он обеспечивает большую определенную связь между независимыми и зависимыми переменными.
  • Он используется для изучения изотопов отложений.
  • Он используется для изучения роста различных заболеваний в любой популяции.
  • Он используется для изучения генерации любого синтеза.

3. Логистическая регрессия

Логистическая модель регрессии используется для моделирования вероятности существования определенного класса или события, например пройдено/не пройдено, выигрыш/проигрыш, жив/мертв или здоров/больен. Это может быть расширено для моделирования нескольких классов событий, таких как определение того, содержит ли изображение кошку, собаку, льва и т. д. Каждому объекту, обнаруженному на изображении, будет присвоена вероятность от 0 до 1 с суммой, равной единице. Уравнение логистической регрессии представляется как:

Логистическая регрессия используется в основном для задач классификации.

Документы, основанные на использовании регрессии для науки о данных

  1. Представление Deepfake с мультилинейной регрессией (arXiv)

Авторы: Сара Абдали, М. Алекс О. Василеску, Евангелос Э. Папалексакис

Вывод:Архитектуры генеративных нейронных сетей, такие как GAN, могут использоваться для создания синтетических экземпляров, чтобы компенсировать отсутствие реальных данных. Однако они могут быть использованы для создания средств массовой информации, которые могут вызвать социальные, политические или экономические потрясения. Одним из новых медиа является «Deepfake». Методы, которые могут различать такие медиа, необходимы. В данной статье мы предлагаем модифицированный полилинейный (тензорный) метод, представляющий собой комбинацию линейной и полилинейной регрессии для представления ложных и реальных данных. Мы тестируем наш подход, представляя дипфейки с помощью нашего модифицированного многолинейного (тензорного) подхода и выполняем классификацию SVM с обнадеживающими результатами.

2. Математическая модель линейной регрессии с одной переменной для определения цвета и концентрации материала (IEEE)

Авторы: Дэхуа Ван, Юцзин Гао, Чжипин Тянь

Аннотация: в этой статье сначала усредняется обработка данных измерений с использованием EXCEL для построения показаний цвета и диаграммы рассеяния концентрации материала, с использованием метода линейного регрессионного анализа для определения концентраций по уравнению линейной регрессии с показаниями цвета и моделью материала. . Мы используем метод наименьших квадратов для получения уравнения регрессии и анализируем ошибку модели, используя общую сумму квадратов, остаточную сумму квадратов, сумму регрессии и ошибку модели.

3. Прогноз температуры контактов высоковольтного распределительного устройства на основе модели множественной линейной регрессии (IEEE)

Авторы: Сюань Фэн, Юань Чжоу, Тун Хуа, Ин Цзоу, Цзянвэнь Сяо.

Аннотация: Этот документ, предназначенный для прогнозирования температуры контактов распределительного устройства, основан на данных о температуре контактов высоковольтного распределительного устройства. Используя модель Map-reduce для анализа и обработки данных точки мониторинга, регрессионная модель температуры устанавливается с использованием метода множественной линейной регрессии. Результат прогноза анализируется по критерию значимости F-регрессии. Результат показывает, что продольная регрессия в многомерной линейной регрессии может хорошо соответствовать температуре контакта высоковольтного распределительного устройства с небольшим отклонением, подходящим для долгосрочного прогноза температуры.

4. Метод линейной регрессии для бинарных данных о жизни из распределения Вейбулла (IEEE)

Авторы: Лян Ао, Цихуа Ван

Аннотация: Чтобы решить задачу оценки параметров распределения Вейбулла для бинарных данных о жизни без метода максимального правдоподобия, в этой статье дается метод линейной регрессии. Используя формулы среднего и дисперсии интервальной статистики, устанавливается уравнение линейной регрессии двухпараметрического распределения Вейбулла для бинарных данных о жизни, точечная оценка параметров уравнения регрессии, точечная оценка и доверительные пределы процентиля и процента двух- также получают параметр распределения Вейбулла. Наконец, в этой статье приведен пример. Доказано, что точечная оценка параметров уравнения регрессии является наилучшей линейной несмещенной оценкой по теореме Гаусса-Маркова, поэтому свойство оценок намного лучше, чем свойство оценок, заданных методом максимального правдоподобия, и метод в этой бумага проще и удобнее, чем метод максимального правдоподобия в технике.

5. Pпроизводительность байесовской линейной регрессии в модели с рассогласованием(arXiv)

Авторы :Жан Барбье, Вэй-Куо Чен, Дмитрий Панченко, Мануэль Саенс

Аннотация.Для модели многомерной линейной регрессии со случайным планом мы анализируем эффективность оценки, заданной средним значением логарифмически вогнутого байесовского апостериорного распределения с гауссовым априорным распределением. Модель несоответствует в следующем смысле: как и модель, принятая статистиком, процесс генерации меток является линейным по входным данным, но как априорная достоверность классификатора, так и дисперсия гауссовского шума ей неизвестны. Эта модель вывода может быть перефразирована как версия модели Гарднера для спиновых стекол, и, используя метод резонатора, мы получаем уравнения с фиксированной точкой для различных параметров порядка перекрытия, получая, в частности, выражение для среднеквадратичной ошибки реконструкции классификатора ( в предположении единственности решений). Как прямое следствие получаем выражение для свободной энергии. Подобные модели уже изучались Щербиной и Тироцци, а также Талаграндом, но наши рассуждения более прямолинейны, а некоторые допущения смягчены. Интересным последствием нашего анализа является то, что в условиях случайного плана гребневой регрессии характеристики апостериорного среднего значения не зависят от дисперсии шума (или «температуры»), принятой статистиком, и соответствуют обычному (нулевая температура). ) гребневая оценка.

Заключение

Регрессия является одним из важных инструментов в науке о данных, особенно эти три, а именно линейная, полиномиальная и логистическая регрессия. Овладение этими тремя помогает анализировать множество типов наборов данных в науке о данных.