корреляция

Что такое корреляция:

Корреляция означает сходство или отношения между двумя вещами, людьми или идеями . Это сходство или эквивалентность, которая существует между двумя различными гипотезами, ситуациями или объектами.

В области статистики и математики корреляция относится к мере между двумя или более связанными переменными.

Термин корреляция - существительное женского рода, которое происходит от латинского корреляции.

Корреляция слова может быть заменена синонимами, такими как: отношение, уравнение, связь, соответствие, аналогия и связь.

Коэффициент корреляции

В статистике коэффициент корреляции Пирсона (r), который также называют коэффициентом корреляции произведение-момент, измеряет соотношение между двумя переменными в пределах одной метрической шкалы.

Функция коэффициента корреляции заключается в определении интенсивности взаимосвязи, которая существует между известными наборами данных или информации.

Значение коэффициента корреляции может варьироваться от -1 до 1, и полученный результат определяет, является ли корреляция отрицательной или положительной.

Для интерпретации коэффициента необходимо знать, что 1 означает, что корреляция между переменными является абсолютно положительной, а -1 означает, что она является совершенно отрицательной . Если коэффициент равен 0, это означает, что переменные не зависят друг от друга.

В статистике также есть коэффициент корреляции Спирмена, который носит это имя в честь статистика Чарльза Спирмена. Функция этого коэффициента заключается в измерении интенсивности отношений между двумя переменными, независимо от того, являются ли они линейными или нет.

Корреляция Спирмена служит для оценки того, можно ли измерить интенсивность взаимосвязи между двумя анализируемыми переменными с помощью монотонной функции (математической функции, которая сохраняет или инвертирует отношение начального порядка).

Расчет коэффициента корреляции Пирсона

Метод 1) Расчет коэффициента корреляции Пирсона с использованием ковариации и стандартного отклонения.

где

S XY - ковариация;

S x и S y представляют стандартное отклонение, соответственно, переменных x и y.

В этом случае для расчета сначала необходимо найти ковариацию между переменными и стандартное отклонение каждой из них. Затем ковариация делится на умножение стандартных отклонений.

Часто утверждение уже предоставляет либо стандартные отклонения переменных, либо ковариацию между ними, просто применяя формулу.

Метод 2) Расчет коэффициента корреляции Пирсона с необработанными данными (без ковариации или стандартного отклонения).

С этим методом наиболее прямая формула выглядит следующим образом:

Например, предполагая, что у нас есть данные с n = 6 наблюдениями за двумя переменными: уровнем глюкозы (y) и возрастом (x), расчет выполняется в следующие шаги:

Шаг 1) Создайте таблицу с существующими данными: i, x, y и добавьте пустые столбцы для xy, x² и y²:

Шаг 2: Умножьте x и y, чтобы заполнить столбец «xy». Например, в строке 1 мы будем иметь: x1y1 = 43 × 99 = 4257.

Шаг 3: Увеличьте значения столбца x и запишите результаты в столбец x². Например, в первой строке мы будем иметь x 1 2 = 43 × 43 = 1849.

Шаг 4: Сделайте то же самое, что и в шаге 3, теперь, используя столбец y, и запишите квадрат ваших значений в столбце y². Например, в первой строке у нас будет: y 1 2 = 99 × 99 = 9801.

Шаг 5: Получите сумму всех номеров столбцов и поместите результат в нижний колонтитул столбца. Например, сумма столбца Age X равна 43 + 21 + 25 + 42 + 57 + 59 = 247.

Шаг 6: Используйте приведенную выше формулу для получения коэффициента корреляции:

Таким образом, мы имеем:

Коэффициент корреляции Спирмена

Расчет коэффициента корреляции Спирмена несколько отличается. Для этого нам нужно организовать наши данные в следующей таблице:

1. Предложив 2 пары данных, мы должны ввести их в таблицу. Например:

2. В столбце «Ранжирование А» мы будем классифицировать наблюдения, которые находятся в «Дате А», в растущем порядке, причем «1» является самым низким значением в столбце, en (общее количество наблюдений), самым высоким значением в столбце «Дата А». ». В нашем примере это:

3. Мы делаем то же самое, чтобы получить столбец «Рейтинг B», теперь используя наблюдения в столбце «Данные B»:

4. В столбце «d» мы указываем разницу между двумя рейтингами (A - B). Здесь сигнал не имеет значения.

5. Поднимите каждое из значений в столбце "d" и запишите в столбце d²:

6. Добавьте все данные из столбца «d²». Это значение Σd². В нашем примере Σd² = 0 + 1 + 0 + 1 = 2

7. Теперь мы используем формулу Спирмена:

В нашем случае n равно 4, поскольку мы смотрим на количество строк данных (что соответствует количеству наблюдений).

8. Наконец, мы заменим данные в предыдущей формуле:

Линейная регрессия

Линейная регрессия - это формула, используемая для оценки возможного значения переменной (y), когда известны значения других переменных (x). Значение «x» является независимой или объясняющей переменной, а «y» является зависимой переменной или ответом.

Линейная регрессия используется для проверки того, как значение «у» может изменяться как функция переменной «х». Строка, содержащая значения проверки дисперсии, называется линией линейной регрессии.

Если объясняющая переменная «x» имеет одно значение, регрессия будет называться простой линейной регрессией .