При использовании Google Sheets для работы с двумя наборами данных вы можете сравнить их, определив степень, в которой один влияет на другой.

Корреляции могут дать представление о том, существует ли прогностическая связь между плоскостями x и y, но они не обязательно указывают на причинно-следственную связь. Вот как вы можете использовать Google Sheets для выявления корреляций в ваших данных.

Что такое корреляция и для чего ее можно использовать?

Когда две переменные коррелированы, можно определить, как одна переменная влияет на другую. Но важно помнить, что в данном случае корреляция не подразумевает доверия; он просто показывает, насколько близко и быстро две переменные сравниваются или соотносятся друг с другом.

Статистические показатели помогают понять основные тенденции в анализе данных. Корреляция является одним из наиболее часто используемых статистических показателей и определяет, насколько тесно связаны или зависимы две переменные.

Понимание коэффициента корреляции в Google Таблицах

instagram viewer

В Google Таблицах коэффициент корреляции рассчитывается с помощью функции КОРРЕЛ. Коэффициент корреляции служит показателем того, насколько тесно связаны наборы данных. Его можно использовать для получения коэффициента корреляции Pearson product-moment (r), если у вас есть два переменных набора данных. Если вы хотите узнать больше об этом коэффициенте, вы можете прочитать больше в этом руководстве от Статистика в Leard.

Можно было встретить одну из трех метрик корреляции. Каждое измерение по-разному определяет отношения между переменными. Его значение находится в диапазоне от -1 до +1:

  • -1 обозначает идеальную отрицательную корреляцию: Когда корреляция имеет коэффициент корреляции, равный или ниже -0,9, она считается резко отрицательной. Это признак того, что данные коррелируют. Однако переменная x продолжает увеличиваться, тогда как переменная y продолжает уменьшаться.
  • 0 означает отсутствие соединения: Считается, что переменные не коррелируют, если коэффициент корреляции больше 0,01, но меньше 0,1, поскольку между каждой переменной нет заметной связи. Они независимы друг от друга.
  • +1 обозначает идеальную положительную корреляцию: Когда коэффициент корреляции падает между 0,9 и 1, он считается очень положительным. Это указывает на то, что произошло увеличение двух наборов переменных.

Наибольшее значение коэффициента могло быть коэффициентом корреляции, равным 1. Когда значение корреляции равно 1, это означает, что если бы вы построили график данных, они были бы полностью выровнены, чтобы создать прямую линию.

Если вы все еще немного заблудились, не волнуйтесь. Мы объясним синтаксис функции КОРРЕЛ, а затем погрузимся в некоторые примеры из реальной жизни, чтобы помочь вам лучше понять ее. Понимание линий наилучшего соответствия и как сделать линии тренда в гугл таблицах поможет вам в этом.

Синтаксис функции CORREL в Google Sheets

= КОРРЕЛ (данные_у, данные_х) 

Давайте разобьем это на части и лучше поймем, что означает каждая фраза:

  • = КОРРЕЛ: это функция Google Sheet, которая определяет r (коэффициент корреляции продукта и момента набора данных Pearson).
  • data_y: это относится к группе ячеек, содержащих зависимые данные или диапазон значений для этих ячеек.
  • данные х: это либо ссылка на массив ячеек с независимыми данными, либо диапазон значений для этих ячеек.

Если бы вы построили график точек данных, data_y был бы осью Y, а data_x — осью X. Вы заметите, что существует два разных способа ввода диапазона данных. Либо диапазон опорных ячеек, либо прямой ввод данных в функцию являются вариантами.

В большинстве случаев предпочтительнее использовать диапазон эталонных ячеек. Это потому, что электронная таблица, скорее всего, уже содержит ваши данные. Использование диапазона ячеек ссылки позволяет избежать избыточного ввода данных, что может привести к ошибке пользователя.

Примеры функции CORREL в Google Sheets

Давайте рассмотрим несколько примеров, чтобы понять, как использовать функцию КОРРЕЛ в Google Таблицах.

Пример 1: Сильная положительная корреляция

Для этого первого примера давайте представим, что мы работаем в сфере недвижимости. В приведенной ниже электронной таблице у нас есть разделы гектаров земли, которые вы продаете, и количество проданных единиц данных этих разных земель в вашей таблице Google.

  1. Если вы следуете листу, вы начнете с ввода данных переменных в свою электронную таблицу, как показано ниже:
  2. Щелкните ячейку С2
  3. Тип =КОРРЕЛ(
  4. Затем вы перейдете к вводу data_y, который в нашем случае является диапазоном ячеек, на который указывает ссылка. А2:А6, затем введите запятую.
  5. Перейдите к типу data_x, который в нашем случае упоминается как Б2:Б6.
  6. Завершите закрывающей скобкой, как показано ниже:
  7. Наконец, нажмите Входить чтобы вернуть коэффициент корреляции двух частей данных в ячейке С2.

Используя только что показанный выше пример, вы получили коэффициент корреляции 0,90, что является сильной положительной корреляцией, поскольку его значение находится в диапазоне от 0,9 до 1. Следовательно, это указывает на то, что при изменении y х также изменяется по существу сравнимым образом.

Ниже представлен пример данных нашего примера на диаграмме разброса XY. Как видите, линия наилучшего соответствия близка к точкам данных на графике, что подтверждает идею о сильной корреляции цифр.

Вы можете узнать больше о создание точечных диаграмм XY в Google Sheets в другой нашей статье.

Пример 2: Слабая отрицательная корреляция

На этот раз мы будем использовать более общий пример «переменных x и y» в нашей электронной таблице. Мы специально включили цифры, чтобы продемонстрировать отрицательную корреляцию, которую функция КОРРЕЛ демонстрирует ниже:

Между переменными y и x нет сильной связи, поэтому в результате мы получаем менее значимый коэффициент корреляции, чем в предыдущем примере. Достигнутый нами результат равен -0,47. Однако это не означает, что корреляции нет вообще. Давайте еще раз посмотрим на линию наилучшего соответствия, чтобы понять ее смысл.

Как вы можете видеть на диаграмме рассеяния, точки данных находятся дальше от линии наилучшего соответствия. Следовательно, корреляция меньше, чем в первом примере, но не отсутствует. Вы также заметите, что линия наилучшего соответствия уменьшается. Это показывает отрицательную корреляцию, одно значение уменьшается, а другое увеличивается.

Пример 3: нет соединения

Здесь у нас есть набор полностью случайных чисел. Давайте еще раз быстро коснемся того, как использовать функцию КОРРЕЛ:

  1. Введите ячейку С2 формула КОРРЕЛ
  2. Наши аргументы А2:А10 и Б2:Б10
  3. Нажмите Enter

Значение, возвращаемое на C2, равно 0,02. Если коэффициент корреляции падает между 0,01 и 0,1, определяется, что рассматриваемые переменные не коррелируют, поскольку между ними нет заметной связи. Отношения между переменными полностью независимы.

Ниже представлено то же самое на диаграмме рассеивания. Линия наилучшего соответствия почти плоская, что указывает на небольшую корреляцию между двумя наборами данных.

Легко сопоставляйте свои данные в Google Sheets

Корреляция может быть сложной темой, если вы мало работали с ней в старшей школе. В этом руководстве рассмотрены все основы, но вам нужно будет продолжать использовать функцию КОРРЕЛ в Google Таблицах, чтобы не забывать о ней.

Это мощная функция, поскольку она помогает избежать построения точечных диаграмм и может быстро находить тенденции в ваших данных. Тем не менее, не бойтесь добавлять диаграммы, чтобы помочь другим пользователям лучше понять данные в ваших электронных таблицах.