Основы научных исследований в агрономии

электронный учебно-методический комплекс

МОДУЛЬ 2. Основы статистической обработки опытных данных

Тема 2.4. Корреляционно – регрессионный анализ

План.

  1. Понятие о корреляционной зависимости, условия применения корреляционно-регрессионного анализа
  2. Схема корреляционно-регрессионного анализа
  3. Множественная корреляция
  4. Криволинейная корреляция
  5. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

1. Понятие о корреляционной зависимости, условия применения корреляционно-регрессионного анализа

В практике сельскохозяйственных и биологических исследований часто возникает необходимость изучить характер связи между двумя (или более) варьирующими признаками или свойствами почв.

Многие признаки и свойства растений находятся между собой в определенной взаимосвязи. Некоторые из них являются взаимосвязанными, другие – изменяются в определенном направлении под влиянием общих условий. Примером связи первого типа может служить зависимость крупности плодов от числа цветков в соцветии, другого – связь между площадью питания растений и урожайностью на разных по плодородию участках.

Что такое переменные? Переменные – это то, что можно измерять, контролировать или что можно изменять в исследованиях. Переменные отличаются многими аспектами, особенно той ролью, которую они играют в исследованиях, шкалой измерения и т.д.

Исследование зависимостей в сравнении с экспериментальными исследованиями. Большинство эмпирических исследований данных можно отнести к одному из названных типов. В исследовании корреляций (зависимостей, связей...) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а только измеряете их и хотите найти зависимости (корреляции) между некоторыми измеренными переменными, например, между кровяным давлением и уровнем холестерина. В экспериментальных исследованиях, напротив, вы варьируете некоторые переменные и измеряете воздействия этих изменений на другие переменные. Например, исследователь может искусственно увеличивать кровяное давление, а затем на определенных уровнях давления измерить уровень холестерина. Анализ данных в экспериментальном исследовании также приходит к вычислению «корреляций» (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на которые влияет это воздействие. Тем не менее, экспериментальные данные потенциально снабжают нас более качественной информацией. Только экспериментально можно убедительно доказать причинную связь между переменными. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод – «переменная A оказывает влияние на переменную B», т.е. между переменными А и В имеется причинная зависимость. Результаты корреляционного исследования могут быть проинтерпретированы в каузальных (причинных) терминах на основе некоторой теории, но сами по себе не могут отчетливо доказать причинность.

Корреляционно-регрессионный анализ применяется для изучения связей и зависимости между наблюдаемыми явлениями. Причинно-следственные связи при математическом анализе могут выражаться в двух формах: функциональной и корреляционной. Под функциональной связью понимают такую связь между какими-либо показателями, когда при изменении одного показателя на определенную величину другой показатель меняется также на строго определенную величину. Функциональные связи характерны для большинства физических, химических и физико-химических явлений. Площадь треугольника точно определяется его высотой и основанием, длина окружности – радиусом, скорость падения является функцией времени падения и ускорения силы тяжести, скорость протекания определенной химической реакции находится в зависимости от температуры.

Необходимо учесть, что в чистом виде функциональные связи встречаются только в идеальных условиях, когда предполагается, что никаких посторонних влияний нет.

Но на практике это недостижимо. Никогда нельзя точно измерить фактически имеющийся радиус круга, причем вычисленная площадь никогда не равна в точности фактической, вследствие практической невозможности начертить точную окружность. Скорость падения реального тела в реальных условиях будет всегда различна при одних и тех же времени и ускорении силы тяжести. На практике всегда действуют посторонние для данной функциональной зависимости факторы, которые нарушают точность этой зависимости в разных случаях по-разному.

Пока такие нарушения остаются настолько незначительными, что их практически можно не учитывать, связь считается функциональной.

При изучении живых объектов приходится иметь дело со связями другого рода. Живой организм развивается в связи с условиями его жизни, под действием бесконечно большого числа факторов, которые по-разному определяют развитие разных признаков. У живых объектов связь между любыми двумя признаками настолько часто и сильно нарушается и модифицируется, что не всегда даже может быть достаточно обнаружена.

Растения, животные, микроорганизмы в процессе своего развития постоянно взаимодействуют с факторами внешней среды, изменяются под влиянием разнообразных условий существования. Поэтому у них связь между признаками проявляется в виде так называемой корреляционной зависимости, или корреляции. Эта форма связи характеризуется тем, что изменение одного показателя на определенную величину сопровождается изменением не одного значения показателя, а целое распределение этих значений при вполне определенных основных показателях этого частного распределения – средней величины и степени разнообразия.

Растения, животные, микроорганизмы в процессе своего развития постоянно взаимодействуют с факторами внешней среды, изменяются под влиянием разнообразных условий существования. Поэтому у них связь между признаками проявляется в виде так называемой корреляционной зависимости, или корреляции. Эта форма связи характеризуется тем, что изменение одного показателя на определенную величину сопровождается изменением другого показателя на различные величины.

Термин корреляция введен в науку Кювье и в переводе с французского означает соотношение, связь (принцип соотношения в каждом организме между различными органами). Таким образом, если при определении значения x переменная y может принимать разные значения с определенной вероятностью, то зависимость между x и y носит характер корреляционной или стохастической связи.

Простейшим визуальным способом выявить наличие взаимосвязи между количественными переменными является построение диаграммы рассеяния (scatterplot). Это график, на котором по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

Направление связи

  1. Если бы существовала функциональная (математически точная) положительная зависимость между числом рабочих и доходом, т.е. если бы на каждом предприятии каждый рабочий за год производил в точности одинаковое количество продукции, все точки-объекты расположились бы на «растущей» прямой.
  2. В этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого.
  3. Пример положительной функциональной связи между признаками X и Y:
  4. Однако на практике мы встречаемся не с функциональными, а со статистическим связями (действительно, эффективность труда, т.е. количество продукции, произведенной одним рабочим, различается на разных предприятиях). Поэтому на графике точки-объекты не лежат на одной прямой, и какую бы прямую мы ни провели, все точки на нее не попадут.

    В случае положительной статистической связи мы видим "облако" точек, о котором можно сказать, что оно вытянуто по диагонали от левого нижнего угла к правому верхнему, т.е. с ростом одного признака другой в среднем растет.

    Значит, и в этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

    Пример положительной статистической связи между признаками X и Y.

    Если бы между признаками существовала функциональная отрицательная (а не положительная) зависимость, точки на диаграмме также расположились бы на одной прямой, однако эта прямая проходила бы в противоположном направлении.

    В этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого.

    Пример отрицательной функциональной связи между признаками X и Y.

    Для статистической отрицательной связи мы увидим на графике "облако" точек, о котором можно сказать, что оно вытянуто по диагонали от левого верхнего угла к правому нижнему, т.е. с ростом одного признака другой признак в среднем убывает.

    Значит, и в этом случае чем больше значения одного признака, тем меньше значения другого и чем меньше значения одного признака, тем больше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

    Пример отрицательной статистической связи между X и Y.

    Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели

    Однако иногда расположение точек на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.

    Примеры нелинейной связи (слева) и отсутствия связи (справа) между признаками X и Y

    Попробуем провести прямую линию через облако точек на диаграмме рассеяния. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния.

    Однако существует метод, который позволяет совершенно точно вычислить положение прямой линии, наилучшим образом проходящей через облако точек. Это – метод наименьших квадратов.

    Вычисляемая с его помощью прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).

    Таким образом, линия регрессии дает наилучшее приближенное описание линейной зависимости между двумя переменными.

    Линия регрессии:

    Если объекты характеризуются целым набором количественных признаков, можно построить т.н. матрицу корреляции, т.е. квадратную таблицу, число строк и столбцов которой равно числу признаков, а на пересечении каждых строки и столбца стоит коэффициент корреляции соответствующей пары признаков.

    Матрица симметрична, т.е. значения выше и ниже диагонали повторяются (т.к. rxy = ryx).

    Пример матрицы корреляции для трех признаков. В этой матрице 9 коэффициентов: по диагонали 3 единицы (корреляция каждого признака с самим собой) и три коэффициента для трех пар признаков: r12, r13 и r23, которые повторяются выше и ниже диагонали:

    Некоторые коэффициенты в матрице корреляции показаны красным цветом. Это означает, что они являются статистически значимыми.

    В чем смысл понятия статистической значимости применительно к коэффициенту корреляции?

    Задача исследования корреляционной связи – определить характер и измерить тесноту сопряженности между признаками, из которых один является факториальным, другой результативным. Например, существует определенная корреляция между числом листьев у кукурузы (факториальный признак) и длиной вегетационного периода (результативный признак): чем больше листьев образует растение, тем позднее оно созревает.

    Прежде чем приступать к рассмотрению сущности корреляционно - регрессионного анализа, необходимо выделить условия его применения и ограничения:

    1) Корреляционную связь не следует вычислять при значении коэффициента корреляции более 30% в каждом из рядов наблюдений.

    2) Число наблюдений должно быть не менее чем в 5-6 раз больше числа факторов.

    3) Необходимо, чтобы совокупности по результативному и факториальному признакам подчинялись нормальному закону распределения вероятностей.

    Исследование корреляции сводится к следующему:

    1. Устанавливают факт зависимости изменений одного признака от изменения другого и определяют форму связи между ними (тип корреляции). Корреляцию называют простой, если исследуется связь между двумя признаками, или множественной, когда на величину одного результативного признака влияют несколько факториальных.

    2. В зависимости от характера изменений результативного признака под влиянием факториального различают следующие формы корреляции:

    а) линейную корреляцию, когда с увеличением среднего значения одного признак также увеличивается среднее значение другого, или с увеличением среднего значения одного признака уменьшается среднее значение другого. В первом случае корреляцию называют прямой, во втором – обратной;

    б) криволинейную корреляцию: при возрастании значения одного признака другой принимает значения, возрастающие до определенной величины, а затем убывающие, или наоборот.

    3.Находят тесноту связи, т.е. степень сопряженности между значениями одного и другого признака. Основной показатель степени сопряженности между значениями одного и другого признака и формы связи - коэффициент корреляции (r). Коэффициент корреляции – безразмерная величина, изменяемая в пределах -1≥ r ≤ +1. При r = 0 линейная связь отсутствует, при r = ± 1 корреляционная связь превращается в функциональную.

    Определение тесноты связи по величине коэффициента корреляции следующее:

    при r = ≤ 0,2 – 0,3 – свидетельствует о наличии слабой связи;

    r = 0,3 – 0,7 – средней;

    r ≥ 0,7 – сильной связи.

    Статистическая значимость коэффициента корреляции

    Если коэффициент корреляции вычислен на основе выборочных данных, то не исключено, что его ненулевое значение является не отражением действительной связи между признаками, а просто получено в результате специфики данной выборки (тогда как в генеральной совокупности коэффициент корреляции равен нулю, т.е. линейной связи между признаками нет).

    Таким образом, надо понять, как далеко значение r от нуля.

    Если значение коэффициента корреляции вычислено по выборочным данным, то для оценки его значения в генеральной совокупности, как обычно, строится доверительный интервал.

    Для построения доверительного интервала вычисляется ошибка коэффициента корреляции σr по формуле:

    Затем ошибка коэффициента корреляции умножается на параметр t, зависящий от доверительной вероятности P (для вероятности 95% t = 2), чтобы найти предельную ошибку.

    Наконец, строится доверительный интервал r ± σr и проводится проверка, попадет ли нулевое значение в этот интервал.

    Если ноль не попадет в доверительный интервал, значит с высокой вероятностью в генеральной совокупности не может быть нулевого значения коэффициента корреляции, т.е. связь между признаками существует и в генеральной совокупности. В таком случае коэффициент корреляции является статистически значимым

    Если две переменные линейно независимы (метод наименьших квадратов дает горизонтальную прямую), то одна из них в своих изменениях никоим образом не определяет другую – в этом случае коэффициент детерминации равен нулю.

    В остальных случаях коэффициент детерминации указывает, какая часть изменений одной переменной объясняется изменениями другой переменной.

    Чем выше по модулю (по абсолютной величине) значение коэффициента корреляции, тем сильнее связь между признаками.

    Принято считать, что коэффициенты корреляции, которые по модулю больше 0,7, говорят о сильной связи (при этом коэффициенты детерминации > 50%, т.е. один признак определяет другой более, чем наполовину).

    Коэффициенты корреляции, которые по модулю меньше 0,7, но больше 0,5, говорят о связи средней силы (при этом коэффициенты детерминации меньше 50%, но больше 25%).

    Наконец, коэффициенты корреляции, которые по модулю меньше 0,5, говорят о слабой связи (при этом коэффициенты детерминации меньше 25%).

    Необходимо подчеркнуть, что величина коэффициента корреляции еще не гарантирует его значимости: даже большой коэффициент может оказаться статистически незначимым (например, при малом объеме выборки), а небольшой коэффициент (если выборка велика) - значимым.

    Следует также предостеречь от излишнего злоупотребления математическим описанием анализируемых зависимостей, если природа связи неизвестна и теоретически оправданных предположений о виде уравнения нет. Конечно, процесс отбора может завершиться нахождением уравнения, которое неплохо описывает изучаемое явление. Но не следует забывать, что не имеющее физического смысла уравнение может затушевать весьма важные особенности явления или процесса.

    Именно поэтому проведенная от руки линия регрессии или найденная путем сглаживания с помощью скользящей средней нередко оказывается гораздо более полезной, чем с большим трудом подобранное математическое описание. Следует помнить, что математическое выражение лишь тогда полезно, когда оно позволяет дополнительно вскрыть какие-то особенности процесса или помогает прогнозировать процесс, протекающий в аналогичных условиях.

    Направление корреляционной зависимости определяется знаком: положительное значение свидетельствует о том, что изменения одной величины соответствуют изменениям другой, т.е с увеличением значения одной увеличивается другая, а связь - прямая. При отрицательной корреляции (обратная зависимость), наоборот, с увеличением значения одной величины другая уменьшается, а с уменьшением – увеличивается.

    Коэффициент корреляции определяется по формуле:

    r = √ (x – x)× (y –y) / √ Σ (x –x) 2× Σ (y – y) 2

    Следует иметь в виду, что коэффициент корреляции выборочного наблюдения подвержен случайным колебаниям, зависящим как от особенностей образования выборки, так и от точности наблюдений. Вследствие этого по величине коэффициента корреляции не всегда можно с достаточной уверенностью судить о наличии или сопряженности между признаками в данной выборке. Поэтому вычисленный для выборки коэффициент корреляции необходимо оценить с точки зрения его значимости и убедиться, что его знак не изменится на обратный. Для оценки существенности коэффициента корреляции вычисляют его ошибку (Sr) и критерий существенности (tr)по формулам:

    Sr = √ 1 – r2 / n -2

    tr = r / Sr, где

    r – коэффициент корреляции;

    n – число парных значений показателей по которым вычислен коэффициент корреляции.

    Если tr ≥ tтеор, то корреляционная связь существенна. Теоретическое значение критерия Стьюдента берут из таблицы при уровнях вероятности 95 и 99% и числе степеней свободы Y = n – 2.

    Величина коэффициента корреляции позволяет выяснить тесноту (силу) и направление связи, однако этим не исчерпываются возможности изучения сопряженности между признаками. Более того, во многих исследованиях возникает необходимость изучить не столько меру корреляции, сколько ее форму и характер изменения одного признака в зависимости от изменения другого, т.е. количественное изменение связанных друг с другом показателей или признаков. Последнее особенно важно в тех случаях, когда фактические наблюдения не охватывают всего разнообразия признака и цель исследования заключается в том, чтобы выяснить взаимозависимости между недостающими данными. Эти задачи решаются методами регрессионного анализа.

    Термин регрессия был введен Гальтоном в связи с изучением им наследования признаков родителей потомством.

    2. Схема корреляционно-регрессионного анализа

    Регрессией называется изменение функции при определенных изменениях одного или нескольких аргументов. Функцией называется признак, зависящий от другого – аргумента. Зависимость функции от аргумента может быть или физиологической или условно принятой в исследовании. Примером физиологической зависимости может служить зависимость веса животного (функции) от его возраста (аргумента).

    Термин «функция» употребляется не только для обозначения признака, который зависит от аргумента, но и для обозначения формы этой зависимости. Вскрыть функцию – значит найти закономерность, по которой изменяется изучаемый признак в зависимости от изменения одного или нескольких других признаков.

    Третьим основным показателем корреляционной связи является коэффициент регрессии – byx, показывающий, в каком направлении и на какую величину в среднем изменяется функция (y) при изменении аргумента (x) на единицу измерения. Кроме того коэффициент регрессии необходим для вычисления теоретических значений результативного признака для любых значений факториального. Коэффициент регрессии измеряется в тех же единицах, что и функция, и имеет тот же знак, что и его коэффициент корреляции. Вычисляется коэффициент регрессии по формуле:

    byx = Σ (x – xср)× (y – yср) / Σ (x – xср) 2.

    Числитель этой формулы представляет собой сумму произведений отклонений значений x и y от своих средних значений, а знаменатель – сумму квадратов отклонений от средних значений.

    При регрессионном анализе производят обычно две оценки выборочных коэффициентов регрессии:

    а) оценку существенности коэффициента регрессии;

    б) критерий существенности регрессии.

    Оценка существенности коэффициента регрессии позволяет убедиться в том, что зависимость между сопоставляемыми признаками не случайна, а статистически значима. Для этого рассчитывают ошибку коэффициента регрессии:

    Sbyx= Sr √ Σ (x –xср) 2 / Σ (y – yср) 2

    Критерий существенности для коэффициента регрессии:

    tb= b/ Sb.

    При этом следует помнить, что tb = tr и byx*byx = r2. Это может служить для проверки правильности расчетов.

    В ряде случаев исследователю важно не только установить наличие связи между изучаемыми показателями, но и выразить эту связь в виде математического уравнения. Это требуется в случаях, когда необходимо вычислить неизвестную величину по известным значениям. Например, зная запас минеральных элементов в почве, вычислить урожай культуры. Уравнение, связывающее величины x и y, носит название уравнения регрессии.

    Регрессионный анализ заключается в том, чтобы отыскать линию (прямую – в случае линейной корреляции, параболу первого, второго и т.д. порядка при криволинейной зависимости), наиболее точно выражающую зависимость одного признака от другого. Кроме того, при помощи регрессионного анализа можно выяснить ошибку опытных данных, влияющих на конечные результаты исследования.

    Наглядным способом выражения корреляционной зависимости служит построение специальных графиков. Поэтому после установления существенности коэффициента регрессии составляют уравнение регрессии, т.е. математическую формулу для данной корреляционной связи. В природе существует множество явлений, обусловленных множеством причин. Поэтому существует много форм зависимости функций от различных аргументов. Исследование этих форм, выраженных математическими уравнениями, составляет основное содержание учения о регрессии признаков. Вскрывая усредненное течение функции, исследователь выявляет ту закономерность изучаемого явления, которая в эмпирическом ряду была скрыта случайностями своего проявления. Эта вскрытая закономерность, выраженная формулой или теоретическим рядом регрессии, помогает более точно, с меньшими ошибками дать описание внешних проявлений закономерности, что, в свою очередь, может помочь вскрытию и внутренних факторов, управляющих данным явлением. В этом и заключается познавательное значение исследование регрессии различных признаков у биологических объектов. Каждый выровненный ряд дает возможность определить значение функции при любом значении аргумента (или нескольких аргументов). Это обстоятельство дает возможность использовать ряды и уравнения регрессии при определении значений таких признаков, непосредственное измерение которых в обычных условиях или невозможно или затруднительно. В простой линейной корреляции уравнение имеет вид:

    Регрессионный анализ заключается в том, чтобы отыскать линию (прямую – в случае линейной корреляции, параболу первого, второго и т.д. порядка при криволинейной зависимости), наиболее точно выражающую зависимость одного признака от другого. Кроме того, при помощи регрессионного анализа можно выяснить ошибку опытных данных, влияющих на конечные результаты исследования.

    Наглядным способом выражения корреляционной зависимости служит построение специальных графиков. Поэтому после установления существенности коэффициента регрессии составляют уравнение регрессии, т.е. математическую формулу для данной корреляционной связи. В простой линейной корреляции уравнение имеет вид:

    y0 = y + byx (x –xср), где

    y0 – теоретическое значение признака;

    y– средняя арифметическая признака;

    x – средняя арифметическая признака;

    byx - коэффициент регрессии.

    С помощью уравнения регрессии корреляционная связь изображается графически в системе координат в виде линии регрессии.

    Для построения теоретической линии регрессии в формулу уравнения подставляют значения y, x, byx. После этого берут два экстремальных значения x (xmin; xmax) и вычисляют соответствующие им значения y. Строят систему координат в масштабе значений, соответствующих изменениям значений y и x. В этой системе находят две экстремальные точки (xmin ; ymin) (xmax ; ymax), по которым и строят линию регрессии.

    После построения линии регрессии в этой же системе координат наносят в виде точек фактические экспериментальные значения y и x. Если разброс точек осуществляется вокруг теоретической линии, значит, расчет сделан, верно, и построенный график может быть использован для научных и практических целей.

    3. Множественная корреляция

    В практике сельскохозяйственного экспериментирования встречаются задачи, когда исследуемая зависимость между двумя признаками определяется влиянием третьего признака. Например, продуктивность колоса характеризуют длина колоса, число семян в колосе и их величина. Все эти признаки варьируют под влиянием условий произрастания, однако число зерен находится в прямой зависимости с размером (длиной) колоса, а крупность – в обратной связи с количеством семян в колосе. Практический интерес представляет коррелятивная связь между длиной колоса и крупностью семян в колосе.

    Для того, чтобы выяснить в таких исследованиях, влияет или не влияет третий признак на корреляционную связь между первым и вторым признаком, необходимо исследовать эту связь при постоянных значениях третьего признака. Постоянное значение признака означает, что с чисто внешней стороны невозможно подметить статистического влияния этого признака на все остальные. При постоянном значении признака возможно только констатировать, что в изменчивости других признаков нет его влияния: он постоянен, а другие признаки изменяются. Поэтому, коэффициент корреляции между первым и вторым признаком при постоянном значении третьего считают коэффициентом корреляции между двумя признаками при исключительном влиянии третьего. Такой показатель носит название частного коэффициента корреляции.

    В этом случае для определения формы и тесноты связи нескольких факторов рассчитывают коэффициенты частной и множественной корреляции. При множественной линейной корреляции на величину функции одновременно влияют несколько переменных величин.

    Частные коэффициенты корреляции для трех факторов определяют форму и тесноту связи между двумя из них при постоянном значении третьего. Вычисляют их по формулам:

    rxy*z = rxy– rxz×ryz / √ (1 – r2xy ) (1 – r2 yz);

    rxz*y = rxz – rxy × ryz / √ (1 – r2xy) (1 – r2yz);

    ryz * x = ryz – rxy × rxz / √ (1 – r2xy) (1 – r2xz).

    Для определения существенности частных коэффициентов корреляции определяют их ошибки и критерии существенности:

    Srxy*z = √ 1 – r2xy × z / n – 2;

    tr = r / Sr

    Множественные коэффициенты корреляции являются показателями формы и тесноты связи одного фактора с совокупностью других. Множественный коэффициент корреляции может изменяться в пределах от 0 до 1.

    Значимость множественного коэффициента корреляции определяется с помощью критерия Фишера по формуле:

    F = R2 / 1 – R2 × (n – k / k – 1), где

    n - объем выборки;

    k – число изучаемых факторов;

    F0,5 и F0,1 определяются из данных таблиц при Y = k – 1 и Y = n – k.

    Если Fфакт ≥ Fтеор, связь существенна.

    4. Криволинейная корреляция

    При криволинейном типе связи с увеличением одного фактора другой коррелирующий с ним сначала увеличивается, а затем уменьшается или наоборот. В связи с этим коэффициент корреляции не дает правильного представления о степени связи между признаками. Тогда вычисляют показатель криволинейной зависимости, так называемое корреляционное отношение η(эта), представляющее собой отношение двух дисперсий: дисперсия групповых средних и общей дисперсии. Иначе говоря, корреляционное отношение отвечает на вопрос: какую часть общей дисперсии результативного признака составляет дисперсия частных средних этого признака.

    Корреляционное отношение не показывает направление связи так как оно всегда имеет положительный знак и принимает значения от нуля до единицы. При η = 1 корреляционная связь превращается в функциональную, при η = 0 связь отсутствует. Корреляционное отношение может применяться для вычисления независимого фактора, хорошо коррелирующего с зависимым фактором.

    Корреляционное отношение вычисляется по формулам:

    η xy=√ Σ (y – yср) 2 – (y –yx)2 /Σ (y – yср)2 – для малых выборок

    η xy = √ Σ ƒ(yx – yср)2 / Σ η (y – yср)2 – для больших выборок

    Существенность корреляционного отношения определяют с помощью его ошибки и критерия существенности:

    Sη = √ 1 – η 2 / n -2; tη = η / Sη

    Свойства корреляционного отношения

    Основным свойством корреляционного отношения является способность измерять корреляцию при любой ее форме.

    Кроме того, корреляционное отношение обладает рядом других свойств, представляющих большой интерес в статистическом анализе корреляционных связей.

    В отличие от коэффициента корреляции, который дает одинаковую меру связи признаков первого со вторым и второго с первым, корреляционное отношение второго признака по первому обычно не бывает равно корреляционному отношению первого признака по второму:

    На первый взгляд это кажется невозможным. Казалось бы, между двумя признаками может только одна связь, которая в данный момент всегда равна самой себе независимо от того с какого признака мы начинаем ее измерять: от второго к первому или наоборот.

    На самом деле это положение не всегда подтверждается практикой измерения обратных связей в биологии и сельском хозяйстве.

    Конечно, если изучается связь между такими парами признаков, как длина и ширина тела, цвет волос и цвет глаз, вес и объем продукта, урожайность на соседних делянках, равенство обратных связей не подлежит сомнению.

    Однако существуют такие пары коррелируемых признаков, для которых очевидно, что обратные связи не могут быть равны. Например, связь с возрастом различных признаков животных и растений всегда имеет характер односторонней изменчивости. Вес, размеры, объем, продуктивность, плодовитость, жизненность имеют явную зависимость от возраста, при этом сам возраст изменяется совершенно независимо от этих признаков: он регулярно и неотвратимо увеличивается с каждым днем, месяцем, годом. Связь урожая с количеством осадков или с температурой также имеет характер явно односторонней зависимости: урожай связан с температурой воздуха, но температура воздуха не как не зависит от урожая.

    Это неравенство обратных связей между условиями жизни и жизненными функциями и отражается в неравенстве двух обратных корреляционных отношений.

    5. Корреляционно-регрессионные модели и их применение в анализе и прогнозе

    Корреляционно-регрессионной моделью системы взаимосвязанных признаков является такое уравнение регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладает высоким (не ниже 0,5) коэффициентами детерминации и коэффициентами регрессии, интерпретируемыми в соответствии с теоретическим знанием о природе связей в изучаемой системе. Параметры уравнения оцениваются методом наименьших квадратов. Уравнение регрессии должно быть линейным по параметрам.

    Если уравнение регрессии отражает нелинейность связи между переменными, то регрессия приводится к линейному виду путем замены переменных или их логарифмирования.

    Если коэффициент детерминации близок к единице, то с помощью уравнения регрессии можно предсказать, каким будет значение зависимой переменной для того или иного ожидаемого значения одной или нескольких независимых переменных.

    Приведенное определение корреляционно-регрессионной модели включает достаточно строгие условия: далеко не всякое уравнение регрессии можно считать моделью.

    Теория и практика выработали ряд рекомендаций для построения корреляционно-регрессионной модели.

    1. Признаки – факторы должны находиться в причинной связи с результативным признаком (следствием).

    2. Признаки - факторы не должны быть составными частями результативного признака или его функциями.

    3. Признаки – факторы не должны дублировать друг друга, т.е. быть коллинеарными (с коэффициентом корреляции более 0,8).

    4. Не следует включать в модель факторы разных уровней иерархии, т.е. фактор ближайшего порядка и его субфакторы.

    5. Важно, чтобы для результативного признака и факторов соблюдалось единство единицы совокупности, к которой они отнесены.

    6. Математическая форма уравнения регрессии должна соответствовать логике связи факторов с результатом в реальном объекте.

    7. Принцип простоты: предпочтительнее модель с меньшим числом факторов при том же коэффициенте детерминации или даже при несущественно меньшем.

    Контрольные вопросы




    Контрольные вопросы

    1. Что такое функциональная и корреляционная связь, в чем их различие?
    2. С помощью каких показателей оценивается корреляционная связь?
    3. Что такое коэффициент простой линейной корреляции, какие значения он может принимать?
    4. В чем суть и значение коэффициента регрессии?
    5. Что такое доверительная зона регрессии?
    6. В чем смысл коэффициента детерминации?

© ФГОУ ВПО Красноярский государственный аграрный университет

© Центр дистанционного обучения