4 spôsoby, ako nájsť korelačný koeficient

Korelačný koeficient, označovaný ako r alebo ρ, je mierou lineárnej korelácie (vzťahu, čo sa týka sily aj smeru) medzi dvoma premennými. Pohybuje sa od -1 do +1, pričom znamienka plus a mínus sa používajú na vyjadrenie kladnej a zápornej korelácie. Ak je korelačný koeficient presne -1, potom je vzťah medzi dvoma premennými dokonale negatívny; ak je korelačný koeficient presne +1, potom je vzťah dokonale pozitívny. V opačnom prípade môžu mať dve premenné pozitívnu koreláciu, negatívnu koreláciu alebo žiadnu koreláciu. Koreláciu môžete vypočítať ručne, pomocou niektorých bezplatných korelačných kalkulačiek dostupných na internete alebo pomocou štatistických funkcií dobrej grafickej kalkulačky.

Metóda 1 zo 4:Zistenie korelačného koeficientu ručne


Zostavte svoje údaje. Ak chcete začať s výpočtom efektívnej korelácie, najprv preskúmajte svoje dvojice údajov. Je užitočné ich zoradiť do tabuľky, buď vertikálne alebo horizontálne. Označte každý riadok alebo stĺpec x a y.[1]

  • Predpokladajme, že máte napríklad štyri dvojice údajov pre x a y. Vaša tabuľka môže vyzerať takto:
    • x || y
    • 1 || 1
    • 2 || 3
    • 4 || 5
    • 5 || 7


Vypočítajte priemer x. Aby ste vypočítali priemer, musíte sčítať všetky hodnoty x, potom vydeľte počtom hodnôt.[2]

  • Na základe uvedeného príkladu si všimnite, že máte štyri hodnoty pre x. Ak chcete vypočítať priemer, spočítajte všetky hodnoty uvedené pre x, potom vydeľte číslom 4. Váš výpočet by vyzeral takto:
  • μx=(1+2+4+5)/4{\displaystyle \mu _{x}=(1+2+4+5)/4}
  • μx=12/4{\displaystyle \mu _{x}=12/4}
  • μx=3{\displaystyle \mu _{x}=3}


Nájdite strednú hodnotu y. Na zistenie strednej hodnoty y, postupujte rovnako, sčítajte všetky hodnoty y a potom ich vydeľte počtom hodnôt.[3]

  • Vo vyššie uvedenom príklade máte tiež štyri hodnoty pre y. Všetky tieto hodnoty spočítajte a potom vydeľte číslom 4. Vaše výpočty by vyzerali takto:
  • μy=(1+3+5+7)/4{\displaystyle \mu _{y}=(1+3+5+7)/4}
  • μy=16/4{\displaystyle \mu _{y}=16/4}
  • μy=4{\displaystyle \mu _{y}=4}


Určte štandardnú odchýlku x. Keď máte stredné hodnoty, môžete vypočítať štandardnú odchýlku. Na tento účel použite vzorec: [4]

  • σx=1n1Σ(xμx)2{\displaystyle \sigma _{x}={\sqrt {{\frac {1}{n-1}}\Sigma (x-\mu _{x})^{2}}}}
  • So vzorovými údajmi by vaše výpočty mali vyzerať takto:
  • σx=141((13)2+(23)2+(43)2+(53)2){\displaystyle \sigma _{x}={\sqrt {{\frac {1}{4-1}}*((1-3)^{2}+(2-3)^{2}+(4-3)^{2}+(5-3)^{2})}}}
  • σx=13(4+1+1+4){\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(4+1+1+4)}}}
  • σx=13(10){\displaystyle \sigma _{x}={\sqrt {{\frac {1}{3}}*(10)}}}
  • σx=103{\displaystyle \sigma _{x}={\sqrt {\frac {10}{3}}}}
  • σx=1.83{\displaystyle \sigma _{x}=1.83}


Vypočítajte štandardnú odchýlku y. Pomocou rovnakých základných krokov nájdite štandardnú odchýlku y. Použijete ten istý vzorec s použitím dátových bodov y.[5]

  • S ukážkovými údajmi by vaše výpočty mali vyzerať takto:
  • σy=141((14)2+(34)2+(54)2+(74)2){\displaystyle \sigma _{y}={\sqrt {{\frac {1}{4-1}}*((1-4)^{2}+(3-4)^{2}+(5-4)^{2}+(7-4)^{2})}}}
  • σy=13(9+1+1+9){\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(9+1+1+9)}}}
  • σy=13(20){\displaystyle \sigma _{y}={\sqrt {{\frac {1}{3}}*(20)}}}
  • σy=203{\displaystyle \sigma _{y}={\sqrt {\frac {20}{3}}}}
  • σy=2.58{\displaystyle \sigma _{y}=2.58}


Zopakujte si základný vzorec na zistenie korelačného koeficientu. Vzorec na výpočet korelačného koeficientu používa stredné hodnoty, štandardné odchýlky a počet párov v súbore údajov (reprezentovaný n). Samotný korelačný koeficient je reprezentovaný malým písmenom r alebo malým gréckym písmenom rho, ρ. V tomto článku použijete vzorec známy ako Pearsonov korelačný koeficient, ktorý je uvedený nižšie: [6]

  • ρ=(1n1)Σ(xμxσx)(yμyσy){\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\right)}
  • Tu alebo v iných textoch si môžete všimnúť drobné odchýlky vo vzorci. Niektorí používajú napríklad grécky zápis s rho a sigma, zatiaľ čo iní používajú r a s. Niektoré texty môžu uvádzať mierne odlišné vzorce, ktoré však budú matematicky ekvivalentné s týmto vzorcom.


Nájdite korelačný koeficient. Teraz máte stredné hodnoty a štandardné odchýlky pre vaše premenné, takže môžete pristúpiť k použitiu vzorca pre korelačný koeficient. Pamätajte si, že n predstavuje počet hodnôt, ktoré máte. Ostatné relevantné informácie ste už vypracovali vo vyššie uvedených krokoch.[7]

  • Pomocou vzorových údajov by ste zadali údaje do vzorca korelačného koeficientu a vypočítali by ste ich nasledovne:
  • ρ=(1n1)Σ(xμxσx)(yμyσy){\displaystyle \rho =\left({\frac {1}{n-1}}\right)\Sigma \left({\frac {x-\mu _{x}}{\sigma _{x}}}\right)*\left({\frac {y-\mu _{y}}{\sigma _{y}}}\right)}
  • ρ=(13){\displaystyle \rho =\left({\frac {1}{3}}\right)*}

    [

    (131.83)(142.58)+(231.83)(342.58){\displaystyle \left({\frac {1-3}{1.83}}\right)*\left({\frac {1-4}{2.58}}\right)+\left({\frac {2-3}{1.83}}\right)*\left({\frac {3-4}{2.58}}\right)}

       

    +(431.83)(542.58)+(531.83)(742.58){\displaystyle +\left({\frac {4-3}{1.83}}\right)*\left({\frac {5-4}{2.58}}\right)+\left({\frac {5-3}{1.83}}\right)*\left({\frac {7-4}{2.58}}\pravo)}

    ]

  • ρ=(13)(6+1+1+64.721){\displaystyle \rho =\left({\frac {1}{3}}\right)*\left({\frac {6+1+1+6}{4.721}}\right)}
  • ρ=(13)2.965{\displaystyle \rho =\left({\frac {1}{3}}\right)*2.965}
  • ρ=(2.9653){\displaystyle \rho =\left({\frac {2.965}{3}}\right)}
  • ρ=0.988{\displaystyle \rho =0.988}


Interpretujte svoj výsledok. Pre tento súbor údajov je korelačný koeficient 0.988. Toto číslo vám o údajoch povie dve veci. Pozrite sa na znamienko čísla a veľkosť čísla.[8]

  • Keďže korelačný koeficient je kladný, môžeme povedať, že medzi údajmi x a y existuje kladná korelácia. To znamená, že s rastúcimi hodnotami x sa očakáva, že sa budú zvyšovať aj hodnoty y.
  • Keďže korelačný koeficient je veľmi blízky +1, údaje x a y sú veľmi úzko prepojené. Ak by ste tieto body znázornili graficky, videli by ste, že tvoria veľmi dobrú aproximáciu priamky.

Metóda 2 zo 4:Používanie online korelačných kalkulačiek


Vyhľadajte na internete korelačné kalkulačky. Meranie korelácie je pre štatistikov pomerne štandardný výpočet. Výpočet môže byť veľmi zdĺhavý, ak sa robí ručne pre veľké súbory údajov. V dôsledku toho mnohé zdroje sprístupnili online korelačné kalkulačky. Použite akýkoľvek vyhľadávač a zadajte hľadaný výraz „korelačná kalkulačka.“


Zadajte svoje údaje. Pozorne si prečítajte pokyny na webovej stránke, aby ste údaje zadali správne. Je dôležité, aby vaše dvojice údajov boli usporiadané, inak vygenerujete nesprávny výsledok korelácie. Na rôznych webových stránkach sa používajú rôzne formáty na zadávanie údajov.

  • Napríklad na webovej stránke http://ncalculators.com/statistics/correlation-coefficient-calculator.htm, nájdete jedno vodorovné pole na zadávanie hodnôt x a druhé vodorovné pole na zadávanie hodnôt y. Zadáte svoje výrazy oddelené iba čiarkami. Súbor údajov x, ktorý bol vypočítaný skôr v tomto článku, by teda mal byť zadaný ako 1,2,4,5. Súbor údajov y by mal byť 1,3,5,7.
  • Na inom mieste, http://www.alcula.com/calculculators/statistics/correlation-coefficient/, údaje môžete zadávať horizontálne alebo vertikálne, pokiaľ zachováte poradie dátových bodov.


Vypočítajte svoje výsledky. Tieto stránky s výpočtom sú obľúbené, pretože po zadaní údajov zvyčajne stačí kliknúť na tlačidlo s nápisom „Vypočítať“ a výsledok sa zobrazí automaticky.

Metóda 3 zo 4:Používanie grafických kalkulačiek


Zadajte svoje údaje. Pomocou ručnej grafickej kalkulačky zadajte funkciu štatistiky kalkulačky a potom vyberte príkaz „Edit“.[9]

  • Každá kalkulačka bude mať mierne odlišné klávesové príkazy. V tomto článku sú uvedené konkrétne pokyny pre Texas Instruments TI-86.
  • Do funkcie Stat vstúpte stlačením tlačidla [2nd]-Stat (nad klávesom +) a potom stlačte kláves F2-Edit.


Vymažte všetky staré uložené údaje. Väčšina kalkulačiek uchováva štatistické údaje až do vymazania. Aby ste sa uistili, že si nepomýlite staré údaje s novými údajmi, mali by ste najprv vymazať všetky predtým uložené informácie.[10]

  • Pomocou klávesov so šípkami posuňte kurzor tak, aby ste zvýraznili nadpis „xStat.“ Potom stlačte Clear a Enter. Toto by malo vymazať všetky hodnoty v stĺpci xStat.
  • Pomocou klávesov so šípkami zvýraznite nadpis yStat. Stlačením tlačidla Clear a Enter vyprázdnite údaje aj z tohto stĺpca.


Zadajte hodnoty údajov. Pomocou klávesov so šípkami presuňte kurzor na prvé miesto pod nadpisom xStat. Zadajte prvú hodnotu údajov a potom stlačte kláves Enter. V spodnej časti obrazovky by sa malo zobraziť miesto „xStat(1)=__“, pričom prázdne miesto vyplní vaša hodnota. Keď stlačíte kláves Enter, údaje vyplnia tabuľku, kurzor sa presunie na ďalší riadok a na riadku v dolnej časti obrazovky by teraz malo byť napísané „xStat(2)=__.“[11]

  • Pokračujte v zadávaní všetkých hodnôt údajov x.
  • Po vyplnení údajov x sa pomocou klávesov so šípkami presuňte do stĺpca yStat a zadajte hodnoty údajov y.
  • Po zadaní všetkých údajov stlačte tlačidlo Exit, čím vymažete obrazovku a opustíte ponuku Stat.


Vypočítajte štatistiku lineárnej regresie. Korelačný koeficient je mierou toho, ako dobre sa údaje približujú priamke. Štatistická grafická kalkulačka dokáže veľmi rýchlo vypočítať najlepšie vyhovujúcu priamku a korelačný koeficient.[12]

  • Zadajte funkciu Stat a potom stlačte tlačidlo Calc. Na TI-86 je to [2nd][Stat][F1].
  • Zvoľte Linear Regression calculations (Výpočty lineárnej regresie). Na TI-86 je to [F3], ktorá je označená ako „LinR.“ Na grafickej obrazovke by sa potom mal zobraziť riadok „LinR _“ s blikajúcim kurzorom.
  • Teraz musíte zadať názvy dvoch premenných, ktoré chcete vypočítať. Sú to xStat a yStat.
    • Na TI-86 vyberte zoznam názvov stlačením tlačidla [2nd][List][F3].
    • V dolnom riadku obrazovky by sa teraz mali zobraziť dostupné premenné. Vyberte [xStat] (pravdepodobne je to tlačidlo F1 alebo F2), potom zadajte čiarku a potom [yStat].
    • Stlačením tlačidla Enter vypočítajte údaje.


Interpretujte svoje výsledky. Keď stlačíte tlačidlo Enter, kalkulačka okamžite vypočíta nasledujúce informácie pre údaje, ktoré ste zadali: [13]

  • y=a+bx{\displaystyle y=a+bx}

     : Toto je všeobecný vzorec pre priamku. Namiesto známeho „y=mx+b“ je však tento vzorec uvedený v opačnom poradí.

  • a={\displaystyle a=}

    . Toto je hodnota y-priebehu najpresnejšej priamky.

  • b={\displaystyle b=}

    . Toto je sklon priamky s najlepšou zhodou.

  • corr={\displaystyle {\text{corr}}=}

    . Toto je korelačný koeficient.

  • n={\displaystyle n=}

    . Toto je počet dvojíc údajov, ktoré boli použité pri výpočte.

Metóda 4 zo 4:Preskúmanie základov


Pochopte pojem korelácie. Korelácia sa vzťahuje na štatistický vzťah medzi dvoma veličinami. Korelačný koeficient je jedno číslo, ktoré môžete vypočítať pre ľubovoľné dve sady dátových bodov. Toto číslo bude vždy niečo medzi -1 a +1 a udáva, ako tesne spolu súvisia dva súbory údajov.[14]

  • Ak by ste napríklad merali výšku a vek detí do veku približne 12 rokov, očakávali by ste, že nájdete silnú pozitívnu koreláciu. Ako deti starnú, majú tendenciu byť vyššie.
  • Príkladom negatívnej korelácie môžu byť údaje porovnávajúce čas, ktorý osoba strávila nácvikom golfových úderov, a golfové skóre tejto osoby. S pribúdajúcou praxou by sa malo skóre znižovať.
  • Nakoniec by ste očakávali veľmi malú koreláciu, či už pozitívnu alebo negatívnu, napríklad medzi veľkosťou topánok a výsledkami na skúške SAT.


Vedieť, ako nájsť priemer. Aritmetický priemer alebo „priemer“ súboru údajov sa vypočíta tak, že sa spočítajú všetky hodnoty údajov a potom sa vydelia počtom hodnôt v súbore. Pri hľadaní korelačného koeficientu pre vaše údaje budete musieť vypočítať strednú hodnotu každého súboru údajov.[15]

  • Stredná hodnota premennej je označená premennou s vodorovnou čiarou nad ňou. Toto sa často označuje ako „x-bar“ alebo „y-bar“ pre súbory údajov x a y. Alternatívne môže byť priemer označený malým gréckym písmenom mu, μ. Na označenie strednej hodnoty bodov údajov x by ste mohli napríklad napísať μx alebo μ(x).
  • Ako príklad môžeme uviesť, že ak máme súbor x-dátových bodov (1,2,5,6,9,10), potom sa stredná hodnota týchto údajov vypočíta nasledovne:
    • μx=(1+2+5+6+9+10)/6{\displaystyle \mu _{x}=(1+2+5+6+9+10)/6}
    • μx=33/6{\displaystyle \mu _{x}=33/6}
    • μx=5.5{\displaystyle \mu _{x}=5.5}


Všimnite si význam smerodajnej odchýlky. V štatistike sa štandardnou odchýlkou meria variabilita, ktorá ukazuje, ako sú čísla rozložené vo vzťahu k priemeru. Skupina čísel s nízkou štandardnou odchýlkou je pomerne tesne zhromaždená. Skupina čísel s vysokou štandardnou odchýlkou je značne rozptýlená.[16]

  • Symbolicky sa štandardná odchýlka vyjadruje buď malým písmenom s, alebo malým gréckym písmenom sigma, σ. Štandardná odchýlka údajov x sa teda zapisuje buď ako sx alebo σx.

  • Rozpoznajte súčtový zápis. Operátor sčítania je jedným z najbežnejších operátorov v matematike, ktorý označuje súčet hodnôt. Je reprezentovaný veľkým gréckym písmenom sigma alebo ∑.[17]

    • Ako príklad môžeme uviesť, že ak máte súbor bodov x (1,2,5,6,9,10), potom ∑x znamená:
      • 1+2+5+6+9+10 = 33.
  • Odkazy