4 spôsoby výpočtu kovariancie

Kovariancia je štatistický výpočet, ktorý vám pomôže pochopiť, ako spolu súvisia dva súbory údajov. Predpokladajme napríklad, že antropológovia skúmajú výšku a hmotnosť populácie ľudí v nejakej kultúre. Pre každú osobu v štúdii možno výšku a hmotnosť reprezentovať dvojicou údajov (x,y). Tieto hodnoty možno použiť so štandardným vzorcom na výpočet kovariančného vzťahu. V tomto článku najprv vysvetlíme výpočty, ktoré sú súčasťou zisťovania kovariancie súboru údajov. Následne sa bude venovať ďalším dvom automatizovaným spôsobom, ako zistiť výsledok.

Metóda 1 zo 4:Ručný výpočet kovariancie pomocou štandardného vzorca


Naučte sa štandardný kovariančný vzorec a jeho časti. Štandardný vzorec na výpočet kovariancie je

Σ(xixavg)(yiyavg)/(n1){\displaystyle \Sigma (x_{i}-x_{\text{avg}})(y_{i}-y_{\text{avg}})/(n-1)}

. Aby ste mohli použiť tento vzorec, musíte pochopiť význam premenných a symbolov: [1]

  • Σ{\displaystyle \Sigma }

    – Tento symbol je grécke písmeno „sigma.“ V matematických funkciách znamená sčítanie radu čohokoľvek, čo nasleduje po ňom. V tomto vzorci znamienko Σ znamená, že vypočítate hodnoty, ktoré nasledujú v čitateli zlomku, a pred vydelením menovateľom ich všetky spočítate.[2]

  • xi{\displaystyle x_{i}}

    – Táto premenná sa číta ako „x sub i.“ Index i predstavuje počítadlo. Znamená to, že výpočet vykonáte pre každú hodnotu x, ktorú máte vo svojom súbore údajov.

  • xavg{\displaystyle x_{avg}}

    – „avg“ znamená, že x(avg) je priemerná hodnota všetkých vašich údajov x. Priemer sa niekedy zapisuje aj ako x s krátkou vodorovnou čiarou nakreslenou nad ním. V tomto štýle sa premenná číta ako „x-bar“, ale stále znamená priemer súboru údajov.

  • yi{\displaystyle y_{i}}

    – Táto premenná sa číta ako „y sub i.“ Index i predstavuje počítadlo. To znamená, že výpočet vykonáte pre každú hodnotu y, ktorú máte vo svojom súbore údajov.

  • yavg{\displaystyle y_{avg}}

    – „avg“ znamená, že y(avg) je priemerná hodnota všetkých vašich dátových bodov y. Priemer sa niekedy zapisuje aj ako y s krátkou vodorovnou čiarou nakreslenou nad ním. V tomto štýle sa premenná číta ako „y-bar“, ale stále znamená priemer súboru údajov.

  • n{\displaystyle n}

    – Táto premenná predstavuje počet položiek vo vašom súbore údajov. Nezabudnite, že v prípade kovariančného problému sa jedna „položka“ skladá z hodnoty x aj hodnoty y. Hodnota n je počet dvojíc dátových bodov, nie jednotlivých čísel.


Vytvorte svoju tabuľku údajov. Predtým, ako začnete pracovať, je užitočné zhromaždiť údaje. Mali by ste vytvoriť tabuľku, ktorá pozostáva z piatich stĺpcov. Každý stĺpec by ste mali označiť takto:

  • x{\displaystyle x}

    – vyplňte tento stĺpec hodnotami vašich x-dátových bodov.

  • y{\displaystyle y}

    – vyplňte tento stĺpec hodnotami vašich y-dátových bodov. Dávajte pozor, aby ste hodnoty y zarovnali s príslušnými hodnotami x. V kovariančnom probléme je dôležité poradie dátových bodov a dvojice x a y.

  • (xixavg){\displaystyle (x_{i}-x_{\text{avg}})}

    – Na začiatku nechajte tento stĺpec prázdny. Po výpočte priemeru x-ových bodov údajov ju vyplníte údajmi.

  • (yiyavg){\displaystyle (y_{i}-y_{\text{avg}})}

    – Na začiatku nechajte tento stĺpec prázdny. Vyplníte ho údajmi po výpočte priemeru y-ových bodov.

  • Súčin{\displaystyle {\text{Produkt}}

    – Tento posledný stĺpec tiež nechajte prázdny. Vyplníte ho priebežne.


Vypočítajte priemer dátových bodov x. Tento vzorový súbor údajov obsahuje 9 čísel. Ak chcete zistiť priemer, spočítajte ich a súčet vydeľte číslom 9. Výsledok je 1+3+2+5+8+7+12+2+4=44. Keď vydelíte 9, priemer je 4.89. Toto je hodnota, ktorú použijete ako x(avg) pri nasledujúcich výpočtoch.[3]


Vypočítajte priemer y-údajových bodov. Podobne stĺpec y by mal pozostávať z 9 dátových bodov, ktoré sa zhodujú s dátovými bodmi x. Nájdite priemer týchto hodnôt. Pre tento vzorový súbor údajov to bude 8+6+9+4+3+3+2+7+7=49. Tento súčet vydeľte 9, aby ste získali priemer 5.44. Použijete 5.44 ako hodnota y(avg) pre nasledujúce výpočty.[4]


Vypočítajte

(xixavg){\displaystyle (x_{i}-x_{\text{avg}})}

. Pre každú položku v stĺpci x musíte nájsť rozdiel medzi týmto číslom a priemernou hodnotou. Pre tento vzorový problém to znamená, že odčítame 4.89 z každého bodu údajov x. Ak je pôvodný bod údajov menší ako priemer, váš výsledok bude záporný. Ak je pôvodný údajový bod väčší ako priemer, váš výsledok bude kladný. Dbajte na to, aby ste sledovali záporné znamienka.[5]

  • Napríklad prvý údaj v stĺpci x je 1. Hodnota, ktorú treba zadať do prvého riadku
    (xixavg){\displaystyle (x_{i}-x_{\text{avg}})}

    stĺpec je 1-4.89, čo je -3.89.

  • Postup opakujte pre každý dátový bod. Preto bude druhý riadok 3-4.89, čo je -1.89. Tretí riadok bude 2-4.89 alebo -2.89. Pokračujte v procese pre všetky dátové body. Deväť čísel v tomto stĺpci by malo byť -3.89, -1.89, -2.89, 0.11, 3.11, 2.11, 7.11, -2.89, -0.89.


Vypočítajte

(yiyavg){\displaystyle (y_{i}-y_{\text{avg}})}

hodnoty. V tomto stĺpci vykonáte podobné odčítania, pričom použijete y-dátové body a y priemer. Ak je pôvodný bod údajov menší ako priemer, váš výsledok bude záporný. Ak je pôvodný údajový bod väčší ako priemer, váš výsledok bude kladný. Uistite sa, že sledujete záporné znamienka.[6]

  • Pre prvý riadok bude teda váš výpočet 8-5.44, čo je 2.56.
  • Druhá línia bude 6-5.44, čo je 0.56.
  • Pokračujte v týchto odpočtoch až do konca zoznamu údajov. Keď skončíte, deväť hodnôt v tomto stĺpci by malo byť 2.56, 0.56, 3.56, -1.44, -2.44, -2.44, -3.44, 1.56, 1.56.


Vypočítajte súčin pre každý riadok údajov. Riadky posledného stĺpca vyplníte vynásobením čísel, ktoré ste vypočítali v predchádzajúcich dvoch stĺpcoch

(xixavg){\displaystyle (x_{i}-x_{\text{avg}})}

a

(yiyavg){\displaystyle (y_{i}-y_{\text{avg}})}

. Dávajte pozor, aby ste pracovali po riadkoch, a vynásobte dve čísla pre príslušné dátové body. Sledujte všetky záporné znamienka.[7]

  • V prvom riadku tejto vzorky údajov
    (xixavg){\displaystyle (x_{i}-x_{\text{avg}})}

    ktorý ste vypočítali, je -3.89 a

    (yiyavg){\displaystyle (y_{i}-y_{\text{avg}})}

    hodnota je 2.56. Súčin týchto dvoch čísel je -3.89*2.56=-9.96.

  • V druhom riadku vynásobíte dve čísla -1.88*0.56=-1.06.
  • Pokračujte v násobení riadok po riadku až do konca súboru údajov. Keď skončíte, deväť hodnôt v tomto stĺpci by malo byť -9.96, -1.06, -10.29, -0.16, -7.59, -5.15, -24.46, -4.51, -1.39.


Zistite súčet hodnôt v poslednom stĺpci. Tu prichádza na rad symbol Σ. Po vykonaní všetkých výpočtov, ktoré ste doteraz vykonali, spočítate výsledky. Pre tento vzorový súbor údajov by ste mali mať v poslednom stĺpci deväť hodnôt. Súčet týchto deviatich čísel. Dávajte pozor na to, či je každé číslo kladné alebo záporné.

  • Pre tento súbor údajov by mal byť súčet -64.57. Tento súčet napíšte do priestoru v dolnej časti stĺpca. To predstavuje hodnotu čitateľa štandardného kovariančného vzorca.


Vypočítajte menovateľa pre vzorec kovariancie. Čitateľ štandardného kovariančného vzorca je hodnota, ktorú ste práve dokončili vypočítať. Menovateľ je reprezentovaný (n-1), čo je len o jeden menej ako počet dvojíc údajov vo vašom súbore údajov.

  • V tomto vzorovom probléme je deväť dvojíc údajov, takže n je 9. Hodnota (n-1) je teda 8.


Vydelte čitateľa menovateľom. Posledným krokom pri výpočte kovariancie je vydelenie vášho čitateľa,

Σ(xixavg)(yiyavg){\displaystyle \Sigma (x_{i}-x_{\text{avg}})(y_{i}-y_{\text{avg}})}

podľa vášho menovateľa,

(n1){\displaystyle (n-1)}

. Kvocient je kovariancia vašich údajov.[8]

  • Pre tento vzorový súbor údajov je tento výpočet -64.57/8, čo dáva výsledok -8.07.

Metóda 2 zo 4:Použitie tabuľky Excel na výpočet kovariancie


Všimnite si opakujúce sa výpočty. Kovariancia je výpočet, ktorý by ste mali niekoľkokrát vykonať ručne, aby ste pochopili význam výsledku. Ak však budete pri interpretácii údajov rutinne používať hodnoty kovariancie, budete chcieť nájsť rýchlejší a automatizovanejší spôsob, ako získať výsledky. Teraz by ste si už mali všimnúť, že pre náš relatívne malý súbor údajov, ktorý pozostáva len z deviatich dvojíc údajov, výpočty zahŕňali zistenie dvoch priemerov, vykonanie osemnástich jednotlivých odčítaní, deviatich samostatných násobení, jedného sčítania a záverečného delenia. To je 31 relatívne malých výpočtov s cieľom nájsť jedno riešenie. Na tejto ceste riskujete, že vám vypadnú záporné znamienka alebo nesprávne skopírujete výsledky, čím zničíte výsledok.


Vytvorenie tabuľky na výpočet kovariancie. Ak pohodlne používate Excel (alebo iný tabuľkový procesor so schopnosťami výpočtu), môžete ľahko vytvoriť tabuľku na zistenie kovariancie. Označte nadpisy piatich stĺpcov ako pri ručných výpočtoch: x, y, (x(i)-x(avg)), (y(i)-y(avg)) a Súčin.[9]

  • Na zjednodušenie označovania môžete tretí stĺpec nazvať napríklad „rozdiel x“ a štvrtý stĺpec „rozdiel y“, pokiaľ si zapamätáte význam údajov.
  • Ak začnete tabuľku v ľavom hornom rohu tabuľky, potom bunka A1 bude označením x, pričom ostatné označenia budú smerovať do bunky E1.


Vyplňte dátové body. Zadajte hodnoty údajov do dvoch stĺpcov označených x a y. Nezabudnite, že záleží na poradí dátových bodov, takže musíte spárovať každé y s príslušnou hodnotou x.[10]

  • Vaše hodnoty x začnú v bunke A2 a budú pokračovať smerom nadol pre toľko dátových bodov, koľko potrebujete.
  • Vaše hodnoty y začnú v bunke B2 a budú pokračovať smerom nadol pre toľko dátových bodov, koľko potrebujete.


Nájdite priemery hodnôt x a y. Excel vypočíta priemery veľmi rýchlo za vás. Do prvej voľnej bunky pod každým stĺpcom údajov zadajte vzorec =AVG(A2:A___). Vyplňte prázdne miesto číslom bunky, ktorá zodpovedá vášmu poslednému údajovému bodu.[11]

  • Ak máte napríklad 100 dátových bodov, vyplnia bunky A2 až A101, takže zadáte =AVG(A2:A101).
  • Pre údaje y zadajte vzorec =AVG(B2:B101).
  • Nezabudnite, že vzorec v programe Excel začínate znakom =.


Zadajte vzorec pre stĺpec (x(i)-x(avg)). Do bunky C2 budete musieť zadať vzorec na výpočet prvého odčítania. Tento vzorec bude =A2-____. Prázdne miesto vyplníte adresou bunky, ktorá obsahuje priemer vašich údajov x.[12]

  • V prípade príkladu 100 dátových bodov bude priemer v bunke A103, takže váš vzorec bude =A2-A103.


Zopakujte vzorec pre (y(i)-y(avg)) dátových bodov. Podľa toho istého príkladu by sa tento údaj dostal do bunky D2. Vzorec bude =B2-B103.[13]


Zadajte vzorec pre stĺpec „Produkt“. Do piateho stĺpca, do bunky E2, budete musieť zadať vzorec na výpočet súčinu dvoch predchádzajúcich buniek. Jednoducho by to bolo =C2*D2.[14]


Skopírujte vzorce nadol, aby ste vyplnili tabuľku. Zatiaľ ste naprogramovali len prvú dvojicu dátových bodov v riadku 2. Pomocou myši zvýraznite bunky C2, D2 a E2. Potom umiestnite kurzor nad malé políčko v pravom dolnom rohu, kým sa nezobrazí znamienko plus. Kliknite na tlačidlo myši, podržte ho stlačené a potiahnite myš smerom nadol, aby sa zvýraznené políčko rozšírilo a vyplnilo celú tabuľku údajov. Tento krok automaticky skopíruje tri vzorce z buniek C2, D2 a E2 do celej tabuľky. Mali by ste vidieť, ako sa tabuľka automaticky vyplní všetkými výpočtami.[15]


Naprogramujte súčet posledného stĺpca. Potrebujete zistiť súčet položiek v stĺpci „Produkt“. Do voľnej bunky bezprostredne pod posledným dátovým bodom v tomto stĺpci zadajte vzorec =sum(E2:E___). Vyplňte prázdne miesto adresou bunky posledného dátového bodu.[16]

  • V prípade príkladu 100 dátových bodov sa tento vzorec vloží do bunky E103. Zadáte =sum(E2:E102).


Nájdite kovarianciu. Konečný výpočet môže za vás vykonať aj program Excel. Posledný výpočet v bunke E103 v našom príklade predstavuje čitateľa kovariančného vzorca. Hneď pod túto bunku môžete zadať vzorec =E103/___. Vyplňte prázdne miesto počtom dátových bodov, ktoré máte. V našom príklade to bude 100. Výsledkom bude kovariancia vašich údajov.[17]

Metóda 3 zo 4:Použitie webových stránok s kalkulačkami kovariancie


Vyhľadajte na internete kovariančné kalkulačky. Viaceré školy, programátorské spoločnosti alebo iné zdroje vytvorili webové stránky, ktoré vám veľmi jednoducho vypočítajú hodnoty kovariancie. Pomocou ľubovoľného vyhľadávača zadajte do vyhľadávania výraz „kovariančná kalkulačka.“


Zadajte svoje údaje. Pozorne si prečítajte pokyny na webovej stránke, aby ste sa uistili, že údaje zadávate správne. Je dôležité, aby vaše dvojice údajov boli usporiadané, inak vygenerujete nesprávny výsledok kovariancie. Rôzne webové stránky majú rôzne štýly zadávania údajov.

  • Napríklad na webovej stránke http://ncalculators.com/statistics/covariance-calculator.htm, je tu vodorovné pole na zadávanie hodnôt x a druhé vodorovné pole na zadávanie hodnôt y. Dostanete pokyn, aby ste zadali svoje výrazy oddelené iba čiarkami. Súbor údajov x, ktorý bol vypočítaný skôr v tomto článku, by sa teda zadal ako 1,3,2,5,8,7,12,2,4. Súbor údajov y by bol 8,6,9,4,3,3,2,7,7.
  • Na inej stránke https://www.thecalculator.co/math/Covariance-Calculator-705.html, budete vyzvaní, aby ste do prvého políčka zadali svoje údaje x. Údaje sa zadávajú vertikálne, pričom na každý riadok pripadá jedna položka. Záznam na tejto stránke by teda vyzeral nasledovne:
  • 1
  • 3
  • 2
  • 5
  • 8
  • 7
  • 12
  • 2
  • 4


Vypočítajte svoje výsledky. Atraktívnosť týchto stránok s výpočtom spočíva v tom, že po zadaní údajov zvyčajne stačí kliknúť na tlačidlo s nápisom „Vypočítať“ a výsledky sa zobrazia automaticky. Väčšina stránok vám poskytne priebežné výpočty x(avg), y(avg) a n.

Metóda 4 zo 4:Interpretácia výsledkov kovariancie


Hľadajte kladný alebo záporný vzťah. Kovariancia je jeden štatistický údaj, ktorý vyjadruje, ako súvisí jeden súbor údajov s druhým. V príklade uvedenom v úvode sa meria výška a hmotnosť. Očakávali by ste, že s rastom výšky jednotlivcov sa bude zvyšovať aj ich hmotnosť, čo povedie ku kladnej kovariančnej hodnote. Ako ďalší príklad predpokladajme, že sa zhromažďujú údaje predstavujúce počet hodín, počas ktorých niekto trénuje golf, a skóre, ktoré môže získať. V tomto prípade by ste očakávali zápornú kovarianciu, čo znamená, že so zvyšujúcim sa počtom hodín tréningu bude klesať skóre golfu. (V golfe je nižší výsledok lepší.)

  • Uvažujte o vzorovom súbore údajov, ktorý bol vypočítaný vyššie. Výsledná kovariancia je -8.07. Záporné znamienko tu znamená, že keď sa hodnoty x zvyšujú, hodnoty y majú tendenciu klesať. V skutočnosti sa o tom môžete presvedčiť, keď sa pozriete na niekoľko hodnôt. Napríklad hodnotám x 1 a 2 zodpovedajú hodnoty y 7, 8 a 9. Hodnoty x 8 a 12 sú spárované s hodnotami y 3, resp. 2.


Interpretujte veľkosť kovariancie. Ak je číslo kovariančného skóre veľké, buď veľké kladné číslo, alebo veľké záporné číslo, potom to môžete interpretovať tak, že tieto dva prvky údajov sú veľmi silne prepojené, a to buď v kladnom, alebo zápornom zmysle.

  • Pre súbor údajov vzorky je kovariancia -8.07 je pomerne veľký. Všimnite si, že hodnoty údajov sa pohybujú od 1 do 12, takže 8 je dosť vysoké číslo. To naznačuje silné prepojenie medzi súbormi údajov x a y.


Rozumej nedostatok vzťahu. Ak skončíte s kovarianciou rovnou alebo veľmi blízkou 0, môžete usúdiť, že dátové body sú relatívne nesúvisiace. To znamená, že zvýšenie jednej hodnoty môže, ale nemusí viesť k zvýšeniu druhej hodnoty. Tieto dva výrazy sú takmer náhodne spojené.

  • Predpokladajme napríklad, že porovnávate veľkosť topánok s výsledkami testu SAT. Pretože existuje veľa faktorov, ktoré ovplyvňujú výsledky študenta v teste SAT, očakávali by sme kovarianciu takmer 0. To by znamenalo, že medzi týmito dvoma hodnotami nie je takmer žiadna súvislosť.

  • Zobrazte vzťah graficky. Ak chcete vizuálne pochopiť kovarianciu, môžete svoje dátové body zakresliť do súradnicovej roviny x-y. Keď to urobíte, mali by ste pomerne ľahko vidieť, že body, hoci nie sú v presne rovnej línii, majú tendenciu tvoriť zhluk, ktorý sa približuje diagonálnej línii z ľavého horného rohu do pravého dolného rohu. Toto je opis zápornej kovariancie. Všimnite si tiež, že hodnota kovariancie je -8.07. Je to pomerne veľké číslo v porovnaní s dátovými bodmi. Vysoké číslo naznačuje, že kovariancia je pomerne silná, čo môžete vidieť podľa lineárneho vzhľadu dátových bodov.

    • Ak si chcete zopakovať vykresľovanie bodov v súradnicovej rovine, pozrite si časť Graf bodov v súradnicovej rovine.
  • Odkazy