3 spôsoby výpočtu súčtu štvorcov pre chybu (SSE)

Suma štvorcových chýb alebo SSE je predbežný štatistický výpočet, ktorý vedie k ďalším hodnotám údajov. Keď máte súbor hodnôt údajov, je užitočné vedieť zistiť, ako úzko sú tieto hodnoty prepojené. Musíte si údaje usporiadať do tabuľky a potom vykonať niekoľko pomerne jednoduchých výpočtov. Po zistení SSE pre súbor údajov môžete pokračovať v zisťovaní rozptylu a štandardnej odchýlky.

Metóda 1 z 3:Ručný výpočet SSE


Vytvorte tabuľku s tromi stĺpcami. Najprehľadnejší spôsob výpočtu súčtu štvorcových chýb je začať s trojstĺpcovou tabuľkou. Označte tri stĺpce ako

Hodnota{\displaystyle {\text{Value}}

,

Odchýlka{\displaystyle {\text{Odchýlka}}

, a

Odchýlka2{\displaystyle {\text{Deviation}}^{2}}

.[1]


Doplňte údaje. Prvý stĺpec bude obsahovať hodnoty vašich meraní. Vyplňte

Hodnota{\displaystyle {\text{Value}}

stĺpec s hodnotami vašich meraní. Môžu to byť výsledky nejakého experimentu, štatistickej štúdie alebo len údaje poskytnuté pre matematickú úlohu.[2]

  • V tomto prípade predpokladajme, že pracujete s nejakými lekárskymi údajmi a máte zoznam telesných teplôt desiatich pacientov. Očakávaná normálna telesná teplota je 98.6 stupňov. U desiatich pacientov sa zmerajú teploty, pričom sa získajú hodnoty 99.0, 98.6, 98.5, 101.1, 98.3, 98.6, 97.9, 98.4, 99.2 a 99.1. Tieto hodnoty zapíšte do prvého stĺpca.


Vypočítajte priemer. Predtým, ako budete môcť vypočítať chybu pre každé meranie, musíte vypočítať priemer celého súboru údajov.[3]

  • Pripomeňme si, že priemer akéhokoľvek súboru údajov je súčet hodnôt vydelený počtom hodnôt v súbore. Toto možno symbolicky znázorniť pomocou premennej
    μ{\displaystyle \mu }

    predstavuje priemer, ako:

    • μ=Σxn{\displaystyle \mu ={\frac {\Sigma x}{n}}}
  • Pre tieto údaje sa priemer vypočíta ako:
    • μ=99.0+98.6+98.5+101.1+98.3+98.6+97.9+98.4+99.2+99.110{\displaystyle \mu ={\frac {99.0+98.6+98.5+101.1+98.3+98.6+97.9+98.4+99.2+99.1}{10}}}
    • μ=988.710{\displaystyle \mu ={\frac {988.7}{10}}}
    • μ=98.87{\displaystyle \mu =98.87}


Vypočítajte jednotlivé chyby meraní. V druhom stĺpci vašej tabuľky musíte vyplniť namerané chyby pre každú hodnotu údajov. Chyba je rozdiel medzi meraním a priemerom.[4]

  • Pre daný súbor údajov odčítajte priemer, 98.87 z každej nameranej hodnoty a vyplňte druhý stĺpec s výsledkami. Týchto desať výpočtov je nasledujúcich:
    • 99.098.87=0.13{\displaystyle 99.0-98.87=0.13}
    • 98.698.87=0.27{\displaystyle 98.6-98.87=-0.27}
    • 98.598.87=0.37{\displaystyle 98.5-98.87=-0.37}
    • 101.198.87=2.23{\displaystyle 101.1-98.87=2.23}
    • 98.398.87=0.57{\displaystyle 98.3-98.87=-0.57}
    • 98.698.87=0.27{\displaystyle 98.6-98.87=-0.27}
    • 97.998.87=0.97{\\displaystyle 97.9-98.87=-0.97}
    • 98.498.87=0.47{\displaystyle 98.4-98.87=-0.47}
    • 99.298.87=0.33{\\displaystyle 99.2-98.87=0.33}
    • 99.198.87=0.23{\displej 99.1-98.87=0.23}


Vypočítajte štvorce chýb. V treťom stĺpci tabuľky nájdite v strednom stĺpci druhú hodnotu každej z výsledných hodnôt. Tieto údaje predstavujú štvorce odchýlky od priemeru pre každú nameranú hodnotu údajov.[5]

  • Pre každú hodnotu v strednom stĺpci použite kalkulačku a nájdite štvorec. Výsledky zaznamenajte do tretieho stĺpca takto:
    • 0.132=0.0169{\displaystyle 0.13^{2}=0.0169}
    • (0.27)2=0.0729{\displaystyle (-0.27)^{2}=0.0729}
    • (0.37)2=0.1369{\displaystyle (-0.37)^{2}=0.1369}
    • 2.232=4.9729{\displaystyle 2.23^{2}=4.9729}
    • (0.57)2=0.3249{\displaystyle (-0.57)^{2}=0.3249}
    • (0.27)2=0.0729{\displaystyle (-0.27)^{2}=0.0729}
    • (0.97)2=0.9409{\displaystyle (-0.97)^{2}=0.9409}
    • (0.47)2=0.2209{\displaystyle (-0.47)^{2}=0.2209}
    • 0.332=0.1089{\displaystyle 0.33^{2}=0.1089}
    • 0.232=0.0529{\displaystyle 0.23^{2}=0.0529}


Súčet štvorcov chýb. Posledným krokom je zistenie súčtu hodnôt v treťom stĺpci. Požadovaným výsledkom je SSE alebo súčet štvorcových chýb.

  • Pre tento súbor údajov sa SSE vypočíta tak, že sa sčíta desať hodnôt v treťom stĺpci:
  • SSE=6.921{\displaystyle SSE=6.921}

Metóda 2 z 3:Vytvorenie tabuľky Excel na výpočet SSE


Označte stĺpce tabuľky. V programe Excel vytvoríte trojstĺpcovú tabuľku s rovnakými tromi nadpismi ako vyššie.

  • Do bunky A1 zadajte nadpis „Hodnota.“
  • Do bunky B1 zadajte nadpis „Odchýlka.“
  • Do bunky C1 zadajte nadpis „Odchýlka na druhú.“


Zadajte svoje údaje. Do prvého stĺpca musíte zadať hodnoty vašich meraní. Ak je súbor malý, môžete ich jednoducho zadať ručne. Ak máte veľký súbor údajov, možno budete musieť údaje skopírovať a vložiť do stĺpca.


Nájdite priemer dátových bodov. Excel má funkciu, ktorá vám vypočíta priemer. Do niektorej voľnej bunky pod tabuľkou s údajmi (je úplne jedno, akú bunku si vyberiete) zadajte nasledujúce údaje: [6]

  • =Priemer(A2:___)
  • V skutočnosti nepíšte prázdnu medzeru. Vyplňte toto prázdne miesto názvom bunky posledného dátového bodu. Ak máte napríklad 100 bodov údajov, použijete funkciu:
    • =Priemer(A2:A101)
    • Táto funkcia obsahuje údaje z A2 až A101, pretože horný riadok obsahuje nadpisy stĺpcov.
  • Keď stlačíte kláves Enter alebo keď kliknete na ľubovoľnú inú bunku v tabuľke, priemer hodnôt vašich údajov automaticky vyplní bunku, ktorú ste práve naprogramovali.


Zadajte funkciu pre chybové merania. Do prvej prázdnej bunky v stĺpci „Odchýlka“ musíte zadať funkciu na výpočet rozdielu medzi každým údajovým bodom a priemerom. Na tento účel musíte použiť názov bunky, v ktorej sa nachádza priemer. Predpokladajme, že ste použili bunku A104.[7]

  • Funkcia pre výpočet chyby, ktorú zadáte do bunky B2, bude:
    • =A2-$A$104. Znamienka dolára sú potrebné na to, aby ste sa uistili, že v bunke A104 uzamknete každý výpočet.


Zadajte funkciu pre štvorce chyby. V treťom stĺpci môžete Excelu prikázať, aby vypočítal potrebný štvorec.[8]

  • Do bunky C2 zadajte funkciu
    • =B2^2


Skopírujte funkcie, aby ste vyplnili celú tabuľku. Po zadaní funkcií do hornej bunky každého stĺpca, B2, resp. C2, musíte vyplniť celú tabuľku. Funkciu by ste mohli prepísať do každého riadku tabuľky, ale trvalo by to príliš dlho. Pomocou myši zvýraznite spoločne bunky B2 a C2 a bez toho, aby ste pustili tlačidlo myši, potiahnite ich smerom nadol na spodnú bunku každého stĺpca.

  • Ak predpokladáme, že máte v tabuľke 100 dátových bodov, potiahnite myšou nadol na bunky B101 a C101.
  • Keď potom uvoľníte tlačidlo myši, vzorce sa skopírujú do všetkých buniek tabuľky. Tabuľka by sa mala automaticky vyplniť vypočítanými hodnotami.


Nájdite SSE. Stĺpec C vašej tabuľky obsahuje všetky hodnoty druhej odmocniny. Posledným krokom je, aby Excel vypočítal súčet týchto hodnôt.[9]

  • Do bunky pod tabuľkou, v tomto príklade pravdepodobne C102, zadajte funkciu:
    • =Sum(C2:C101)
  • Keď kliknete na tlačidlo Enter alebo kliknete preč do ktorejkoľvek inej bunky tabuľky, mali by ste mať hodnotu SSE pre vaše údaje.

Metóda 3 z 3:Vzťah SSE k iným štatistickým údajom


Výpočet rozptylu z SSE. Zistenie SSE pre súbor údajov je vo všeobecnosti základným kameňom pre zistenie ďalších, užitočnejších hodnôt. Prvým z nich je rozptyl. Rozptyl je miera, ktorá udáva, ako veľmi sa namerané údaje líšia od priemeru. Je to vlastne priemer štvorcových rozdielov od priemeru.[10]

  • Keďže SSE je súčet štvorcových chýb, môžete zistiť priemer (ktorý je rozptylom), stačí ho vydeliť počtom hodnôt. Ak však počítate rozptyl výberového súboru, a nie celej populácie, budete deliť (n-1) namiesto n. Teda:
    • Rozptyl = SSE/n, ak počítate rozptyl celej populácie.
    • Rozptyl = SSE/(n-1), ak počítate rozptyl súboru údajov vzorky.
  • Pri probléme vzorky teplôt pacientov môžeme predpokladať, že 10 pacientov predstavuje len výberový súbor. Rozptyl by sa preto vypočítal ako:
    • Rozptyl=SSE(n1){\displaystyle {\text{Variance}}={\frac {\text{SSE}}{(n-1)}}}
    • Rozptyl=6.9219{\displaystyle {\text{Variacia}}={\frac {6.921}{9}}}
    • Odchýlka=0.769{\displaystyle {\text{Variancia}}=0.769}


Vypočítajte štandardnú odchýlku z SSE. Štandardná odchýlka je bežne používaná hodnota, ktorá udáva, ako veľmi sa hodnoty akéhokoľvek súboru údajov odchyľujú od priemeru. Štandardná odchýlka je odmocnina z rozptylu. Pripomeňme si, že rozptyl je priemerom štvorcových chýb meraní.[11]

  • Preto po výpočte SSE môžete zistiť štandardnú odchýlku takto:
    • Štandardná odchýlka=SSEn1{\displaystyle {\text{Standardná odchýlka}}={\sqrt {\frac {\text{SSE}}{n-1}}}}
  • Pre vzorku údajov z meraní teploty môžete nájsť štandardnú odchýlku takto:
    • Štandardná odchýlka=SSEn1{\displaystyle {\text{Standardná odchýlka}}={\sqrt {\frac {\text{SSE}}{n-1}}}}
    • Štandardná odchýlka=6.9219{\displaystyle {\text{Standardná odchýlka}}={\sqrt {\frac {\text{6.921}}{9}}}}
    • Štandardná odchýlka=.769{\displaystyle {\text{Standardná odchýlka}}={\sqrt {.769}}}
    • Štandardná odchýlka=0.877{\displaystyle {\text{Standardná odchýlka}}=0.877}

  • Použite SSE na meranie kovariancie. Tento článok bol zameraný na súbory údajov, ktoré merajú vždy len jednu hodnotu. V mnohých štúdiách však môžete porovnávať dve rôzne hodnoty. Chceli by ste vedieť, ako tieto dve hodnoty súvisia navzájom, nielen so strednou hodnotou súboru údajov. Táto hodnota je kovariancia.[12]

    • Výpočty kovariancie sú príliš zložité na to, aby sme ich tu podrobne opisovali, okrem toho, že pre každý typ údajov použijete SSE a potom ich porovnáte. Podrobnejší opis kovariancie a príslušných výpočtov nájdete v časti Výpočet kovariancie.
    • Ako príklad použitia kovariancie môžete uviesť porovnanie veku pacientov v lekárskej štúdii s účinnosťou lieku pri znižovaní teploty horúčky. Potom by ste mali jeden súbor údajov o veku a druhý súbor údajov o teplotách. Zistili by ste SSE pre každý súbor údajov a potom by ste z neho zistili rozptyl, štandardné odchýlky a kovarianciu.
  • Odkazy