Ako vypočítať outliers: 10 krokov (s obrázkami)

V štatistike sa odľahlé hodnoty je údaj, ktorý sa výrazne líši od ostatných údajov vo vzorke. Často môžu odľahlé hodnoty v súbore údajov upozorniť štatistikov na experimentálne abnormality alebo chyby v uskutočnených meraniach, čo môže spôsobiť, že odľahlé hodnoty zo súboru údajov vynechajú. Ak sú urobte vynechajú zo svojho súboru údajov odľahlé hodnoty, môže dôjsť k výrazným zmenám v záveroch vyvodených zo štúdie.[1]
Z tohto dôvodu je znalosť spôsobu výpočtu a hodnotenia odľahlých hodnôt dôležitá pre zabezpečenie správneho pochopenia štatistických údajov.

Kroky


Naučte sa rozpoznať potenciálne odľahlé hodnoty. Pred rozhodnutím, či vynechať alebo nevynechať odľahlé hodnoty z daného súboru údajov, musíme samozrejme najprv identifikovať potenciálne odľahlé hodnoty súboru údajov. Všeobecne povedané, odľahlé hodnoty sú dátové body, ktoré sa výrazne odlišujú od trendu vyjadreného ostatnými hodnotami v súbore údajov – inými slovami, sú ležať mimo ostatné hodnoty. Zvyčajne sa to dá ľahko zistiť v tabuľkách údajov alebo (najmä) na grafoch.[2]
Ak je súbor údajov vyjadrený vizuálne na grafe, odľahlé body budú „ďaleko“ od ostatných hodnôt. Ak napríklad väčšina bodov v súbore údajov tvorí priamku, odľahlé hodnoty sa nebudú dať primerane interpretovať tak, aby zodpovedali priamke.

  • Uvažujme súbor údajov, ktorý predstavuje teploty 12 rôznych objektov v miestnosti. Ak má 11 objektov teplotu v rozmedzí niekoľkých stupňov od 70 stupňov Fahrenheita (21 stupňov Celzia), ale dvanásty objekt, rúra, má teplotu 300 stupňov Fahrenheita (150 stupňov Celzia), zbežným skúmaním zistíte, že rúra je pravdepodobne odľahlá hodnota..


Usporiadajte všetky dátové body od najnižšieho po najvyšší. Prvým krokom pri výpočte odľahlých hodnôt v súbore údajov je nájsť medián (strednú hodnotu) súboru údajov. Táto úloha sa výrazne zjednoduší, ak sú hodnoty v súbore údajov usporiadané v poradí od najmenšej po najväčšiu. Pred pokračovaním teda zoraďte hodnoty vo vašom súbore údajov týmto spôsobom.

  • Pokračujme vo vyššie uvedenom príklade. Tu je náš súbor údajov predstavujúci teploty niekoľkých predmetov v miestnosti: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ak zoradíme hodnoty v súbore údajov od najnižšej po najvyššiu, náš nový súbor hodnôt je: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.


Vypočítajte medián súboru údajov. Medián súboru údajov je bod údajov, nad ktorým sa nachádza polovica údajov a pod ktorým sa nachádza polovica údajov – v podstate je to „stredný“ bod v súbore údajov.[3]
Ak súbor údajov obsahuje nepárny počet bodov, je to ľahké zistiť – medián je bod, ktorý má rovnaký počet bodov nad sebou ako pod sebou. Ak však existuje párny počet bodov, potom, keďže neexistuje jediný stredný bod, by sa mali dva stredné body spriemerovať, aby sa našiel medián. Všimnite si, že pri výpočte odľahlých hodnôt sa mediánu zvyčajne priraďuje premenná Q2 – – je to preto, že leží medzi Q1 a Q3, dolným a horným kvartilom, ktoré budeme definovať neskôr.

  • Nenechajte sa zmiasť súbormi údajov s párnym počtom bodov – priemer dvoch stredných bodov bude často číslo, ktoré sa v samotnom súbore údajov nevyskytuje – to je v poriadku. Ak sú však dva stredné body rovnaké číslo, priemer bude zrejme tiež toto číslo, čo je tiež OK.
  • V našom príklade máme 12 bodov. Stredné 2 členy sú body 6 a 7 – 70 a 71. Takže mediánom pre náš súbor údajov je priemer týchto dvoch bodov: ((70 + 71) / 2), = 70.5.


Vypočítajte dolný kvartil. Tento bod, ktorému priradíme premennú Q1, je údajový bod, pod ktorým sa nachádza 25 percent (alebo jedna štvrtina) súboru pozorovaní. Inými slovami, toto je polovica bodov vo vašom súbore údajov pod medián. Ak je pod mediánom párny počet hodnôt, opäť musíte spriemerovať dve stredné hodnoty, aby ste našli Q1, podobne ako ste to museli urobiť pri hľadaní samotného mediánu.

  • V našom príklade leží 6 bodov nad mediánom a 6 bodov pod ním. To znamená, že na zistenie dolného kvartilu budeme musieť spriemerovať dva stredné body spodných šiestich bodov. Body 3 a 4 z dolných 6 sa rovnajú 70. Ich priemer je teda ((70 + 70) / 2), = 70. 70 bude naša hodnota pre Q1


Vypočítajte horný kvartil. Tento bod, ktorému je priradená premenná Q3, je údajový bod, nad ktorým sa nachádza 25 percent údajov. Zistenie Q3 je takmer identické so zistením Q1, až na to, že v tomto prípade sa body nad do úvahy sa berie skôr medián ako hodnoty pod ním.

  • Ak budeme pokračovať v predchádzajúcom príklade, dva stredné body zo 6 bodov nad mediánom sú 71 a 72. Spriemerovaním týchto dvoch bodov dostaneme ((71 + 72) / 2), = 71.5. 71.5 bude naša hodnota pre Q3.


Nájdite medzikvartilové rozpätie. Teraz, keď sme definovali Q1 a Q3, musíme vypočítať vzdialenosť medzi týmito dvoma premennými. Vzdialenosť od Q1 do Q3 zistíte tak, že od Q3 odčítate Q1. Hodnota, ktorú získate pre medzikvartilové rozpätie, je dôležitá na určenie hraníc pre body, ktoré nie sú odľahlé, vo vašom súbore údajov.

  • V našom príklade sú naše hodnoty pre Q1 a Q3 70 a 71.5, resp. Na zistenie medzikvartilového rozpätia odčítame Q3 – Q1: 71.5 – 70 = 1.5.
  • Všimnite si, že to funguje aj v prípade, že Q1, Q3 alebo obe sú záporné čísla. Napríklad, ak by naša hodnota Q1 bola -70, náš medzikvartilový rozsah by bol 71.5 – (-70) = 141.5, čo je správne.


Nájdite „vnútorné ohrady“ pre súbor údajov. Odľahlé hodnoty sa identifikujú posúdením, či spadajú do súboru číselných hraníc nazývaných „vnútorné ploty“ a „vonkajšie ploty“.[4]
Bod, ktorý sa nachádza mimo vnútorných ohraničení súboru údajov, sa klasifikuje ako menšie odľahlé hodnoty, zatiaľ čo ten, ktorý sa nachádza mimo vonkajších ohraničení, sa klasifikuje ako hlavné odľahlé hodnoty. Ak chcete nájsť vnútorné ohraničenia pre váš súbor údajov, najprv vynásobte medzikvartilový rozsah číslom 1.5. Potom sa výsledok pripočíta k Q3 a odpočíta od Q1. Dve výsledné hodnoty sú hranicami vnútorných ohrád vášho súboru údajov.

  • V našom príklade je medzikvartilový rozsah (71.5 – 70), alebo 1.5. Vynásobením tohto čísla číslom 1.5 dáva 2.25. Toto číslo pripočítame k Q3 a odpočítame od Q1, aby sme našli hranice vnútorných plotov takto:
    • 71.5 + 2.25 = 73.75
    • 70 – 2.25 = 67.75
    • Hranice našej vnútornej ohrady sú teda 67.75 a 73.75.
  • V našom súbore údajov leží mimo tohto rozsahu iba teplota rúry – 300 stupňov, a preto môže byť mierne odľahlou hodnotou. Musíme však ešte zistiť, či je táto teplota významnou odchýlkou, takže kým tak neurobíme, nevyvodzujme žiadne závery.


Nájdite „vonkajšie ploty“ pre súbor údajov. Postupuje sa rovnakým spôsobom ako pri vnútorných ohradách s tým rozdielom, že medzikvartilové rozpätie sa vynásobí 3 namiesto 1.5. Výsledok sa potom pripočíta k Q3 a odčíta od Q1, aby sa zistila horná a dolná hranica vonkajšieho plota.

  • V našom príklade vynásobením uvedeného medzikvartilového rozpätia číslom 3 získame (1.5 * 3) alebo 4.5. Hranice vonkajšej ohrady nájdeme rovnakým spôsobom ako predtým:
    • 71.5 + 4.5 = 76
    • 70 – 4.5 = 65.5
    • Hranice nášho vonkajšieho plota sú 65.5 a 76.
  • Všetky dátové body, ktoré ležia mimo vonkajších ohraničení, sa považujú za hlavné odľahlé hodnoty. V tomto príklade leží teplota v rúre, 300 stupňov, ďaleko mimo vonkajších ohrád, takže je určite hlavné odľahlé hodnoty.


použiť kvalitatívne posúdenie na určenie, či „vyhodiť“ odľahlé hodnoty. Pomocou vyššie opísanej metodiky je možné určiť, či sú niektoré body menšie odľahlé hodnoty, väčšie odľahlé hodnoty alebo vôbec nie sú odľahlé hodnoty. Nenechajte sa však pomýliť – identifikácia bodu ako odľahlého označuje iba jeho kandidát pre vynechanie zo súboru údajov, nie ako bod, ktorý musí vynechať. Na stránke dôvod to, že sa odľahlá hodnota líši od ostatných bodov v súbore údajov, je rozhodujúce pri určovaní, či odľahlú hodnotu vynechať alebo nie. Vo všeobecnosti sa vynechávajú odľahlé hodnoty, ktoré možno pripísať nejakej chybe – napríklad chybe v meraní, zaznamenávaní alebo experimentálnom návrhu.[5]
Na druhej strane, odľahlé hodnoty, ktoré sa nepripisujú chybe a ktoré odhaľujú nové informácie alebo trendy, ktoré sa nepredpokladali, sa zvyčajne nie vynechané.

  • Ďalším kritériom, ktoré treba zvážiť, je, či odľahlé hodnoty významne ovplyvňujú priemer (priemer) súboru údajov spôsobom, ktorý ho skresľuje alebo spôsobuje, že sa javí ako zavádzajúci. Toto je obzvlášť dôležité zvážiť, ak máte v úmysle vyvodiť závery zo strednej hodnoty vášho súboru údajov.
  • Posúďme náš príklad. V našom príklade, keďže je to veľmi nepravdepodobné, že by rúra dosiahla teplotu 300 stupňov v dôsledku nejakej nepredvídanej prírodnej sily, môžeme takmer s istotou usúdiť, že rúra bola náhodne ponechaná zapnutá, čo viedlo k anomálnemu údaju vysokej teploty. Ak tiež nevynecháme odľahlé hodnoty, priemer nášho súboru údajov je (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 stupňov, zatiaľ čo priemer, ak by sme do vynechať odľahlú hodnotu je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55.
    • Keďže odchýlku možno pripísať ľudskej chybe a pretože je nepresné povedať, že priemerná teplota v tejto miestnosti bola takmer 90 stupňov, mali by sme sa rozhodnúť vynechať nášho odľahlého bodu.

  • pochopiť význam (niekedy) zachovania odľahlých hodnôt. Zatiaľ čo niektoré odľahlé hodnoty by sa mali zo súborov údajov vynechať, pretože sú výsledkom chyby a/alebo skresľujú výsledky spôsobom, ktorý je nepresný alebo zavádzajúci, niektoré odľahlé hodnoty by sa mali ponechať. Ak sa napríklad odľahlé hodnoty javia ako skutočne získané (t. j. nie sú výsledkom chyby) a/alebo poskytujú nejaký nový pohľad na meraný jav, nemali by sa vynechať bez povšimnutia. Vedecké experimenty sú obzvlášť citlivou situáciou pri práci s odľahlými hodnotami – vynechanie odľahlej hodnoty pri chybe môže znamenať vynechanie informácie, ktorá znamená nejaký nový trend alebo objav.

    • Povedzme napríklad, že navrhujeme nový liek na zväčšenie veľkosti rýb na rybej farme. Použijeme náš starý súbor údajov ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), s tým rozdielom, že tentoraz bude každý bod predstavovať hmotnosť ryby (v gramoch) po liečbe iným experimentálnym liekom od narodenia. Inými slovami, prvý liek dal jednej rybe hmotnosť 71 gramov, druhý liek dal inej rybe hmotnosť 70 gramov atď. V tejto situácii je 300 stále veľká odchýlka, ale nemali by sme ju vynechať, pretože za predpokladu, že nie je spôsobená chybou, predstavuje významný úspech v našom experimente. Liek, ktorý priniesol 300 gramov ryby, fungoval lepšie ako všetky ostatné lieky, takže tento bod je vlastne najviac dôležitý v našom súbore údajov, a nie najmenej.
  • Odkazy