Siirry sisältöön

Tilastotiede

Wikikirjastosta

Tilastotiede on matematiikan haara, joka keskittyy mitattavan aineiston analysointiin ja tulkintaan. Aineiston perusteella voidaan tehdä tulevaisuutta koskevia ennusteita eli arvioida todennäköisyyttä, jolla jokin tapahtuma realisoituu, tai arvioida otoksen luotettavuutta. Tilastotieteeseen liittyy läheisesti todennäköisyyslaskenta. Tilastoja voidaan esittää graafisesti tai numeerisesti. Johtopäätöksiä tehtäessä on kuitenkin oleellista valita oikeat parametrit tulkinnan pohjaksi — tilastot voivat olla myös harhaanjohtavia.

Ennen aineiston käsittelyä on tiedettävä millä mitta-asteikolla kukin havainto on mitattu.

Tilastotieteen sovellusalueita ovat mm. vakuutustiede ja taloustiede.

Mitta-asteikot

[muokkaa | muokkaa wikitekstiä]

Tilastotieteessä mitta-asteikolla tarkoitetaan sitä, millaisia vertailuja ja laskutoimituksia tilastoaineistolle voidaan tehdä. Havaintojen mitta-asteikko määrää ne tilastolliset välineet, joita analyysissä voidaan käyttää.

Yleensä käytetään neljää mitta-asteikkoa: luokitteluasteikko eli nominaaliasteikko, järjestysasteikko eli ordinaaliasteikko, välimatka-asteikko eli intervalliasteikko ja suhdeasteikko eli absoluuttinen asteikko

Luokitteluasteikko eli nominaaliasteikko

[muokkaa | muokkaa wikitekstiä]

Tällä asteikolla voidaan tilastoida havaintoja, jotka voidaan luokitella johonkin ryhmään (esim. nainen/mies tai moottoripyörä/polkupyörä/henkilöauto).

Järjestysasteikko eli ordinaaliasteikko

[muokkaa | muokkaa wikitekstiä]

Tämän asteikon ryhmät voidaan järjestää jonkin kriteerin avulla (esim. mineraalien kovuusluokka: pehmeä, normaali, kova tai korkeakoulututkinto: kandidaatti, maisteri, tohtori).

Välimatka-asteikko eli intervalliasteikko

[muokkaa | muokkaa wikitekstiä]

Tällä asteikolla voidaan havainnosta laskea erotus (esim. fahrenheitasteikko ja celsiusasteikko).

Suhdeasteikko eli absoluuttinen asteikko

[muokkaa | muokkaa wikitekstiä]

Tämän asteikon muuttujilla on yksikäsitteinen nollapiste, joten muuttujien välillä voidaan laskea osamääriä (esim. lämpötila kelvineinä tai henkilön vuosittaiset tulot).

Todennäköisyysjakaumia

[muokkaa | muokkaa wikitekstiä]

Näistä voisi kirjoittaa: (Casella, Berger: Statistical inference Second edition s. 627)

  • Geometrinen jakauma
  • Negatiivinen binomijakauma
  • Poisson'n jakauma
  • Binomijakauma
  • Beta-binomijakauma
  • Diskreetti tasainen jakauma
  • Hypergeometrinen jakauma
  • Bernoullin jakauma
  • Normaalijakauma
  • Lognormaalijakauma
  • Betajakauma
  • Gammajakauma
  • Tasainen jakauma
  • -jakauma
  • Cauchyn jakauma
  • F-jakauma
  • t-jakauma
  • Eksponentiaalinen jakauma
  • Weibullin jakauma
  • Kaksoiseksponentiaalinen jakauma

Huomaa että ennen aineiston käsittelyä on tiedettävä mitä mitta-asteikkoa käytät.

Frekvenssi kertoo kuinka monta havaintoa on annetussa havaintoluokassa.

Aritmeettinen keskiarvo on havaintojen summa jaettuna havaintojen lukumäärällä. Puhekielessä keskiarvo tarkoittaa yleensä aritmeettista keskiarvoa.

Moodi eli tyyppiarvo on aineiston useimmin esiintyvä arvo, joka voidaan esittää jopa muuttujalle joka saa vain luokitteluarvoja, kuten nainen/mies.

Annetun jakauman mediaani on luku , jolle ja . [1]

Muut keskiluvut

[muokkaa | muokkaa wikitekstiä]

Muita keskilukuja ovat mm. geometrinen keskiarvo ja harmoninen keskiarvo.

Usein puhutaan myös nk. painotetusta keskiarvosta, jolloin havainnon frekvenssillä tai jollain muulla muuttujalla korjataan laskelmia.

Hajontalukuja tilastolliselle aineistolle ovat: varianssi ja keskihajonta.

varianssi

keskihajonta

missä n on tilastoarvojen määrä, μ on keskiarvo ja xi on tilastoarvo i.

otoskeskihajonta n-1 =

Varianssi on myös satunnaismuuttujille määritelty tunnusluku. Odotusarvon avulla merkittynä satunnaismuuttujan varianssi on .

Todennäköisyys

[muokkaa | muokkaa wikitekstiä]

Todennäköisyys tai todennäköisyyslaskenta, jonka synnytti tutkimus uhkapelien kannattavuudesta. Nykyaikainen tutkimus käyttää apuvälineinä erityisesti mittateoriaa ja analyysiä. Peruskäsitteitä ovat todennäköisyysmitta, odotusarvo, satunnaismuuttuja ja jakauma. Arkikielen käsitettä todennäköisyys kuvaa satunnaisten tapahtumien jakaumia tai epätäsmällisen tiedon varmuutta. Nykyisin todennäköisyyslaskenta on aksiomatisoitu ja perustuu Kolmogorovin aksioomiin.

Nykymatematiikassa todennäköisyyden teoria on kehitetty mittateoreettisesta näkökulmasta siten, että monet todennäköisyyden peruskäsitteet yhtenevät mittateorian kanssa: tapahtumien joukko on sigma-algebra, todennäköisyys on mitta, satunnaismuuttuja on mitallinen kuvaus ja odotusarvo on integraali perusjoukon yli.

Koulumatematiikassa käytetään havainnollisempaa lähtökohtaa opetettaessa todennäköisyyslaskentaa, missä aloitetaan tarkastelu symmetrisistä alkeistapauksista ja muista jakaumista.

Tilastolliset testit

[muokkaa | muokkaa wikitekstiä]

Tilastotieteessä hypoteesin tarkoitetaan populaation parametria koskevaa väitettä. Hypoteesin testaamisessa muodostetaan nollahypoteesi ja sen komplementtihypoteesi, jota kutsutaan vahtoehtoiseksi hypoteesiksi. Nollahypoteesia merkitään ja vaihtoehtoista hypoteesia . Hypoteesin testaamisessa määritellään, mitkä otoksen arvot päätös tekee kun on voimassa ja mitkä otoksen arvot hylkää kun on voimassa.

Mihin mitäkin testiä käytetään? Yleisimmät testit:

  • -testi
  • Friedmanin testi
  • Fisherin testi
  • Kolmogorovin–Smirnovin testi
  • -testi

Regressioanalyysi

[muokkaa | muokkaa wikitekstiä]
  • Mitä tarkoittaa?

Avoimen lähdekoodin ohjelmista ainakin Sagella ja R:llä voi tehdä tilastotieteen laskuja, kuvaajia ja kaavioita.

  1. Casella, Berger:Statistical inference