Kisallioppiminen.fi Logo

kisallioppiminen.fi MAA8 - Tilastot ja todennäköisyys (LOPS2019)

$\def\vi{\bar{\imath}} \def\vj{\bar{\jmath}} \def\vv{\bar{v}} \def\vu{\bar{u}} \def\vw{\bar{w}} \def\va{\bar{a}} \def\vb{\bar{b}} \def\vc{\bar{c}} \def\vk{\bar{k}} \def\vn{\bar{n}} \def\pv{\overline} \def\R{\mathbb{R}} \def\Q{\mathbb{Q}} \def\N{\mathbb{N}} \def\Z{\mathbb{Z}} \def\pa{\mathopen]} \def\pe{\mathclose[} \def\lb{\mathop{\mathrm{lb}}} \require{color} \newcommand\T{\Rule{0pt}{1em}{.3em}} \require{mediawiki-texvc} $

Todennäköisyysjakauma ja odotusarvo

Tämän luvun tavoitteena on, että pystyt xxxx. Osaat

  • xxxxx
  • xxxxx
  • xxxxx.

Määritellään ensin käsite satunnaismuuttuja. Satunnaismuuttuja liittää tapahtumiin reaalilukuarvon.

MÄÄRITELMÄ: ERILLISET TAPAHTUMAT

Satunnaismuuttuja on funktio, joka kuvaa jokaisen alkeistapauksen reaaliluvulle tai jokaisen havaintoyksikön sitä vastaavaksi havaintoarvoksi.

Satunnaismuuttuja voi esimerkiksi kuvata nopan jokaiseen silmäluvun sitä vastaavalle reaalilukuarvolle

tai se voi kuvata jokaisen lapsiperheen kyseessä olevan perheen lasten lukumääräksi.

Huomaa, että satunnaismuuttuja voi ilmetä teoreettisessa tarkastelussa tai tilastossa. Jälkimmäisessä tapauksessa oletamme, että havaintoarvoilla on välimatka-asteikko. Jos tilastossa on mukana mahdollisia havaintoarvoja, jotka eivät ole havaintoarvoja, niin niihin ei kuvaudu mikään havaintoyksikkö. Satunnaismuuttuja on siinä mielessä harhaanjohtava termi, että satunnaismuuttujassa ei ole mitään satunnaista. Koska satunnaismuuttuja on funktio, niin sen arvo on yksikäsitteisesti määrätty jokaisessa määrittelyjoukon pisteessä. Satunnaismuuttujan avulla saamme todennäköisyysjakauman. Se kuvaa, kuinka yleisiä satunnaismuuttujan eri arvot ovat.

MÄÄRITELMÄ: TODENNÄKÖISYYSJAKAUMA

Todennäköisyysjakauma on funktio, joka yhdistää satunnaismuuttujan arvot niitä vastaaviin todennäköisyyksiin.

Todennäköisyydet saadaan joko teoreettisesta tarkastelusta tai vaihtoehtoisesti ne ovat havaintoarvojen suhteelliset frekvenssit. Tarvittaessa todennäköisyysjakaumaa voi täydentää arvoilla, joita vastaavat todennäköisyydet ovat nollia. Näin saamme mahdolliset havaintoarvot mukaan todennäköisyysjakaumaan. Jos todennäköisyysjakauma tulee tilastosta, niin se on sama asia kuin Luvussa frekvenssi määritelty jakauma.

Huomaa, että todennäköisyyksien summa on 1 eli $100 \%$.

Kisätieto: Jos halutaan korostaa, että kyseessä on diskreetin todennäköisyysjakauman yhden tapahtuman todennäköisyys, niin voidaan käyttää termiä pistetodennäköisyys.

Yksinkertaisin jakauma on tasainen jakauma, jossa jokaisen arvon suhteellinen frekvenssi on sama. Esimerkiksi kuusisivuisen nopan jokaisen silmäluvun todennäköisyys on $1/6 \approx 16{,}7 \%$.

Nopanheiton todennäköisyysjakauma.

Usein jakauma ei kuitenkaan ole tasainen. Tarkastellaan lapsiperheiden lukumäärää, joka on esitetty alla olevassa kuvassa:

Lapsiperheiden lasten lukumäärän todennäköisyysjakauma.

Todennäköisyysjakaumia kuvataan usein niiden ulkomuodon perusteella. Esimerkiksi yllä olevan kuvan jakaumaa voisi luonnehtia vasemmalle vinoksi. Muita tyypillisiä kuvauksia ovat huippujen lukumäärä, symmetrisyys ja häntien paksuus, kuten alla.

Vasemmalla kaksihuippunen todennäköisyysjakauma ja oikealla todennäköisyysjakauma, joka muistuttaa normaalijakaumaa.

Todennäköisyysjakaumasta voidaan määritellä yksittäisten todennäköisyyksien lisäksi todennäköisyyksia, jotka koostuvat eri havaintoarvoista. Esimerkiksi lapsiperheiden tapauksessa voitaisiin kysyä, millä todennäköisyydellä satunnaisesti valitulla lapsiperheellä on enintään 3 lasta? Tai 3--5 lasta?

Alla olevassa taulukossa on esitetty lapsiperheiden lasten lukumäärän jakauma.

Lasten lkm $f$ $f$ %
1 241709 42,7 %
2 220116 38,9 %
3 75326 13,3 %
4 18409 3,3 %
5 5493 1,0 %
6 2289 0,4 %
7 1235 0,2 %
8 751 0,1 %
9 476 0,08 %
10 262 0,05 %
11 117 0,03 %
12 41 0,007 %
13 12 0,002 %
14 3 0,0005 %
15 0 0 %
16 3 0,0005 %
Yhteensä 566242 100 %
  1. Millä todennäköisyydellä lapsiperheessä on enintään kolme lasta?
  2. Millä todennäköisyydellä lapsiperheessä on 3--5 lasta?
  3. Millä todennäköisyydellä satunnaisesti valitussa lapsiperheessä on vähintään 3 lasta?

  1. Lapsiperheissä enintään 3 lasta tarkoittaa, että lapsia on 1, 2 tai 3. Kuvaajassa tämä tarkoittaa kolmea vasemmanpuoleista pylvästä. Todennäköisyys saadaan laskemalla yhteen $$ 42{,}7\ \% + 38{,}9\ \% + 13{,}3 \% \approx 94{,}9\ \%. $$
  2. 3--5 lasta tarkoittaa 3, 4 tai 5 lasta ja sen todennäköisyys on $$ 13{,}3\ \% + 3{,}3\ \% + 1{,}0\ \% \approx 18\ \%. $$
  3. Nyt olemme kiinnostuneita perheistä, joiden lasten lukumäärä on 3, 4, 5,... , 15, 16. Tämä voidaan siis laskea vastaavien suhteellisten frekvessien $f \%$ avulla $$ 13{,}3\ \% + 3{,}3\ \% + \cdots + 0{,}0005\ \%\approx 18{,}4\ \%. $$ Toisaalta voimme hyödyntää tietoa, että kaikkien tapahtumien todennäköisyyksien summa on 100 %. Nyt laskemme ensin todennäköisyyden, että lapsia on 1 tai 2 $$ 42{,}7\ \% + 38{,}9\ \% \approx 81{,}6\ \%. $$ Tämän avulla saamme laskettua todennäköisyyden vähintään kolmelle lapselle vähentämällä tämän 100 prosentista eli $$ 100\ \%-81{,}6\ \% = 100\ \% - 81{,}6\ \% = 18{,}4\ \%. $$

Toistokoe on tilanne, jossa sama koe suoritetaan useampaan kertaan ja tapahtumat ovat toisistaan riippumattomia, vertaa Määritelmä~\ref{maar:riippumattomuus}. Lisäksi toistokokeessa on vain kaksi tulosvaihtoehtoa: onnistuminen ja epäonnistuminen. Toistokokeeseen liittyvää todennäköisyyttä kutsutaan binomitodennäköisyydeksi.

Tarkastellaan tilannetta, jossa kokeen onnistumisen todennäköisyys $p$ on $0{,}3$. Jos sama koe toistetaan 5 kertaa, niin mahdollisia kokeiden tuloksien vaihtoehtoja on $2^5=32$. Erilaisia toistokokeen lopputuloksia on kuusi: 0 onnistumista, 1 onnistuminen,... , 5 onnistumista. Katso alla oleva taulukko:

Toistokeen kaikki mahdolliset lopputulokset. Numero 1 tarkoittaa kokeen onnistumista ja numero 0 epäonnistumista.

Huomataan aluksi, että jokaisessa lopputuloksessa olevien sarakkeiden lukumäärä taulukossa saadaan binomikertoimella. Merkitään, että numero 1 tarkoittaa kokeen onnistumista ja numero 0 epäonnistumista. Olkoon $A=\{1, 2, \ldots, 5\}$. Valitaan joukosta $A$ $k$ kappaletta alkioita, $k\in[0,5]$. Ajatellaan, että valitut $k$ alkiota kertovat, mihin jonon paikkoihin luku $1$ asetetaan. Loppuihin $5-k$ paikkaan asetetaan luku 0. Tällöin jokainen joukon $A$ $k$-alkioinen osajoukko vastaa yhtä jonoa, jossa on täsmälleen $k$ kappaletta lukuja $1$, ja toisinpäin. Näin ollen jonoja on yhtä paljon kuin $k$-alkioisia osajoukkoja eli $\displaystyle \binom{5}{k}$.

Onnistumisia kpl Sarakkeiden lukumäärä
0 $\displaystyle \binom{5}{0}=1$
1 $\displaystyle \binom{5}{1}=5$
2 $\displaystyle \binom{5}{2}=10$
3 $\displaystyle \binom{5}{3}=10$
4 $\displaystyle\binom{5}{4}=5$
5 $\displaystyle\binom{5}{5}=1$

Seuraavaksi huomataan, että jos yhden kokeen onnistumisen todennäköisyys on $0{,}3$, niin epäonnistumisen todennäköisyys on $1-0{,}3 = 0{,}7$.

Seuraavaksi selvitämme kunkin mahdollisen lopputuloksen todennäköisyydet. Aloitetaan lopputuloksesta, jossa kaikki kokeet epäonnistuivat. Tämä saadaan ainoastaan, kun jokainen koe epäonnistuu eli todennäköisyys on siis $$ 0{,}7 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 0{,}7^5 = 0{,}16807 \approx 16{,}8\ \% . $$ Tarkastellaan seuraavaksi lopputulosta, jossa 1 koe onnistuu ja 4 epäonnistuu. Nyt onnistunut koe voi olla mikä tahansa 5 kokeesta, joten lopputulos voidaan saada 5 eri tavalla. Jos ensimmäinen koe onnistuu ja muut 4 eivät, niin todennäköisyys on $$ 0.3 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 0{,}07203 \approx 7{,}2\ \% . $$ Jos toinen koe onnistuu, niin $$ 0.7 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 0{,}07203 \approx 7{,}2\ \% . $$ Vastaavasti 3, 4 ja 5 kokeen onnistumisille saadaan todennäköisyys $0{,}07203 \approx 7{,}2 \%$. Koska kaikkien viiden tapahtuman todennäköisyys on sama, niin lopputuloksen todennäköisyydeksi saadaan $$ 5 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 5 \cdot 0{,}3 \cdot 0{,}7^4 =0{,}36015 \approx 36{,}0\ \% . $$ Kolmantena lopputuloksena on 2 onnistunutta koetta ja 3 epäonnistunutta. Erilaisten kombinaatioiden lukumäärä saadaan binomikertoimen avulla $\displaystyle\binom{5}{2} = \frac{5!}{2! 3!} = 10$, joten erilaisia vaihtoehtoja on 10 kappaletta. Jokaisen näiden todennäköisyys on $$ 0{,}3 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 0{,}3^2 \cdot 0{,}7^3=0{,}03087 \approx 3{,}1\ \% . $$ Lopputulukosen todennäköisyys on $$ 10 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 \cdot 0{,}7 = 10 \cdot 0{,}3^2 \cdot 0{,}7^3 = 0{,}3087 \approx 30{,}9\ \% . $$ Seuraava lopputulos on 3 onnistunutta koetta ja 2 epäonnistunutta. Binomikertoimen avulla saamme, että eri kombinaatioita on $\displaystyle\binom{5}{3} = 10$. Jokaisen näiden todennäköisyys on $$ 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 = 0{,}3^3 \cdot 0{,}7^2= 0{,}01323 \approx 1{,}3\ \% $$ joten lopputuloksen todennäköisyys on $$ 10 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}7 \cdot 0{,}7 = 10 \cdot 0{,}3^3 \cdot 0{,}7^2 =0{,}1323 \approx 13{,}2\ \% . $$ Lopputuloksen 4 onnistunutta ja 1 epäonnistunut erilaisia vaihtoehtoja on 5, joista jokaisen todennäköisyys on $$ 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}7 = 0{,}3^4 \cdot 0{,}7=0{,}00567 \approx 0{,}6\ \% . $$ Lopputuloksen todennäköisyys on $$ 5 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}7 = 5 \cdot 0{,}3^4 \cdot 0{,}7=0{,}02835 \approx 2{,}8\ \% . $$ Lopputulos 5 onnistunutta voidaan saada vain yhdellä tavalla ja sen todennäköisyys on $$ 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 \cdot 0{,}3 =0{,}3^5 \approx 0{,}00243\ \% . $$ Voimme seuraavaksi muotoilla yleisen lausekkeen toistokokeen onnistumistodennäköisyydelle.

TEOREEMA

Jos toistokokeen yhden kokeen onnistumistodennäköisyys on $p \in [0,1]$ ja toistokoe suoritetaan $n \ge 1$ kertaa, niin todennäköisyys, että koe onnistuu $k \in \{ 0,1,\dots, n \}$ kertaa, on $$ \displaystyle\binom{n}{k}\, p^k (1-p)^{n-k}. $$

Varmista ennen kuin käytät yllä olevaa teoreemaa, että toistettavat kokeet ovat riippumattomia ja selvitä muuttujien $n$ (toistojen lukumäärä), $k$ (onnistumisten lukumäärä) ja $p$ (yhden kokeen onnistumistodennäköisyys) arvot.

Tavallista noppaa heitetään 7 kertaa. Millä todennäköisyydellä saadaan täsmälleen kaksi kertaa silmäluku 5 tai 6?

Kyseessä on toistokoe, sillä aikaisempi nopan heitto ei vaikuta seuraavan tulokseen. Toistojen lukumäärä $n$ on 7 ja haluamme selvittää, milloin näistä $k=2$ onnistuu. Aiemman tehtävän xxxx perusteella onnistumistodennäköisyys $p$ on $\frac13$. Teoreeman 5 avulla saamme $$ \displaystyle\binom{7}{2} \left( \frac13 \right)^2 \left( 1-\frac13 \right)^{7-2} = 21 \cdot \left( \frac13 \right)^2 \cdot \left( \frac23 \right)^5 \approx 24{,}0\ \%. $$

Tavallista noppa heitetään seitsemän kertaa. Laske, millä todennäköisyydellä saadaan 0, 1, 3, 4, 5, 6 ja 7 kertaa silmäluku 5 tai 6. Muodosta tuloksista yhdessä aiemman tehtävän avulla todennäköisyysjakauma.

xxxxx

Yleisin toistokokeen todennäköisyyksiin liittyvä laskuvirhe on binomikertoimen unohtaminen.

Odotusarvo kuvaa satunnaisilmiön odotettavissa olevaa arvoa. Tarkastellaan tavallista noppaa, jonka jokaisen silmäluvun todennäköisyys on $1/6$. Nopan odotusarvo tarkoittaa sellaista arvoa, joka keskimäärin on nopanheiton tulos. Odotusarvo lasketaan todennäköisyyksien ja mahdollisten arvojen avulla seuraavasti: $$ 1 \cdot \frac16 + 2 \cdot \frac16 + 3 \cdot \frac16 + 4 \cdot \frac16 + 5 \cdot \frac16 + 6 \cdot \frac16 = 3{,}5. $$ Huomaa, että odotusarvo 3,5 se ei ole mahdollinen nopanheiton tulos.

MÄÄRITELMÄ: ODOTUSARVO

Satunnaismuuttujan odotusarvo on $$ \sum_{j=1}^{n} x_j \cdot p_j, $$ missä $x_j$ on satunnaismuuttujan arvo ja $p_j$ sitä vastaava todennäköisyys.

Edellisessä luvussä käsiteltiin toistokoetta. Toistokoe suoritetaan 5 kertaa ja yhden kokeen onnistumistodennäköisyys on 0,3. Edellisestä luvusta saamme koottua seuraavan taulukon:

Onnistumisia ($x_j$) Todennäköisyys ($p_j$)
0 16,8 %
1 36,0 %
2 30,9 %
3 13,2 %
4 2,8 %
5 0,002 %

Mikä on toistokokeen odostusarvo?

Odotusarvon määritelmän nojalla odotusarvo on $$ \sum_{j=1}^{6} x_j \cdot p_j & = x_1 \cdot p_1 + x_2 \cdot p_2 + \cdots + x_{6} \cdot p_{6}\\ & = 0 \cdot 0{,}168 + 1 \cdot 0{,}360 + 2 \cdot 0{,}309 + 3 \cdot 0{,}132 + 4 \cdot 0{,}028 + 5 \cdot 0{,}00002\\ & \approx 1{,}49. % 0*0.168+1*.360+2*.309+3*.132+4*.028+5*.00002 $$

Alla olevasta kuvasta saadaan lapsiperheiden lasten lukumäärät $x_j$ ja niitä vastaavat todennäköisyydet $p_j$. Mikä on satunnaisesti valitun lapsiperheen lasten lukumäärän odotusarvo?

Lapsiperheiden lasten lukumäärän todennäköisyysjakauma.

Odotusarvon määritelmän nojalla $$ \begin{align*} \sum_{j=1}^{16} x_j \cdot p_j & = x_1 \cdot p_1 + x_2 \cdot p_2 + \cdots + x_{16} \cdot p_{16}\\ & = 1 \cdot 0{,}427 + 2 \cdot 0{,}389 + \cdots + 16 \cdot 0{,}000005 \approx 1{,}85. \end{align*} $$

Kun todenäköisyysjakauma saadaan havainnoista, niin mitä eroa on keskiarvolla ja odotusarvolla?

xxxx

Tehtävä

Selvitä funktion $f$ määrittelyjoukko ja nollakohdat, jos

  1. $f(x) = x - 3\sqrt{x-1} + 1$
  2. $f(x) = \sqrt{x} + x - 1$

  1. Funktio on määritelty, jos ja vain jos $x \geq 1$.
    Funktiolla on nollakohdat $x_1 = 2$ ja $x_2 = 5$.
  2. Funktio on määritelty, jos ja vain jos $x \geq 0$.
    Funktiolla on nollakohta $$ x = \frac{3 - \sqrt{5}}{2}. $$

  1. Sievennä lauseke $$\sqrt{a\sqrt{a\sqrt{a^2}}},$$ kun $a \geq 0$.
  2. Luku on yhtä suuri kuin puolet sen neliöjuuresta. Määritä kaikki tällaiset luvut.

[Pitkä S2016/2a & S2014/2b]

  1. \begin{align*} \sqrt{a\sqrt{a\sqrt{a^2}}} &= \sqrt{a\sqrt{a^2}} \\ &= \sqrt{a^2} \\ &= a \end{align*}
  2. Kysytyt luvut ovat $0$ ja $\dfrac{1}{4}$.

Varmista, että olet oppinut tämän luvun keskeiset asiat tekemällä itsearviointitesti opetus.tv:n polku-palvelussa. Samalla harjoittelet omien ratkaisujesi pisteyttämistä pisteytysohjeiden avulla.