Metódy matematickej štatistiky (2) - Abstrakt. Matematická štatistika pre špecialistov v rôznych oblastiach Stručne o metódach matematickej štatistiky

Matematická štatistika - Veda o tom, ako systematizovať a využívať štatistické údaje na vedecké a aplikované účely.

Matematická štatistika v psychológii

V psychológii ako vede sa matematická štatistika používa veľmi široko. Pomocou určitých metód, napríklad testovania, sa čísla porovnávajú (škálujú) s rôznymi znakmi ľudského správania a s týmito číslami sa už pracuje pomocou metód matematickej štatistiky. Po aplikácii týchto metód sa získajú nové údaje, ktoré je potrebné interpretovať.

Bez použitia matematickej štatistiky by psychológia bola skôr plochá a málo informatívna veda, založená na dohadoch a špekuláciách (ako je to napríklad v psychoanalýze). Samozrejme, že používanie matematických štatistík nie je „protijed“ proti špekuláciám a špekuláciám, ale predmet diskusie sa stáva oveľa bohatším.

Zoberme si typický a jednoduchý prípad použitia matematickej štatistiky. Povedzme, že niekto vykonal štúdiu skupiny školákov. Okrem iných boli zistené parametre ako extroverzia-introverzia a úroveň inteligencie. Výskumného psychológa zaujímalo, ako tieto parametre spolu súvisia. Je pravda, že introverti sú v priemere múdrejší ako extroverti? K tomu možno skupinu subjektov (vzorku) rozdeliť na dve podskupiny: extrovertov a introvertov. Ďalej sa pre každú podskupinu zistí aritmetický priemer úrovne inteligencie. Ak majú povedzme introverti v priemere vyššie IQ, tak sú múdrejší ako extroverti. Toto je jeden prístup. Ďalším môže byť rozdelenie subjektov do podskupiny s vysokým IQ (nad 100) a nízkym IQ (menej ako 100) a potom vypočítaním priemeru pre extraverziu-introverziu v každej skupine. Tretím prístupom môže byť použitie zložitejšej metódy, korelačnej analýzy, namiesto rozdelenia do podskupín a výpočtu priemerov. Všetky tieto tri metódy sú odlišné, ale ukážu rovnaké spojenie.

Matematická štatistika vám umožňuje robiť zaujímavé, niekedy prekvapivé objavy. Pokračujme v našom hypotetickom príklade. Predpokladajme, že psychológ zistí paradoxný výsledok, ktorý je v rozpore s jeho doterajšími skúsenosťami a poznatkami. Povedzme, že zistil, že na jednej škole sú extroverti múdrejší ako introverti, hoci na všetkých ostatných školách to bolo naopak. prečo je to tak? Precízny psychológ môže začať svoje vyšetrovanie a zistí, že je to napríklad preto, že v tejto škole extroverti chodia na voliteľný predmet z fyziky (pretože je tam „skvelý učiteľ“) a rozvíjajú svoju inteligenciu a introverti chodia na voliteľná literatúra (lebo existuje „učiteľ duše“), kde rozvíjajú ďalšie vlastnosti svojej duše. Môže napríklad psychoanalytik dospieť k takémuto objavu? Vysoko nepravdepodobné.

V psychologickom výskume sa neberú do úvahy len čisto psychologické parametre ako povedzme inteligencia, extroverzia či úzkosť. Môžu sa použiť aj údaje ako vek, pohlavie, úroveň vzdelania, výška, váha, fyzická sila, politické názory, pracovné skúsenosti a mnohé ďalšie. Často sa stáva, že bez takýchto nepsychologických ukazovateľov sa výskum ukáže ako neúplný a neinformatívny. Často sa tiež stáva, že aj zástupcovia iných vied (napríklad sociológie či biológie) využívajú vo svojich výskumoch psychologické parametre.

Matematická štatistika umožňuje veľa vecí:

Praktickí psychológovia sa vo svojej práci zvyčajne obmedzujú na hľadanie aritmetického priemeru, rozdeleného do podskupín (ako v príklade vyššie). Psychológovia používajú širokú škálu metód matematickej štatistiky. Pozrime sa na tie hlavné.

Nájdenie aritmetického priemeru

Najbežnejšia a najjednoduchšia metóda. Ukazovatele (napríklad výška predmetov) sa sčítajú a potom sa vydelia počtom predmetov. Napriek svojej jednoduchosti je metóda, samozrejme, veľmi informatívna a vizuálna. Vizualizácia je pre praktického psychológa dôležitou vlastnosťou metódy. Keď prezentuje výsledky svojho výskumu zákazníkovi (napríklad riaditeľovi školy), nie vždy je schopný pochopiť podstatu korelačnej alebo variančnej analýzy. Rozdelenie predmetov do podskupín na ľubovoľnom základe zvyšuje potenciál aritmetického priemeru, čo umožňuje pokryť väčšinu potrieb výskumníka.

Nájdenie režimu a mediánu

Predpokladajme, že sme vyšetrili 1000 študentov a zmerali ich výšku s presnosťou na centimetre. Tieto údaje sa zapísali do tabuľky. Ak je najbežnejšia hodnota v tabuľke povedzme 172 centimetrov, je to tak móda naša vzorka. Mimochodom, slovo „móda“ sa používa podobným spôsobom v každodennom živote: ak v tejto sezóne najčastejšie vidíte červené klobúky, znamená to módu, hoci podiel týchto klobúkov môže predstavovať iba 20 alebo 30 percent.

V psychologických štúdiách je modus zvyčajne niekde okolo aritmetického priemeru. Ak je móda 172 cm, potom priemer bude asi tak. Čím väčšia je vzorka, tým bližšie je modus a aritmetický priemer.

Ďalej. Predpokladajme, že sme našich študentov rozdelili do dvoch rovnakých skupín: v prvej skupine je 500 nižších študentov, v druhej skupine je 500 študentov vysokých škôl. Hodnota rastu, ktorá pripadá na 500. alebo 501. študenta, je medián. Medián je zvyčajne tiež blízko aritmetického priemeru.

Detekcia rozptýlených hodnôt

Ako viete, priemerná teplota v nemocnici nie je taká dôležitá. A v dobrej nemocnici, kde dobre liečia, môže byť priemerná teplota 36,6 °C; a v zlej situacii to moze byt rovnake: len niekto ma horucku 40°C a niekto uz zomrel a ma 18°C.

Najjednoduchší spôsob, ako odhadnúť rozptyl vzorky, je nájsť ju rozsah(inak – rozptyl). Ak je v našej vzorke najnižší študent vysoký 148 cm a najvyšší 205 cm, potom rozsah vzorky bude 205 – 148 = 57 cm. Táto hodnota je dôležitá predovšetkým preto, aby bolo možné posúdiť, do akej miery sa tento parameter vo všeobecnosti mení.

Ďalej. Predpokladajme túto situáciu. O dvadsať rokov bude mať z rozmaru nejakého boháča klonové deti. O ďalších dvadsať rokov pôjdu na univerzitu. A na univerzite bude vzorka študentov 1000 ľudí, z toho 998 má výšku 177 cm, jeden má 148 cm, jeden má 205 cm z hľadiska hlavných parametrov - aritmetický priemer, režim, medián, rozsah - táto vzorka sa nesmie líšiť od inej vzorky študentov (budú tam rovnaké hodnoty). Ale zároveň v druhej (normálnej) vzorke bude určitý počet študentov s výškou 150-160 cm, niektorí s výškou 180-190 cm atď. Ukazuje sa teda, že z hľadiska matematickej štatistiky sú tieto skupiny rovnaké?

Jeden pohľad na toto číslo stačí na to, aby sme pochopili, že skupiny sa líšia v rozptyle hodnôt. Preto v štatistike existuje presnejší nástroj na odhad rozptylu - disperzia. Rozptyl sa vypočíta takto: nájdite aritmetický priemer, potom nájdite odchýlku od priemeru pre každý prípad, umocnite túto hodnotu a nakoniec vydeľte celkovým počtom prípadov. Z hodnoty rozptylu sa dá ľahko získať smerodajná odchýlka: je to druhá odmocnina z rozptylu. Smerodajná odchýlka znamená, pochopiteľne, smerodajnú odchýlku: teda miera toho, o koľko sa v priemere hodnoty vôbec líšia.

Smerodajná odchýlka sa meria v rovnakých jednotkách ako samotný parameter. V našej prvej hypotetickej skupine, kde sú takmer všetci študenti rovnakí, bude štandardná odchýlka extrémne malá (menej ako 1 cm). V druhej skupine bude oveľa viac - 10-15 centimetrov. Ak nám povieme, že priemerná výška žiakov je 175 cm so štandardnou odchýlkou ​​12 cm, budeme vedieť, že väčšina žiakov (asi 2/3) je v rozmedzí 163 až 187 cm.

Študentov t-test

Predpokladajme, že sa rozhodneme uskutočniť experiment tohto druhu. Vzali sme si skupinu predmetov. Pred začatím experimentu boli testovaní povedzme na úrovni kreativity. Potom celý mesiac hodinu denne kreslili. Na konci experimentu sme ich opäť otestovali na úroveň kreativity. Výsledok bol zaznamenaný, ale dosť malý, a skeptici nám začali hovoriť, že úroveň kreativity sa nezvýšila, mierne zvýšenie aritmetického priemeru bolo len náhodou.

Pre takéto situácie boli vynájdené rôzne kritériá. Jedným z nich – najobľúbenejším – je Studentov t-test. V čitateli má rozdiel aritmetických priemerov. Menovateľ je koreňom súčtu druhých mocnín odchýlok (čo znamená prvý a druhý testovací prípad). Čím väčší je rozdiel medzi aritmetickými priemermi, tým lepšie (naša práca nebola márna) a čím menší je rozptyl hodnôt v oboch diagnostických prípadoch, tým lepšie: keď je rozptyl hodnôt väčší, potom náhodný aj výkyvy sú väčšie.

Pre uplatnenie tohto kritéria existuje výrazné obmedzenie – rozdelenie ukazovateľov by sa malo približovať k tzv normálne(zvonovitý).

Existujú špeciálne kritériá na určenie stupňa normality rozdelenia.

Korelácia

V psychológii, ako asi v žiadnej inej vede, radi nachádzajú korelačné koeficienty. Existuje niekoľko rôznych prístupov, vrátane normálneho aj nenormálneho rozdelenia. Všetky ukazujú mieru závislosti jedného parametra od druhého. Ak je jeden parameter (napríklad váha osoby) veľmi závislý od iného parametra (napríklad výška osoby), potom sa korelačný koeficient bude blížiť k +1. Ak je vzťah inverzný (napríklad čím je človek vyšší, tým je menej obratný), potom bude korelačný koeficient mať tendenciu k -1. Ak neexistuje žiadna závislosť (povedzme, že šťastie pri hraní kariet nezávisí od výšky osoby), korelačný koeficient bude približne 0.

Ak zoberiete skupinu subjektov, zaznamenáte ich výšku a hmotnosť a potom výsledky prenesiete do dvojrozmerného grafu, dostanete niečo ako nasledujúci obrázok, ktorý naznačuje, že korelácia je pozitívna, približne na úrovni +0,5 .

Faktorová analýza

Možno najzáhadnejšia analýza. Niektoré z jeho tajomstiev sa vysvetľuje skutočnosťou, že samotný má nájsť nový parameter, ktorý veľa vysvetľuje, ale nebol priamo študovaný počas experimentu. Pri faktorovej analýze sa spravidla nachádzajú najvplyvnejšie parametre, od ktorých závisia menšie, konkrétnejšie.

Povedzme, že sme uskutočnili štúdiu so školákmi. Okrem iných boli zaznamenané tieto parametre: všeobecný akademický výkon, akademický výkon v prírodovedných predmetoch, akademický výkon v humanitných predmetoch, kapacita krátkodobej pamäte, objem a rozloženie pozornosti, mentálna aktivita, priestorová predstavivosť, všeobecné povedomie, spoločenskosť a úzkosť. . Ak použijete korelačnú analýzu a vytvoríte takzvanú korelačnú maticu (ktorá odráža vzťah každého parametra s každým), môžete vidieť, že väčšina týchto parametrov navzájom dobre koreluje. Výnimkou sú posledné dve, ktoré s ostatnými slabo súvisia. Len pri pohľade na túto maticu môžeme predpokladať, že za väčšinou parametrov je jeden spoločný (superparameter), ktorý ich ovplyvňuje všetky. Vykonáme faktorovú analýzu a potom sa v našej matici objaví ďalší stĺpec - stĺpec bez názvu. Tento záhadný parameter veľmi dobre koreluje so všetkým (okrem sociability a úzkosti). Psychológ tu po kreatívnom premýšľaní prichádza k jedinej možnej interpretácii – záhadným parametrom je inteligencia. Ovplyvňuje všetko ostatné, jej vplyv je silný, aj keď nie stopercentný.

Existujú metódy faktorovej analýzy, ktoré pomáhajú identifikovať nie jeden, ale niekoľko faktorov, ktoré ovplyvňujú iné parametre. Často sa samozrejme stáva, že záhadný parameter nie je taký záhadný, ale úplne sa zhoduje s jedným z parametrov, ktoré boli zaznamenané. Niekedy sa však stane, že si musíte dlho lámať hlavu, kým budete vedieť interpretovať tento tajný faktor.

Faktorovú analýzu využívajú najmä vedci na hlbšie pochopenie predmetu výskumu. Malo by sa vziať do úvahy, že pre presnosť výsledku je potrebný pomerne veľký počet subjektov: je žiaduce, aby počet subjektov bol niekoľkonásobne väčší ako počet parametrov.

Pomocou faktorovej analýzy môžete študovať kvalitu psychologických testov. Ak si napríklad vezmete nejaký osobnostný dotazník s viacerými parametrami a podrobíte tieto parametre faktorovej analýze, môže sa objaviť nejaký zvláštny spoločný faktor, ktorý ovplyvňuje všetky parametre. Nemusí mať výrazný psychologický význam – je to jednoducho tendencia subjektu odpovedať tak či onak na formálnom základe (niekto odpovedá premyslene, niekto má sklon vybrať si prvé body z možností, niekto posledný). Veľký vplyv tohto všeobecného faktora môže naznačovať nedostatočnú kvalitu zadaní.

Literatúra

Ermolaev O. Yu Matematická štatistika pre psychológov: Učebnica. - 2. vyd. kor. - M.: MPSI, Flinta, 2003. - 336 s.

NÁHODNÉ PREMENNÉ A ZÁKONY ICH ROZDELENIA.

Náhodný Volajú množstvo, ktoré nadobúda hodnoty v závislosti od kombinácie náhodných okolností. Rozlišovať diskrétne a náhodné nepretržitý množstvá.

Diskrétne Množstvo sa nazýva, ak nadobúda spočítateľný súbor hodnôt. ( Príklad: počet pacientov u lekára, počet písmen na strane, počet molekúl v danom objeme).

Nepretržitý je množstvo, ktoré môže nadobudnúť hodnoty v určitom intervale. ( Príklad: teplota vzduchu, telesná hmotnosť, výška človeka atď.)

Zákon distribúcie Náhodná premenná je množina možných hodnôt tejto premennej a týmto hodnotám pravdepodobnosti (alebo frekvencie výskytu).

PRÍKLAD:

x x 1 x 2 x 3 x 4 ... x n
p p 1 p 2 p 3 p 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ČÍSELNÉ CHARAKTERISTIKY NÁHODNÝCH PREMENNÝCH.

V mnohých prípadoch spolu s rozdelením náhodnej premennej alebo namiesto nej môžu informácie o týchto veličinách poskytnúť číselné parametre tzv. číselné charakteristiky náhodnej premennej . Najbežnejšie z nich:

1 .Očakávanie - (priemerná hodnota) náhodnej premennej je súčet súčinov všetkých jej možných hodnôt a pravdepodobnosti týchto hodnôt:

2 .Disperzia náhodná premenná:


3 .Smerodajná odchýlka :

Pravidlo „TRI SIGMA“ - ak je náhodná veličina rozdelená podľa normálneho zákona, potom odchýlka tejto hodnoty od priemernej hodnoty v absolútnej hodnote nepresiahne trojnásobok smerodajnej odchýlky

GAUSSOV ZÁKON – ZÁKON O NORMÁLNEJ DISTRIBÚCII

Často sú rozložené množstvá normálny zákon (Gaussov zákon). Hlavná vlastnosť : je to obmedzujúci zákon, ku ktorému sa približujú ostatné zákony distribúcie.

Náhodná premenná je rozdelená podľa normálneho zákona, ak je hustota pravdepodobnosti má tvar:



M(X)- matematické očakávanie náhodnej premennej;

s- smerodajná odchýlka.

Hustota pravdepodobnosti(distribučná funkcia) ukazuje, ako sa mení pravdepodobnosť priradená intervalu dx náhodná premenná v závislosti od hodnoty samotnej premennej:


ZÁKLADNÉ POJMY MATEMATICKEJ ŠTATISTIKY

Matematická štatistika- odvetvie aplikovanej matematiky priamo nadväzujúce na teóriu pravdepodobnosti. Hlavný rozdiel medzi matematickou štatistikou a teóriou pravdepodobnosti je v tom, že matematická štatistika nezohľadňuje akcie na základe zákonov rozdelenia a číselných charakteristík náhodných premenných, ale približuje metódy na nájdenie týchto zákonov a číselných charakteristík na základe výsledkov experimentov.

Základné pojmy matematické štatistiky sú:

1. Všeobecná populácia;

2. vzorka;

3. variačné série;

4. móda;

5. medián;

6. percentil,

7. frekvenčný polygón,

8. histogram.

Obyvateľstvo- veľká štatistická populácia, z ktorej sa vyberá časť objektov na výskum

(Príklad: celé obyvateľstvo kraja, vysokoškoláci daného mesta a pod.)

Vzorka (vzorka populácie)- súbor predmetov vybraných z bežnej populácie.

Variačné série- štatistické rozdelenie pozostávajúce z variantov (hodnoty náhodnej premennej) a ich zodpovedajúcich frekvencií.

Príklad:

X, kg
m

x- hodnota náhodnej premennej (hmotnosť dievčat vo veku 10 rokov);

m- frekvencia výskytu.

Móda– hodnota náhodnej premennej, ktorá zodpovedá najvyššej frekvencii výskytu. (V príklade vyššie móda zodpovedá hodnote 24 kg, je bežnejšia ako ostatné: m = 20).

Medián- hodnota náhodnej premennej, ktorá rozdeľuje rozdelenie na polovicu: polovica hodnôt sa nachádza vpravo od mediánu, polovica (nie viac) - vľavo.

Príklad:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

V príklade sledujeme 40 hodnôt náhodnej premennej. Všetky hodnoty sú usporiadané vo vzostupnom poradí, berúc do úvahy frekvenciu ich výskytu. Môžete vidieť, že napravo od zvýraznenej hodnoty 7 je 20 (polovica) zo 40 hodnôt. Preto je 7 medián.

Na charakterizáciu rozptylu nájdeme hodnoty nie vyššie ako 25 a 75 % výsledkov merania. Tieto hodnoty sa nazývajú 25. a 75 percentily . Ak medián rozdelí rozdelenie na polovicu, potom sa 25. a 75. percentil odreže o štvrtinu. (Mimochodom, samotný medián možno považovať za 50. percentil.) Ako je zrejmé z príkladu, 25. a 75. percentil sa rovná 3 a 8.

Použite diskrétne (bod) štatistické rozdelenie a nepretržitý (intervalové) štatistické rozdelenie.

Pre prehľadnosť sú štatistické rozdelenia vo formulári znázornené graficky frekvenčný rozsah alebo - histogramy .

Frekvenčný polygón- prerušovaná čiara, ktorej segmenty spájajú body so súradnicami ( x 1,m1), (x 2,m2), ... alebo pre polygón relatívnej frekvencie – so súradnicami ( x 1,R * 1), (x 2, р * 2), ...(obr.1).


m m i /n f(x)

Obr.1 Obr.2

Histogram frekvencie- sústava susedných obdĺžnikov postavená na jednej priamke (obr. 2), základne obdĺžnikov sú rovnaké a rovnaké dx a výšky sa rovnajú pomeru frekvencie k dx , alebo p* Komu dx (hustota pravdepodobnosti).

Príklad:

x, kg 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Frekvenčný polygón

Pomer relatívnej frekvencie k šírke intervalu sa nazýva hustota pravdepodobnosti f(x)=m i / n dx = p* i / dx

Príklad konštrukcie histogramu .

Využime údaje z predchádzajúceho príkladu.

1. Výpočet počtu triednych intervalov

Kde n - počet pozorovaní. V našom prípade n = 100 . Preto:

2. Výpočet šírky intervalu dx :

,

3. Zostavenie intervalového radu:

dx 2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Histogram

Metódy matematickej štatistiky


1. Úvod

Matematická štatistika je veda, ktorá sa zaoberá vývojom metód na získavanie, popis a spracovanie experimentálnych údajov za účelom štúdia vzorcov náhodných hromadných javov.

V matematickej štatistike možno rozlíšiť dve oblasti: deskriptívnu štatistiku a induktívnu štatistiku (štatistická inferencia). Deskriptívna štatistika sa zaoberá zhromažďovaním, systematizáciou a prezentáciou experimentálnych údajov vhodnou formou. Induktívna štatistika založená na týchto údajoch umožňuje vyvodiť určité závery týkajúce sa objektov, o ktorých sa údaje zhromažďujú, alebo odhadov ich parametrov.

Typické oblasti matematickej štatistiky sú:

1) teória vzorkovania;

2) teória hodnotenia;

3) testovanie štatistických hypotéz;

4) regresná analýza;

5) analýza rozptylu.

Matematická štatistika je založená na množstve počiatočných konceptov, bez ktorých nie je možné študovať moderné metódy spracovania experimentálnych údajov. Medzi prvými z nich je koncept všeobecnej populácie a vzorky.

Pri hromadnej priemyselnej výrobe je často potrebné bez kontroly každého vyrobeného produktu zistiť, či kvalita produktu spĺňa normy. Keďže množstvo vyrobených výrobkov je veľmi veľké alebo je testovanie výrobkov spojené s ich znehodnotením, kontroluje sa malý počet výrobkov. Na základe tejto kontroly je potrebné urobiť záver o celej sérii produktov. Samozrejme, nemôžete povedať, že všetky tranzistory zo série 1 milióna kusov sú dobré alebo zlé kontrolou jedného z nich. Na druhej strane, keďže proces výberu vzoriek na testovanie a testy samotné môžu byť časovo náročné a viesť k vysokým nákladom, rozsah testovania produktov by mal byť taký, aby mohol spoľahlivo reprezentovať celú šaržu produktov, pričom má minimálnu veľkosť. Na tento účel uvádzame niekoľko pojmov.

Celý súbor skúmaných objektov alebo experimentálnych údajov sa nazýva všeobecná populácia. N označíme počet objektov alebo množstvo údajov, ktoré tvoria všeobecnú populáciu. Hodnota N sa nazýva objem populácie. Ak N>>1, to znamená, že N je veľmi veľké, potom sa zvyčajne uvažuje N = ¥.

Náhodná vzorka alebo jednoducho vzorka je časť populácie, ktorá sa z nej náhodne vyberie. Slovo „náhodný“ znamená, že pravdepodobnosť výberu akéhokoľvek objektu z populácie je rovnaká. Toto je dôležitý predpoklad, ktorý je však často ťažké otestovať v praxi.

Veľkosť vzorky je počet objektov alebo množstvo údajov, ktoré tvoria vzorku a sú označené n. V budúcnosti budeme predpokladať, že vzorovým prvkom môžu byť priradené číselné hodnoty x 1, x 2, ... x n. Napríklad v procese kontroly kvality vyrábaných bipolárnych tranzistorov by to mohlo byť meranie ich DC zisku.


2. Číselné charakteristiky vzorky

2.1 Priemer vzorky

Pre konkrétnu vzorku veľkosti n je jej výberový priemer

je určený vzťahom

kde x i je hodnota prvkov vzorky. Zvyčajne chcete opísať štatistické vlastnosti náhodných náhodných vzoriek a nie len jednej z nich. To znamená, že sa uvažuje s matematickým modelom, ktorý predpokladá dostatočne veľký počet vzoriek veľkosti n. V tomto prípade sa prvky vzorky považujú za náhodné premenné Xi, ktoré nadobúdajú hodnoty xi s hustotou pravdepodobnosti f(x), čo je hustota pravdepodobnosti všeobecnej populácie. Potom je výberový priemer tiež náhodnou premennou

rovná sa

Rovnako ako predtým budeme náhodné premenné označovať veľkými písmenami a hodnoty náhodných premenných malými písmenami.

Priemerná hodnota populácie, z ktorej sa vzorka odoberá, sa bude nazývať všeobecný priemer a označí sa m x. Dá sa očakávať, že ak je veľkosť vzorky významná, priemer vzorky sa nebude významne líšiť od priemeru populácie. Keďže priemer vzorky je náhodná premenná, možno pre ňu nájsť matematické očakávanie:

Matematické očakávanie priemeru vzorky sa teda rovná všeobecnému priemeru. V tomto prípade je priemer vzorky považovaný za nezaujatý odhad priemeru populácie. K tomuto termínu sa vrátime neskôr. Keďže priemer vzorky je náhodná premenná, ktorá kolíše okolo všeobecného priemeru, je žiaduce odhadnúť toto kolísanie pomocou rozptylu priemeru vzorky. Zoberme si vzorku, ktorej veľkosť n je výrazne menšia ako veľkosť populácie N (n<< N). Предположим, что при формировании выборки характеристики генеральной совокупности не меняются, что эквивалентно предположению N = ¥. Тогда

Náhodné premenné X i a X j (i¹j) možno považovať za nezávislé, preto

Získaný výsledok dosadíme do vzorca pre rozptyl:

kde s 2 je rozptyl populácie.

Z tohto vzorca vyplýva, že s rastúcou veľkosťou vzorky kolísanie priemeru vzorky okolo všeobecného priemeru klesá ako s 2 /n. Ilustrujme si to na príklade. Nech existuje náhodný signál s matematickým očakávaním a rozptylom rovným m x = 10, s 2 = 9.

Vzorky signálu sa odoberajú v rovnako vzdialených časoch t 1, t 2, ...,

X(t)

X 1

t1t2. . . t n t

Keďže vzorky sú náhodné premenné, budeme ich označovať X(t 1), X(t 2), . . . X(tn).

Stanovme počet vzoriek tak, aby smerodajná odchýlka odhadu matematického očakávania signálu nepresiahla 1 % jeho matematického očakávania. Keďže m x = 10, je potrebné, aby

Na druhej strane teda alebo Odtiaľ dostaneme, že n ³ 900 vzoriek.

2.2 Ukážkový rozptyl

Pre vzorové údaje je dôležité poznať nielen priemer vzorky, ale aj rozptyl hodnôt vzorky okolo priemeru vzorky. Ak je výberový priemer odhadom priemeru populácie, potom výberový rozptyl musí byť odhadom rozptylu populácie. Ukážkový rozptyl

pre vzorku pozostávajúcu z náhodných premenných sa určí nasledovne

Pomocou tejto reprezentácie výberového rozptylu nájdeme jeho matematické očakávanie

Matematická štatistika je jedným z hlavných odvetví vedy matematiky a je odvetvím, ktoré študuje metódy a pravidlá spracovania určitých údajov. Inými slovami, skúma spôsoby, ako objaviť vzory, ktoré sú charakteristické pre veľké populácie identických objektov, na základe ich vzorkovania.

Cieľom tejto časti je zostaviť metódy na hodnotenie pravdepodobnosti alebo na prijatie určitého rozhodnutia o povahe rozvíjajúcich sa udalostí na základe získaných výsledkov. Na popis údajov sa používajú tabuľky, grafy a korelačné polia. málo používané.

Matematická štatistika sa používa v rôznych oblastiach vedy. Napríklad pre ekonomiku je dôležité spracovávať informácie o homogénnych súboroch javov a objektov. Môžu to byť produkty vyrábané priemyslom, personálom, údaje o zisku atď. V závislosti od matematického charakteru výsledkov pozorovania môžeme rozlíšiť štatistiku čísel, analýzu funkcií a objektov nenumerického charakteru, viacrozmernú analýzu. Okrem toho sa berú do úvahy všeobecné a špecifické problémy (súvisiace s obnovou závislostí, používaním klasifikácií a selektívnym výskumom).

Autori niektorých učebníc sa domnievajú, že teória matematickej štatistiky je len časťou teórie pravdepodobnosti, iní sa domnievajú, že ide o nezávislú vedu s vlastnými cieľmi, cieľmi a metódami. Jeho využitie je však v každom prípade veľmi rozsiahle.

Matematická štatistika je teda najjasnejšie použiteľná v psychológii. Jeho použitie umožní špecialistovi správne zdôvodniť nájdenie vzťahu medzi údajmi, zovšeobecniť ich, vyhnúť sa mnohým logickým chybám a mnoho ďalšieho. Treba poznamenať, že často je jednoducho nemožné zmerať konkrétny psychologický jav alebo osobnostnú črtu bez výpočtových postupov. To naznačuje, že základy tejto vedy sú nevyhnutné. Inými slovami, možno ho nazvať zdrojom a základom teórie pravdepodobnosti.

Výskumná metóda, ktorá sa opiera o zohľadnenie štatistických údajov, sa používa v iných oblastiach. Okamžite však treba poznamenať, že jeho vlastnosti pri aplikácii na predmety rôzneho pôvodu sú vždy jedinečné. Preto nemá zmysel spájať fyzikálnu vedu do jednej vedy. Všeobecné črty tejto metódy sa obmedzujú na počítanie určitého počtu objektov, ktoré sú zahrnuté v určitej skupine, ako aj na štúdium distribúcie kvantitatívnych charakteristík a aplikáciu teórie pravdepodobnosti na získanie určitých záverov.

Prvky matematickej štatistiky sa používajú v oblastiach, ako je fyzika, astronómia atď. Tu možno zvážiť hodnoty charakteristík a parametrov, hypotézy o zhode akýchkoľvek charakteristík v dvoch vzorkách, symetriu rozdelenia a oveľa viac. .

Pri ich výskume hrá hlavnú úlohu matematická štatistika. Ich cieľom je najčastejšie skonštruovať adekvátne metódy odhadu a testovať hypotézy. V súčasnosti má v tejto vede veľký význam výpočtová technika. Umožňujú nielen výrazne zjednodušiť proces výpočtu, ale aj vytvárať vzorky na násobenie alebo pri štúdiu vhodnosti získaných výsledkov v praxi.

Vo všeobecnosti metódy matematickej štatistiky pomáhajú vyvodiť dva závery: buď prijať požadovaný úsudok o povahe alebo vlastnostiach skúmaných údajov a ich vzťahoch, alebo dokázať, že získané výsledky nestačia na vyvodenie záverov.

Údaje získané ako výsledok experimentu sa vyznačujú variabilitou, ktorá môže byť spôsobená náhodnou chybou: chybou meracieho zariadenia, heterogenitou vzoriek atď. Po zozbieraní veľkého množstva homogénnych údajov ich musí experimentátor spracovať, aby získal čo najpresnejšie informácie o uvažovanom množstve. Na spracovanie veľkého množstva nameraných údajov, pozorovaní atď., ktoré možno získať počas experimentu, je vhodné použiť metódy matematickej štatistiky.

Matematická štatistika je neoddeliteľne spojená s teóriou pravdepodobnosti, no medzi týmito vedami je podstatný rozdiel. Teória pravdepodobnosti využíva už známe rozdelenia náhodných veličín, na základe ktorých sa vypočítavajú pravdepodobnosti udalostí, matematické očakávanie a pod. Problém matematickej štatistiky– získať najspoľahlivejšie informácie o rozdelení náhodnej premennej na základe experimentálnych údajov.

Typické smeroch matematická štatistika:

  • teória odberu vzoriek;
  • teória hodnotenia;
  • testovanie štatistických hypotéz;
  • regresná analýza;
  • analýza rozptylu.

Metódy matematickej štatistiky

Metódy hodnotenia a testovania hypotéz sú založené na pravdepodobnostných a hyper-náhodných modeloch pôvodu údajov.

Matematická štatistika vyhodnocuje ich parametre a funkcie, ktoré predstavujú dôležité charakteristiky rozdelení (medián, očakávaná hodnota, smerodajná odchýlka, kvantily atď.), hustoty a distribučné funkcie atď. Používajú sa bodové a intervalové odhady.

Moderná matematická štatistika obsahuje veľkú časť - štatistická sekvenčná analýza, v ktorom je možné vytvoriť pole pozorovaní z jedného poľa.

Matematická štatistika obsahuje aj všeobecné teória testovania hypotéz a veľké množstvo metód pre testovanie konkrétnych hypotéz(napríklad o symetrii rozdelenia, o hodnotách parametrov a charakteristík, o zhode empirickej distribučnej funkcie s danou distribučnou funkciou, hypotéza testovania homogenity (zhoda charakteristík alebo distribučných funkcií v dvoch vzorky) atď.).

Vykonávanie výberové prieskumy, súvisiaca s konštrukciou adekvátnych metód na hodnotenie a testovanie hypotéz, s vlastnosťami rôznych vzorkovacích schém, je odvetvie matematickej štatistiky, ktoré má veľký význam. Metódy matematickej štatistiky priamo využívajú nasledujúce základné pojmy.

Ukážka

Definícia 1

Odber vzoriek sa vzťahuje na údaje získané počas experimentu.

Napríklad výsledky letového dosahu strely pri výstrele z rovnakých alebo podobných zbraní.

Empirická distribučná funkcia

Poznámka 1

Distribučná funkcia umožňuje vyjadriť všetky najdôležitejšie charakteristiky náhodnej premennej.

V matematickej štatistike existuje pojem teoretická(vopred nie je známe) a empirický distribučných funkcií.

Empirická funkcia sa určuje podľa experimentálnych údajov (empirických údajov), t.j. podľa vzorky.

Histogram

Histogramy sa používajú na vizuálnu, ale skôr približnú reprezentáciu neznámeho rozdelenia.

Histogram je grafické znázornenie rozloženia dát.

Ak chcete získať vysokokvalitný histogram, dodržujte nasledovné: pravidlá:

  • Počet prvkov vzorky musí byť výrazne menší ako veľkosť vzorky.
  • Delené intervaly musia obsahovať dostatočný počet prvkov vzorky.

Ak je vzorka veľmi veľká, interval prvkov vzorky je často rozdelený na rovnaké časti.

Priemer vzorky a rozptyl vzorky

Pomocou týchto konceptov môžete získať odhad nevyhnutných numerických charakteristík neznámeho rozdelenia bez toho, aby ste sa museli uchýliť ku konštrukcii distribučnej funkcie, histogramu atď.