Základy matematickej štatistiky. Základné pojmy matematickej štatistiky Klasifikácia matematickej štatistiky

Matematická štatistika je odvetvie matematiky, ktoré študuje približné metódy zberu a analýzy údajov z experimentálnych výsledkov na identifikáciu existujúcich vzorov, t.j. hľadanie zákonov rozdelenia náhodných veličín a ich číselných charakteristík.

V matematickej štatistike je zvykom rozlišovať dve hlavné oblasti výskumu:

1. Odhad parametrov bežnej populácie.

2. Testovanie štatistických hypotéz (niektoré apriórne predpoklady).

Základné pojmy matematickej štatistiky sú: populácia, výberový súbor, teoretická distribučná funkcia.

Všeobecná populácia je súbor všetkých mysliteľných štatistických údajov z pozorovaní náhodnej premennej.

X G = (x 1, x 2, x 3, ..., x N, ) = (x i; i=1, N)

Pozorovaná náhodná premenná X sa nazýva vzorový znak alebo faktor. Všeobecná populácia je štatistická analógia náhodnej premennej, jej objem N je zvyčajne veľký, preto sa z nej vyberie časť údajov, ktorá sa nazýva výberová populácia alebo jednoducho vzorka.

X B = (x 1, x 2, x 3, ..., x n, ) = (x i; i = 1, n)

Х В М Х Г, n £ N

Ukážka je súbor náhodne vybraných pozorovaní (objektov) z bežnej populácie na priame štúdium. Počet objektov vo vzorke sa nazýva veľkosť vzorky a označuje sa n. Vo vzorke je zvyčajne 5 % až 10 % populácie.

Použitie vzorky na vytvorenie vzorov, ktoré riadia pozorovanú náhodnú premennú, umožňuje vyhnúť sa jej nepretržitému (hromadnému) pozorovaniu, čo je často proces náročný na zdroje, alebo dokonca jednoducho nemožné.

Napríklad populácia je súbor jednotlivcov. Štúdium celej populácie je časovo náročné a drahé, takže údaje sa zhromažďujú od vzorky jednotlivcov, ktorí sa považujú za reprezentatívnu populáciu, čo umožňuje vyvodiť závery o tejto populácii.

Vzorka však musí spĺňať podmienku reprezentatívnosť, t.j. zabezpečiť primerané zastúpenie obyvateľstva. Ako vytvoriť reprezentatívnu (reprezentatívnu) vzorku? V ideálnom prípade sa snažia získať náhodnú vzorku. Na tento účel sa vytvorí zoznam všetkých jedincov v populácii a náhodne sa vyberú. Ale niekedy sa náklady na zostavenie zoznamu môžu ukázať ako neprijateľné a potom odoberú prijateľnú vzorku, napríklad jednu kliniku, nemocnicu a preštudujú všetkých pacientov na tejto klinike s daným ochorením.

Každý vzorový prvok sa nazýva variant. Počet opakovaní variantov vo vzorke sa nazýva frekvencia výskytu. Množstvo je tzv relatívna frekvencia možnosti, t.j. sa zistí ako pomer absolútnej frekvencie variantov k celej veľkosti vzorky. Volá sa postupnosť volieb napísaných vo vzostupnom poradí variačná séria.


Uvažujme tri formy variačných radov: radové, diskrétne a intervalové.

Hodnotené série- ide o zoznam jednotlivých jednotiek populácie vo vzostupnom poradí podľa skúmanej charakteristiky.

Séria diskrétnych variácií je tabuľka pozostávajúca zo stĺpcov alebo riadkov: konkrétna hodnota charakteristiky x i a absolútna frekvencia n i (alebo relatívna frekvencia ω i) prejavu i-tej hodnoty charakteristiky x.

Príkladom série variácií je tabuľka

Napíšte rozdelenie relatívnych početností.

Riešenie: Poďme nájsť relatívne frekvencie. Za týmto účelom vydeľte frekvencie veľkosťou vzorky:

Rozdelenie relatívnych frekvencií má tvar:

0,15 0,5 0,35

Kontrola: 0,15 + 0,5 + 0,35 = 1.

Samostatnú sériu možno znázorniť graficky. V pravouhlej karteziánskej súradnicovej sústave sú označené body so súradnicami () alebo (), ktoré sú spojené priamkami. Takáto prerušovaná čiara je tzv frekvenčný polygón.

Zostrojte diskrétnu sériu variácií (DVR) a nakreslite polygón pre rozdelenie 45 uchádzačov podľa počtu bodov, ktoré získali na prijímacích skúškach:

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Riešenie: Na zostavenie radu variácií umiestnime rôzne hodnoty charakteristiky x (varianty) vo vzostupnom poradí a zapíšeme ich frekvenciu pod každú z týchto hodnôt.

Zostavme polygón pre túto distribúciu:

Ryža. 13.1. Frekvenčný polygón

Intervalové variačné série používa sa na veľké množstvo pozorovaní. Na zostavenie takejto série je potrebné vybrať počet intervalov charakteristiky a nastaviť dĺžku intervalu. Pri väčšom počte skupín bude interval minimálny. Počet skupín v sérii variácií možno nájsť pomocou Sturgesovho vzorca: (k je počet skupín, n je veľkosť vzorky) a šírka intervalu je

kde je maximum; - minimálna hodnota je opcia a ich rozdiel R sa nazýva rozsah variácií.

Študuje sa vzorka 100 ľudí z populácie všetkých študentov lekárskych vysokých škôl.

Riešenie: Vypočítajme počet skupín: . Na zostavenie intervalového radu je teda lepšie rozdeliť túto vzorku do 7 alebo 8 skupín. Nazýva sa súbor skupín, do ktorých sú rozdelené výsledky pozorovania a frekvencia získavania výsledkov pozorovania v každej skupine štatistická totalita.

Na vizuálne znázornenie štatistického rozdelenia použite histogram.

Histogram frekvencie je stupňovitý útvar pozostávajúci zo susedných obdĺžnikov postavených na jednej priamke, ktorej základne sú rovnaké a rovné šírke intervalu a výška sa rovná buď frekvencii pádu do intervalu alebo relatívnej frekvencii ω i.

Pozorovania počtu častíc vstupujúcich do Geigerovho počítača za minútu poskytli nasledujúce výsledky:

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Na základe týchto údajov zostrojte sériu intervalových variácií s rovnakými intervalmi (I interval 20-24; II interval 24-28 atď.) a nakreslite histogram.

Riešenie: n = 50

Histogram tohto rozdelenia vyzerá takto:

Ryža. 13.2. Histogram distribúcie

Možnosti úloh

№ 13.1. Každú hodinu sa meralo napätie v elektrickej sieti. Boli získané nasledujúce hodnoty (B):

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Zostrojte štatistické rozdelenie a nakreslite mnohouholník.

№ 13.2. Pozorovania hladiny cukru v krvi u 50 ľudí poskytli nasledujúce výsledky:

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Na základe týchto údajov zostavte sériu variácií intervalov s rovnakými intervalmi (I - 3,45-3,55; II - 3,55-3,65 atď.) a graficky ju znázornite, nakreslite histogram.

№ 13.3. Zostrojte polygón frekvenčných distribúcií rýchlosti sedimentácie erytrocytov (ESR) pre 100 ľudí.

Metódy matematickej štatistiky sa spravidla používajú vo všetkých fázach analýzy výskumných materiálov na výber stratégie riešenia problémov na základe konkrétnych vzorových údajov a vyhodnotenie získaných výsledkov. Na spracovanie materiálu boli použité metódy matematickej štatistiky. Matematické spracovanie materiálov umožňuje jednoznačne identifikovať a vyhodnocovať kvantitatívne parametre objektívnych informácií, analyzovať a prezentovať ich v rôznych pomeroch a závislostiach. Umožňujú určiť mieru variácie hodnôt v zozbieraných materiáloch obsahujúcich kvantitatívne informácie o určitom súbore prípadov, z ktorých niektoré potvrdzujú navrhované súvislosti a niektoré ich neodhaľujú, na výpočet spoľahlivosti kvantitatívnych rozdielov medzi vybrané súbory prípadov, a získať ďalšie matematické charakteristiky potrebné pre správnu interpretáciu faktov . Spoľahlivosť rozdielov získaných počas štúdie bola stanovená Studentovým t-testom.

Vypočítali sa nasledujúce hodnoty.

1. Aritmetický priemer vzorky.

Charakterizuje priemernú hodnotu uvažovaného obyvateľstva. Označme výsledky merania. potom:

kde Y je súčet všetkých hodnôt, keď sa aktuálny index i zmení z 1 na n.

2. Stredná kvadratická odchýlka (štandardná odchýlka), charakterizujúca rozptyl, rozptyl uvažovanej populácie vo vzťahu k aritmetickému priemeru.

= (x max - x min)/ k

kde je štandardná odchýlka

xmax - maximálna tabuľková hodnota;

xmin - minimálna tabuľková hodnota;

k - koeficient

3. Smerodajná chyba aritmetického priemeru alebo chyba reprezentatívnosti (m). Smerodajná chyba aritmetického priemeru charakterizuje mieru odchýlky výberového aritmetického priemeru od aritmetického priemeru populácie.

Štandardná chyba aritmetického priemeru sa vypočíta podľa vzorca:

kde y je štandardná odchýlka výsledkov merania,

n - veľkosť vzorky. Čím menšie m, tým vyššia stabilita a stabilita výsledkov.

4. Študentov t-test.

(v čitateli - rozdiel medzi priemernými hodnotami dvoch skupín, v menovateli - druhá odmocnina súčtu druhých mocnín štandardných chýb týchto priemerov).

Pri spracovaní výsledkov štúdie bol použitý počítačový program s balíkom Excel.

Organizácia štúdia

Štúdia bola vykonaná nami podľa všeobecne uznávaných pravidiel a bola vykonaná v 3 etapách.

V prvej fáze sa zhromaždil a analyzoval získaný materiál o skúmanom výskumnom probléme. Sformoval sa predmet vedeckého bádania. Analýza literatúry v tejto fáze umožnila špecifikovať účel a ciele štúdie. Uskutočnilo sa počiatočné testovanie techniky behu na 30 m.<... class="gads_sm">

V tretej etape bol materiál získaný ako výsledok vedeckého výskumu systematizovaný a boli zhrnuté všetky dostupné informácie o výskumnom probléme.

Experimentálna štúdia bola vykonaná na základe Štátnej vzdelávacej inštitúcie „Lyakhovichi Stredná škola“ celkom, vzorka pozostávala z 20 študentov 6 ročníkov (11-12 rokov).

Kapitola 3. Analýza výsledkov výskumu

Ako výsledok pedagogického experimentu sme identifikovali počiatočnú úroveň techniky behu na 30 m pre žiakov v kontrolnej a experimentálnej skupine (prílohy 1-2). Štatistické spracovanie získaných výsledkov nám umožnilo získať nasledujúce údaje (tabuľka 6).

Tabuľka 6. Počiatočná úroveň kvality chodu

Ako vidno z tabuľky 6, priemerný počet bodov u športovcov v kontrolnej a experimentálnej skupine sa štatisticky nelíši v experimentálnej skupine priemerné skóre 3,6 bodu a v kontrolnej skupine 3,7 bodu. T-test v oboch skupinách temp=0,3; ?0,05, s tcrit=2,1; Výsledky počiatočného testovania ukázali, že ukazovatele nezávisia od tréningu a sú náhodného charakteru. Podľa počiatočného testovania boli ukazovatele kvality behu v kontrolnej skupine o niečo vyššie ako v experimentálnej skupine. Ale v skupinách neboli zistené štatisticky významné rozdiely, čo je dôkazom identity žiakov v kontrolnej a experimentálnej skupine v technike behu na 30m.

Počas experimentu sa u oboch skupín zlepšili ukazovatele charakterizujúce efektivitu techniky behu. Toto zlepšenie však malo rôzny charakter v rôznych skupinách účastníkov experimentu. V dôsledku školenia bol zistený prirodzený malý nárast ukazovateľov v kontrolnej skupine (3,8 bodu). Ako vidno z prílohy 2, v experimentálnej skupine bol zistený veľký nárast ukazovateľov. Žiaci študovali podľa nami navrhnutého programu, čo výrazne zlepšilo ich výkon.

Tabuľka 7. Zmeny v kvalite behu medzi subjektmi v experimentálnej skupine

Počas experimentu sme zistili, že zvýšená záťaž v experimentálnej skupine poskytla výrazné zlepšenie vo vývoji rýchlosti ako v kontrolnej skupine.

V dospievaní je vhodné rozvíjať rýchlosť primárnym využívaním telovýchovných pomôcok zameraných na zvýšenie frekvencie pohybov. Vo veku 12-15 rokov sa zvyšujú rýchlostné schopnosti, a to v dôsledku využívania najmä rýchlostno-silových a silových cvičení, ktoré sme využívali v procese vedenia hodín telesnej výchovy a mimoškolských aktivít v športovej časti basketbalu a atletiky.

Pri vedení tried v experimentálnej skupine došlo k striktnému stupňovitému progresu zložitosti a motorickej skúsenosti. Práce na chybách boli vykonané včas. Ako ukázala analýza aktuálnych údajov, experimentálna metóda výučby mala významnú zmenu v kvalite techniky behu (teplota = 2,4). Analýza výsledkov získaných v experimentálnej skupine a porovnanie s údajmi získanými v kontrolnej skupine pomocou všeobecne akceptovaných vyučovacích metód dáva dôvod tvrdiť, že nami navrhovaná metodika zvýši efektivitu tréningu.

V štádiu zdokonaľovania techniky behu na 30 m v škole sme teda identifikovali dynamiku zmien ukazovateľov testovania v experimentálnej a kontrolnej skupine. Po experimente sa kvalita techniky zvýšila v experimentálnej skupine na 4,9 bodu (t=3,3; P?0,05). Na konci experimentu sa kvalita techniky behu v experimentálnej skupine ukázala byť vyššia ako v kontrolnej skupine.

Údaje získané ako výsledok experimentu sa vyznačujú variabilitou, ktorá môže byť spôsobená náhodnou chybou: chybou meracieho zariadenia, heterogenitou vzoriek atď. Po zozbieraní veľkého množstva homogénnych údajov ich musí experimentátor spracovať, aby získal čo najpresnejšie informácie o uvažovanom množstve. Na spracovanie veľkého množstva nameraných údajov, pozorovaní atď., ktoré možno získať počas experimentu, je vhodné použiť metódy matematickej štatistiky.

Matematická štatistika je neoddeliteľne spojená s teóriou pravdepodobnosti, no medzi týmito vedami je podstatný rozdiel. Teória pravdepodobnosti využíva už známe rozdelenia náhodných veličín, na základe ktorých sa vypočítavajú pravdepodobnosti udalostí, matematické očakávanie a pod. Problém matematickej štatistiky– získať najspoľahlivejšie informácie o rozdelení náhodnej premennej na základe experimentálnych údajov.

Typické smeroch matematická štatistika:

  • teória odberu vzoriek;
  • teória hodnotenia;
  • testovanie štatistických hypotéz;
  • regresná analýza;
  • analýza rozptylu.

Metódy matematickej štatistiky

Metódy hodnotenia a testovania hypotéz sú založené na pravdepodobnostných a hyper-náhodných modeloch pôvodu údajov.

Matematická štatistika vyhodnocuje ich parametre a funkcie, ktoré predstavujú dôležité charakteristiky rozdelení (medián, očakávaná hodnota, smerodajná odchýlka, kvantily atď.), hustoty a distribučné funkcie atď. Používajú sa bodové a intervalové odhady.

Moderná matematická štatistika obsahuje veľkú časť - štatistická sekvenčná analýza, v ktorom je možné vytvoriť pole pozorovaní z jedného poľa.

Matematická štatistika obsahuje aj všeobecné teória testovania hypotéz a veľké množstvo metód pre testovanie konkrétnych hypotéz(napríklad o symetrii rozdelenia, o hodnotách parametrov a charakteristík, o zhode empirickej distribučnej funkcie s danou distribučnou funkciou, hypotéza testovania homogenity (zhoda charakteristík alebo distribučných funkcií v dvoch vzorky) atď.).

Vykonávanie výberové prieskumy, súvisiaca s konštrukciou adekvátnych metód na hodnotenie a testovanie hypotéz, s vlastnosťami rôznych vzorkovacích schém, je odvetvie matematickej štatistiky, ktoré má veľký význam. Metódy matematickej štatistiky priamo využívajú nasledujúce základné pojmy.

Ukážka

Definícia 1

Odber vzoriek sa vzťahuje na údaje získané počas experimentu.

Napríklad výsledky letového dosahu strely pri výstrele z rovnakých alebo podobných zbraní.

Empirická distribučná funkcia

Poznámka 1

Distribučná funkcia umožňuje vyjadriť všetky najdôležitejšie charakteristiky náhodnej premennej.

V matematickej štatistike existuje pojem teoretická(vopred nie je známe) a empirický distribučných funkcií.

Empirická funkcia sa určuje podľa experimentálnych údajov (empirických údajov), t.j. podľa vzorky.

Histogram

Histogramy sa používajú na vizuálnu, ale skôr približnú reprezentáciu neznámeho rozdelenia.

Histogram je grafické znázornenie rozloženia dát.

Ak chcete získať vysokokvalitný histogram, dodržujte nasledovné: pravidlá:

  • Počet prvkov vzorky musí byť výrazne menší ako veľkosť vzorky.
  • Delené intervaly musia obsahovať dostatočný počet prvkov vzorky.

Ak je vzorka veľmi veľká, interval prvkov vzorky je často rozdelený na rovnaké časti.

Priemer vzorky a rozptyl vzorky

Pomocou týchto konceptov môžete získať odhad nevyhnutných numerických charakteristík neznámeho rozdelenia bez toho, aby ste sa museli uchýliť ku konštrukcii distribučnej funkcie, histogramu atď.

Odessa National Medical University Katedra biofyziky, informatiky a zdravotníckeho vybavenia Pokyny pre študentov 1. ročníka na tému „Základy matematickej štatistiky“ Odessa 2009

1. Téma: “Základy matematickej štatistiky.”

2. Relevantnosť témy.

Matematická štatistika je odvetvie matematiky, ktoré študuje metódy zhromažďovania, systematizácie a spracovania výsledkov pozorovaní hromadných náhodných udalostí s cieľom objasniť a prakticky aplikovať existujúce vzorce. Metódy matematickej štatistiky našli široké uplatnenie v klinickej medicíne a zdravotníctve. Uplatňujú sa najmä pri vývoji matematických metód lekárskej diagnostiky, v teórii epidémií, pri plánovaní a spracovaní výsledkov medicínskeho experimentu, pri organizácii zdravotníctva. Štatistické pojmy sa vedome alebo nevedome používajú pri rozhodovaní v takých záležitostiach, ako je klinická diagnóza, predpovedanie priebehu ochorenia u jednotlivého pacienta, predpovedanie pravdepodobného výsledku programov v danej populácii a výber vhodného programu za konkrétnych okolností. Oboznámenie sa s myšlienkami a metódami matematickej štatistiky je základným prvkom odborného vzdelávania každého zdravotníckeho pracovníka.

3. Celé triedy. Všeobecným cieľom hodiny je naučiť študentov vedome využívať matematickú štatistiku pri riešení úloh biomedicínskeho profilu. Konkrétne celé lekcie:
  1. oboznámiť študentov so základnými myšlienkami, pojmami a metódami matematickej štatistiky, venovať pozornosť najmä otázkam spojeným so spracovaním výsledkov pozorovaní hromadných náhodných dejov s cieľom objasniť a prakticky aplikovať existujúce zákonitosti;
  2. naučiť študentov vedome aplikovať základné pojmy matematickej štatistiky pri riešení jednoduchých problémov, ktoré vznikajú pri odbornej činnosti lekára.
Študent musí vedieť (úroveň 2):
  1. určenie frekvencie tried (absolútna a relatívna)
  2. stanovenie celkového súhrnu a odber vzoriek, objem odberu vzoriek
  3. bodový a intervalový odhad
  4. spoľahlivý interval a spoľahlivosť
  5. definícia módu, mediánu a výberového priemeru
  6. definícia rozpätia, medzikvartilové rozpätie, kvartilová odchýlka
  7. stanovenie strednej absolútnej odchýlky
  8. stanovenie kovariancie a rozptylu vzorky
  9. stanovenie štandardnej odchýlky vzorky a variačného koeficientu
  10. stanovenie výberových regresných koeficientov
  11. empirické lineárne regresné rovnice
  12. stanovenie výberového korelačného koeficientu.
Študent musí ovládať základné výpočtové návyky (úroveň 3):
  1. modus, medián a priemer vzorky
  2. rozsah, medzikvartilový rozsah, kvartilová odchýlka
  3. stredná absolútna odchýlka
  4. vzorová kovariancia a rozptyl
  5. vzorová smerodajná odchýlka a variačný koeficient
  6. spoľahlivý interval pre očakávanie a rozptyl
  7. výberové regresné koeficienty
  8. vzorový korelačný koeficient.
4. Spôsoby, ako dosiahnuť ciele lekcie: Na dosiahnutie cieľov lekcie potrebujete nasledujúce základné znalosti:
  1. Definícia rozdelenia, distribučného radu a viacuzlového rozdelenia diskrétnej náhodnej premennej
  2. Určenie funkčnej variácie medzi náhodnými premennými
  3. Určenie korelácie medzi náhodnými premennými
Musíte byť tiež schopní vypočítať pravdepodobnosti nekompatibilných a kompatibilných udalostí pomocou príslušných pravidiel. 5. Úloha pre študentov, aby si otestovali svoju počiatočnú úroveň vedomostí. Bezpečnostné otázky
  1. Definícia zábleskovej udalosti, jej relatívna frekvencia a pravdepodobnosť.
  2. Veta o skladaní pravdepodobnosti nezlučiteľných udalostí
  3. Veta na zostavovanie pravdepodobnosti spoločných udalostí
  4. Veta o násobení pravdepodobnosti nezávislých udalostí
  5. Veta o násobení pravdepodobnosti závislých udalostí
  6. Veta o celkovej pravdepodobnosti
  7. Bayesova veta
  8. Definícia náhodných premenných: diskrétne a spojité
  9. Definícia rozdelenia, distribučného radu a distribučného polygónu diskrétnej náhodnej premennej
  10. Definícia distribučnej funkcie
  11. Definícia mier polohy distribučného centra
  12. Stanovenie mier variability hodnôt náhodných premenných
  13. Určenie hrúbky rozloženia a krivky rozdelenia spojitej náhodnej veličiny
  14. Stanovenie funkčnej závislosti medzi náhodnými veličinami
  15. Určenie korelácie medzi náhodnými premennými
  16. Definícia regresie, rovnica a regresné priamky
  17. Stanovenie kovariancie a korelačného koeficientu
  18. Definícia lineárnej regresnej rovnice.
6. Informácie na posilnenie počiatočných vedomostí a zručností nájdete v príručkách:
  1. Zhumatiy P.G. Prednáška „Teória pravdepodobnosti“. Odesa, 2009.
  2. Zhumatiy P.G. "Základy teórie pravdepodobnosti." Odesa, 2009.
  3. Zhumatiy P.G., Senitska Y.R. Prvky teórie pravdepodobnosti. Pokyny pre študentov lekárskeho inštitútu. Odesa, 1981.
  4. Chaly O.V., Agapov B.T., Tsekhmister Y.V. Lekárska a biologická fyzika. Kyjev, 2004.
7. Obsah vzdelávacieho materiálu z tejto témy, zdôrazňujúci hlavné kľúčové problémy.

Matematická štatistika je odvetvie matematiky, ktoré študuje metódy zhromažďovania, systematizácie, spracovania, zobrazovania, analýzy a interpretácie výsledkov pozorovania s cieľom identifikovať existujúce vzorce.

Využitie štatistík v zdravotníctve je nevyhnutné na úrovni komunity aj jednotlivých pacientov. Medicína sa zaoberá jedincami, ktorí sa od seba líšia v mnohých charakteristikách a hodnoty, podľa ktorých možno človeka považovať za zdravého, sa líšia od jedného jedinca k druhému. Žiadni dvaja pacienti alebo skupiny pacientov nie sú úplne rovnakí, takže rozhodnutia, ktoré ovplyvňujú jednotlivých pacientov alebo populácie, sa musia robiť na základe skúseností získaných od iných pacientov alebo populácií s podobnými biologickými charakteristikami. Je potrebné si uvedomiť, že vzhľadom na existujúce nezrovnalosti nemôžu byť tieto rozhodnutia absolútne presné – vždy sú spojené s určitou neistotou. Presne toto je vírusová podstata medicíny.

Niekoľko príkladov aplikácie štatistických metód v medicíne:

interpretácia variácie (premenlivosť charakteristík organizmu pri rozhodovaní, aká hodnota tej či onej charakteristiky bude ideálna, normálna, priemerná atď., si vyžaduje použitie vhodných štatistických metód).

diagnostika chorôb u jednotlivých pacientov a hodnotenie zdravotného stavu skupiny obyvateľstva.

predpovedanie konca ochorenia u jednotlivých pacientov alebo možného výsledku kontrolného programu pre konkrétne ochorenie v ktorejkoľvek skupine populácie.

výber vhodného vplyvu na pacienta alebo skupinu populácie.

plánovanie a vykonávanie lekárskeho výskumu, analýza a publikovanie výsledkov, ich čítanie a kritické hodnotenie.

plánovanie a riadenie zdravotnej starostlivosti.

Užitočné informácie o zdraví sú zvyčajne skryté v množstve nespracovaných údajov. Je potrebné koncentrovať informácie v nich obsiahnuté a prezentovať údaje tak, aby bola jasne viditeľná štruktúra variácií a následne zvoliť konkrétne metódy analýzy.

Prezentácia údajov poskytuje úvod do nasledujúcich pojmov a pojmov:

variačný rad (usporiadané usporiadanie) - jednoduché usporiadanie jednotlivých pozorovaní veličiny.

trieda je jedným z intervalov, do ktorých je rozdelený celý rozsah hodnôt náhodnej premennej.

extrémne body triedy - hodnoty, ktoré ohraničujú triedu, napríklad 2,5 a 3,0, dolné a horné hranice triedy 2,5 - 3,0.

(absolútna) frekvencia tried - počet pozorovaní v triede.

relatívna frekvencia triedy - absolútna frekvencia triedy, vyjadrená ako zlomok z celkového počtu pozorovaní.

kumulatívna (kumulovaná) frekvencia triedy - počet pozorovaní, ktorý sa rovná súčtu frekvencií všetkých predchádzajúcich tried a tejto triedy.

Stovptsevov diagram - grafické znázornenie frekvencií údajov pre nominálne triedy pomocou stĺpcov, ktorých výšky sú priamo úmerné frekvenciám tried.

koláčový graf - grafické znázornenie frekvencií údajov pre nominálne triedy pomocou sektorov kruhu, ktorých plochy sú priamo úmerné frekvenciám tried.

histogram - grafické znázornenie frekvenčného rozdelenia kvantitatívnych údajov s plochami obdĺžnikov priamo úmerných triednym frekvenciám.

frekvenčný polygón - graf frekvenčného rozloženia kvantitatívnych údajov; bod zodpovedajúci frekvencii triedy sa nachádza nad stredom intervalu, každý dva susedné body sú spojené priamkou.

ogive (kumulatívna krivka) - graf rozloženia kumulatívnych relatívnych početností.

Všetky lekárske údaje majú prirodzenú variabilitu, takže analýza výsledkov meraní je založená na štúdiu informácií o tom, aké hodnoty naberala skúmaná náhodná premenná.

Množina všetkých možných hodnôt náhodnej premennej sa nazýva všeobecná.

Časť bežnej populácie registrovaná ako výsledok testov sa nazýva vzorka.

Počet pozorovaní zahrnutých vo vzorke sa nazýva objem vzorky (zvyčajne sa označuje n).

Úlohou metódy výberu vzoriek je použiť výsledný volič na správny odhad skúmanej náhodnej premennej. Hlavnou požiadavkou na vzorku je preto maximálny odraz všetkých znakov bežnej populácie Vzorka, ktorá spĺňa túto požiadavku, sa nazýva reprezentatívnosť vzorky, ktorá určuje kvalitu hodnotenia, teda mieru zhody hodnotenia na parameter, ktorý charakterizuje.

Pri odhadovaní parametrov populácie na základe voliča (parametrický odhad) sa používajú tieto pojmy:

bodový odhad - odhad parametra populácie vo forme jedinej hodnoty, ktorú môže nadobudnúť s najväčšou pravdepodobnosťou.

intervalový odhad - odhad parametra populácie vo forme intervalu hodnôt, ktorý má danú pravdepodobnosť pokrytia svojej skutočnej hodnoty.

Pri použití intervalového hodnotenia sa používa koncept:

spoľahlivý interval - interval hodnôt, ktorý má danú pravdepodobnosť pokrytia skutočnej hodnoty parametra populácie počas odhadu intervalu.

spoľahlivosť (spoľahlivá pravdepodobnosť) - pravdepodobnosť, s ktorou spoľahlivý interval pokrýva skutočnú hodnotu parametra populácie.

spoľahlivé limity - spodná a horná hranica spoľahlivého intervalu.

Závery získané metódami matematickej štatistiky sú vždy založené na obmedzenom, selektívnom počte pozorovaní, preto je prirodzené, že pre druhú vzorku môžu byť výsledky odlišné. Táto okolnosť určuje medzinárodnú povahu záverov matematickej štatistiky a v dôsledku toho rozšírené používanie teórie pravdepodobnosti v praxi štatistického výskumu.

Typická cesta štatistického výskumu je:

Po odhadnutí množstiev alebo vzťahov medzi nimi na základe pozorovacích údajov vychádzajú z predpokladu, že skúmaný jav možno opísať jedným alebo druhým stochastickým modelom.

pomocou štatistických metód možno tento predpoklad potvrdiť alebo zamietnuť; po potvrdení bol cieľ dosiahnutý - bol nájdený model, ktorý opisuje skúmané vzorce, inak práca pokračuje, predkladá a testuje novú hypotézu;

Definícia vzorových štatistických odhadov:

režim je hodnota, ktorá sa u voliča vyskytuje najčastejšie,

medián - centrálna (priemerná) hodnota variačného radu

rozsah R - rozdiel medzi najväčšou a najmenšou hodnotou v sérii pozorovaní

percentily – hodnota v sérii variácií, ktorá rozdeľuje rozdelenie na 100 rovnakých častí (medián bude teda päťdesiaty percentil)

prvý kvartil – 25. percentil

tretí kvartil – 75. percentil

medzikvartilový rozsah – rozdiel medzi prvým a tretím kvartilom (pokrýva centrálnych 50 % pozorovaní)

kvartilová odchýlka – polovica medzikvartilového rozpätia

výberový priemer - aritmetický priemer všetkých výberových hodnôt (výberový odhad matematického očakávania)

priemerná absolútna odchýlka - súčet odchýlok od zodpovedajúceho začiatku (bez zohľadnenia znamienka), delený objemom vzorky

priemerná absolútna odchýlka od priemeru vzorky sa vypočíta pomocou vzorca

výberový rozptyl (X) - (odhad výberového rozptylu) je daný podľa

výberová kovariancia -- (výberový odhad kovariancie K ( X,Y )) sa rovná

vzorový regresný koeficient Y na X (výberový odhad regresného koeficientu Y na X) sa rovná

empirická lineárna regresná rovnica Y na X má tvar

vzorový regresný koeficient X na Y (výberový odhad regresného koeficientu X na Y) sa rovná

empirická lineárna regresná rovnica X na Y má tvar

výberová smerodajná odchýlka s(X) - (výberový odhad štandardnej odchýlky) sa rovná druhej odmocnine výberového rozptylu

výberový korelačný koeficient - (výberový odhad korelačného koeficientu) sa rovná

variačný koeficient vzorky  - (výberový odhad variačného koeficientu CV) sa rovná

.

8. Úloha na samostatnú prípravu žiakov. 8.1 Úloha na samostatné preštudovanie materiálu z témy.

8.1.1 Praktický výpočet odhadov vzoriek

Praktický výpočet bodových odhadov vzorky

Príklad 1

Trvanie ochorenia (v dňoch) v 20 prípadoch pneumónie bolo:

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

Určte modus, medián, rozsah, medzikvartilový rozsah, priemer vzorky, strednú absolútnu odchýlku od priemeru vzorky, rozptyl vzorky, variačný koeficient vzorky.

Rozv"zok.

Séria variácií pre odber vzoriek má tvar

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

Móda

Najčastejším číslom u voliča je 13. Hodnota módu u voliča teda bude toto číslo.

Medián

Keď séria variácií obsahuje pár pozorovaní, medián sa rovná priemeru dvoch centrálnych členov radu, v tomto prípade 11 a 13, takže medián je 12.

Rozsah

Minimálna hodnota u voliča je 6 a maximálna je 16, takže R = 10.

Medzikvartilový rozsah, kvartilová odchýlka

V sérii variácií má štvrtina všetkých údajov hodnotu menšiu ako alebo úroveň 8, takže prvý kvartil má hodnotu 8 a 75 % všetkých údajov má hodnotu nižšiu alebo úroveň 12, takže tretí kvartil má hodnotu 14. , medzikvartilový rozsah je 6 a kvartilová odchýlka je 3.

Ukážkový priemer

Aritmetický priemer všetkých hodnôt vzorky sa rovná

.

Stredná absolútna odchýlka od priemeru vzorky

.

Ukážkový rozptyl

Štandardná odchýlka vzorky

.

Birkov koeficient variácie

.

V nasledujúcom príklade budeme uvažovať o najjednoduchších spôsoboch štúdia stochastickej závislosti medzi dvoma náhodnými premennými.

Príklad 2

Pri skúmaní skupiny pacientov sa získali údaje o výške H (cm) a objeme cirkulujúcej krvi V (l):

Nájdite empirické lineárne regresné rovnice.

Rozv"zok.

Prvá vec, ktorú musíte vypočítať, je:

vzorový priemer

vzorový priemer

.

Druhá vec, ktorú musíte vypočítať, je:

vzorový rozptyl (H)

vzorový rozptyl (V)

vzorová kovariancia

Po tretie, výpočet vzorových regresných koeficientov:

výberový regresný koeficient V na H

výberový regresný koeficient H na V

.

Po štvrté, zapíšte si požadované rovnice:

empirická lineárna regresná rovnica V na H má tvar

empirická lineárna regresná rovnica H na V má tvar

.

Príklad 3

Pomocou podmienok a výsledkov príkladu 2 vypočítajte korelačný koeficient a overte spoľahlivosť existencie korelácie medzi výškou človeka a objemom cirkulujúcej krvi s 95 % spoľahlivou pravdepodobnosťou.

Rozv"zok.

Korelačný koeficient súvisí s regresnými koeficientmi a prakticky užitočným vzorcom

.

Pre vzorové posúdenie korelačného koeficientu má tento vzorec tvar

.

Pomocou hodnôt vzorových regresných koeficientov a v príklade 2 získame

.

Kontrola spoľahlivosti korelácie medzi náhodnými premennými (za predpokladu normálneho rozdelenia pre každú z nich) sa vykonáva takto:

  • vypočítajte hodnotu T

  • nájdite koeficient v tabuľke rozdelenia študentov

  • existencia korelácie medzi náhodnými premennými je potvrdená pri vykonávaní nerovnomernosti

.

Keďže 3,5 > 2,26, potom s 95% spoľahlivou pravdepodobnosťou existencie korelácie medzi výškou pacienta a objemom cirkulujúcej krvi ju možno považovať za preukázanú.

Intervalové odhady pre matematické očakávania a rozptyl

Ak má náhodná premenná normálne rozdelenie, potom sa intervalové odhady pre matematické očakávania a rozptyl vypočítajú v nasledujúcom poradí:

1.nájdite priemer vzorky;

2. vypočítajte výberový rozptyl a výberovú smerodajnú odchýlku s;

3. v tabuľke Studentovho rozdelenia pomocou spoľahlivej pravdepodobnosti  a objemu vzorky n nájdite Studentov koeficient;

4. Spoľahlivý interval pre matematické očakávanie sa zapíše do formulára

5.v tabuľke rozdelenia "> a objeme vzorky nájdite koeficienty

;

6. Spoľahlivý interval pre rozptyl je zapísaný v tvare

Hodnota spoľahlivého intervalu, spoľahlivá pravdepodobnosť a vzorkovací objem navzájom závisia. V skutočnosti postoj

klesá s rastúcim n, takže pri konštantnej hodnote spoľahlivého intervalu u rastie so zvyšujúcim sa n. Pri konštantnej spoľahlivej pravdepodobnosti, ako sa zvyšuje objem vibrátora, hodnota spoľahlivého intervalu klesá. Pri plánovaní medicínskeho výskumu sa toto spojenie používa na určenie minimálneho odberového objemu, ktorý poskytne požadované hodnoty spoľahlivého intervalu a spoľahlivej pravdepodobnosti podľa podmienok riešeného problému.

Príklad 5.

Pomocou podmienok a výsledkov príkladu 1 nájdite intervalové odhady matematického očakávania a rozptylu pre 95 % spoľahlivú pravdepodobnosť.

Rozv"zok.

V príklade 1 sú určené bodové odhady matematického očakávania (priemer vzorky = 12), rozptylu (rozptyl vzorky = 10,7) a štandardnej odchýlky (štandardná odchýlka vzorky). Objem vzorky je n = 20.

Z tabuľky rozdelenia študentov zistíme hodnotu koeficientu

Ďalej vypočítame polovičnú šírku spoľahlivého intervalu

a zapíšte si intervalový odhad matematického očakávania

10,5 < < 13,5 при = 95%

Z Pearsonovej tabuľky rozdelenia "chí-kvadrát" nájdeme koeficienty

vypočítajte spodnú a hornú spoľahlivú hranicu

a intervalový odhad rozptylu napíšte do formulára

6,2 23 at = 95 % .

8.1.2. Problémy riešiť samostatne

Na samostatné riešenie sa ponúkajú úlohy 5.4 C 1 – 8 (P.G. Zhumatiy. „Matematic processing of medical and bio data. Problems and minutes.“ Odessa, 2009, s. 24-25)

8.1.3. Bezpečnostné otázky
  1. Frekvencia tried (absolútna a relatívna).
  2. Populácia a vzorka, veľkosť vzorky.
  3. Bodový a intervalový odhad.
  4. Spoľahlivý interval a spoľahlivosť.
  5. Režim, medián a priemer vzorky.
  6. Rozsah, medzikvartilový rozsah, štvrťročná odchýlka.
  7. Priemerná absolútna odchýlka.
  8. Vzorová kovariancia a rozptyl.
  9. Štandardná odchýlka vzorky a variačný koeficient.
  10. Vzorové regresné koeficienty.
  11. Empirické regresné rovnice.
  12. Výpočet korelačného koeficientu a spoľahlivosť korelácie.
  13. Konštrukcia intervalových odhadov normálne rozdelených náhodných premenných.
8.2 Základná literatúra
  1. Zhumatiy P.G. „Matematické spracovanie medicínskych a biologických údajov. Úlohy a príklady." Odesa, 2009.
  2. Zhumatiy P.G. Prednáška „Matematická štatistika“. Odesa, 2009.
  3. Zhumatiy P.G. "Základy matematickej štatistiky." Odesa, 2009.
  4. Zhumatiy P.G., Senitska Y.R. Prvky teórie pravdepodobnosti. Pokyny pre študentov lekárskeho inštitútu. Odesa, 1981.
  5. Chaly O.V., Agapov B.T., Tsekhmister Y.V. Lekárska a biologická fyzika. Kyjev, 2004.
8.3 Ďalšie čítanie
  1. Remizov O.M. Lekárska a biologická fyzika. M., „Vysoká škola“, 1999.
  2. Remizov O.M., Isakova N.Kh., Maksina O.G.. Zbierka úloh z lekárskej a biologickej fyziky. M., „Vyššia škola“, 1987.
Metodické pokyny zostavil doc. P. G. Zhumatiy.

NÁHODNÉ PREMENNÉ A ZÁKONY ICH ROZDELENIA.

Náhodný Volajú množstvo, ktoré nadobúda hodnoty v závislosti od kombinácie náhodných okolností. Rozlišovať diskrétne a náhodné nepretržitý množstvá.

Diskrétne Množstvo sa nazýva, ak nadobúda spočítateľný súbor hodnôt. ( Príklad: počet pacientov u lekára, počet písmen na strane, počet molekúl v danom objeme).

Nepretržitý je množstvo, ktoré môže nadobudnúť hodnoty v určitom intervale. ( Príklad: teplota vzduchu, telesná hmotnosť, výška človeka atď.)

Zákon distribúcie Náhodná premenná je množina možných hodnôt tejto premennej a týmto hodnotám pravdepodobnosti (alebo frekvencie výskytu).

PRÍKLAD:

x x 1 x 2 x 3 x 4 ... x n
p p 1 p 2 p 3 p 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ČÍSELNÉ CHARAKTERISTIKY NÁHODNÝCH PREMENNÝCH.

V mnohých prípadoch spolu s rozdelením náhodnej premennej alebo namiesto nej môžu informácie o týchto veličinách poskytnúť číselné parametre tzv. číselné charakteristiky náhodnej premennej . Najbežnejšie z nich:

1 .Očakávanie - (priemerná hodnota) náhodnej premennej je súčet súčinov všetkých jej možných hodnôt a pravdepodobnosti týchto hodnôt:

2 .Disperzia náhodná premenná:


3 .Smerodajná odchýlka :

Pravidlo „TRI SIGMA“ - ak je náhodná veličina rozdelená podľa normálneho zákona, potom odchýlka tejto hodnoty od priemernej hodnoty v absolútnej hodnote nepresiahne trojnásobok smerodajnej odchýlky

GAUSSOV ZÁKON – ZÁKON O NORMÁLNEJ DISTRIBÚCII

Často sú rozložené množstvá normálny zákon (Gaussov zákon). Hlavná vlastnosť : je to obmedzujúci zákon, ku ktorému sa približujú ostatné zákony distribúcie.

Náhodná premenná je rozdelená podľa normálneho zákona, ak je hustota pravdepodobnosti má tvar:



M(X)- matematické očakávanie náhodnej premennej;

s- smerodajná odchýlka.

Hustota pravdepodobnosti(distribučná funkcia) ukazuje, ako sa mení pravdepodobnosť priradená intervalu dx náhodná premenná v závislosti od hodnoty samotnej premennej:


ZÁKLADNÉ POJMY MATEMATICKEJ ŠTATISTIKY

Matematická štatistika- odvetvie aplikovanej matematiky priamo nadväzujúce na teóriu pravdepodobnosti. Hlavný rozdiel medzi matematickou štatistikou a teóriou pravdepodobnosti je v tom, že matematická štatistika nezohľadňuje akcie na základe zákonov rozdelenia a číselných charakteristík náhodných premenných, ale približuje metódy na nájdenie týchto zákonov a číselných charakteristík na základe výsledkov experimentov.

Základné pojmy matematické štatistiky sú:

1. Všeobecná populácia;

2. vzorka;

3. variačné série;

4. móda;

5. medián;

6. percentil,

7. frekvenčný polygón,

8. histogram.

Obyvateľstvo- veľká štatistická populácia, z ktorej sa vyberá časť objektov na výskum

(Príklad: celé obyvateľstvo kraja, vysokoškoláci daného mesta a pod.)

Vzorka (vzorka populácie)- súbor predmetov vybraných z bežnej populácie.

Variačné série- štatistické rozdelenie pozostávajúce z variantov (hodnoty náhodnej premennej) a ich zodpovedajúcich frekvencií.

Príklad:

X, kg
m

x- hodnota náhodnej premennej (váha dievčat vo veku 10 rokov);

m- frekvencia výskytu.

Móda– hodnota náhodnej premennej, ktorá zodpovedá najvyššej frekvencii výskytu. (V príklade vyššie móda zodpovedá hodnote 24 kg, je bežnejšia ako ostatné: m = 20).

Medián- hodnota náhodnej premennej, ktorá rozdeľuje rozdelenie na polovicu: polovica hodnôt sa nachádza vpravo od mediánu, polovica (nie viac) - vľavo.

Príklad:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

V príklade sledujeme 40 hodnôt náhodnej premennej. Všetky hodnoty sú usporiadané vo vzostupnom poradí, berúc do úvahy frekvenciu ich výskytu. Môžete vidieť, že napravo od zvýraznenej hodnoty 7 je 20 (polovica) zo 40 hodnôt. Preto je 7 medián.

Na charakterizáciu rozptylu nájdeme hodnoty nie vyššie ako 25 a 75 % výsledkov merania. Tieto hodnoty sa nazývajú 25. a 75 percentily . Ak medián rozdelí rozdelenie na polovicu, potom sa 25. a 75. percentil odreže o štvrtinu. (Mimochodom, samotný medián možno považovať za 50. percentil.) Ako je zrejmé z príkladu, 25. a 75. percentil sa rovná 3 a 8.

Použite diskrétne (bod) štatistické rozdelenie a nepretržitý (intervalové) štatistické rozdelenie.

Pre prehľadnosť sú štatistické rozdelenia vo formulári znázornené graficky frekvenčný rozsah alebo - histogramy .

Frekvenčný polygón- prerušovaná čiara, ktorej segmenty spájajú body so súradnicami ( x 1,m1), (x 2,m2), ... alebo pre polygón relatívnej frekvencie – so súradnicami ( x 1,R * 1), (x 2, р * 2), ...(obr.1).


m m i /n f(x)

Obr.1 Obr.2

Histogram frekvencie- sústava susedných obdĺžnikov postavená na jednej priamke (obr. 2), základne obdĺžnikov sú rovnaké a rovnaké dx a výšky sa rovnajú pomeru frekvencie k dx , alebo p* Komu dx (hustota pravdepodobnosti).

Príklad:

x, kg 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Frekvenčný polygón

Pomer relatívnej frekvencie k šírke intervalu sa nazýva hustota pravdepodobnosti f(x)=m i / n dx = p* i / dx

Príklad konštrukcie histogramu .

Využime údaje z predchádzajúceho príkladu.

1. Výpočet počtu triednych intervalov

Kde n - počet pozorovaní. V našom prípade n = 100 . Preto:

2. Výpočet šírky intervalu dx :

,

3. Zostavenie intervalového radu:

dx 2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Histogram