수학적 통계의 기초. 수리통계의 기본 개념 수리통계 분류

수학적 통계기존 패턴을 식별하기 위해 실험 결과에서 데이터를 수집하고 분석하는 대략적인 방법을 연구하는 수학의 한 분야입니다. 확률 변수의 분포 법칙과 그 수치적 특성을 찾는 것입니다.

수학적 통계에서는 두 가지 주요 연구 영역을 구별하는 것이 일반적입니다.:

1. 일반 인구의 매개변수 추정.

2. 통계적 가설 테스트(일부 선험적 가정).

수학적 통계의 기본 개념은 모집단, 표본, 이론적 분포 함수입니다.

일반 인구확률변수의 관찰로부터 생각할 수 있는 모든 통계 데이터의 집합입니다.

X G = (x 1, x 2, x 3, ..., x N, ) = (x i; i=1,N)

관측된 확률 변수 X를 표본 특징 또는 요인이라고 합니다. 일반 모집단은 무작위 변수의 통계적 유사체입니다. 해당 볼륨 N은 일반적으로 크기 때문에 표본 모집단 또는 간단히 표본이라고 하는 데이터의 일부가 선택됩니다.

X B = (x 1, x 2, x 3, ..., x n, ) = (x i; i=1,n)

Х В М Х Г, n £ N

견본직접 연구를 위해 일반 모집단에서 무작위로 선택된 관찰(객체) 세트입니다. 표본에 포함된 객체의 수를 표본 크기라고 하며 n으로 표시합니다. 일반적으로 표본은 모집단의 5%-10%입니다.

표본을 사용하여 관찰된 무작위 변수를 제어하는 ​​패턴을 구성하면 지속적인(대량) 관찰을 피할 수 있습니다. 이는 종종 자원 집약적인 프로세스이거나 단순히 불가능할 수도 있습니다.

예를 들어 인구는 개인의 집합입니다. 전체 모집단을 연구하는 것은 시간과 비용이 많이 들기 때문에 해당 모집단을 대표하는 것으로 간주되는 개인의 표본에서 데이터를 수집하여 해당 모집단에 대한 추론을 할 수 있습니다.

단, 샘플은 조건을 만족해야 합니다. 대표성, 즉. 인구에 대한 합리적인 대표성을 제공합니다. 대표(대표) 표본을 구성하는 방법은 무엇입니까? 이상적으로는 무작위 표본을 얻기 위해 노력합니다. 이를 위해 모집단의 모든 개인 목록이 작성되고 무작위로 선택됩니다. 그러나 때로는 목록을 작성하는 데 드는 비용이 허용할 수 없는 것으로 판명될 수 있으며, 예를 들어 한 진료소, 병원과 같은 허용 가능한 샘플을 채취하고 해당 진료소에서 특정 질병을 앓고 있는 모든 환자를 연구합니다.

각 샘플 요소를 변형이라고 합니다. 표본에서 변이가 반복되는 횟수를 발생 빈도라고 합니다. 수량이라고 합니다 상대도수옵션, 즉 전체 표본 크기에 대한 변이의 절대 빈도의 비율로 발견됩니다. 오름차순으로 작성된 일련의 옵션을 호출합니다. 변형 시리즈.


순위, 불연속 및 간격의 세 가지 형태의 변형 시리즈를 고려해 보겠습니다.

랭크 시리즈- 이것은 연구되는 특성의 오름차순으로 인구의 개별 단위 목록입니다.

이산 변형 시리즈열 또는 행으로 구성된 테이블입니다. 특성 x i의 특정 값과 특성 x의 i번째 값 발현의 절대 주파수 n i(또는 상대 주파수 Ω i)입니다.

변형 시리즈의 예는 테이블입니다.

상대도수의 분포를 쓰세요.

해결책: 상대도수를 구해보자. 이렇게 하려면 빈도를 샘플 크기로 나눕니다.

상대도수의 분포는 다음과 같은 형식을 갖습니다.

0,15 0,5 0,35

대조군: 0.15 + 0.5 + 0.35 = 1.

이산 계열은 그래픽으로 표현될 수 있습니다. 직각좌표계에서는 좌표() 또는 ()가 있는 점을 표시하고 직선으로 연결합니다. 이러한 파선을 호출합니다. 주파수 다각형.

이산 변형 시리즈(DVR)를 구성하고 입학 시험에서 받은 점수에 따라 지원자 45명의 분포에 대한 다각형을 그립니다.

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

해결책: 변형 계열을 구성하려면 특성 x(변형)의 다양한 값을 오름차순으로 배치하고 각 값 아래에 해당 빈도를 기록합니다.

이 분포에 대한 다각형을 구성해 보겠습니다.

쌀. 13.1. 주파수 다각형

간격 변화 시리즈많은 관찰에 사용됩니다. 이러한 계열을 구성하려면 특성의 간격 수를 선택하고 간격의 길이를 설정해야 합니다. 그룹 수가 많으면 간격이 최소화됩니다. 변형 시리즈의 그룹 수는 Sturges 공식을 사용하여 찾을 수 있습니다. (k는 그룹 수, n은 표본 크기), 구간 너비는 다음과 같습니다.

최대값은 어디입니까? - 최소값은 옵션이며 그 차이 R을 호출합니다. 변화의 범위.

전체 의과대학 학생 중 100명의 표본을 연구하고 있습니다.

해결책: 그룹 수를 계산해 보겠습니다. 따라서 간격 계열을 작성하려면 이 표본을 7~8개의 그룹으로 나누는 것이 좋습니다. 관찰 결과를 여러 그룹으로 나누어 각 그룹에서 관찰 결과를 얻는 빈도를 집합이라고 합니다. 통계적 총체성.

통계 분포를 시각적으로 나타내려면 히스토그램을 사용하십시오.

빈도 히스토그램는 하나의 직선 위에 인접한 직사각형으로 구성된 계단형 도형으로, 그 밑변은 동일하고 간격의 너비와 동일하며 높이는 간격에 들어가는 빈도 또는 상대 빈도 Ω i와 같습니다.

1분 내에 가이거 계수기로 들어가는 입자 수를 관찰하면 다음과 같은 결과가 나옵니다.

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

이러한 데이터를 바탕으로 등간격(I 구간 20~24, II 구간 24~28 등)으로 구간 변동 계열을 구성하고 히스토그램을 그립니다.

해결책: n = 50

이 분포의 히스토그램은 다음과 같습니다.

쌀. 13.2. 분포 히스토그램

작업 옵션

№ 13.1. 매시간 전기 네트워크의 전압을 측정했습니다. 다음 값 (B)이 얻어졌습니다.

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

통계적 분포를 구축하고 다각형을 그립니다.

№ 13.2. 50명의 혈당을 관찰한 결과 다음과 같은 결과가 나왔습니다.

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

이러한 데이터를 바탕으로 등간격(I - 3.45-3.55, II - 3.55-3.65 등)으로 간격 변동 계열을 구성하고 이를 그래픽으로 묘사하고 히스토그램을 그립니다.

№ 13.3. 100명의 적혈구 침강 속도(ESR)의 빈도 분포에 대한 다각형을 구축하십시오.

일반적으로 수학적 통계 방법은 특정 샘플 데이터를 기반으로 문제 해결 전략을 선택하고 얻은 결과를 평가하기 위해 연구 자료 분석의 모든 단계에서 사용됩니다. 자료를 처리하기 위해 수학적 통계 방법이 사용되었습니다. 재료의 수학적 처리를 통해 객관적인 정보의 정량적 매개변수를 명확하게 식별 및 평가하고 이를 다양한 비율과 종속성으로 분석 및 제시할 수 있습니다. 이를 통해 특정 사례 세트에 대한 정량적 정보가 포함된 수집된 자료의 값 변동 척도를 결정할 수 있으며, 그 중 일부는 제안된 연결을 확인하고 일부는 이를 공개하지 않고 정량적 차이의 신뢰성을 계산합니다. 선택된 사례 세트 및 사실의 올바른 해석에 필요한 기타 수학적 특성을 얻기 위해 . 연구 중에 얻은 차이의 신뢰성은 스튜던트 t-테스트에 의해 결정되었습니다.

다음 값이 계산되었습니다.

1. 표본의 산술 평균.

고려중인 인구의 평균값을 특성화합니다. 측정 결과를 표시해 보겠습니다. 그 다음에:

여기서 Y는 현재 인덱스 i가 1에서 n으로 변경될 때 모든 값의 합입니다.

2. 평균 제곱 편차(표준 편차)는 산술 평균을 기준으로 고려 중인 모집단의 분산, 분산을 특성화합니다.

= (x 최대 - x 최소)/k

표준편차는 어디에 있나요

xmax - 최대 테이블 값;

xmin - 최소 테이블 값;

k - 계수

3. 산술평균의 표준오차 또는 대표성오차(m) 산술 평균의 표준 오차는 모집단의 산술 평균에서 표본 산술 평균의 편차 정도를 나타냅니다.

산술 평균의 표준 오차는 다음 공식을 사용하여 계산됩니다.

여기서 y는 측정 결과의 표준 편차이고,

n - 표본 크기. m이 작을수록 결과의 안정성과 안정성이 높아집니다.

4. 학생의 t-테스트.

(분자 - 두 그룹의 평균값의 차이, 분모 - 이 평균의 표준 오차 제곱합의 제곱근).

연구 결과를 처리할 때 Excel 패키지가 포함된 컴퓨터 프로그램을 사용했습니다.

연구의 조직

연구는 일반적으로 인정되는 규칙에 따라 우리에 의해 수행되었으며 3단계로 수행되었습니다.

첫 번째 단계에서는 고려 중인 연구 문제에 대해 얻은 자료를 수집하고 분석했습니다. 과학 연구의 주제가 형성되었습니다. 이 단계에서 문헌 분석을 통해 연구의 목적과 목표를 구체화할 수 있었습니다. 30m 달리기 기술의 초기 테스트가 수행되었습니다.<... class="gads_sm">

세 번째 단계에서는 과학적 연구 결과로 얻은 자료를 체계화하고 연구 문제에 대해 이용 가능한 모든 정보를 요약했습니다.

실험적 연구는 주립 교육 기관인 "Lyakhovichi Secondary School"을 기반으로 수행되었으며 전체 표본은 6학년(11-12세)의 학생 20명으로 구성되었습니다.

제3장 연구결과 분석

교육학적 실험 결과, 대조군과 실험군 학생들의 30m 달리기 기술의 초기 수준을 확인하였다(부록 1-2). 얻은 결과를 통계적으로 처리하여 다음 데이터를 얻을 수 있었습니다(표 6).

표 6. 실행 품질의 초기 수준

표 6에서 볼 수 있듯이, 대조군과 실험군의 운동선수 평균 점수는 통계적으로 차이가 없으며, 실험군에서는 평균 점수가 3.6점, 대조군에서는 3.7점으로 나타났다. 두 그룹 모두에서 T-검정 temp=0.3; Р?0.05, tcrit=2.1; 초기 테스트 결과 지표는 훈련에 의존하지 않으며 본질적으로 무작위적인 것으로 나타났습니다. 초기 테스트에 따르면 대조군의 달리기 품질 지표가 실험군보다 약간 높았습니다. 그러나 두 그룹에서는 통계적으로 유의미한 차이가 발견되지 않았으며, 이는 30m 달리기 기술에서 대조군과 실험군 학생들의 정체성을 입증하는 것입니다.

실험 동안 두 그룹 모두에서 달리기 기술의 효율성을 나타내는 지표가 향상되었습니다. 그러나 이러한 개선은 실험 참가자 그룹에 따라 성격이 달랐습니다. 훈련 결과, 대조군에서는 지표가 자연스럽게 소폭 증가한 것으로 나타났습니다(3.8점). 부록 2에서 볼 수 있듯이 실험군에서는 지표가 크게 증가한 것으로 나타났다. 학생들은 우리가 제안한 프로그램에 따라 공부했고 그 결과 성적이 크게 향상되었습니다.

표 7. 실험군 피험자 간의 달리기 질 변화

실험 동안 우리는 실험군에서 하중이 증가하면 대조군에 비해 속도 발달이 크게 향상되는 것을 발견했습니다.

청소년기에는 움직임의 빈도를 높이는 것을 목표로 하는 체육 교육 도구를 주로 사용하여 속도를 개발하는 것이 좋습니다. 12-15세에는 농구와 육상의 스포츠 부문에서 체육 수업과 과외 활동을 진행하는 과정에서 주로 속도-근력 및 근력 운동을 사용한 결과 속도 능력이 향상됩니다.

실험 그룹에서 수업을 진행하는 동안 복잡성과 운동 경험이 엄격하게 단계적으로 진행되었습니다. 오류에 대한 작업은 적시에 수행되었습니다. 실제 데이터 분석에서 알 수 있듯이 실험적 교수법은 달리기 기술의 질(temp = 2.4)에 큰 변화를 가져왔다. 실험군에서 얻은 결과를 분석하고 일반적으로 인정되는 교수법을 사용하여 대조군에서 얻은 데이터와 비교하면 제안된 방법론이 훈련의 효과를 높일 것이라고 주장할 수 있는 근거가 됩니다.

이에 학교에서 30m 달리기 기술을 향상시키는 단계에서 실험군과 대조군을 대상으로 검사 지표의 변화 역학을 확인하였다. 실험 후, 실험군에서 기술의 질은 4.9점으로 증가하였다(t=3.3; P<0.05). 실험이 끝날 무렵에는 실험군의 달리기 기술의 질이 대조군보다 높은 것으로 나타났습니다.

실험 결과 얻은 데이터는 측정 장치의 오류, 샘플의 이질성 등 무작위 오류로 인해 발생할 수 있는 가변성을 특징으로 합니다. 대량의 동질적인 데이터를 수집한 후 실험자는 이를 처리하여 고려 중인 수량에 대해 가능한 가장 정확한 정보를 추출해야 합니다. 실험을 통해 얻을 수 있는 대량의 측정 데이터, 관찰 결과 등을 처리하는데 편리합니다. 수학적 통계 방법.

수학적 통계는 확률 이론과 불가분의 관계가 있지만 이러한 과학 간에는 상당한 차이가 있습니다. 확률 이론은 사건의 확률, 수학적 기대 등을 계산하는 기반으로 이미 알려진 무작위 변수의 분포를 사용합니다. 수리통계 문제– 실험 데이터를 기반으로 랜덤 변수의 분포에 대한 가장 신뢰할 수 있는 정보를 얻습니다.

전형적인 지도수학적 통계:

  • 샘플링 이론;
  • 평가이론;
  • 통계적 가설 테스트;
  • 회귀분석;
  • 분산 분석.

수학적 통계 방법

가설을 평가하고 테스트하는 방법은 데이터 출처의 확률론적 및 초무작위 모델을 기반으로 합니다.

수리통계는 분포(중앙값, 기대값, 표준편차, 분위수 등), 밀도 및 분포함수 등의 중요한 특성을 나타내는 모수와 그 함수를 평가합니다. 점 및 구간 추정이 사용됩니다.

현대 수학 통계에는 큰 섹션이 포함되어 있습니다. 통계적 순차 분석, 하나의 배열에서 관측값의 배열을 형성하는 것이 가능합니다.

수학적 통계에는 일반 내용도 포함됩니다. 가설 검정 이론그리고 이를 위한 수많은 방법 특정 가설 테스트(예를 들어, 분포의 대칭, 매개변수 및 특성의 값, 주어진 분포 함수와 경험적 분포 함수의 일치, 동질성 테스트 가설(두 가지 특성 또는 분포 함수의 일치) 샘플) 등).

수행 샘플 설문조사다양한 샘플링 방식의 속성을 사용하여 가설을 평가하고 테스트하기 위한 적절한 방법을 구축하는 것과 관련된 것은 매우 중요한 수학적 통계의 한 분야입니다. 수학적 통계 방법은 다음과 같은 기본 개념을 직접적으로 사용합니다.

견본

정의 1

견본 추출실험 중에 얻은 데이터를 말합니다.

예를 들어, 동일하거나 유사한 총기 그룹으로 발사할 때 총알의 비행 범위 결과입니다.

경험적 분포 함수

참고 1

유통 기능확률변수의 가장 중요한 특성을 모두 표현하는 것이 가능해졌습니다.

수학적 통계에는 다음과 같은 개념이 있습니다. 이론적(사전에 알려지지 않음) 및 경험적유통 기능.

경험적 함수는 실험 데이터(경험적 데이터)에 따라 결정됩니다. 즉, 샘플로.

히스토그램

히스토그램은 알 수 없는 분포를 시각적으로 나타내기 위해 사용되지만 대략적인 표현입니다.

히스토그램데이터 분포를 그래픽으로 표현한 것입니다.

고품질 히스토그램을 얻으려면 다음을 따르십시오. 규칙:

  • 표본 요소의 수는 표본 크기보다 상당히 작아야 합니다.
  • 분할 간격에는 충분한 수의 표본 요소가 포함되어야 합니다.

표본이 매우 큰 경우 표본 요소의 간격은 종종 동일한 부분으로 나누어집니다.

표본 평균 및 표본 분산

이러한 개념을 사용하면 분포 함수, 히스토그램 등을 구성하지 않고도 알 수 없는 분포의 필요한 수치적 특성을 추정할 수 있습니다.

오데사 국립 의과 대학 생물물리학, 정보학 및 의료 장비학과 "수리 통계의 기초" 주제에 관한 1학년 학생들을 위한 지침 오데사 2009

1. 주제: "수학적 통계의 기초."

2. 주제의 관련성.

수리통계학은 기존의 패턴을 명확히 하고 실질적으로 적용하기 위해 대량 무작위 사건의 관찰 결과를 수집, 체계화 및 처리하는 방법을 연구하는 수학의 한 분야입니다. 수학적 통계 방법은 임상 의학 및 의료 분야에서 폭넓게 적용됩니다. 특히 의료 진단의 수학적 방법 개발, 전염병 이론, 의료 실험 결과 계획 및 처리, 의료 조직에 사용됩니다. 통계적 개념은 임상 진단, 개별 환자의 질병 경과 예측, 특정 모집단에서 프로그램의 예상 결과 예측, 특정 상황에서 적절한 프로그램 선택과 같은 문제에 대한 의사 결정에 의식적 또는 무의식적으로 사용됩니다. 수학적 통계의 아이디어와 방법에 대한 지식은 모든 의료 종사자의 전문 교육에 필수적인 요소입니다.

3. 전체 수업. 수업의 일반적인 목표는 학생들에게 생물의학 프로필 문제를 해결할 때 의식적으로 수학적 통계를 사용하도록 가르치는 것입니다. 특정 전체 수업:
  1. 학생들에게 수학적 통계의 기본 아이디어, 개념 및 방법을 익히고 기존 패턴을 명확하고 실질적으로 적용하기 위해 대량 무작위 사건 관찰 결과 처리와 관련된 문제에 주로 주의를 기울입니다.
  2. 의사의 전문적인 활동에서 발생하는 간단한 문제를 해결할 때 학생들에게 수학적 통계의 기본 개념을 의식적으로 적용하도록 가르칩니다.
학생은 다음 사항을 알아야 합니다(레벨 2):
  1. 클래스 빈도 결정(절대 및 상대)
  2. 일반 집계 및 샘플링, 샘플링 볼륨 결정
  3. 점 및 구간 추정
  4. 안정적인 간격과 신뢰성
  5. 모드, 중앙값 및 표본 평균의 정의
  6. 범위의 정의, 사분위수 범위, 사분위수 편차
  7. 평균 절대 편차 결정
  8. 표본 공분산 및 분산 결정
  9. 샘플 표준 편차 및 변동 계수 결정
  10. 표본 회귀 계수 결정
  11. 경험적 선형 회귀 방정식
  12. 샘플 상관 계수의 결정.
학생은 기본 계산 습관을 숙지해야 합니다(레벨 3):
  1. 최빈값, 중앙값 및 표본 평균
  2. 범위, 사분위간 범위, 사분위수 편차
  3. 평균 절대 편차
  4. 표본 공분산 및 분산
  5. 표본 표준 편차 및 변동 계수
  6. 기대값과 분산에 대한 신뢰할 수 있는 구간
  7. 표본 회귀 계수
  8. 샘플 상관 계수.
4. 수업 목표를 달성하는 방법: 수업 목표를 달성하려면 다음과 같은 배경 지식이 필요합니다.
  1. 이산 확률 변수의 분포, 분포 계열 및 다중 매듭 분포 정의
  2. 무작위 변수 간의 기능적 변화 결정
  3. 랜덤 변수 간의 상관 관계 결정
또한 적절한 규칙을 사용하여 호환되지 않는 이벤트와 호환되는 이벤트의 확률을 계산할 수 있어야 합니다. 5. 학생들이 초기 지식 수준을 테스트하는 과제입니다. 보안 질문
  1. 플래시 이벤트의 정의, 상대 빈도 및 확률.
  2. 호환되지 않는 사건의 확률을 구성하는 정리
  3. 공동 사건의 확률을 계산하기 위한 정리
  4. 독립 사건의 확률을 곱하는 정리
  5. 종속 사건의 확률을 곱하는 정리
  6. 총 확률 정리
  7. 베이즈 정리
  8. 확률 변수의 정의: 이산형 및 연속형
  9. 이산 확률 변수의 분포, 분포 계열 및 분포 다각형 정의
  10. 분포 함수의 정의
  11. 물류센터 위치 측정의 정의
  12. 무작위 변수 값의 변동성 측정 결정
  13. 연속 확률 변수의 분포 두께 및 분포 곡선 결정
  14. 무작위 변수 간의 기능적 의존성 결정
  15. 랜덤 변수 간의 상관 관계 결정
  16. 회귀 정의, 방정식 및 회귀선
  17. 공분산 및 상관 계수 결정
  18. 선형 회귀 방정식의 정의.
6. 초기 지식과 기술을 강화하기 위한 정보는 매뉴얼에서 찾을 수 있습니다.
  1. 주마티 P.G. 확률론'을 강의합니다. 오데사, 2009.
  2. 주마티 P.G. “확률 이론의 기초.” 오데사, 2009.
  3. Zhumatiy P.G., Senitska Y.R. 확률 이론의 요소. 의과대학 학생을 위한 지침. 오데사, 1981.
  4. Chaly O.V., Agapov B.T., Tsekhmister Y.V. 의료 및 생물학 물리학. 키예프, 2004.
7. 주요 핵심 문제를 강조하는 이 주제의 교육 자료 내용.

수학적 통계는 기존 패턴을 식별하기 위해 관찰 결과를 수집, 체계화, 처리, 묘사, 분석 및 해석하는 방법을 연구하는 수학의 한 분야입니다.

보건의료에 통계를 활용하는 것은 지역사회와 개인 환자 수준 모두에서 필요합니다. 의학은 많은 특성이 서로 다른 개인을 다루며, 사람이 건강하다고 간주할 수 있는 가치는 개인마다 다릅니다. 두 명의 환자 또는 환자 그룹이 완전히 똑같지는 않습니다. 따라서 개별 환자 또는 집단에 영향을 미치는 결정은 유사한 생물학적 특성을 가진 다른 환자 또는 집단으로부터 얻은 경험을 바탕으로 이루어져야 합니다. 기존의 불일치로 인해 이러한 결정은 절대적으로 정확할 수 없으며 항상 약간의 불확실성과 연관되어 있다는 점을 인식할 필요가 있습니다. 이것이 바로 의학의 바이러스성 성격입니다.

의학에서 통계적 방법을 적용한 몇 가지 예는 다음과 같습니다.

변이의 해석(하나 또는 다른 특성의 어떤 값이 이상적, 정상, 평균 등이 될 것인지 결정할 때 유기체 특성의 가변성으로 인해 적절한 통계 방법을 사용해야 함)

개별 환자의 질병 진단 및 인구 집단의 건강 상태 평가.

개별 환자의 질병 종료 또는 모든 인구 그룹의 특정 질병에 대한 제어 프로그램의 가능한 결과를 예측합니다.

환자 또는 인구 집단에 대한 적절한 영향을 선택합니다.

의학 연구를 계획 및 수행하고, 결과를 분석 및 출판하고, 이를 읽고 비판적으로 평가합니다.

건강 관리 계획 및 관리.

유용한 건강 정보는 일반적으로 대량의 원시 데이터에 숨겨져 있습니다. 그 속에 담긴 정보를 집중시켜 변이의 구조가 명확하게 드러나도록 데이터를 제시한 후, 구체적인 분석 방법을 선택하는 것이 필요하다.

데이터 프레젠테이션에서는 다음 개념과 용어를 소개합니다.

변형 시리즈(순서화된 배열) - 수량에 대한 개별 관찰의 간단한 배열입니다.

클래스는 확률변수 값의 전체 범위를 나누는 간격 중 하나입니다.

클래스의 극단 지점 - 클래스를 제한하는 값(예: 2.5 및 3.0), 클래스 2.5 - 3.0의 하한 및 상한.

(절대) 클래스 빈도 - 클래스의 관측치 수입니다.

상대 클래스 빈도 - 총 관찰 수의 일부로 표현되는 클래스의 절대 빈도입니다.

클래스의 누적(누적) 빈도 - 모든 이전 클래스와 이 클래스의 빈도의 합과 동일한 관측치 수입니다.

Stovptsev 다이어그램 - 높이가 클래스 빈도에 정비례하는 열을 사용하여 명목 클래스에 대한 데이터 빈도를 그래픽으로 표현한 것입니다.

원형 차트 - 원의 섹터를 사용하여 명목 클래스에 대한 데이터 빈도를 그래픽으로 표현한 것입니다. 해당 영역은 클래스 빈도에 정비례합니다.

히스토그램 - 클래스 빈도에 정비례하는 직사각형 영역을 사용하여 정량적 데이터의 빈도 분포를 그래픽으로 표현한 것입니다.

빈도 다각형 - 정량적 데이터의 빈도 분포 그래프. 클래스 주파수에 해당하는 지점은 간격의 중간 위에 위치하며 인접한 두 지점은 각각 직선 세그먼트로 연결됩니다.

ogive (누적 곡선) - 누적 상대 빈도 분포 그래프.

모든 의료 데이터에는 고유한 가변성이 있으므로 측정 결과 분석은 연구 중인 확률 변수가 어떤 값을 취하는지에 대한 정보 연구를 기반으로 합니다.

확률 변수의 가능한 모든 값의 집합을 일반이라고 합니다.

일반 인구 중 검사 결과 등록된 부분을 표본이라고 합니다.

표본에 포함된 관측치의 수를 표본 부피(보통 n으로 표시)라고 합니다.

샘플링 방법의 임무는 결과 투표자를 사용하여 연구 중인 무작위 변수를 정확하게 추정하는 것입니다. 따라서 표본의 주요 요구 사항은 일반 모집단의 모든 특성을 최대한 반영하는 것입니다. 이 요구 사항을 충족하는 표본을 대표성이라고 합니다. 표본의 대표성은 평가의 품질, 즉 일치 정도를 결정합니다. 그것이 특성화하는 매개변수에 대한 평가.

유권자를 기준으로 모집단의 매개변수를 추정할 때(모수추정) 다음 개념이 사용됩니다.

포인트 추정 - 가장 높은 확률로 취할 수 있는 단일 값 형태의 모집단 매개변수 추정입니다.

간격 추정 - 실제 값을 포함할 확률이 주어진 값의 간격 형태로 모집단 매개변수를 추정합니다.

간격 평가를 사용할 때 개념이 사용됩니다.

신뢰할 수 있는 구간 - 구간 추정 중 모집단 매개변수의 실제 값을 포함할 확률이 주어진 값의 구간입니다.

신뢰성(신뢰할 수 있는 확률) - 신뢰할 수 있는 간격이 모집단 매개변수의 실제 값을 포함하는 확률입니다.

신뢰할 수 있는 한계 - 신뢰할 수 있는 간격의 하한 및 상한입니다.

수학적 통계 방법으로 얻은 결론은 항상 제한된 수의 관찰을 기반으로 하므로 두 번째 표본의 경우 결과가 다를 수 있는 것은 당연합니다. 이러한 상황은 수학적 통계 결론의 국제적 성격을 결정하고 결과적으로 통계 연구 실무에서 확률 이론의 광범위한 사용을 결정합니다.

일반적인 통계 연구 경로는 다음과 같습니다.

관찰 데이터를 기반으로 그들 사이의 양이나 관계를 추정한 후 연구 중인 현상이 하나 또는 다른 확률론적 모델로 설명될 수 있다고 가정합니다.

통계적 방법을 사용하면 이 가정을 확인하거나 거부할 수 있습니다. 확인되면 목표가 달성됩니다. 연구 중인 패턴을 설명하는 모델이 발견되었습니다. 그렇지 않으면 작업이 계속되어 새로운 가설을 제시하고 테스트합니다.

샘플 통계 추정치의 정의:

모드는 유권자에게 가장 자주 발생하는 값이며,

중앙값 - 변형 계열의 중앙(평균) 값

범위 R - 일련의 관측치에서 가장 큰 값과 가장 작은 값의 차이

백분위수 - 분포를 100개의 동일한 부분으로 나누는 변형 시리즈의 값(따라서 중앙값은 50번째 백분위수가 됩니다)

1분위수 - 25번째 백분위수

3분위수 - 75번째 백분위수

사분위간 범위 - 첫 번째 사분위수와 세 번째 사분위수 사이의 차이(관찰값의 중앙 50%를 포함)

사분위수 편차 - 사분위수 범위의 절반

표본 평균 - 모든 표본 값의 산술 평균(수학적 기대의 표본 추정치)

평균 절대 편차 - 해당 시작점과의 편차 합계(부호를 고려하지 않음)를 샘플 볼륨으로 나눈 것입니다.

표본 평균으로부터의 평균 절대 편차는 다음 공식을 사용하여 계산됩니다.

표본 분산(X) - (표본 분산 추정치)는 다음과 같이 지정됩니다.

표본 공분산 -- (공분산 K ( X,Y ) 의 표본 추정값)은 다음과 같습니다.

X에 대한 Y의 표본 회귀 계수(X에 대한 Y의 회귀 계수에 대한 표본 추정치)는 다음과 같습니다.

X에 대한 Y의 경험적 선형 회귀 방정식은 다음과 같은 형식을 갖습니다.

Y에 대한 X의 표본 회귀 계수(Y에 대한 X의 회귀 계수에 대한 표본 추정치)는 다음과 같습니다.

Y에 대한 X의 경험적 선형 회귀 방정식은 다음과 같은 형식을 갖습니다.

표본 표준 편차 s(X) - (표준 편차의 표본 추정치)는 표본 분산의 제곱근과 같습니다.

샘플 상관 계수 - (상관 계수의 샘플 추정치)는 다음과 같습니다.

표본 변동 계수  - (변동 계수 CV의 표본 추정치)는 다음과 같습니다.

.

8. 학생들의 독립적인 준비를 위한 과제. 8.1 주제의 자료를 독립적으로 연구하기 위한 과제.

8.1.1 표본 추정치의 실제 계산

샘플 포인트 추정치의 실제 계산

예시 1.

20명의 폐렴 사례에서 질병의 지속 기간(일)은 다음과 같습니다.

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

모드, 중앙값, 범위, 사분위간 범위, 표본 평균, 표본 평균과의 평균 절대 편차, 표본 분산, 표본 변동 계수를 결정합니다.

Rozv"zok.

샘플링을 위한 변형 시리즈의 형식은 다음과 같습니다.

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

패션

Voter에서 가장 흔한 숫자는 13입니다. 따라서 Voter에서 모드의 값은 이 숫자가 됩니다.

중앙값

변형 계열에 관측값 쌍이 포함된 경우 중앙값은 계열의 두 중심 항(이 경우 11과 13)의 평균과 동일하므로 중앙값은 12입니다.

범위

유권자의 최소값은 6이고 최대값은 16이므로 R = 10입니다.

사분위수 범위, 사분위수 편차

변형 시리즈에서 모든 데이터의 1/4은 8보다 작은 값, 즉 레벨 8을 가지므로 첫 번째 사분위수는 8이고, 모든 데이터의 75%는 이보다 작은 값, 즉 레벨 12를 가지므로 세 번째 사분위수는 14입니다. , 사분위간 범위는 6이고 사분위수 편차는 3입니다.

표본평균

모든 샘플 값의 산술 평균은 다음과 같습니다.

.

표본 평균과의 평균 절대 편차

.

표본 분산

표본 표준편차

.

버크 변동 계수

.

다음 예에서는 두 확률변수 사이의 확률론적 의존성을 연구하는 가장 간단한 방법을 고려해 보겠습니다.

예시 2.

환자 그룹을 검사할 때 키 H(cm)와 순환 혈액량 V(l)에 대한 데이터를 얻었습니다.

경험적 선형 회귀 방정식을 찾습니다.

Rozv"zok.

가장 먼저 계산해야 할 것은 다음과 같습니다.

표본 평균

표본 평균

.

두 번째로 계산해야 할 사항은 다음과 같습니다.

표본 분산(H)

표본 분산(V)

표본 공분산

세 번째는 표본 회귀 계수를 계산하는 것입니다.

H에 대한 표본 회귀 계수 V

V에 대한 표본 회귀 계수 H

.

넷째, 필요한 방정식을 적어보세요.

H에 대한 V의 경험적 선형 회귀 방정식은 다음과 같은 형식을 갖습니다.

V에 대한 H의 경험적 선형 회귀 방정식은 다음과 같은 형식을 갖습니다.

.

예시 3.

실시예 2의 조건과 결과를 이용하여 상관계수를 계산하고, 사람의 키와 순환혈액량 사이의 상관관계 존재 여부를 95% 신뢰확률로 확인한다.

Rozv"zok.

상관계수는 회귀계수와 연관되어 있어 실무적으로 유용한 공식

.

상관 계수의 샘플 평가를 위해 이 공식은 다음과 같은 형식을 갖습니다.

.

샘플 회귀 계수의 값을 사용하고 예 2에서 다음을 얻습니다.

.

확률 변수(각 변수에 대해 정규 분포를 가정) 간의 상관 관계에 대한 신뢰성 확인은 다음과 같이 수행됩니다.

  • T의 값을 계산하다

  • 학생 분포표에서 계수를 찾습니다.

  • 불균일성을 수행할 때 확률변수 간의 상관관계가 확인됩니다.

.

3.5 > 2.26이므로 환자의 키와 순환 혈액량 사이에 상관 관계가 존재할 확률이 95%이면 확립된 것으로 간주할 수 있습니다.

수학적 기대값과 분산에 대한 구간 추정

확률 변수에 정규 분포가 있는 경우 수학적 기대값과 분산에 대한 구간 추정치는 다음 순서로 계산됩니다.

1. 표본 평균을 찾으십시오.

2. 표본 분산과 표본 표준 편차 s를 계산합니다.

3. 스튜던트 분포표에서 신뢰할 수 있는 확률 와 표본량 n을 사용하여 스튜던트 계수를 찾습니다.

4. 수학적 기대값의 신뢰할 수 있는 구간은 다음 형식으로 작성됩니다.

5.분포표 "> 및 샘플링 볼륨n에서 계수를 찾습니다.

;

6. 분산의 신뢰할 수 있는 간격은 다음과 같은 형식으로 작성됩니다.

신뢰할 수 있는 구간의 값, 신뢰할 수 있는 확률 및 샘플링 볼륨n은 서로 의존합니다. 사실 태도는

n이 증가함에 따라 감소하므로 신뢰할 수 있는 구간의 상수 값을 사용하면 u는 n이 증가함에 따라 증가합니다. 일정한 신뢰확률에서 진동자의 부피가 증가할수록 신뢰구간의 값은 감소한다. 의학 연구를 계획할 때 이 연결은 해결되는 문제의 조건에 따라 필요한 신뢰할 수 있는 간격과 신뢰할 수 있는 확률 값을 제공하는 최소 샘플링 볼륨을 결정하는 데 사용됩니다.

실시예 5.

예 1의 조건과 결과를 사용하여 95% 신뢰할 수 있는 확률에 대한 수학적 기대값과 분산의 구간 추정치를 찾습니다.

Rozv"zok.

예제 1에서는 수학적 기대값(표본 평균 =12), 분산(표본 분산 =10.7) 및 표준 편차(표본 표준 편차)의 점 추정치가 결정됩니다. 샘플량은 n = 20입니다.

학생 분포표에서 계수 값을 찾습니다.

다음으로 신뢰할 수 있는 구간의 절반 너비를 계산합니다.

그리고 수학적 기대값의 구간 추정값을 적어보세요.

10,5 < < 13,5 при = 95%

Pearson 분포표 "카이제곱"에서 계수를 찾습니다.

신뢰할 수 있는 하한 및 상한을 계산합니다.

그리고 분산에 대한 구간 추정치를 다음 형식으로 작성합니다.

6.2 23 at = 95% .

8.1.2. 독립적으로 해결해야 할 문제

독립적인 솔루션의 경우 문제 5.4 C 1 – 8이 제공됩니다(P.G. Zhumatiy. "의료 및 생물학적 데이터의 수학적 처리. 문제 및 예." Odessa, 2009, pp. 24-25)

8.1.3. 보안 질문
  1. 클래스 빈도(절대 및 상대).
  2. 모집단 및 표본, 표본 크기.
  3. 점 및 간격 추정.
  4. 안정적인 간격과 신뢰성.
  5. 모드, 중앙값 및 표본 평균.
  6. 범위, 사분위간 범위, 분기별 편차.
  7. 평균 절대 편차.
  8. 표본 공분산 및 분산.
  9. 표본 표준 편차 및 변동 계수.
  10. 샘플 회귀 계수.
  11. 경험적 회귀 방정식.
  12. 상관계수와 상관관계의 신뢰도를 계산합니다.
  13. 정규 분포 확률 변수의 간격 추정 구성.
8.2 기초 문헌
  1. 주마티 P.G. “의료 및 생물학적 데이터의 수학적 처리. 과제와 예시.” 오데사, 2009.
  2. 주마티 P.G. "수학적 통계"를 강의합니다. 오데사, 2009.
  3. 주마티 P.G. “수학적 통계의 기초.” 오데사, 2009.
  4. Zhumatiy P.G., Senitska Y.R. 확률 이론의 요소. 의과대학 학생을 위한 지침. 오데사, 1981.
  5. Chaly O.V., Agapov B.T., Tsekhmister Y.V. 의료 및 생물학 물리학. 키예프, 2004.
8.3 추가 자료
  1. 레미조프 O.M. 의료 및 생물학 물리학. M., “고등학교”, 1999.
  2. Remizov O.M., Isakova N.Kh., Maksina O.G.. 의학 및 생물학 물리학의 문제 모음. M., ., “고등학교”, 1987.
Assoc이 편집한 방법론적 지침. P. G. 주마티.

무작위 변수와 그 분포 법칙.

무작위의무작위적인 상황의 조합에 따라 값을 취하는 수량을 호출합니다. 구별하다 이산적인 그리고 무작위 마디 없는 수량.

이산형수량은 셀 수 있는 값 집합을 취하는 경우 호출됩니다. ( 예:의사 진료를 받은 환자 수, 페이지에 있는 글자 수, 주어진 부피에 들어 있는 분자 수).

마디 없는일정 간격 내에서 값을 취할 수 있는 수량입니다. ( 예:기온, 체중, 사람의 키 등)

분배의 법칙무작위 변수는 이 변수의 가능한 값 집합이며, 이러한 값에 해당하는 확률(또는 발생 빈도)입니다.

예:

엑스 x 1 x 2 x 3 4개 ... xn
p 1 2페이지 페이지 3 페이지 4 ... 피엔
엑스 x 1 x 2 x 3 4개 ... xn
m 1 m 2 m 3 m 4 ... m n

무작위 변수의 수치적 특성.

대부분의 경우 확률 변수의 분포와 함께 또는 그 대신 이러한 수량에 대한 정보는 다음과 같은 수치 매개변수를 통해 제공될 수 있습니다. 확률변수의 수치적 특성 . 가장 일반적인 것 :

1 .기대 - 무작위 변수의 (평균값)은 가능한 모든 값과 이러한 값의 확률의 곱의 합입니다.

2 .분산 무작위 변수:


3 .표준편차 :

"3시그마" 규칙 -확률 변수가 정규 법칙에 따라 분포되는 경우 절대값의 평균값과 이 값의 편차는 표준 편차의 3배를 초과하지 않습니다.

가우스 법칙 – 정규 분포 법칙

종종 수량이 분산되어 있습니다. 보통법 (가우스의 법칙). 주요 기능 : 다른 분배법칙이 접근하는 제한법칙입니다.

확률변수는 정규법칙에 따라 분포됩니다. 확률밀도 형식은 다음과 같습니다.



엠(엑스)- 무작위 변수의 수학적 기대;

에스- 표준편차.

확률밀도(분포 함수)는 구간에 할당된 확률이 어떻게 변하는지 보여줍니다. dx 변수 자체의 값에 따른 무작위 변수:


수학적 통계의 기본 개념

수학적 통계- 확률론과 직접적으로 인접한 응용수학의 한 분야. 수학적 통계와 확률론의 주요 차이점은 수학적 통계는 분포법칙에 대한 작용과 확률변수의 수치적 특성을 고려하지 않고, 실험 결과를 바탕으로 이러한 법칙과 수치적 특성을 찾는 대략적인 방법이라는 점입니다.

기본 개념수학적 통계는 다음과 같습니다.

1. 일반 인구;

2. 견본;

3. 변형 시리즈;

4. 패션;

5. 중앙값;

6. 백분위수,

7. 주파수 다각형,

8. 히스토그램.

인구- 연구 대상의 일부가 선택된 대규모 통계 인구

(예:지역 전체 인구, 해당 도시의 대학생 등)

표본(표본 모집단)- 일반 인구 중에서 선택된 개체 집합입니다.

변형 시리즈- 변형(무작위 변수의 값)과 해당 빈도로 구성된 통계 분포입니다.

예:

X,kg

엑스- 무작위 변수 값(10세 소녀의 수)

- 발생 빈도.

패션– 가장 높은 발생 빈도에 해당하는 확률 변수의 값. (위의 예에서 패션은 24kg 값에 해당하며 다른 것보다 더 일반적입니다: m = 20).

중앙값– 분포를 반으로 나누는 확률 변수의 값: 값의 절반은 중앙값의 오른쪽에, 절반(더 이상 없음)은 왼쪽에 위치합니다.

예:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

이 예에서는 무작위 변수의 40개 값을 관찰합니다. 모든 값은 발생 빈도를 고려하여 오름차순으로 정렬됩니다. 강조 표시된 값 7의 오른쪽에는 40개 값 중 20(절반)이 있음을 알 수 있습니다. 따라서 7이 중앙값이다.

분산을 특성화하기 위해 측정 결과의 25~75%보다 높지 않은 값을 찾습니다. 이 값을 25번째와 75번째라고 합니다. 백분위수 . 중앙값이 분포를 절반으로 나누면 25번째와 75번째 백분위수는 1/4로 잘립니다. (그런데 중앙값 자체는 50번째 백분위수로 간주될 수 있습니다.) 예에서 볼 수 있듯이 25번째 백분위수와 75번째 백분위수는 각각 3과 8과 같습니다.

사용 이산적인 (점) 통계적 분포 및 마디 없는 (간격) 통계 분포.

명확성을 위해 통계 분포는 다음 형식으로 그래픽으로 표시됩니다. 주파수 범위 또는 - 히스토그램 .

주파수 다각형- 점을 좌표와 연결하는 세그먼트인 파선( x 1,m 1), (x 2,m 2), ... 또는 상대도수다각형 – 좌표 포함( x 1,р * 1), (x 2 ,р ​​​​* 2), ...(그림 1).


m m i /n f(x)

그림 1 그림 2

빈도 히스토그램- 하나의 직선 위에 만들어진 인접한 직사각형 세트(그림 2), 직사각형의 밑면은 동일하고 동일합니다. dx , 높이는 주파수의 비율과 같습니다. dx , 또는 피* 에게 dx (확률 밀도).

예:

엑스, 킬로그램 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4

주파수 다각형

간격 폭에 대한 상대 빈도의 비율을 호출합니다. 확률 밀도 f(x)=m i / n dx = p* i / dx

히스토그램 구성의 예 .

이전 예제의 데이터를 사용해 보겠습니다.

1. 수업 간격 수 계산

어디 N - 관찰 횟수. 우리의 경우 N = 100 . 따라서:

2. 간격 폭 계산 dx :

,

3. 간격 계열 작성:

dx 2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
에프엑스(f(x)) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

히스토그램