수학적 통계 방법 (2) - 초록. 다양한 분야의 전문가를 위한 수리통계 수리통계 방법 요약

수학적 통계 - 과학적이고 응용적인 목적을 위해 통계 데이터를 체계화하고 사용하는 방법에 대한 과학입니다.

심리학의 수학적 통계

과학으로서의 심리학에서는 수학적 통계가 매우 널리 사용됩니다. 예를 들어 테스트와 같은 특정 방법을 사용하여 숫자는 인간 행동의 다양한 특징과 비교(규모 조정)되며 이러한 숫자는 이미 수학적 통계 방법을 사용하여 작업되었습니다. 이러한 방법을 적용한 후에 해석해야 할 새로운 데이터가 얻어집니다.

수학적 통계를 사용하지 않는다면 심리학은 추측과 추측에 기반을 둔 다소 단순하고 정보가 없는 과학이 될 것입니다(예를 들어 정신분석학의 경우가 그렇습니다). 물론, 수학적 통계의 사용은 추측과 추측에 대한 "해독제"는 아니지만 논의 주제는 훨씬 더 풍부해집니다.

수학적 통계를 사용하는 일반적이고 간단한 사례를 고려해 보겠습니다. 누군가가 한 그룹의 학생을 대상으로 연구를 수행했다고 가정해 보겠습니다. 그 중에서도 외향성-내향성, 지능 수준과 같은 매개변수가 발견되었습니다. 연구 심리학자는 이러한 매개변수가 서로 어떻게 관련되어 있는지에 관심이 있었습니다. 내향적인 사람이 외향적인 사람보다 평균적으로 더 똑똑하다는 것이 사실인가요? 이를 위해 피험자 그룹(샘플)을 외향적인 사람과 내향적인 사람이라는 두 개의 하위 그룹으로 나눌 수 있습니다. 다음으로, 각 하위 그룹에 대해 지능 수준에 대한 산술 평균을 구합니다. 예를 들어, 내향적인 사람이 평균적으로 IQ가 더 높다면 외향적인 사람보다 더 똑똑한 것입니다. 이것은 하나의 접근 방식입니다. 또 다른 방법은 피험자를 IQ가 높은(100 이상) 하위 그룹과 IQ가 낮은(100 미만) 하위 그룹으로 나눈 다음 각 그룹의 외향성-내향성에 대한 평균을 계산하는 것입니다. 세 번째 접근 방식은 하위 그룹으로 나누고 평균을 계산하는 대신 더 복잡한 방법인 상관 분석을 사용하는 것일 수 있습니다. 이 세 가지 방법은 모두 다르지만 동일한 연결을 보여줍니다.

수학적 통계를 사용하면 흥미롭고 때로는 놀라운 발견을 할 수 있습니다. 계속해서 가상의 예를 들어보겠습니다. 심리학자가 자신의 과거 경험과 지식과 모순되는 역설적인 결과를 발견했다고 가정해보자. 한 학교에서는 외향적인 사람들이 내향적인 사람들보다 더 똑똑하다는 것을 발견했다고 가정해 봅시다. 그러나 다른 학교에서는 그 반대였습니다. 왜 그럴까요? 세심한 심리학자는 조사를 시작하여 예를 들어 이 학교에서 외향적인 사람들이 물리학 선택과목을 선택하고(“멋진 교사”가 있기 때문에) 지능을 개발하고, 내향적인 사람들은 물리학 선택과목에 가기 때문이라는 사실을 발견할 수 있습니다. 문학 선택 (“영혼의 교사”가 있기 때문에), 그곳에서 그들은 영혼의 다른 특성을 개발합니다. 예를 들어, 정신분석가가 그러한 발견에 도달할 수 있습니까? 가능성이 거의 없습니다.

심리학 연구에서는 지능, 외향성 또는 불안과 같은 순전히 심리적 매개변수만 고려되는 것이 아닙니다. 나이, 성별, 학력, 키, 몸무게, 체력, 정치적 견해, 경력 등의 데이터도 활용할 수 있다. 그러한 비심리적 지표가 없으면 연구가 불완전하고 유익하지 않은 것으로 판명되는 경우가 종종 있습니다. 또한 다른 과학(예: 사회학 또는 생물학)의 대표자들도 연구에 심리적 매개변수를 사용하는 경우가 종종 있습니다.

수학적 통계는 다음과 같은 많은 것을 허용합니다.

실제 심리학자들은 일반적으로 위의 예에서와 같이 하위 그룹으로 나누어 산술 평균을 찾는 데에만 국한됩니다. 심리학자들은 다양한 수학적 통계 방법을 사용합니다. 주요 내용을 살펴 보겠습니다.

산술 평균 찾기

가장 진부하고 간단한 방법입니다. 지표(예: 피험자의 키)를 합산한 후 피험자 수로 나눕니다. 단순함에도 불구하고 이 방법은 물론 매우 유익하고 시각적입니다. 시각화는 실제 심리학자를 위한 방법의 중요한 품질입니다. 고객(예: 학교장)에게 연구 결과를 제시할 때 상관관계 분석이나 분산 분석의 본질을 항상 이해할 수 있는 것은 아닙니다. 임의의 기준에 따라 피험자를 하위 그룹으로 나누면 산술 평균의 잠재력이 향상되어 연구자의 요구를 대부분 충족할 수 있습니다.

모드와 중앙값 찾기

1000명의 학생을 조사하고 그들의 키를 가장 가까운 센티미터까지 측정했다고 가정해 보겠습니다. 이 데이터는 테이블에 입력되었습니다. 예를 들어 표에서 가장 일반적인 값이 172센티미터라면 이는 다음과 같습니다. 패션우리의 샘플. 그건 그렇고, "패션"이라는 단어는 일상 생활에서 비슷한 방식으로 사용됩니다. 이번 시즌에 빨간 모자를 가장 자주 본다면 이는 패션을 의미하지만 이러한 모자의 점유율은 20 ~ 30 %에 불과할 수 있습니다.

심리학 연구에서 최빈값은 일반적으로 산술 평균 근처에 있습니다. 패션이 172cm라면 평균은 그 정도가 될 것입니다. 샘플이 클수록 모드와 산술 평균이 더 가까워집니다.

다음. 학생들을 두 개의 동일한 그룹으로 나눈다고 가정해 보겠습니다. 첫 번째 그룹에는 500명의 단기 학생이 있고 두 번째 그룹에는 500명의 고등학생이 있습니다. 500번째 또는 501번째 학생에 해당하는 성장가치는 중앙값. 중앙값은 일반적으로 산술 평균에도 가깝습니다.

산란된 값 감지

아시다시피 병원의 평균 온도는 그다지 중요하지 않습니다. 그리고 치료가 잘되는 좋은 병원의 평균 기온은 36.6°C입니다. 나쁜 상황에서도 마찬가지일 수 있습니다. 누군가는 40°C의 열을 갖고 있고, 누군가는 이미 사망하여 18°C의 온도를 가지고 있습니다.

표본 분산을 추정하는 가장 쉬운 방법은 이를 찾는 것입니다. 범위(그렇지 않으면 – 분산). 표본에서 가장 키가 작은 학생의 키가 148cm이고 가장 큰 학생의 키가 205cm인 경우 표본 범위는 205-148 = 57cm가 됩니다. 이 값은 주로 이 매개변수가 일반적으로 변경되는 정도를 평가하는 데 중요합니다.

다음. 이런 상황을 가정해보자. 20년 안에 어떤 부자의 변덕에 따라 그는 복제 아이를 갖게 될 것이다. 앞으로 20년 안에 그들은 대학에 갈 것이다. 그리고 대학에는 1000명의 학생 샘플이 있을 것이며 그 중 998명은 키가 177cm, 하나는 148cm, 하나는 205cm입니다. 주요 매개 변수(산술 평균, 모드, 중앙값, 범위)는 다음과 같습니다. - 이 샘플은 다른 학생 샘플과 다르지 않을 수 있습니다(동일한 값이 있을 것입니다). 그러나 동시에 두 번째(일반) 표본에는 키가 150-160cm이고 일부는 키가 180-190cm인 특정 수의 학생이 있을 것입니다. 그렇다면 수학적 통계의 관점에서 볼 때 이 그룹은 동일하다는 것이 밝혀졌습니다.

이 수치를 보면 그룹마다 가치의 분산이 다르다는 것을 이해하기에 충분합니다. 따라서 통계에는 분산을 추정하는 더 정확한 도구가 있습니다. 분산. 분산은 다음과 같이 계산됩니다. 산술 평균을 구한 다음 각 케이스의 평균과의 편차를 구하고 이 값을 제곱한 다음 마지막으로 총 케이스 수로 나눕니다. 분산 값으로부터 쉽게 얻을 수 있습니다. 표준편차: 분산의 제곱근입니다. 표준 편차는 당연히 표준 편차를 나타냅니다. 즉, 값이 평균적으로 얼마나 벗어나는지를 측정하는 것입니다.

표준편차는 매개변수 자체와 동일한 단위로 측정됩니다. 거의 모든 학생이 동일한 첫 번째 가상 그룹에서는 표준 편차가 매우 작습니다(1cm 미만). 두 번째 그룹에는 10-15cm가 훨씬 더 많습니다. 학생들의 평균 키가 175cm이고 표준편차가 12cm라고 하면 대다수의 학생(약 2/3)이 163~187cm 범위에 있다는 것을 알 수 있습니다.

학생의 t- 테스트

이런 종류의 실험을 수행하기로 결정했다고 가정해 보겠습니다. 우리는 여러 과목을 수강했습니다. 실험이 시작되기 전에 창의성 수준에 대한 테스트를 받았습니다. 그런 다음 그들은 하루에 한 시간씩 한 달 동안 그림을 그렸습니다. 실험이 끝나면 창의력 수준을 다시 테스트했습니다. 결과는 눈에 띄었지만 매우 작았으며 회의론자들은 창의성 수준이 증가하지 않았으며 산술 평균이 약간 증가한 것은 단지 우연이라고 말하기 시작했습니다.

이러한 상황에 대해 다양한 기준이 고안되었습니다. 그 중 가장 인기 있는 방법 중 하나가 스튜던트 t-테스트입니다. 분자에서는 산술수단의 차이가 있습니다. 분모는 분산 제곱합의 근입니다(첫 번째 및 두 번째 테스트 사례를 의미). 산술 평균 간의 차이가 클수록 더 좋고(우리의 작업은 헛되지 않았습니다), 두 진단 사례 모두에서 값의 확산이 작을수록 좋습니다. 값의 확산이 클수록 무작위입니다. 변동폭도 커진다.

이 기준을 적용하려면 상당한 제한이 있습니다. 지표의 분포는 소위 말하는 분포에 가까워야 합니다. 정상(종 모양).

분포의 정규성 정도를 결정하는 특별한 기준이 있습니다.

상관관계

다른 과학과는 달리 심리학에서는 상관계수를 찾는 것을 좋아합니다. 정규 분포와 비정규 분포를 포함하여 여러 가지 접근 방식이 있습니다. 이들 모두는 하나의 매개변수가 다른 매개변수에 대한 의존도를 보여줍니다. 한 매개변수(예: 사람의 체중)가 다른 매개변수(예: 사람의 키)에 크게 의존하는 경우 상관 계수는 +1에 가깝습니다. 관계가 반대인 경우(예를 들어 키가 클수록 민첩성이 떨어지는 경우) 상관 계수는 -1이 되는 경향이 있습니다. 의존성이 없다면(예를 들어 카드 놀이의 행운이 사람의 키에 좌우되지 않는 경우) 상관 계수는 약 0이 됩니다.

피험자들을 대상으로 키와 몸무게를 기록하고 그 결과를 2차원 그래프로 옮기면 다음 그림과 같은 결과를 얻을 수 있는데, 이는 상관관계가 약 +0.5 수준으로 양의 상관관계를 나타냅니다. .

요인분석

아마도 가장 신비한 분석 일 것입니다. 그 미스터리 중 일부는 그 자체가 많은 것을 설명하는 새로운 매개 변수를 찾기 위한 것이지만 실험 중에 직접 연구되지 않았다는 사실로 설명됩니다. 일반적으로 요인 분석 중에 가장 영향력 있는 매개변수가 발견되며, 이에 따라 더 작고 구체적인 매개변수가 달라집니다.

우리가 학생들과 함께 연구를 진행했다고 가정 해 보겠습니다. 그 중에서도 일반 학업 성취도, 과학 과목 학업 성취도, 인문 과목 학업 성취도, 단기 기억 능력, 주의력의 양과 분포, 정신 활동, 공간 상상력, 일반 인식, 사교성, 불안 등의 매개변수가 기록되었습니다. . 상관 분석을 적용하고 소위 상관 행렬(각 매개 변수와 각각의 관계를 반영)을 생성하면 이러한 매개 변수의 대부분이 서로 잘 연관되어 있음을 알 수 있습니다. 예외는 마지막 두 개이며 다른 것과 약하게 관련되어 있습니다. 이 매트릭스만 보면 대부분의 매개변수 뒤에는 모든 매개변수에 영향을 미치는 하나의 공통(수퍼 매개변수)이 있다고 가정할 수 있습니다. 요인 분석 절차를 수행한 후 매트릭스에 이름 없는 열인 또 다른 열이 나타납니다. 이 신비한 매개변수는 모든 것(사교성과 불안 제외)과 매우 잘 연관되어 있습니다. 창의적인 생각을 한 후 심리학자는 여기서 가능한 유일한 해석에 도달합니다. 신비한 매개 변수는 지능입니다. 그것은 다른 모든 것에 영향을 미치며 100%는 아니지만 그 영향력은 강력합니다.

하나가 아닌 다른 매개변수에 영향을 미치는 여러 요인을 식별하는 데 도움이 되는 요인 분석 방법이 있습니다. 물론 신비한 매개변수가 그렇게 신비스럽지는 않지만 기록된 매개변수 중 하나와 완전히 일치하는 경우가 종종 있습니다. 하지만 때로는 이 비밀 요소를 해석하기 위해 오랫동안 머리를 써야 하는 경우가 있습니다.

요인 분석은 주로 과학자들이 연구 주제에 대한 깊은 이해를 얻기 위해 사용됩니다. 결과의 정확성을 위해서는 상당히 많은 수의 피험자가 필요하다는 점을 고려해야합니다. 피험자의 수가 매개 변수 수보다 몇 배 더 많은 것이 바람직합니다.

요인분석을 이용하면 심리검사의 질을 연구할 수 있습니다. 예를 들어, 여러 매개변수가 포함된 성격 설문지를 사용하여 이러한 매개변수를 요인 분석에 적용하면 모든 매개변수에 영향을 미치는 이상한 공통 요인이 나타날 수 있습니다. 이는 중요한 심리적 의미가 없을 수도 있습니다. 이는 단순히 피험자가 공식적인 방식으로 어떤 식으로든 대답하는 경향입니다(누군가는 신중하게 대답하고 일부는 옵션에서 첫 번째 포인트를 선택하고 일부는 마지막 포인트를 선택하는 경향이 있습니다). 이 일반적인 요인의 영향력이 크다는 것은 과제의 질이 부족하다는 것을 의미할 수 있습니다.

문학

Ermolaev O. Yu. 심리학자를 위한 수학적 통계: 교과서. - 2판. 정확하다. - M .: MPSI, Flinta, 2003. - 336 p.

무작위 변수와 그 분포의 법칙.

무작위의무작위적인 상황의 조합에 따라 값을 취하는 수량을 호출합니다. 구별하다 이산적인 그리고 무작위 마디 없는 수량.

이산형수량은 셀 수 있는 값 집합을 취하는 경우 호출됩니다. ( 예:의사 진료를 받은 환자 수, 페이지에 있는 글자 수, 주어진 부피에 들어 있는 분자 수).

마디 없는일정 간격 내에서 값을 취할 수 있는 수량입니다. ( 예:기온, 체중, 사람의 키 등)

분배의 법칙무작위 변수는 이 변수의 가능한 값 집합이며, 이러한 값에 해당하는 확률(또는 발생 빈도)입니다.

예:

엑스 x 1 x 2 x 3 4개 ... xn
p 1 2페이지 페이지 3 페이지 4 ... 피엔
엑스 x 1 x 2 x 3 4개 ... xn
m 1 m 2 m 3 m 4 ... m n

무작위 변수의 수치적 특성.

대부분의 경우 확률 변수의 분포와 함께 또는 그 대신 이러한 수량에 대한 정보는 다음과 같은 수치 매개변수를 통해 제공될 수 있습니다. 확률변수의 수치적 특성 . 가장 일반적인 것 :

1 .기대 - 무작위 변수의 (평균값)은 가능한 모든 값과 이러한 값의 확률의 곱의 합입니다.

2 .분산 무작위 변수:


3 .표준편차 :

"3시그마" 규칙 -확률 변수가 정규 법칙에 따라 분포되는 경우 절대값의 평균값과 이 값의 편차는 표준 편차의 3배를 초과하지 않습니다.

가우스 법칙 – 정규 분포 법칙

종종 수량이 분산되어 있습니다. 보통법 (가우스의 법칙). 주요 기능 : 다른 분배법칙이 접근하는 제한법칙입니다.

확률변수는 정규법칙에 따라 분포됩니다. 확률밀도 형식은 다음과 같습니다.



엠(엑스)- 무작위 변수의 수학적 기대;

에스- 표준편차.

확률밀도(분포 함수)는 구간에 할당된 확률이 어떻게 변하는지 보여줍니다. dx 변수 자체의 값에 따른 무작위 변수:


수학적 통계의 기본 개념

수학적 통계- 확률론과 직접적으로 인접한 응용수학의 한 분야. 수학적 통계와 확률론의 주요 차이점은 수학적 통계는 분포법칙에 대한 작용과 확률변수의 수치적 특성을 고려하지 않고, 실험 결과를 바탕으로 이러한 법칙과 수치적 특성을 찾는 대략적인 방법이라는 점입니다.

기본 개념수학적 통계는 다음과 같습니다.

1. 일반 인구;

2. 견본;

3. 변형 시리즈;

4. 패션;

5. 중앙값;

6. 백분위수,

7. 주파수 다각형,

8. 히스토그램.

인구- 연구 대상의 일부가 선택된 대규모 통계 인구

(예:지역 전체 인구, 해당 도시의 대학생 등)

표본(표본 모집단)- 일반 인구 중에서 선택된 개체 집합입니다.

변형 시리즈- 변형(무작위 변수의 값)과 해당 빈도로 구성된 통계 분포입니다.

예:

X,kg

엑스- 무작위 변수 값(10세 소녀의 체중)

- 발생 빈도.

패션– 가장 높은 발생 빈도에 해당하는 확률 변수의 값. (위의 예에서 패션은 24kg 값에 해당하며 다른 것보다 더 일반적입니다: m = 20).

중앙값– 분포를 반으로 나누는 확률 변수의 값: 값의 절반은 중앙값의 오른쪽에 있고 절반(더 이상 없음)은 왼쪽에 있습니다.

예:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

이 예에서는 무작위 변수의 40개 값을 관찰합니다. 모든 값은 발생 빈도를 고려하여 오름차순으로 정렬됩니다. 강조 표시된 값 7의 오른쪽에는 40개 값 중 20(절반)이 있음을 알 수 있습니다. 따라서 7이 중앙값입니다.

분산을 특성화하기 위해 측정 결과의 25~75%보다 높지 않은 값을 찾습니다. 이 값을 25번째와 75번째라고 합니다. 백분위수 . 중앙값이 분포를 절반으로 나누면 25번째와 75번째 백분위수는 1/4로 잘립니다. (그런데 중앙값 자체는 50번째 백분위수로 간주될 수 있습니다.) 예에서 볼 수 있듯이 25번째 백분위수와 75번째 백분위수는 각각 3과 8과 같습니다.

사용 이산적인 (점) 통계적 분포 및 마디 없는 (간격) 통계 분포.

명확성을 위해 통계 분포는 다음 형식으로 그래픽으로 표시됩니다. 주파수 범위 또는 - 히스토그램 .

주파수 다각형- 점을 좌표와 연결하는 세그먼트인 파선( x 1,m 1), (x 2,m 2), ... 또는 상대도수다각형 – 좌표 포함( x 1,р * 1), (x 2 ,р ​​​​* 2), ...(그림 1).


m m i /n f(x)

그림 1 그림 2

빈도 히스토그램- 하나의 직선 위에 만들어진 인접한 직사각형 세트(그림 2), 직사각형의 밑면은 동일하고 동일합니다. dx , 높이는 주파수의 비율과 같습니다. dx , 또는 피* 에게 dx (확률 밀도).

예:

엑스, 킬로그램 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4

주파수 다각형

간격 폭에 대한 상대 빈도의 비율을 호출합니다. 확률 밀도 f(x)=m i / n dx = p* i / dx

히스토그램 구성의 예 .

이전 예제의 데이터를 사용해 보겠습니다.

1. 수업 간격 수 계산

어디 N - 관찰 횟수. 우리의 경우 N = 100 . 따라서:

2. 간격 폭 계산 dx :

,

3. 간격 계열 작성:

dx 2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
에프엑스(f(x)) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

히스토그램

수학적 통계 방법


1. 소개

수학적 통계는 무작위 질량 현상의 패턴을 연구하기 위해 실험 데이터를 얻고, 설명하고, 처리하는 방법의 개발을 다루는 과학입니다.

수리통계에서는 기술통계와 귀납통계(통계적 추론)라는 두 가지 영역으로 구분할 수 있습니다. 기술통계는 실험 데이터를 편리한 형태로 축적, 체계화 및 제시하는 작업을 다룹니다. 이러한 데이터를 기반으로 한 귀납적 통계를 통해 데이터가 수집되는 대상 또는 해당 매개변수 추정에 관한 특정 결론을 도출할 수 있습니다.

수학적 통계의 일반적인 영역은 다음과 같습니다.

1) 샘플링 이론;

2) 평가 이론;

3) 통계적 가설을 테스트합니다.

4) 회귀 분석;

5) 분산 분석.

수학적 통계는 실험 데이터를 처리하는 현대적인 방법을 연구하는 것이 불가능한 여러 초기 개념을 기반으로 합니다. 그 중 첫 번째 개념은 일반 모집단과 표본의 개념입니다.

대량 산업 생산에서는 생산되는 제품 하나 하나를 일일이 확인하지 않고 제품의 품질이 기준에 맞는지 여부를 판단해야 하는 경우가 많습니다. 생산되는 제품의 양이 매우 많거나 제품 테스트로 인해 사용할 수 없게 되므로 소수의 제품을 검사합니다. 이 점검을 바탕으로 전체 제품 시리즈에 대한 결론을 내릴 필요가 있습니다. 물론, 100만 개의 트랜지스터 중 하나를 검사하여 모든 트랜지스터가 좋다 나쁘다를 말할 수는 없습니다. 반면, 테스트할 샘플을 선택하는 과정과 테스트 자체는 시간이 많이 걸리고 비용이 많이 들 수 있으므로 제품 테스트의 범위는 전체 제품 배치를 신뢰할 수 있게 표현할 수 있는 수준이어야 합니다. 크기는 최소화하면서. 이를 위해 우리는 여러 가지 개념을 소개합니다.

연구 중인 개체 또는 실험 데이터의 전체 집합을 일반 모집단이라고 합니다. 우리는 일반 인구를 구성하는 객체의 수 또는 데이터의 양을 N으로 표시하겠습니다. N 값을 모집단의 양이라고 합니다. N>>1, 즉 N이 매우 크다면 일반적으로 N = ¥을 고려합니다.

무작위 표본 또는 간단히 표본은 무작위로 선택된 모집단의 일부입니다. "무작위"라는 단어는 모집단에서 어떤 개체를 선택할 확률이 동일하다는 것을 의미합니다. 이는 중요한 가정이지만 실제로 테스트하기 어려운 경우가 많습니다.

표본 크기는 표본을 구성하는 객체의 수 또는 데이터의 양을 말하며 다음과 같이 표시됩니다. N. 앞으로는 샘플 요소에 각각 숫자 값 x 1, x 2, ... x n이 할당될 수 있다고 가정하겠습니다. 예를 들어 제조된 바이폴라 트랜지스터의 품질 관리 과정에서 DC 이득을 측정할 수 있습니다.


2. 시료의 수치적 특성

2.1 표본평균

크기 n의 특정 표본에 대해 표본 평균은 다음과 같습니다.

관계에 의해 결정된다

여기서 x i는 샘플 요소의 값입니다. 일반적으로 무작위 표본 중 하나가 아닌 무작위 무작위 표본의 통계적 특성을 설명하려고 합니다. 이는 크기 n의 충분히 많은 수의 샘플을 가정하는 수학적 모델이 고려되고 있음을 의미합니다. 이 경우, 표본 요소는 일반 모집단의 확률 밀도인 확률 밀도 f(x)로 값 xi를 취하는 확률 변수 Xi로 간주됩니다. 그러면 표본 평균도 확률 변수입니다.

같음

이전과 마찬가지로 확률변수는 대문자로, 확률변수의 값은 소문자로 표시하겠습니다.

표본이 추출된 모집단의 평균값을 일반 평균이라고 하며 m x로 표시합니다. 표본 크기가 중요하면 표본 평균이 모집단 평균과 크게 다르지 않을 것으로 예상할 수 있습니다. 표본 평균은 확률 변수이므로 이에 대한 수학적 기대값을 찾을 수 있습니다.

따라서 표본 평균의 수학적 기대값은 일반 평균과 같습니다. 이 경우 표본 평균은 모집단 평균의 편향되지 않은 추정치라고 합니다. 이 용어는 나중에 다시 다루겠습니다. 표본 평균은 일반 평균을 중심으로 변동하는 확률변수이므로 표본 평균의 분산을 이용하여 이러한 변동을 추정하는 것이 바람직합니다. 크기 n이 모집단 크기 N(n)보다 훨씬 작은 표본을 생각해 보세요.<< N). Предположим, что при формировании выборки характеристики генеральной совокупности не меняются, что эквивалентно предположению N = ¥. Тогда

확률변수 X i 와 X j (i1j)는 독립적인 것으로 간주될 수 있습니다. 따라서

얻은 결과를 분산 공식으로 대체해 보겠습니다.

여기서 s 2는 모집단의 분산입니다.

이 공식에서 표본 크기가 증가함에 따라 일반 평균 주변의 표본 평균 변동은 s 2 /n으로 감소합니다. 이를 예를 들어 설명하겠습니다. 수학적 기대값과 분산이 각각 m x = 10, s 2 = 9인 임의 신호가 있다고 가정합니다.

신호 샘플은 동일한 간격의 시간 t 1, t 2, ...에서 수집됩니다.

엑스(티)

× 1

~ 1 ~ 2 . . . t n t

표본은 확률 변수이므로 X(t 1), X(t 2), … . . , X(tn).

신호의 수학적 기대치 추정치의 표준 편차가 수학적 기대치의 1%를 초과하지 않도록 샘플 수를 결정해 보겠습니다. m x = 10이므로 다음이 필요합니다.

반면에, 따라서 또는 여기에서 우리는 n ³ 900개의 샘플을 얻습니다.

2.2 표본 분산

표본 데이터의 경우 표본 평균뿐만 아니라 표본 평균을 중심으로 표본 값의 분포를 아는 것이 중요합니다. 표본 평균이 모집단 평균의 추정치인 경우 표본 분산은 모집단 분산의 추정치여야 합니다. 표본 분산

랜덤 변수로 구성된 표본의 경우 다음과 같이 결정됩니다.

이 표본 분산 표현을 사용하여 수학적 기대값을 찾습니다.

수학적 통계는 수학 과학의 주요 분야 중 하나이며 특정 데이터를 처리하는 방법과 규칙을 연구하는 분야입니다. 즉, 샘플링을 기반으로 동일한 개체로 구성된 대규모 모집단의 특징적인 패턴을 발견하는 방법을 탐색합니다.

이 섹션의 목적은 얻은 결과를 기반으로 확률을 평가하거나 전개되는 사건의 성격에 대한 특정 결정을 내리는 방법을 구성하는 것입니다. 테이블, 차트, 상관관계 필드는 데이터를 설명하는 데 사용됩니다. 거의 사용되지 않습니다.

수학적 통계는 다양한 과학 분야에서 사용됩니다. 예를 들어, 경제학에서는 현상과 대상의 동질적인 집합에 대한 정보를 처리하는 것이 중요합니다. 이는 산업, 인력, 수익 데이터 등에서 생산된 제품일 수 있습니다. 관찰 결과의 수학적 특성에 따라 숫자 통계, 비수치적 성격의 기능 및 개체 분석, 다차원 분석을 구분할 수 있습니다. 또한 일반 및 특정 문제(의존성 복구, 분류 사용 및 선택적 연구 관련)가 고려됩니다.

일부 교과서의 저자는 수학적 통계 이론이 확률 이론의 일부일 뿐이라고 믿고 있으며 다른 교과서는 자체 목표, 목적 및 방법을 가진 독립적인 과학이라고 믿습니다. 그러나 어쨌든 그 사용은 매우 광범위합니다.

따라서 수학적 통계는 심리학에서 가장 명확하게 적용 가능합니다. 이를 사용하면 전문가는 데이터 간의 관계 찾기를 올바르게 정당화하고, 일반화하고, 많은 논리적 오류를 방지하는 등의 작업을 수행할 수 있습니다. 계산 절차 없이는 특정 심리적 현상이나 성격 특성을 측정하는 것이 종종 불가능하다는 점에 유의해야 합니다. 이는 이 과학의 기초가 필요하다는 것을 의미합니다. 즉, 확률론의 원천이자 기초라고 할 수 있다.

통계 데이터의 고려에 의존하는 연구 방법은 다른 분야에서도 사용됩니다. 그러나 그 특징은 다른 출처의 객체에 적용될 때 항상 고유하다는 점을 즉시 주목해야 합니다. 그러므로 물리학을 하나의 과학으로 결합하는 것은 의미가 없습니다. 이 방법의 일반적인 특징은 특정 그룹에 포함된 특정 수의 개체를 계산하고 정량적 특성의 분포를 연구하고 확률 이론을 적용하여 특정 결론을 얻는 것으로 요약됩니다.

수학적 통계의 요소는 물리학, 천문학 등의 분야에서 사용됩니다. 여기서는 특성 및 매개변수의 값, 두 표본의 특성 일치에 대한 가설, 분포의 대칭성 등을 고려할 수 있습니다. .

수학적 통계는 연구를 수행하는 데 중요한 역할을 합니다. 그들의 목표는 적절한 추정 방법을 구축하고 가설을 테스트하는 것입니다. 현재 컴퓨터 기술은 이 과학에서 매우 중요합니다. 이를 통해 계산 과정을 크게 단순화할 수 있을 뿐만 아니라 곱셈을 위한 샘플을 만들거나 실제로 얻은 결과의 적합성을 연구할 수도 있습니다.

일반적으로 수학적 통계 방법은 두 가지 결론을 도출하는 데 도움이 됩니다. 즉, 연구 중인 데이터의 성격이나 속성 및 그 관계에 대해 원하는 판단을 받아들이거나 얻은 결과가 결론을 도출하기에 충분하지 않다는 것을 증명하는 것입니다.

실험 결과 얻은 데이터는 측정 장치의 오류, 샘플의 이질성 등 무작위 오류로 인해 발생할 수 있는 가변성을 특징으로 합니다. 대량의 동질적인 데이터를 수집한 후 실험자는 이를 처리하여 고려 중인 수량에 대해 가능한 가장 정확한 정보를 추출해야 합니다. 실험을 통해 얻을 수 있는 대량의 측정 데이터, 관찰 결과 등을 처리하는데 편리합니다. 수학적 통계 방법.

수학적 통계는 확률 이론과 불가분의 관계가 있지만 이러한 과학 간에는 상당한 차이가 있습니다. 확률 이론은 사건의 확률, 수학적 기대 등을 계산하는 기반으로 이미 알려진 무작위 변수의 분포를 사용합니다. 수리통계 문제– 실험 데이터를 기반으로 랜덤 변수의 분포에 대한 가장 신뢰할 수 있는 정보를 얻습니다.

전형적인 지도수학적 통계:

  • 샘플링 이론;
  • 평가이론;
  • 통계적 가설 테스트;
  • 회귀분석;
  • 분산 분석.

수학적 통계 방법

가설을 평가하고 테스트하는 방법은 데이터 출처의 확률론적 및 초무작위 모델을 기반으로 합니다.

수리통계는 분포(중앙값, 기대값, 표준편차, 분위수 등), 밀도 및 분포함수 등의 중요한 특성을 나타내는 모수와 그 함수를 평가합니다. 점 및 구간 추정이 사용됩니다.

현대 수학 통계에는 큰 섹션이 포함되어 있습니다. 통계적 순차 분석, 하나의 배열에서 관측값의 배열을 형성하는 것이 가능합니다.

수학적 통계에는 일반 내용도 포함됩니다. 가설 검정 이론그리고 이를 위한 수많은 방법 특정 가설 테스트(예를 들어, 분포의 대칭, 매개변수 및 특성의 값, 주어진 분포 함수와 경험적 분포 함수의 일치, 동질성 테스트 가설(두 가지 특성 또는 분포 함수의 일치) 샘플) 등).

수행 샘플 설문조사다양한 샘플링 방식의 속성을 사용하여 가설을 평가하고 테스트하기 위한 적절한 방법을 구축하는 것과 관련된 것은 매우 중요한 수학적 통계의 한 분야입니다. 수학적 통계 방법은 다음과 같은 기본 개념을 직접적으로 사용합니다.

견본

정의 1

견본 추출실험 중에 얻은 데이터를 말합니다.

예를 들어, 동일하거나 유사한 총기 그룹으로 발사할 때 총알의 비행 범위 결과입니다.

경험적 분포 함수

참고 1

유통 기능확률변수의 가장 중요한 특성을 모두 표현하는 것이 가능해졌습니다.

수학적 통계에는 다음과 같은 개념이 있습니다. 이론적(사전에 알려지지 않음) 및 경험적유통 기능.

경험적 함수는 실험 데이터(경험적 데이터)에 따라 결정됩니다. 즉, 샘플로.

히스토그램

히스토그램은 알 수 없는 분포를 시각적으로 나타내기 위해 사용되지만 대략적인 표현입니다.

히스토그램데이터 분포를 그래픽으로 표현한 것입니다.

고품질 히스토그램을 얻으려면 다음을 따르십시오. 규칙:

  • 표본 요소의 수는 표본 크기보다 상당히 작아야 합니다.
  • 분할 간격에는 충분한 수의 표본 요소가 포함되어야 합니다.

표본이 매우 큰 경우 표본 요소의 간격은 종종 동일한 부분으로 나누어집니다.

표본 평균 및 표본 분산

이러한 개념을 사용하면 분포 함수, 히스토그램 등을 구성하지 않고도 알 수 없는 분포의 필요한 수치적 특성을 추정할 수 있습니다.