Основы математической статистики. Основные понятия математической статистики Математическая статистика классификация

Математическая статистика - это раздел математики, изучающий приближенные методы сбора и анализа данных по результатам эксперимента для выявления существующих закономерностей, т.е. отыскания законов распределения случайных величин и их числовых характеристик.

В математической статистике принято выделять два основных направления исследований :

1. Оценка параметров генеральной совокупности.

2. Проверка статистических гипотез (некоторых априорных предположений).

Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.

Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины.

Х Г = {х 1 , х 2 , х 3 , …, х N , } = { х i ; i=1,N }

Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность - есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из нее выбирается часть данных, называемая выборочной совокупностью или просто выборкой.

Х В = {х 1 , х 2 , х 3 , …, х n , } = { х i ; i=1,n }

Х В Ì Х Г, n £ N

Выборка - это совокупность случайно отобранных наблюдений (объектов) из генеральной совокупности для непосредственного изучения. Количество объектов в выборке называется объемом выборки и обозначается n. Обычно выборка составляет 5%-10% от генеральной совокупности.

Использование выборки для построения закономерностей, которым подчинена наблюдаемая случайная величина, позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным.

Например, популяция представляет собой множество индивидуумов. Изучение целой популяции трудоемко и дорого, поэтому собирают данные по выборке индивидуумов, которых считают представителями этой популяции, позволяющими сделать вывод относительно этой популяции.

Однако, выборка обязательно должна удовлетворять условию репрезентативности , т.е. давать обоснованное представление о генеральной совокупности. Как сформировать репрезентативную (представительную) выборку? В идеале стремятся получить случайную (рандомизированную) выборку. Для этого составляют список всех индивидуумов в популяции и случайно их отбирают. Но иной раз затраты при составлении списка могут оказаться недопустимыми и тогда берут приемлемую выборку, например, одну клинику, больницу и исследуют всех пациентов в этой клинике с данным заболеванием.

Каждый элемент выборки называется вариантой . Число повторений варианты в выборке называется частотой встречаемости . Величина называется относительной частотой варианты, т.е. находится как отношение абсолютной частоты варианты ко всему объему выборки. Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом .


Рассмотрим три формы вариационного ряда: ранжированный, дискретный и интервальный.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака.

Дискретный вариационный ряд представляет собой таблицу, состоящую из граф, либо строк: конкретного значения признака х i и абсолютной частоты n i (или относительной частоты ω i) проявления i-го значения признака x.

Примером вариационного ряда служит таблица

Написать распределение относительных частот.

Решение : Найдем относительные частоты. Для этого разделим частоты на объем выборки:

Распределение относительных частот имеет вид:

0,15 0,5 0,35

Контроль: 0,15 + 0,5 + 0,35 = 1.

Дискретный ряд можно изобразить графически. В прямоугольной декартовой системе координат отмечаются точки с координатами () или (), которые соединяются прямыми линиями. Такую ломаную называют полигоном частот.

Построить дискретный вариационный ряд (ДВР) и начертить полигон распределения 45 абитуриентов по числу баллов, полученных ими на приемных экзаменах:

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Решение : Для построения вариационного ряда различные значения признака x (варианты) располагаем в порядке их возрастания и под каждым из этих значений записываем его частоту.

Построим полигон этого распределения:

Рис. 13.1. Полигон частот

Интервальный вариационный ряд используется при большом числе наблюдений. Для построения такого ряда надо выбрать число интервалов признака и установить длину интервала. При большом числе групп величина интервала будет минимальна. Число групп в вариационном ряду можно найти по формуле Стерджеса : (k-число групп, n - объем выборки), а ширину интервала -

где - максимальное; - минимальное значения вариант, а их разность R носит название размаха вариации .

Исследуется выборка из 100 человек из совокупности всех студентов медицинского ВУЗа.

Решение : Рассчитаем число групп: . Таким образом, для составления интервального ряда данную выборку лучше разбить на 7 или 8 групп. Совокупность групп, на которые разбиваются результаты наблюдений и частот получения результатов наблюдений в каждой группе, называют статистической совокупностью .

Для наглядного представления статистического распределения пользуются гистограммой.

Гистограмма частот - это ступенчатая фигура, состоящая из смежных прямоугольников, построенных на одной прямой, основания которых одинаковы и равны ширине интервала, а высота равна или частоте попадания в интервал или относительной частоте ω i .

Наблюдения за числом частиц, попавших в счетчик Гейгера, в течение минуты дали следующие результаты:

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Построить по этим данным интервальный вариационный ряд с равными интервалами (I интервал 20-24; II интервал 24-28 и т.д.) и начертить гистограмму.

Решение : n = 50

Гистограмма этого распределения имеет вид:

Рис. 13.2. Гистограмма распределения

Варианты заданий

№ 13.1. Через каждый час измерялось напряжение тока в электросети. При этом были получены следующие значения (В):

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Построить статистическое распределение и начертить полигон.

№ 13.2. Наблюдения за сахаром крови у 50 человек дали такие результаты:

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Построить по этим данным интервальный вариационный ряд с равными интервалами (I - 3.45-3.55; II - 3.55-3.65 и т. д.) и изобразить его графически, начертить гистограмму.

№ 13.3. Построить полигон частот распределения скорости оседания эритроцитов (СОЭ) у 100 человек.

Методы математической статистики применяются, как правило, на всех этапах анализа исследовательских материалов для выбора стратегии решения задач по конкретным выборочным данным, оценивания полученных результатов. Для обработки материала использовались методы математической статистики. Математическая обработка материалов позволяет со всей четкостью выделить и оценить количественные параметры объективной информации, проанализировать и представить их в различных соотношениях и зависимостях. Они позволяют определить меру варьирования величин в собранных материалах, содержащих количественную информацию о некотором множестве случаев, часть из которых подтверждает предполагаемые связи, а часть не выявляет их, вычислить достоверность количественных различий между выделенными совокупностями случаев, получить другие математические характеристики, необходимые для верного истолкования фактов. Достоверность различий полученных в ходе исследования определялась по t-критерию Стьюдента.

Рассчитывались следующие величины.

1. Среднее арифметическое значение выборки.

Характеризует среднее значение рассматриваемой совокупности. Обозначим результаты измерений. Тогда:

где У- сумма всех значений, когда текущий индекс i изменяется от 1 до n.

2. Среднее квадратическое отклонение (стандартное отклонение) , характеризующее рассеивание, разбросанность рассматриваемой совокупности относительно среднего арифметического значения.

= (x max - x min)/ k

где - среднее квадратическое отклонение

хmaх - максимальное значение таблицы;

хmin - минимальное значение таблицы;

k - коэффициент

3. Стандартная ошибка средней арифметической или ошибка репрезентативности (m). Стандартная ошибка средней арифметической характеризует степень отклонения выборочной средней арифметической от средней арифметической генеральной совокупности.

Стандартная ошибка средней арифметической вычисляется по формуле:

где у - стандартное отклонение результатов измерений,

n - объем выборки. Чем меньше m тем выше стабильность, устойчивость результатов.

4. Критерий Стьюдента.

(в числителе - разность средних значений двух групп, в знаменателе - квадратный корень из суммы квадратов стандартных ошибок этих средних).

При обработке полеченных результатов исследования использовали компьютерную программу с пакетом Excel.

Организация исследования

Исследование проводилось нами по общепринятым правилам, и осуществлялось в 3 этапа.

На первом этапе был собран и проанализирован полученный материал по рассматриваемой проблеме исследования. Формировался предмет научного исследования. Проведенный анализ литературы на данном этапе позволил конкретизировать цель и задачи исследования. Проведено первичное тестирование техники бега на 30 м.<... class="gads_sm">

На третьем этапе был систематизирован полученный в результате научного исследования материал, обобщена вся имеющаяся информация по проблеме исследования.

Экспериментальное исследование проводилось на базе ГУО «Ляховичская средняя школа», в общей сложности выборка составила 20 учащихся 6 классов (11-12 лет).

Глава 3. Анализ результатов исследования

В результате педагогического эксперимента нами были выявлен исходный уровень техники бега на 30 м учащихся в контрольной и экспериментальной группах (Приложения 1-2). Статистическая обработка полученных результатов позволила получить следующие данные (таблица 6).

Таблица 6. Исходный уровень качества бега

Как видно из таблицы 6 среднее количество баллов у спортсменов контрольной и экспериментальной группы статистически не отличаются, в экспериментальной группе средний бал составил 3,6 балла, а в контрольной 3,7 балла. T-критерий в обеих группах tэмп=0,3; Р?0,05, при tкрит=2,1; Результаты исходного тестирования показали, что показатели не зависят от обученности и носят случайный характер. По первоначальному тестированию показатели качества бега у контрольной группы немного превышали показатели экспериментальной группы. Но не было выявлено статистически достоверных различий в группах, что является доказательством идентичности учащихся контрольной и экспериментальной групп по технике бега 30м.

За время эксперимента в обеих группах улучшились показатели, характеризующие эффективность техники бега. Однако это улучшение в разных группах участников эксперимента носило разный характер. В результате обучения выявлен закономерный небольшой прирост показателей в контрольной группе (3,8 балла). Как видно из Приложения 2 в экспериментальной группе был выявлен большой прирост показателей. Учащиеся занимались по предложенной нами программе, что достоверно улучшило показатели.

Таблица 7. Изменения качества бега у испытуемых экспериментальной группы

В ходе эксперимента мы установили, что повышенные нагрузки в экспериментальной группе дали значительные улучшения развития быстроты, нежели в контрольной группе.

В подростковом возрасте целесообразно развивать быстроту путем преимущественного использования средств физического воспитания, направленных на повышение частоты движений. В возрасте 12-15 лет повышаются скоростные способности, в результате применения главным образом скоростно-силовых и силовых упражнений которые использованы нами в процессе проведения уроков физической культуры и внеклассных занятий спортивной секции баскетбола и лёгкой атлетики.

При проведении занятий в экспериментальной группе велась строгая этапность усложнения и двигательного опыта. Своевременно велась работа над ошибками. Как показал анализ фактических данных, экспериментальная методика обучения оказало существенное изменение на качество выполнения техники бега (tэмп=2,4). Анализ полученных результатов в экспериментальной группе и сравнение их с данными, полученными в контрольной группе при использовании общепринятой методики обучения, дают основание утверждать, что предложенная нами методика повысит эффективность обучения.

Таким образом, на этапе совершенствования методики бега 30м в школе мы выявили динамику изменения показателей тестирования в экспериментальной и контрольной группе. После проведенного эксперимента качество выполнение приема повысилась в экспериментальной группе до 4,9 баллов (t=3,3; Р?0,05). К концу эксперимента качество владения техникой бега в экспериментальной группе оказалось выше, чем в контрольной группе.

Данным, полученным в результате эксперимента, свойственна изменчивость, которая может быть вызвана случайной ошибкой: погрешностью измерительного прибора, неоднородностью образцов и т.д. После проведения большого количества однородных данных экспериментатору необходимо их обработать для извлечения как можно более точной информации о рассматриваемой величине. Для обработки больших массивов данных измерений, наблюдений и т.п., которые могут быть получены при проведении эксперимента, удобно применять методы математической статистики .

Математическая статистика неразрывно связана с теорией вероятностей, но между этими науками есть существенное различие. Теория вероятностей использует уже известные распределения случайных величин , на основе которых рассчитываются вероятности событий, математическое ожидание т.д. Задача математической статистики – получить как можно более достоверную информацию о распределении случайной величины на основе экспериментальных данных.

Типичные направления математической статистики:

  • теория выборок;
  • теория оценок;
  • проверка статистических гипотез;
  • регрессионный анализ;
  • дисперсионный анализ.

Методы математической статистики

Методы оценки и проверки гипотез основываются на вероятностных и гиперслучайных моделях происхождения данных.

Математическая статистика оценивает параметры и функции от них, которые представляют важные характеристики распределений (медиану, математическое ожидание, стандартное отклонение, квантили и др.), плотности и функции распределения и пр. Используются точечные и интервальные оценки.

Современная математическая статистика содержит большой раздел – статистический последовательный анализ , в котором допускается формирование массива наблюдений по одному массиву.

Математическая статистика также содержит общую теорию проверки гипотез и большое количество методов для проверки конкретных гипотез (например, о симметрии распределения, о значениях параметров и характеристик, о согласии эмпирической функции распределения с заданной функцией распределения, гипотеза проверки однородности (совпадение характеристик или функций распределения в двух выборках) и др.).

Проведением выборочных обследований , связанных с построением адекватных методов оценки и проверки гипотез, со свойствами разных схем организации выборок, занимается раздел математической статистики, имеющий большое значение. Методы математической статистики непосредственно использует следующие основные понятия.

Выборка

Определение 1

Выборкой называются данные, которые получены при проведении эксперимента.

Например, результаты дальности полета пули при выстреле одного и того же или группы однотипных орудий.

Эмпирическая функция распределения

Замечание 1

Функция распределения дает возможность выразить все важнейшие характеристики случайной величины.

В математической стаитистике существует понятие теоретической (заранее не известной) и эмпирической функции распределения.

Эмпирическая функция определяется по данным опыта (эмпирические данные), т.е. по выборке.

Гистограмма

Гистограммы используются для наглядного, но довольно приближенного, представления о неизвестном распределении.

Гистограмма представляет собой графическое изображение распределения данных.

Для получения качественной гистограммы придерживаются следующих правил :

  • Количество элементов выборки должно быть существенно меньше объема выборки.
  • Интервалы разбиения должны содержать достаточное число элементов выборки.

Если выборка очень большая зачастую интервал элементов выборки разбивают на одинаковые части.

Выборочное среднее и выборочная дисперсия

С помощью данных понятий можно получить оценку необходимых числовых характеристик неизвестного распределения, не прибегая к построению функции распределения, гистограммы и т.п.

Одесский национальный медицинский университет Кафедра биофизики, информатики и медицинской аппаратуры Методические указания студентам 1 курса по теме “Основы математической статистики” Одесса 2009 г.

1.Тема: “ Основы математической статистики”.

2. Актуальность темы.

Математическая статистика – это раздел математики, которая изучает методы собирания, систематизации и обработки результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей. Методы математической статистики нашли широкое применение в клинической медицине и здравоохранении. Они используются, в частности, при разработке математических методов медицинской диагностики, в теории эпидемий, в планировании и обработке результатов медицинского эксперимента, в организации здравоохранения. Статистические концепции, сознательно или бессознательно, используются при принятии решений в таких вопросах, как клинический диагноз, прогнозирование течения болезни у отдельного больного, прогнозирование возможных результатов осуществления тех или других программ в данной группе населения и выбор надлежащей программы в конкретных обстоятельствах. Знакомство с идеями и методами математической статистики является необходимым элементом профессионального образования каждого работника здравоохранения.

3. Целые занятия. Общая цель занятия есть научиться студентам сознательно использовать математическую статистику при решении задач медико-биологического профиля. Конкретные целые занятия:
  1. ознакомить студентов с основными идеями, понятиями и методами математической статистики, уделяя внимание, главным образом, вопросам, по"язанним с обработкой результатов наблюдений массовых случайных событий с целью выяснения и практического применения существующих закономерностей;
  2. научить студентам сознательно применять основные понятия математической статистики при решении простейших проблем, которые возникают в профессиональной деятельности врача.
Студент должен знать (2 уровень):
  1. определение частоты класса (абсолютной и относительной)
  2. определение генеральной сукупністі и виборки, объема виборки
  3. точечное и інтервальне оценивание
  4. надежный интервал и достоверность
  5. определение моды, медианы и выборочного среднего
  6. определение размаха, міжквартильного размаха, квартильного отклонение
  7. определение среднего абсолютного отклонения
  8. определение выборочной коваріації и дисперсии
  9. определение выборочных стандартного отклонения и коэффициенту вариации
  10. определение выборочных коэффициентов регрессії
  11. эмпирические уравнения линейной регрессії
  12. определение выборочного корреляційного коэффициенту.
Студент должен овладеть элементарными привычками вычисления (3 уровень):
  1. моды, медианы и выборочного среднего
  2. размаха, міжквартильного размаха, квартильного отклонение
  3. среднего абсолютного отклонения
  4. выборочной коваріації и дисперсии
  5. выборочных стандартного отклонения и коэффициенту вариации
  6. надежного интервала для математического ожидания и дисперсии
  7. выборочных коэффициентов регрессії
  8. выборочного корреляційного коэффициенту.
4. Пути реализации целей занятия: Для реализации целей занятия Вам необходимые такие исходные знания:
  1. Определение распределения, ряд распределения и многокутника распределения дискретной случайной величины
  2. Определение функциональной залежністі между случайными величинами
  3. Определение корреляционной залежністі между случайными величинами
Вам необходимые также уметь вычислять вероятностей несовместимых и совместных событий с помощью соответствующих правил. 5. Задача для проверки студентами своего исходного уровня знаний . Контрольные вопросы
  1. Определение випадковоі события, ее относительную частоту и вероятность.
  2. Теорема составления вероятностей несовместимых событий
  3. Теорема составления вероятностей совместных событий
  4. Теорема умножения вероятностей независимых событий
  5. Теорема умножения вероятностей зависимых событий
  6. Теорема полной вероятности
  7. Теорема Байеса
  8. Определение случайных величин: дискретной и непрерывной
  9. Определение распределения, ряд распределения и многоугольника распределения дискретной случайной величины
  10. Определение функции распределения
  11. Определение мер положения центра распределения
  12. Определение мер вариабельности значений случайной величины
  13. Определение щільністі распределения и кривой распределения непрерывной случайной величины
  14. Определение функциональной зависимости между случайными величинами
  15. Определение корреляционной зависимости между случайными величинами
  16. Определение регрессии, уравнение и линии регрессии
  17. Определение коваріації и коэффициента корреляции
  18. Определение уравнения линейной регрессии.
6. Информацию для упрочения исходных знаний-умений можно найти в пособиях:
  1. Жуматій П.Г. Лекция “Теория вероятностей”. Одесса, 2009.
  2. Жуматій П.Г. “ Основы теории вероятностей”. Одесса, 2009.
  3. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  4. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
7. Содержание учебного материала из данной темы с выделением основных узловых вопросов.

Математическая статистика - это раздел математики, которая изучает методы сбора, систематизации, обработки, изображение, анализа и интерпретации результатов наблюдений с целью выявления существующих закономерностей.

Применение статистики в здравоохранении необходимо как на уровне сообщества, так и на уровне отдельных пациентов. Медицина имеет дело с индивидуумами, которые отличаются друг от друга по многим характеристикам, и значение показателей, на основе которых человека можно считать здоровой, варьируются от одного индивидуума к другому. Нет двух абсолютно одинаковых пациентов или двух групп пациентов, поэтому решение, которые касаются отдельных больных или групп населень, приходится принимать, исходя из опыта, накопленного на других больных или популяціних группах с похожими биологическими характеристиками. Необходимо осознавать, что учитывая существующие расхождения эти решения не могут быть абсолютно точными - они всегда связаны с некоторой неопределенностью. Именно в этом состоит ймовірносна природа медицины.

Некоторые примеры применения статистических методов в медицине:

трактовка вариации (вариабельность характеристик организма при решении вопроса о том, какое значение той или другой характеристики будет идеальным, нормальным, средним и т.і., делает необходимым использование соответствующих статистических методов).

диагностика заболеваний в отдельных больных и оценка состояния здоровья группы населения.

прогнозирование конца болезни в отдельных больных или возможного результата программы борьбы по той или другой болезнью в любой группе населения.

выбор пригодного влияния на больного или на группу населения .

планирование и проведение медицинских исследований , анализ и публикація результатов, их чтение и критическая оценка.

планирование здравоохранения и руководство им .

Полезная медицинская информация обычно скрыта в массе необработанных данных. Необходимо сконцентрировать информацию, которая содержится в них, и представить данные так, чтобы структуру вариации было хорошо видно, а потом уже выбрать конкретные методы анализа.

Изображение данных предусматривает знакомство с такими понятиями и сроками:

вариационный ряд (упорядоченное расположение) - простое упорядочение отдельных наблюдений за величиной.

класс - один из интервалов, на которые делят весь диапазон значений случайной величины.

крайние точки класса - значение, которые ограничивают класс, например 2,5 и 3,0, нижняя и верхняя границы класса 2,5 - 3,0.

(абсолютная) частота класса - число наблюдений в классе.

относительная частота класса - абсолютная частота класса, выраженная в виде частные общего числа наблюдений.

кумулятивная (накопленная) частота класса - число наблюдений, которое равняется сумме частот всех предыдущих классов и данного класса .

стовпцева диаграмма - графическое изображение частот данных для номинальных классов с помощью столбцов, высоты которых прямо пропорциональные частотам классов.

круговая диаграмма - графическое изображение частот данных для номинальных классов с помощью секторов круга, площади которых прямо пропорциональные частотам классов.

гістограма - графическое изображение частотного распределения количественных данных площадями прямоугольников, прямо пропорциональных частотам классов.

полигон частот - график частотного распределения количественных данных; точку, соответствующую частоте класса, располагают над серединой интервала, каждое две соседние точки соединяют отрезком прямой.

огива (кумулятивная кривая) - график распределения кумулятивных относительных частот.

Всем медицинским данным присущий вариабельность, тому анализ результатов измерений основанный на изучении сведений о том, каких значениях принимала случайная величина, которая исследуется.

Совокупность всех возможных значений случайной величины называется генеральной.

Часть генеральной совокупности, зарегистрированная в результате испытаний, носит название виборкою.

Число наблюдений, включенное в виборку, зовут объемом виборки (обычно обозначается n ) .

Задача выборочного метода заключается в том, чтобы по полученной избирателю сделать правильную оценку случайной величины, которая изучается. Поэтому основное требование, которое пред"яв-ляється к виборки, это максимальное отображение всех черт генеральной совокупности. Виборка, что удовлетворяет этому требованию, называется репрезентативной. От репрезентативности виборки зависит обгрунтованість оценки, то есть степень соответствия оценки параметру, который она характеризует .

При оценивании параметров генеральной совокупности по избирателю (параметрическом оценивании) пользуются такими понятиями:

точечное оценивание - оценка параметра генеральной совокупности в виде единичного значения, которое он может принять с самой большой вероятностью.

интервальне оценивание - оценка параметра генеральной совокупности в виде интервала значений, который имеет заданную вероятность накрыть его истинное значение.

При інтервальному оценивании используют понятие:

надежный интервал - интервал значений, который имеет заданную вероятность накрыть истинное значение параметра генеральной совокупности при інтервальному оценивании.

достоверность (надежная вероятность) - вероятность, с которой надежный интервал накрывает истинное значение параметра генеральной совокупности.

надежные границы - нижняя и верхняя границы надежного интервала.

Выводы, которые получаются методами математической статистики, всегда основываются на ограниченном, выборочном числе наблюдений, поэтому природньо, что для второй виборки результаты могут быть другими. Это обстоятельство определяет ймовірносний характер выводов математической статистики и, как следствие, широкое использование теории вероятностей в практике статистического исследования.

Типичный путь статистического исследования такой :

оценивши величины или зависимости между ними по данным наблюдений, выдвигают допущение о том, что явление, которое изучается, можно описать той или другой стохастичною моделью

используя статистические методы, можно это предположение подтвердить или отвергнуть; при подтверждении цель достигнута - найдена модель, которая описывает исследуемые закономерности, в противоположном случае продолжают работу, выдвигая и проверяя новую гипотезу.

Определение выборочных статистических оценок:

мода - это значения, которое чаще всего встречается в избирателе ,

медиана - центральное (срединное) значение вариационного ряда

размах R - разность между самым большим и наименьшим значениями в серии наблюдений

процентилі - значение в вариационном ряде, которые делят распределение на 100 равных частей (таким образом, медиана будет п"ятидесятим процентилем)

первый квартиль - 25- ий процентиль

третий квартиль - 75- ий процентиль

міжквартильний размах - разность между первым и третьим квартилями (охватывает центральных 50% наблюдений)

квартильне отклонение - половина міжквартильного размаха

выборочное среднее - среднее арифметическое всех выборочных значений (выборочная оценка математического ожидания)

среднее абсолютное отклонение - сумма отклонений от соответствующего начала (без учета знака), разделенная на объем виборки

среднее абсолютное отклонение от выборочного среднего вычисляют за формулой

выборочная дисперсия ( X ) - (выборочная оценка дисперсии) определяется формулой

выборочная коваріація -- (выборочная оценка коваріації К ( Х,Y )) равняется

выборочный коэффициент регрессии Y на X (выборочная оценка коэффициента регрессии Y на X ) равняется

эмпирическое уравнение линейной регрессии Y на X имеет вид

выборочный коэффициент регрессии X на Y (выборочная оценка коэффициента регрессии X на Y) равняется

эмпирическое уравнение линейной регрессии X на Y имеет вид

выборочное стандартное отклонение s(Х) - (выборочная оценка стандартного отклонения) равняется корню квадратному из выборочной дисперсии

выборочный корреляційний коэффициент - (выборочная оценка корреляционного коэффициента) равняется

выборочный коэффициент вариации  - (выборочная оценка коэффициента вариации CV) равняется

.

8. Задача для самостоятельной подготовки студентов . 8.1 Задача для самостоятельного изучения материала с темы.

8.1.1 Практическое вычисление выборочных оценок

Практическое вычисление выборочных точечных оценок

Пример 1 .

Продолжительность заболевания (в днях) в 20 случаях пневмонии сложила:

10, 11, 6, 16, 7, 13, 15, 8, 9, 10, 11, 13, 7, 8, 13, 15, 16, 13, 14, 15

Определить моду, медиану, размах, міжквартильний размах, выборочное среднее, среднее абсолютное отклонение от выборочного среднего, выборочную дисперсию, выборочный коэффициент вариации.

Розв"зок.

Вариационный ряд для виборки имеет вид

6, 7, 7, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 13, 14, 15, 15, 15, 16, 16

Мода

Наиболее часто в избирателе встречается число 13. Поэтому значением моды в избирателе будет это число.

Медиана

Когда вариационный ряд содержит парное число наблюдений, медиана равняется среднему двух центральных членов ряда, в данном случае это 11 и 13, поэтому медиана равняется 12.

Размах

Минимальное значение в избирателе равняется 6, а максимальное 16, итак, R = 10.

Міжквартильний размах, квартильне отклонение

В вариационном ряде четверть всех данных имеет значение меньшие, или уровне 8, поэтому первый квартиль 8, а 75% всех данных имеют значение меньшие, или уровне 12, поэтому третий квартиль 14. Итак, міжквартильний размах равняется 6, а квартильне отклонение составляет 3.

Выборочное среднее

Среднее арифметическое всех выборочных значений равняется

.

Среднее абсолютное отклонение от выборочного среднего

.

Выборочная дисперсия

Выборочное стандартное отклонение

.

Bибірковий коэффициент вариации

.

В следующем примере рассмотрим простейшие средства изучения стохастичної зависимости между двумя случайными величинами.

Пример 2 .

При обследовании группы пациентов получены данные о росте Н (см) и объем циркулирующей крови V (л) :

Найти эмпирические уравнения линейной регрессії.

Розв"зок.

Первое, что необходимо вычислить, это:

выборочное среднее

выборочное среднее

.

Второе, что необходимо подсчитать, это:

выборочную дисперсию (Н)

выборочную дисперсию (V)

выборочную коваріацію

Третье, это вычисления выборочных коэффициентов регрессии:

выборочный коэффициент регрессии V на H

выборочный коэффициент регрессии H на V

.

Четвертое, записать искомые уравнения:

эмпирическое уравнение линейной регрессии V на H имеет вид

эмпирическое уравнение линейной регрессии H на V имеет вид

.

Пример 3 .

Используя условия и результаты примера 2, высчитать коэффициент корреляции и проверить достоверность существования корреляционной зависимости между ростом человека и объемом циркулирующей крови с 95% надежной вероятностью.

Розв"зок.

Коэффициент корреляції связан с коэффициентами регрессии и практически полезной формулой

.

Для выборочной оценки коэффициента корреляції эта формула имеет вид

.

Используя вираховані в примере 2 значение выборочных коэффициентов регрессії и, получим

.

Проверка достоверности корреляційної зависимости между случайными величинами (полагает нормальное распределение у каждой из них) осуществляется таким образом:

  • вычисляют величину Т

  • находят в таблице распределения Стьюдента коэффициент

  • существование корреляционной зависимости между случайными величинами подтверждается при выполнении неровности

.

Поскольку 3,5 > 2,26, то с 95% надежной вероятностью существования корреляционной зависимости между ростом пациента и объемом циркулирующей крови можно считать установленным.

Інтервальні оценки для математического ожидания и дисперсии

Если случайная величина имеет нормальное распределение, то інтервальні оценки для математического ожидания и дисперсии вычисляют в такой последовательности:

1.находят выборочное среднее;

2.подсчитывают выборочную дисперсию и выборочное стандартное отклонение s ;

3.в таблице распределения Стьюдента за надежной вероятностью  и объемом виборки n находят коэффициент Стьюдента;

4.надежный интервал для математического ожидания записывают в виде

5.в таблице распределения "> и объемом виборкиn находят коэффициенты

;

6.надежный интервал для дисперсии записывают в виде

Величина надежного интервала, надежная вероятность и объем виборкиn зависят друг от друга. На самом деле, отношение

уменьшается с ростомn, итак, при постоянной величине надежного интервала с ростомn растет и . При постоянной надежной вероятности с ростом объема виборкип уменьшается величина надежного интервала. При планировании медицинских исследований эта связь используют для определения минимального объема виборки, который обеспечит нужны по условиям решаемой задачи величины надежного интервала и надежной вероятности.

Пример 5.

Используя условия и результаты примера 1, найдите інтервальні оценки математического ожидания и дисперсии для 95% надежной вероятности.

Розв"зок.

В примере 1 вираховані точечные оценки математического ожидания (выборочное среднее =12), дисперсии (выборочная дисперсия =10,7) и стандартного отклонения (выборочное стандартное отклонение). Объем виборки равняетсяп = 20.

Из таблицы распределения Стьюдента найдем значение коэффициента

дальше вычислим полуширинуd надежного интервала

и запишем інтервальну оценку математического ожидания

10,5 < < 13,5 при = 95%

Из таблицы распределения Пірсона " хи-квадрат " найдем коэффициенты

вычислим нижнюю и верхнюю надежные границы

и запишем інтервальну оценку для дисперсии в виде

6,2 23 при = 95% .

8.1.2. Задачи для самостоятельного решения

Для самостоятельногорешения предлагаются задачи5.4 С 1 – 8 (П.Г.Жуматій. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009, с. 24-25)

8.1.3. Контрольные вопросы
  1. Частота класса (абсолютная и относительная).
  2. Генеральная совокупность и выборка, объем выборки.
  3. Точечное и інтервальне оценивание.
  4. Надежный интервал и достоверность.
  5. Мода, медиана и выборочное среднее.
  6. Размах, міжквартільний размах, квартальное отклонение.
  7. Среднее абсолютное отклонение.
  8. Выборочные коваріація и дисперсия.
  9. Выборочные стандартное отклонение и коэффициент вариации.
  10. Выборочные коэффициенты регрессии.
  11. Эмпирические уравнения регрессии.
  12. Вычисление корреляционного коэффициента и достоверности корреляционной связи.
  13. Построение інтервальних оценок нормально распределенных случайных величин.
8.2 Основная литература
  1. Жуматій П.Г. “Математическая обработка медико-биологических данных. Задачи и примеры”. Одесса, 2009.
  2. Жуматій П.Г. Лекция “Математическая статистика”. Одесса, 2009.
  3. Жуматій П.Г. “ Основы математической статистики”. Одесса, 2009.
  4. Жуматій П.Г., Сеницька Я.Р. Элементы теории вероятностей. Методические указания для студентов медицинского института. Одесса, 1981.
  5. Чалый О.В., Агапов Б.Т., Цехмістер Я.В. Медицинская и биологическая физика. Киев, 2004.
8.3 Дополнительная литература
  1. Ремізов О.M. Медицинская и биологическая физика. М., “Высшая школа”, 1999.
  2. Ремізов О.M., Ісакова Н.Х., Максіна О.Г.. Сборник задач из медицинской и биологической физики. М., .,“Высшая школа”, 1987.
Методические указания сложилдоц. П. Г. Жуматій.

СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.

Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретные и случайные непрерывные величины.

Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).

Непрерывной называют величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)

Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).

П р и м е р:

x x 1 x 2 x 3 x 4 ... x n
p р 1 р 2 р 3 р 4 ... p n
x x 1 x 2 x 3 x 4 ... x n
m m 1 m 2 m 3 m 4 ... m n

ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.

Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры, получившие название числовых характеристик случайной величины . Наиболее употребительные из них:

1 .Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:

2 .Дисперсия случайной величины:


3 .Среднее квадратичное отклонение :

Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения

ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ

Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность : он является предельным законом, к которому приближаются другие законы распределения.

Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:



M(X) - математическое ожидание случайной величины;

s - среднее квадратичное отклонение.

Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:


ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.

Основными понятиями математической статистики являются:

1. Генеральная совокупность;

2. выборка;

3. вариационный ряд;

4. мода;

5. медиана;

6. процентиль,

7. полигон частот,

8. гистограмма.

Генеральная совокупность - большая статистическая совокупность, из которой отбирается часть объектов для исследования

(Пример: все население области, студенты вузов данного города и т.д.)

Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.

Вариационный ряд - статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.

Пример:

X,кг
m

x - значение случайной величины (масса девочек в возрасте 10 лет);

m - частота встречаемости.

Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).

Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.

Пример:

1, 1, 1, 1, 1. 1, 2, 2, 2, 3 , 3, 4, 4, 5, 5, 5, 5, 6, 6, 7 , 7, 7, 7, 7, 7, 8, 8, 8, 8, 8 , 8, 9, 9, 9, 10, 10, 10, 10, 10, 10

В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.

Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями . Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.

Используют дискретное (точечное) статистическое распределение инепрерывное (интервальное) статистическое распределение.

Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы .

Полигон частот - ломаная линия, отрезки которой соединяют точки с координатами (x 1 ,m 1 ), (x 2 ,m 2 ), ..., или для полигона относительных частот – с координатами (x 1 ,р * 1 ), (x 2 ,р * 2 ), ...(Рис.1).


m m i /n f(x)

Рис.1 Рис.2

Гистограмма частот - совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx , а высоты равны отношению частоты к dx , или р * к dx (плотность вероятности).

Пример:

х, кг 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3 4,4
m

Полигон частот

Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=m i / n dx = p* i / dx

Пример построения гистограммы .

Воспользуемся данными предыдущего примера.

1. Расчет количества классовых интервалов

гдеn - число наблюдений. В нашем случае n = 100 . Следовательно:

2. Расчет ширины интервала :

,

3. Составление интервального ряда:

2.7-2.9 2.9-3.1 3.1-3.3 3.3-3.5 3.5-3.7 3.7-3.9 3.9-4.1 4.1-4.3 4.3-4.5
m
f(x) 0.3 0.75 1.25 0.85 0.55 0.6 0.4 0.25 0.05

Гистограмма