Методы получения оценок. Метод максимального правдоподобия точечной оценки неизвестных параметров вероятностных распределений Метод наибольшего правдоподобия

Аннотация: Цель работы: практически освоить метод максимального правдоподобия для точечной оценки неизвестных параметров заданного вероятностного распределения случайной величины. Среда программирования - MATLAB.

Теоретическая часть

Метод максимального или наибольшего правдоподобия предложен Р. Фишером [ , 13 ]. С помощью этого метода производится точечная оценка неизвестных параметров априорно известного закона распределения случайной величины.

Рассмотрим сначала суть метода при оценке параметров дискретного распределения случайной величины .

Обозначим вероятность того, что в результате испытания величина примет значение , через .

Определение . Функцией правдоподобия случайной дискретной величины называют функцию аргумента :

(7.1)

где - фиксированные числа, полученные при измерении случайной величины .

В качестве точечной оценки параметра принимают такое его значение , при котором функция правдоподобия достигает максимума. Оценку называют оценкой максимального правдоподобия .

Для упрощения расчетов в рассмотрение вводится логарифм функции правдоподобия , которую называют логарифмической функцией правдоподобия . Функции и достигают максимума при одном и том же значении своего аргумента, поэтому вместо отыскания максимума функции ищут максимум функции . Записывая необходимое условие экстремума функции правдоподобия в случае скалярного параметра, получаем уравнения правдоподобия

(7.2)

(7.3)

где - заданная выборка случайных величин.

Уравнение правдоподобия (7.3) с логарифмической функцией, как правило, более простое относительно функции правдоподобия (7.2).

Если распределение случайной величины зависит от вектора параметров , то уравнение (7.3) заменяется системой уравнений

(7.4)

Именно уравнения (7.3) и (7.4) принято называть уравнениями правдоподобия . Во многих случаях решение системы (7.4), являющейся, как правило, нелинейной, приходится искать численными методами.

Рассмотрим применение метода максимального правдоподобия для оценки параметров непрерывного распределения случайных величин генеральной совокупности .

Пусть - непрерывная случайная величина , которая в результате испытаний приняла значения . Предполагается, что вид плотности распределения задан, но неизвестен параметр , которым определяется эта функция .

Определение . Функцией правдоподобия непрерывной случайной величины называют функцию аргумента

(7.5)

где - фиксированные числа.

Оценку максимального правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут так же, как в случае дискретной величины.

Замечание . Если плотность распределения непрерывной случайной величины определяется двумя неизвестными параметрами и , то функция правдоподобия является функцией двух независимых аргументов и :

(7.6)

Как для дискретных распределений, так и для непрерывных точку максимума логарифмической функции распределения аргумента можно искать через необходимое условие экстремума :

Найденную точку максимума принимают в качестве оценки максимального правдоподобия параметра .

Метод максимального правдоподобия имеет ряд достоинств: его оценки, вообще говоря, состоятельны (но они могут быть смещенными), распределены асимптотически нормально (при больших значениях приближенно нормально) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра существует эффективная оценка , то уравнение правдоподобия имеет единственное решение ; этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно полезен в случае малых выборок. Недостаток метода состоит в том, что он часто требует сложных вычислений.

Практическая часть

1. Оценка параметра экспоненциального распределения

Рассматривается пример поиска методом максимального правдоподобия оценки параметра экспоненциального распределения случайной величины, для которой функция плотности имеет вид

(7.7)

К характеристикам экспоненциального распределения относятся математическое ожидание и дисперсия :

(7.8)

(7.9)

Замечание . Во встроенных функциях MATLAB параметром экспоненциального распределения является математическое ожидание случайной величины.

Возможная программная реализация точечной оценки параметра экспоненциального распределения:

clear,clc,close all %%% Проверка на закрытие диалоговых окон try global h11 close(h11); end try global n11 close(n11); end try global v11 close(v11) end %% ВВОД ТЕОРЕТИЧЕСКОГО ПАРАМЕТРА РАСПРЕДЕЛЕНИЯ options.Resize = "on"; options.WindowStyle = "modal"; %%"normal"; options.Interpreter = "tex"; P1 = inputdlg({"\bfВвод параметра:......................................................"},... sprintf("Теоретическая величина параметра"),1,{"1.23"},options); %% ПРЕОБРАЗОВАНИЕ К СТРОКОВОЙ ПЕРЕМЕННОЙ P2 = char(P1); %% ПРЕОБРАЗОВАНИЕ К ЧИСЛУ С ДВОЙНОЙ ТОЧНОСТЬЮ P0 = str2num(P2); %% КОНТРОЛЬ ВВОДА ПАРАМЕТРА if isempty(P0) h11 = errordlg("Параметр должен быть действительным положительным числом!","Ошибка ввода"); return end %% КОНТРОЛЬ ВВОДА ПАРАМЕТРА global h11 if P0 <= 0 | ~isreal(P0) | ~isfinite(P0) h11 = errordlg("Параметр должен быть конечным действительным положительным числом!","Ошибка ввода"); return end % ВВОД ЧИСЛА ПРОГОНОВ ПРОГРАММЫ n1 = inputdlg({"\bfВвод числа прогонов программы.........................."},... "Число прогонов программы",1,{"10"}, options); % ПРЕОБРАЗОВАНИЕ К ЧИСЛОВОЙ ПЕРЕМЕННОЙ n = str2num(char(n1)); %% Контроль ввода цифр if isempty(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end if ~isreal(n) | ~isfinite(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end %% Контроль целого положительного числа циклов if n <= 0 | n ~= round(n) global n11 n11 = errordlg("Число прогонов программы должно быть целым положительным числом!", "Ошибка ввода"); return end % ВВОД ЧИСЛА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ v1 = inputdlg({"\bfВвод числа измерений случайной величины..................................."},... "Число измерений случайной величины",1,{"1234"}, options); % ПРЕОБРАЗОВАНИЕ К ЧИСЛОВОЙ ПЕРЕМЕННОЙ v = str2num(char(v1)); if isempty(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end if ~isreal(v) | ~isfinite(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end % КОНТРОЛЬ ЦЕЛОГО ЧИСЛА ИЗМЕРЕНИЙ % СЛУЧАЙНОЙ ВЕЛИЧИНЫ if v <= 0 | v ~= round(v) global v11 v11 = errordlg("Число измерений должно быть положительным целым числом!","Ошибка ввода"); return end syms m k = 0; %% ЦИКЛ ЗАДАННОГО ЧИСЛА ПРОГОНОВ ПРОГРАММЫ for I = 1:n k=k+1; %% ФОРМИРОВАНИЕ ЧИСЛА ИЗМЕРЕНИЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ t = exprnd(1/P0,v,1); %% ФОРМИРОВАНИЕ ФУНКЦИИ МАКСИМАЛЬНОГО %% ПРАВДОПОДОБИЯ L = m^(length(t))*exp(-m*sum(t)); %% ЛОГАРИФМИЧЕСКАЯ ФУНКЦИЯ МАКСИМАЛЬНОГО %% ПРАВДОПОДОБИЯ Lg = log(L); %% ДИФФЕРЕНЦИРОВАНИЕ dLg = diff(Lg,m); %% ПРЕОБРАЗОВАНИЕ СИМВОЛЬНОЙ ПЕРЕМЕННОЙ К СТРОКОВОЙ dLg = char(dLg); %% РЕШЕНИЕ УРАВНЕНИЯ ОТНОСИТЕЛЬНО ОЦЕНИВАЕМОГО %% ПАРАМЕТРА as1(k) = double(solve(dLg)); %% УСРЕДНЕНИЕ ОЦЕНИВАЕМОГО ПАРАМЕТРА as(k) = mean(as1); end %% ОКОНЧАНИЕ ЦИКЛА ЗАДАННОГО ЧИСЛА ПРОГОНОВ ПРОГРАММЫ mcp = mean(as); %% ВЫВОД РЕЗУЛЬТАТОВ В КОМАНДНОЕ ОКНО fprintf("\n\t%s%g\n \t%s%g\n","Теоретический параметр: ",P0,... "Оценка параметра: ", mcp) fprintf("\tОтносительная погрешность: %g%s\n",abs(P0-mcp)/P0*100,"%") %% ГРАФИЧЕСКИЕ ПОСТРОЕНИЯ figure(1) %% set(gcf,"position",) plot(1:n,as1,"r:","linew",2),grid off,hold on, plot(1:n,as,"linew",2), title(sprintf("%s%g","\bfТеоретический параметр\fontsize{12} \lambda\fontsize{10} = ",P0)) xlabel("\bf Количество циклов"), ylabel("\bf Эмпирический параметр\fontsize{14} \lambda"), legend("\bf Измеряемая величина\fontsize{12} \lambda",... "\bf Средняя величина\fontsize{12} \lambda"), set(gcf,"color","w") %% ПОСТРОЕНИЕ ТЕОРЕТИЧЕСКОЙ И ЭМПИРИЧЕСКОЙ %% ФУНКЦИИ ПЛОТНОСТИ t = 0: 0.1: 4; y1 = P0*exp(-P0*t); %exppdf(t,1/P0); % встроенная функция y2 = mcp*exp(-mcp*t); %exppdf(t,1/mcp); figure(2) plot(t, y1, "r", "linew",2), hold on plot(t, y2, "bo", "linew",2) grid off legend("\bf Теоретическая функция плотности (PDF)",... "\bf Эмпирическая функция плотности"), text(t(end)/3,2/3*max(max()),["\bf",... sprintf("Теоретический параметр: %g\n Эмпирический параметр: %g",P0,mcp)]) xlabel("\bf Случайная величина"), ylabel("\bf Функция плотности"), set(gcf,"color","w")

Известный таксономист Джо Фельзенштейн (Felsenstein, 1978) был первым, кто предложил оценивать филогенетические теории не на основе парсимо-

нии, а средствами математической статистистики. В результате был разработан метод максимального правдоподобия (maximum likelihood).

Этот метод основывается на предварительных знаниях о возможных путях эволюции, то есть требует создания модели изменений признаков перед проведением анализа. Именно для построения этих моделей и привлекаются законы статистики.

Под правдоподобим понимается вероятность наблюдения данных в случае принятия определенной модели событий. Различные модели могут делать наблюдаемые данные более или менее вероятными. Например, если вы подбрасываете монету и получаете «орлов» только в одном случае из ста, тогда вы можете предположить, что эта монета бракованная. В случае принятия вами данной модели, правдоподобие полученного результата будет достаточно высоким. Если же вы основываетесь на модели, согласно которой монета является небракованной, то вы могли бы ожидать увидеть «орлов» в пятидесяти случаях, а не в одном. Получить только одного «орла» при ста подбрасываниях небракованной монеты статистически маловероятно. Другими словами, правдоподобие получения результата один «орел» на сто «решек» является в модели небракованной монеты очень низким.

Правдоподобие – это математическая величина. Обычно оно вычисляется по формуле:

где Pr(D|H) – это вероятность получения данных D в случае принятия гипотезы H. Вертикальная черта в формуле читается как «для данной». Поскольку L часто оказывается небольшой величиной, то обычно в исследованиях используется натуральный логарифм правдоподобия.

Очень важно различать вероятность получения наблюдаемых данных и вероятность того, что принятая модель событий правильна. Правдоподобие данных ничего не говорит о вероятности модели самой по себе. Философ-биолог Э.Собер (Sober) использовал следующий пример для того, чтобы сделать ясным это различие. Представьте, что вы слышите сильный шум в комнате над вами. Вы могли бы предположить, что это вызвано игрой гномов в боулинг на чердаке. Для данной модели ваше наблюдение (сильный шум над вами) имеет высокое правдоподобие (если бы гномы действительно играли в боулинг над вами, вы почти наверняка услышали бы это). Однако, вероятность того, что ваша гипотеза истинна, то есть, что именно гномы вызвали этот шум, – нечто совсем иное. Почти наверняка это были не гномы. Итак, в этом случае ваша гипотеза обеспечивает имеющимся данным высокое правдоподобие, но сама по себе в высшей степени маловероятна.

Используя данную систему рассуждений, метод максимального правдоподобия позволяет статистически оценивать филогенетические деревья, полученные средствами традиционной кладистики. По сути, этот метод заключа-

ется в поиске кладограммы, обеспечивающей наиболее высокую вероятность имеющегося набора данных.

Рассмотрим пример, иллюстрирующий применение метода максимального правдоподобия. Предположим, что у нас имеется четыре таксона, для которых установлены последовательности нуклеотидов определенного сайта ДНК (рис.16).

Если модель предполагает возможность реверсий, то мы можем укоренить это дерево в любом узле. Одно из возможных корневых деревьев изображено на рис. 17.2.

Мы не знаем, какие нуклеотиды присутствовали в рассматриваемом локусе у общих предков таксонов 1-4 (эти предки соответствуют на кладограмме узлам X и Y). Для каждого из этих узлов существует по четыре варианта нуклеотидов, которые могли там находиться у предковых форм, что в результате дает 16 филогенетических сценариев, приводящих к дереву 2. Один из таких сценариев изображен на рис. 17.3.

Вероятность данного сценария может быть определена по формуле:

где P A – вероятность присутствия нуклеотида A в корне дерева, которая равна средней частоте нуклеотида А (в общем случае = 0,25); P AG – вероятность замены А на G; P AC – вероятность замены А на С; P AT – вероятность замены А на T; последние два множителя – это вероятность созраниния нуклеотида T в узлах X и Y соответственно.

Еще один возможный сценарий, который позволяет получить те же данные, показан на рис. 17.4. Поскольку существует 16 подобных сценариев, может быть определена вероятность каждого из них, а сумма этих вероятностей будет вероятностью дерева, изображенного на рис. 17.2:

Где P tree 2 – это вероятность наблюдения данных в локусе, обозначенном звездочкой, для дерева 2.

Вероятность наблюдения всех данных во всех локусах данной последовательности является произведением вероятностей для каждого локуса i от 1 до N:

Поскольку эти значения очень малы, используется и другой показатель – натуральный логарифм правдоподобия lnL i для каждого локуса i. В этом случае логарифм правдоподобия дерева является суммой логарифмов правдоподобий для каждого локуса:

Значение lnL tree – это логарифм правдоподобия наблюдения данных при выборе определенной эволюционной модели и дерева с характерной для него

последовательностью ветвления и длиной ветвей. Компьютерные программы, применяемые в методе максимального правдоподобия (например, уже упоминавшийся кладистический пакет PAUP), ведут поиск дерева с максимальным показателем lnL. Удвоенная разность логарифмов правдоподобий двух моделей 2Δ (где Δ = lnL tree A- lnL treeB) подчиняется известному статистическому распределению х 2 . Благодаря этому можно оценить, действительно ли одна модель достоверно лучше, чем другая. Это делает метод максимального правдоподобия мощным средством тестирования гипотез.

В случае четырех таксонов требуется вычисления lnL для 15 деревьев. При большом числе таксонов оценить все деревья оказывается невозможным, поэтому для поиска используются эвристические методы (см. выше).

В рассмотренном примере мы использовали значения вероятностей замены (субституции) нуклеотидов в процессе эволюции. Вычисление этих вероятностей является самостоятельно статистической задачей. Для того чтобы реконструировать эволюционное дерево, мы должны сделать определенные допущения по поводу процесса субституции и выразить эти допущения в виде модели.

В самой простой модели вероятности замен какого-либо нуклеотида на любой другой нуклеотид признаются равными. Эта простая модель имеет только один параметр - скорость субституции и известна как однопарамет-рическая модель Джукса - Кантора или JC (Jukes, Cantor, 1969). При использовании этой модели нам необходимо знать скорость, с которой происходит субституция нуклеотидов. Если мы знаем, что в момент времени t= 0 в некотором сайте присутствует нуклеотид G, то мы можем вычислить вероятность того, что в этом сайте через некоторый промежуток времени t нуклеотид G сохранится, и вероятность, того, что в этом сайте произойдет замена на другой нуклеотид, например A. Эти вероятности обозначаются как P(gg) и P (ga) соответственно. Если скорость субституции равна некоторому значению α в единицу времени, тогда

Поскольку в соответствии с однопараметрической моделью любые субституции равновероятны, более общее утверждение будет выглядеть следующим образом:

Разработаны и более сложные эволюционные модели. Эмпирические наблюдения свидетельствуют, что некоторые субституции могут происходить

чаще, чем другие. Субституции, в результате которых один пурин замещается другим пурином, называются транзициями, а замены пурина пиримидином или пиримидина пурином называются трансверсиями. Можно было бы ожидать, что трансверсии происходят чаще, чем транзиции, так как только одна из трех возможных субституций для какого-либо нуклеотида является транзицией. Тем не менее, обычно происходит обратное: транзиции, как правило, происходят чаще, чем трансверсии. Это в частности характерно для митохондриальной ДНК.

Другой причиной того, что некоторые субституции нуклеотидов происходят чаще, чем другие, является неравное соотношение оснований. Например, митохондриальная ДНК насекомых более богата аденином и тимином по сравнению с позвоночными. Если некоторые основания более распространены, можно ожидать, что некоторые субституции происходят чаще, чем другие. Например, если последовательность содержит очень немного гуанина, маловероятно, что будут происходить субституции этого нуклеотида.

Модели различаются тем, что в одних определенный параметр или параметры (например, соотношение оснований, скорости субституции) остаются фиксированными и варьируют в других. Существуют десятки эволюционных моделей. Ниже мы приведем наиболее известные из них.

Уже упомянутая Модель Джукса - Кантора (JC) характеризуется тем, что частоты оснований одинаковы: π A = π C = π G = π T , трансверсии и транзиции имеют одинаковые скорости α=β, и все субституции одинаково вероятны.

Двупараметрическая модель Кимуры (K2P) предполагает равные частоты оснований π A =π C =π G =π T , а трансверсии и транзиции имеют разные скорости α≠β.

Модель Фельзенштейна (F81) предполагает, что частоты оснований разные π A ≠π C ≠π G ≠π T , а скорости субституции одинаковы α=β.

Общая обратимая модель (REV) предполагает различные частоты оснований π A ≠π C ≠π G ≠π T , а все шесть пар субституций имеют различные скорости.

Упомянутые выше модели подразумевают, что скорости субституции одинаковы во всех сайтах. Однако в модели можно учесть и различия скоростей субституции в разных сайтах. Значения частот оснований и скоростей субституции можно как назначить априорно, так и получить эти значения из данных с помощью специальных программ, например PAUP.

Байесовский анализ

Метод максимального правдоподобия оценивает вероятность филогенетических моделей после того, как они созданы на основе имеющихся данных. Однако знание общих закономерностей эволюции данной группы позволяет создать серию наиболее вероятных моделей филогенеза без привлечения основных данных (например, нуклеотидных последовательностей). После того, как эти данные получены, появляется возможность оценить соответствие между ними и заранее построенными моделями, и пересмотреть вероятность этих исходных моделей. Метод, который позволяет это осуществить именуется байесовским анализом , и является новейшим из методов изучения филогении (см. подробный обзор: Huelsenbeck et al. , 2001).

Согласно стандартной терминологии, первоначальные вероятности принято называть априорными вероятностями (так как они принимаются прежде, чем получены данные) а пересмотренные вероятности – апостериорными (так как они вычисляются после получения данных).

Математической основой байесовского анализа является теорема Байеса, в которой априорная вероятность дерева Pr[Tree ] и правдоподобие Pr[Data|Tree ] используются, чтобы вычислить апостериорную вероятность дерева Pr[Tree|Data ]:

Апостериорная вероятность дерева может рассматриваться как вероятность того, что это дерево отражает истинный ход эволюции. Дерево с самой высокой апостериорной вероятностью выбирается в качестве наиболее вероятной модели филогенеза. Распределение апостериорных вероятностей деревьев вычисляется с использованием методов компьютерного моделирования.

Метод максимального правдоподобия и байесовский анализ нуждаются в эволюционных моделях, описывающих изменения признаков. Создание математических моделей морфологической эволюции в настоящее время не представляется возможным. По этой причине статистические методы филогенетического анализа применяются только для молекулярных данных.

И другими).

Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных, и обеспечения оценки параметров модели.

Соответствует многим известным методам оценки в области статистики. Например, предположим, что вы заинтересованы ростом жителей Украины. Предположим, у вас данные роста некоторого количества людей, а не всего населения. Кроме того предполагается, что рост является нормально распределенной величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста выборки является максимально правдоподобным к среднему значению и дисперсии всего населения.

Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия дает уникальный и простой способ определить решения в случае нормального распределения.

Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:

линейные модели и обобщенные линейные модели;
факторный анализ;
моделирования структурных уравнений;
многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
дискретные модели выбора.

Сущность метода

называется оце́нкой максима́льного правдоподо́бия параметра . Таким образом оценка максимального правдоподобия - это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.

Часто вместо функции правдоподобия используют логарифмическую функцию правдоподобия . Так как функция монотонно возрастает на всей области определения, максимум любой функции является максимумом функции , и наоборот. Таким образом

Если функция правдоподобия дифференцируема, то необходимое условие экстремума - равенство нулю ее градиента :

Достаточное условие экстремума может быть сформулировано как отрицательная определенность гессиана - матрицы вторых производных:

Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:

В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:

Свойства

Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными , асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что

где - асимптотическая информационная матрица

Асимптотическая эффективность означает, что асимптотическая ковариационная матрица является нижней границей для всех состоятельных асимптотически нормальных оценок.

Примеры

Последнее равенство может быть переписано в виде:

где , откуда видно, что своего максимума функция правдоподобия достигает в точке . Таким образом

. .

Чтобы найти её максимум, приравняем к нулю частные производные :

- выборочное среднее , а - выборочная дисперсия .

Условный метод максимального правдоподобия

Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели . В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.

См. также

Примечания

Литература

Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. - М .: Дело, 2007. - 504 с. - ISBN 978-5-7749-0473-0

Wikimedia Foundation . 2010 .

Смотреть что такое "Метод максимального правдоподобия" в других словарях:

метод максимального правдоподобия - — метод максимального правдоподобия В математической статистике метод оценивания параметров распределения, основанный на максимизации так называемой функции правдоподобия… …

Метод оценки по выборке неизвестных параметров функции распределения F(s; α1,..., αs), где α1, ..., αs неизвестные параметры. Если выборка из п наблюдений разбита на r непересекающихся групп s1,…, sr; р1,..., pr… … Геологическая энциклопедия

Метод максимального правдоподобия - в математической статистике метод оценивания параметров распределения, основанный на максимизации так называемой функции правдоподобия (совместной плотности вероятности наблюдений при значениях, составляющих… … Экономико-математический словарь

метод максимального правдоподобия - maksimaliojo tikėtinumo metodas statusas T sritis automatika atitikmenys: angl. maximum likelihood method vok. Methode der maksimalen Mutmaßlichkeit, f rus. метод максимального правдоподобия, m pranc. méthode de maximum de vraisemblance, f;… … Automatikos terminų žodynas

метод максимального правдоподобия с частичным откликом - Метод обнаружения сигналов по Витерби, при котором обеспечивается минимальный уровень межсимвольных искажений. См. тж. Viterbi algorithm. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М … Справочник технического переводчика

обнаружитель последовательности, использующий метод максимального правдоподобия - Устройство вычисления оценки наиболее вероятной последовательности символов, максимизирующей функцию правдоподобия принимаемого сигнала. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М … Справочник технического переводчика

метод наибольшего правдоподобия - метод максимального правдоподобия — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом Синонимы метод максимального правдоподобия EN maximum likelihood method … Справочник технического переводчика

В работах, предназначенных для первоначального знакомства с математической статистикой, обычно рассматривают оценки максимального правдоподобия (сокращенно ОМП):

Таким образом, сначала строится плотность распределения вероятностей, соответствующая выборке. Поскольку элементы выборки независимы, то эта плотность представляется в виде произведения плотностей для отдельных элементов выборки. Совместная плотность рассматривается в точке, соответствующей наблюденным значениям. Это выражение как функция от параметра (при заданных элементах выборки) называется функцией правдоподобия. Затем тем или иным способом ищется значение параметра, при котором значение совместной плотности максимально. Это и есть оценка максимального правдоподобия.

Хорошо известно, что оценки максимального правдоподобия входят в класс наилучших асимптотически нормальных оценок. Однако при конечных объемах выборки в ряде задач ОМП недопустимы, т.к. они хуже (дисперсия и средний квадрат ошибки больше), чем другие оценки, в частности, несмещенные. Именно поэтому в ГОСТ 11.010-81 для оценивания параметров отрицательного биномиального распределения используются несмещенные оценки, а не ОМП. Из сказанного следует априорно предпочитать ОМП другим видам оценок можно - если можно - лишь на этапе изучения асимптотического поведения оценок.

В отдельных случаях ОМП находятся явно, в виде конкретных формул, пригодных для вычисления.

В большинстве случаев аналитических решений не существует, для нахождения ОМП необходимо применять численные методы. Так обстоит дело, например, с выборками из гамма-распределения или распределения Вейбулла-Гнеденко. Во многих работах каким-либо итерационным методом решают систему уравнений максимального правдоподобия или впрямую максимизируют функцию правдоподобия.

Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных методов требует обоснования. В ряде примеров функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся. Для данных ВНИИ железнодорожного транспорта по усталостным испытаниям стали уравнение максимального правдоподобия имеет 11 корней. Какой из одиннадцати использовать в качестве оценки параметра?

Как следствие осознания указанных трудностей, стали появляться работы по доказательству сходимости алгоритмов нахождения оценок максимального правдоподобия для конкретных вероятностных моделей и конкретных алгоритмов.

Однако теоретическое доказательство сходимости итерационного алгоритма - это еще не всё. Возникает вопрос об обоснованном выборе момента прекращения вычислений в связи с достижением требуемой точности. В большинстве случаев он не решен.

Но и это не все. Точность вычислений необходимо увязывать с объемом выборки - чем он больше, тем точнее надо находить оценки параметров, в противном случае нельзя говорить о состоятельности метода оценивания. Более того, при увеличении объема выборки необходимо увеличивать и количество используемых в компьютере разрядов, переходить от одинарной точности расчетов к двойной и далее - опять-таки ради достижения состоятельности оценок.

Таким образом, при отсутствии явных формул для оценок максимального правдоподобия нахождение ОМП натыкается на ряд проблем вычислительного характера. Специалисты по математической статистике позволяют себе игнорировать все эти проблемы, рассуждая об ОМП в теоретическом плане. Однако прикладная статистика не может их игнорировать. Отмеченные проблемы ставят под вопрос целесообразность практического использования ОМП.

Пример 1. В статистических задачах стандартизации и управления качеством используют семейство гамма-распределений. Плотность гамма-распределения имеет вид

Плотность вероятности в формуле (7) определяется тремя параметрами a, b, c , где a >2, b >0. При этом a является параметром формы, b - параметром масштаба и с - параметром сдвига. Множитель 1/Г(а) является нормировочным, он введен, чтобы

Здесь Г(а) - одна из используемых в математике специальных функций, так называемая "гамма-функция", по которой названо и распределение, задаваемое формулой (7),

Подробные решения задач оценивания параметров для гамма-распределения содержатся в разработанном нами государственном стандарте ГОСТ 11,011-83 «Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения». В настоящее время эта публикация используется в качестве методического материала для инженерно-технических работников промышленных предприятий и прикладных научно-исследовательских институтов.

Поскольку гамма-распределение зависит от трех параметров, то имеется 2 3 - 1 = 7 вариантов постановок задач оценивания. Они описаны в табл. 1. В табл. 2 приведены реальные данные о наработке резцов до предельного состояния, в часах. Упорядоченная выборка (вариационный ряд) объема n = 50 взята из государственного стандарта. Именно эти данные будут служить исходным материалом для демонстрации тех или иных методов оценивания параметров.

Выбор «наилучших» оценок в определенной параметрической модели прикладной статистики - научно-исследовательская работа, растянутая во времени. Выделим два этапа. Этап асимптотики : оценки строятся и сравниваются по их свойствам при безграничном росте объема выборки. На этом этапе рассматривают такие характеристики оценок, как состоятельность, асимптотическая эффективность и др. Этап конечных объемов выборки: оценки сравниваются, скажем, при n = 10. Ясно, что исследование начинается с этапа асимптотики: чтобы сравнивать оценки, надо сначала их построить и быть уверенными, что они не являются абсурдными (такую уверенность дает доказательство состоятельности).

Пример 2. Оценивание методом моментов параметров гамма-распределения в случае трех неизвестных параметров (строка 7 таблицы 1).

В соответствии с проведенными выше рассуждениями для оценивания трех параметров достаточно использовать три выборочных момента - выборочное среднее арифметическое:

выборочную дисперсию

и выборочный третий центральный момент

Приравнивая теоретические моменты, выраженные через параметры распределения, и выборочные моменты, получаем систему уравнений метода моментов:

Решая эту систему, находим оценки метода моментов. Подставляя второе уравнение в третье, получаем оценку метода моментов для параметра сдвига:

Подставляя эту оценку во второе уравнение, находим оценку метода моментов для параметра формы:

Наконец, из первого уравнения находим оценку для параметра сдвига:

Для реальных данных, приведенных выше в табл. 2, выборочное среднее арифметическое = 57,88, выборочная дисперсия s 2 = 663,00, выборочный третий центральный момент m 3 = 14927,91. Согласно только что полученным формулам оценки метода моментов таковы: a * = 5,23; b * = 11,26, c * = - 1,01.

Оценки параметров гамма-распределения, полученные методом моментов, являются функциями от выборочных моментов. В соответствии со сказанным выше они являются асимптотически нормальными случайными величинами. В табл. 3 приведены оценки метода моментов и их асимптотические дисперсии при различных вариантах сочетания известных и неизвестных параметров гамма-распределения.

Все оценки метода моментов, приведенные в табл. 3, включены в государственный стандарт. Они охватывают все постановки задач оценивания параметров гамма-распределения (см. табл. 1), кроме тех, когда неизвестен только один параметр - a или b . Для этих исключительных случаев разработаны специальные методы оценивания.

Поскольку асимптотическое распределение оценок метода моментов известно, то не представляет труда формулировка правил проверки статистических гипотез относительно значений параметров распределений, а также построение доверительных границ для параметров. Например, в вероятностной модели, когда все три параметра неизвестны, в соответствии с третьей строкой таблицы 3 нижняя доверительная граница для параметра а , соответствующая доверительной вероятности г = 0,95, в асимптотике имеет вид

а верхняя доверительная граница для той же доверительной вероятности такова

где а * - оценка метода моментов параметра формы (табл. 3).

Пример 3. Найдем ОМП для выборки из нормального распределения, каждый элемент которой имеет плотность

Таким образом, надо оценить двумерный параметр (m , у 2).

Произведение плотностей вероятностей для элементов выборки, т.е. функция правдоподобия, имеет вид

Требуется решить задачу оптимизации

Как и во многих иных случаях, задача оптимизации проще решается, если прологарифмировать функцию правдоподобия, т.е. перейти к функции

называемой логарифмической функцией правдоподобия. Для выборки из нормального распределения

Необходимым условием максимума является равенство 0 частных производных от логарифмической функции правдоподобия по параметрам, т.е.

Система (10) называется системой уравнений максимального правдоподобия. В общем случае число уравнений равно числу неизвестных параметров, а каждое из уравнений выписывается путем приравнивания 0 частной производной логарифмической функции правдоподобия по тому или иному параметру.

При дифференцировании по m первые два слагаемых в правой части формулы (9) обращаются в 0, а последнее слагаемое дает уравнение

Следовательно, оценкой m * максимального правдоподобия параметра m является выборочное среднее арифметическое,

Для нахождения оценки дисперсии необходимо решить уравнение

Легко видеть, что

Следовательно, оценкой (у 2)* максимального правдоподобия для дисперсии у 2 с учетом найденной ранее оценки для параметра m является выборочная дисперсия,

Итак, система уравнений максимального правдоподобия решена аналитически, ОМП для математического ожидания и дисперсии нормального распределения - это выборочное среднее арифметическое и выборочная дисперсия. Отметим, что последняя оценка является смещенной.

Отметим, что в условиях примера 3 оценки метода максимального правдоподобия совпадают с оценками метода моментов. Причем вид оценок метода моментов очевиден и не требует проведения каких-либо рассуждений.

Пример 4. Попытаемся проникнуть в тайный смысл следующей фразы основателя современной статистики Рональда Фишера: “нет ничего проще, чем придумать оценку параметра”. Классик иронизировал: он имел в виду, что легко придумать плохую оценку. Хорошую оценку не надо придумывать (!) - ее надо получать стандартным образом, используя принцип максимального правдоподобия.

Задача. Согласно H 0 математические ожидания трех независимых пуассоновских случайных величин связаны линейной зависимостью: .

Даны реализации этих величин. Требуется оценить два параметра линейной зависимости и проверить H 0 .

Для наглядности можно представить линейную регрессию, которая в точках принимает средние значения. Пусть получены значения. Что можно сказать о величине и справедливости H 0 ?

Наивный подход

Казалось бы, оценить параметры можно из элементарного здравого смысла. Оценку наклона прямой регрессии получим, поделив приращение при переходе от x 1 =-1 к x 3 =+1 на, а оценку значения найдем как среднее арифметическое:

Легко проверить, что математические ожидания оценок равны (оценки несмещенные).

После того как оценки получены, H 0 проверяют как обычно с помощью хи-квадрат критерия Пирсона:

Оценки ожидаемых частот можно получить, исходя из оценок:

При этом, если наши оценки ”правильные”, то расстояние Пирсона будет распределено как случайная величина хи-квадрат с одной степенью свободы: 3-2=1. Напомним, что мы оцениваем два параметра, подгоняя данные под нашу модель. При этом сумма не фиксирована, поэтому дополнительную единицу вычитать не нужно.

Однако, подставив, получим странный результат:

С одной стороны ясно, что для данных частот нет оснований отвергать H 0 , но мы не в состоянии это проверить с помощью хи-квадрат критерия, так как оценка ожидаемой частоты в первой точке оказывается отрицательной. Итак, найденные из “здравого смысла” оценки не позволяют решить задачу в общем случае.

Метод максимального правдоподобия

Случайные величины независимы и имеют пуассоновское распределение. Вероятность получить значения равна:

Согласно принципу максимального правдоподобия значения неизвестных параметров надо искать, требуя, чтобы вероятность получить значения была максимальной:

Если постоянны, то мы имеем дело с обычной вероятностью. Фишер предложил новый термин “правдоподобие” для случая, когда постоянны, а переменными считаются. Если правдоподобие оказывается произведением вероятностей независимых событий, то естественно превратить произведение в сумму и дальше иметь дело с логарифмом правдоподобия:

Здесь все слагаемые, которые не зависят от, обозначены и в окончательном выражении отброшены. Чтобы найти максимум логарифма правдоподобия, приравняем производные по к нулю:

Решая эти уравнения, получим:

Таковы “правильные” выражения для оценок. Оценка среднего значения совпадает с тем, что предлагал здравый смысл, однако оценки для наклона различаются: . Что можно сказать по поводу формулы для?

1) Кажется странным, что ответ зависит от частоты в средней точке, так как величина определяет угол наклона прямой.
2) Тем не менее, если справедлива H 0 (линия регрессии - прямая), то при больших значениях наблюдаемых частот, они становятся близки к своим математическим ожиданием. Поэтому: , и оценка максимального правдоподобия становится близка к результату, полученному из здравого смысла.

3) Преимущества оценки начинают ощущаться, когда мы замечаем, что все ожидаемые частоты теперь оказываются всегда положительными:

Это было не так для “наивных” оценок, поэтому применить хи-квадрат критерий можно было не всегда (попытка заменить отрицательную или равную нулю ожидаемую частоту на единицу не спасает положения).

4) Численные расчеты показывают, что наивными оценками можно пользоваться только, если ожидаемые частоты достаточно велики. Если использовать их при малых значениях, то вычисленное расстояние Пирсона часто будет оказываться чрезмерно большим.

Вывод : Правильный выбор оценки важен, так как в противном случае проверить гипотезу с помощью критерия хи-квадрат не удастся. Оценка, казалось бы, очевидная может оказаться непригодной!

Задача оценки параметров распределения заключается в получении наиболее правдоподобных оценок неизвестных параметров распределения генеральной совокупности на основании выборочных данных. Кроме метода моментов для определения точечной оценки параметров распределения используется также метод наибольшего правдоподобия . Метод наибольшего правдоподобия был предложен английским статистиком Р. Фишером в 1912 г.

Пусть для оценки неизвестного параметра  случайной величины Х из генеральной совокупности с плотностью распределения вероятностей p (x )= p (x , ) извлечена выборка x 1 ,x 2 ,…,x n . Будем рассматривать результаты выборки как реализацию n -мерной случайной величины (X 1 ,X 2 ,…,X n ). Рассмотренный ранее метод моментов для получения точечных оценок неизвестных параметров теоретического распределения не всегда дает наилучшие оценки. Методом поиска оценок, обладающих необходимыми (наилучшими) свойствами, является метод максимального правдоподобия.

В основе метода максимального правдоподобия лежит условие определения экстремума некоторой функции, называемой функцией правдоподобия.

Функцией правдоподобия ДСВ Х

L (x 1 ,x 2 ,…,x n ; )=p (x 1 ; ) p (x 2 ; )… p (x n ; ),

где x 1, …, x n – фиксированные варианты выборки,  – неизвестный оцениваемый параметр, p (x i ; ) – вероятность события X = x i .

Функцией правдоподобия НСВ Х называют функцию аргумента :

L (x 1 ,x 2 ,…,x n ; )=f (x 1 ; ) f (x 2 ; )… f (x n ; ),

где f (x i ; ) – заданная функция плотности вероятности в точках x i .

В качестве точечной оценки параметров распределения  принимают такое его значение при котором функция правдоподобия достигает своего максимума. Оценку
называютоценкой максимального правдоподобия . Т.к. функции L и
L достигают своего максимума при одинаковых значениях , то обычно для нахождения экстремума (максимума) используют
L как более удобную функцию.

Для определения точки максимума
L надо воспользоваться известным алгоритмом для вычисления экстремума функции:

В том случае, когда плотность вероятности зависит от двух неизвестных параметров –  1 и  2 , то находят критические точки, решив систему уравнений:

Итак, согласно методу наибольшего правдоподобия, в качестве оценки неизвестного параметра  принимается такое значение *, при котором
распределения выборкиx 1 ,x 2 ,…,x n максимальна.

Задача 8. Найдем методом наибольшего правдоподобия оценку для вероятностиp в схеме Бернулли,

Проведем n независимых повторных испытаний и измерим число успехов, которое обозначим m . По формуле Бернулли вероятность того, что будет m успехов из n –– есть функция правдоподобия ДСВ.

Решение : Составим функцию правдоподобия
.

Согласно методу наибольшего правдоподобия, найдем такое значение p , которое максимизирует L , а вместе с ней и ln L .

Тогда логарифмируя L , имеем:

Производная функции lnL по p имеет вид
и в точке экстремума равна нулю. Поэтому, решив уравнение
, имеем
.

Проверим знак второй производной
в полученной точке:

. Т.к.
при любых значениях аргумента, то найденное значениеp есть точка максимума.

Значит, – наилучшая оценка для
.

Итак, согласно методу наибольшего правдоподобия, оценкой вероятности p события А в схеме Бернулли служит относительная частота этого события .

Если выборка x 1 , x 2 ,…, x n извлечена из нормально распределенной совокупности, то оценки для математического ожидания и дисперсии методом наибольшего правдоподобия имеют вид:

Найденные значения совпадают с оценками этих параметров, полученными методом моментов. Т.к. дисперсия смещена, то ее необходимо умножить на поправку Бесселя. Тогда она примет вид
, совпадая с выборочной дисперсией.

Задача 9 . Пусть дано распределение Пуассона
где приm = x i имеем
. Найдем методом наибольшего правдоподобия оценку неизвестного параметра .

Решение :

Составив функцию правдоподобия L и ее логарифм ln L . Имеем:

Найдем производную от lnL :
и решим уравнение
. Полученная оценка параметра распределения примет вид:
Тогда
т.к. при
вторая частная производная
то это точка максимума. Т.о., в качестве оценки наибольшего правдоподобия параметра для распределения Пуассона можно принять выборочное среднее.

Можно убедиться, что припоказательном распределении
функция правдоподобия для выборочных значенийx 1 , x 2 , …, x n имеет вид:

Оценка параметра распределения  для показательного распределения равна:
.

Достоинством метода наибольшего правдоподобия является возможность получить «хорошие» оценки, обладающие такими свойствами, как состоятельность, асимптотическая нормальность и эффективность для выборок больших объемов при самых общих условиях.

Основным недостатком метода является сложность решения уравнений правдоподобия, а также то, что не всегда известен анализируемый закон распределения.