Доверителни интервали за математическо очакване, дисперсия, вероятност. Решения на проблеми

Доверителен интервал за математическо очакване - това е интервал, изчислен от данните, които с известна вероятност съдържа очаквана стойностобщо население. Естествена оценка за математическото очакване е средноаритметичното на неговите наблюдавани стойности. Затова през целия урок ще използваме термините „средна стойност“ и „средна стойност“. При проблеми с изчисляване на доверителен интервал, отговорът, който най-често се изисква, е нещо като „Интервалът на доверителност на средното число [стойност в определен проблем] е от [по-малка стойност] до [ по-висока стойност]". Използвайки доверителен интервал, можете да оцените не само средните стойности, но и специфичното тегло на определена характеристика на популацията. Средни стойности, дисперсия, стандартно отклонениеа грешките, чрез които ще стигнем до нови определения и формули, се обсъждат в урока Характеристики на извадката и съвкупността .

Точкови и интервални оценки на средната стойност

Ако средната стойност на съвкупността се оценява с число (точка), тогава специфична средна стойност, която се изчислява от извадка от наблюдения, се приема като оценка на неизвестната средна стойност на съвкупността. В този случай стойността на извадковата средна - случайна променлива - не съвпада със средната стойност на генералната съвкупност. Следователно, когато посочвате средната стойност на извадката, трябва едновременно да посочите грешката на извадката. Мярката за грешка на извадката е стандартна грешка, което се изразява в същите единици като средната стойност. Поради това често се използва следното обозначение: .

Ако оценката на средната стойност трябва да бъде свързана с определена вероятност, тогава параметърът от интерес в съвкупността трябва да бъде оценен не с едно число, а с интервал. Доверителният интервал е интервал, в който с определена вероятност Пнамира се стойността на прогнозния индикатор за населението. Доверителен интервал, в който е вероятно П = 1 - α се намира случайната променлива, изчислена както следва:

,

α = 1 - П, който може да се намери в приложението към почти всяка книга по статистика.

На практика средната стойност на съвкупността и дисперсията не са известни, така че дисперсията на популацията се заменя с дисперсията на извадката, а средната популация с извадковата средна стойност. По този начин доверителният интервал в повечето случаи се изчислява, както следва:

.

Формулата на доверителния интервал може да се използва за оценка на средната популация if

  • стандартното отклонение на съвкупността е известно;
  • или стандартното отклонение на популацията е неизвестно, но размерът на извадката е по-голям от 30.

Средната стойност на извадката е безпристрастна оценка на средната стойност на популацията. На свой ред дисперсията на извадката не е безпристрастна оценка на дисперсията на популацията. За да получите безпристрастна оценка на дисперсията на популацията във формулата за дисперсия на извадката, размер на извадката нтрябва да се замени с н-1.

Пример 1.От 100 произволно избрани кафенета в даден град е събрана информация, че средният брой служители в тях е 10,5 при стандартно отклонение от 4,6. Дефинирайте доверителен интервал 95% от работещите в кафенета.

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

По този начин 95% доверителен интервал за средния брой служители в кафенето варира от 9,6 до 11,4.

Пример 2.За произволна извадка от популация от 64 наблюдения бяха изчислени следните общи стойности:

сбор от стойности в наблюденията,

сума на квадратните отклонения на стойностите от средната .

Изчислете 95% доверителен интервал за математическото очакване.

Нека изчислим стандартното отклонение:

,

Нека изчислим средната стойност:

.

Заменяме стойностите в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

Така 95% доверителният интервал за математическото очакване на тази извадка варира от 7,484 до 11,266.

Пример 3.За произволна популационна извадка от 100 наблюдения изчислената средна стойност е 15,2, а стандартното отклонение е 3,2. Изчислете 95% доверителен интервал за очакваната стойност, след това 99% доверителен интервал. Ако мощността на извадката и нейната вариация останат непроменени и коефициентът на доверие се увеличи, ще се стесни или разшири доверителният интервал?

Заменяме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,05 .

Получаваме:

.

По този начин 95% доверителен интервал за средната стойност на тази проба варира от 14,57 до 15,82.

Отново заместваме тези стойности в израза за доверителния интервал:

където е критичната стойност на стандартното нормално разпределение за нивото на значимост α = 0,01 .

Получаваме:

.

Така 99% доверителният интервал за средната стойност на тази проба варира от 14,37 до 16,02.

Както виждаме, с увеличаването на коефициента на доверие критичната стойност на стандартното нормално разпределение също се увеличава и следователно началната и крайната точка на интервала са разположени по-далеч от средната стойност и по този начин интервалът на доверие за математическото очакване се увеличава .

Точкови и интервални оценки на специфичното тегло

Делът на някаква характеристика на извадката може да се тълкува като точкова оценка специфично тегло стрсъс същата характеристика в общата популация. Ако тази стойност трябва да бъде свързана с вероятност, тогава трябва да се изчисли доверителният интервал на специфичното тегло стрхарактеристика в популацията с вероятност П = 1 - α :

.

Пример 4.В някой град има двама кандидати АИ бсе кандидатират за кмет. На случаен принцип са анкетирани 200 жители на града, от които 46% са отговорили, че биха гласували за кандидата А, 26% - за кандидата ба 28% не знаят за кого ще гласуват. Определете 95% доверителен интервал за дела на жителите на града, подкрепящи кандидата А.

Нека CB X образува генералната съвкупност и нека β е неизвестният параметър CB X. Ако статистическата оценка в * е последователна, тогава колкото по-голям е размерът на извадката, толкова по-точно получаваме стойността на β. На практика обаче нямаме много големи проби, така че не можем да гарантираме по-голяма точност.

Нека b* е статистическа оценка за c. Стойност |in* - in| се нарича точност на оценката. Ясно е, че точността е CB, тъй като β* е случайна променлива. Нека посочим малко положително число 8 и изискваме точността на оценката |в* - в| беше по-малко от 8, т.е. | в* - в |< 8.

Надеждност g или доверителна вероятност на оценка в in * е вероятността g, с която неравенството |in * - in|< 8, т. е.

Обикновено надеждността g се определя предварително и g се приема за число, близко до 1 (0,9; 0,95; 0,99; ...).

Тъй като неравенството |in * - in|< S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:

Интервалът (в * - 8, в * + 5) се нарича доверителен интервал, т.е. доверителният интервал покрива неизвестния параметър в с вероятност y. Имайте предвид, че краищата на доверителния интервал са произволни и варират от проба на проба, така че е по-точно да се каже, че интервалът (в * - 8, в * + 8) покрива неизвестния параметър в, а не в принадлежи към това интервал.

Позволявам населениесе дава от случайна променлива X, разпределена по нормален закон, и средната стандартно отклонениено се знае. Неизвестното е математическото очакване a = M (X). Изисква се да се намери доверителният интервал за a за дадена надеждност y.

Примерна средна стойност

е статистическа оценказа xg = a.

Теорема. Случайна стойност xB има нормална дистрибуция, ако X има нормално разпределение и M (XB) = a,

A (XB) = a, където a = y/B (X), a = M (X). л/и

Доверителният интервал за a има формата:

Намираме 8.

Използвайки съотношението

където Ф(r) е функцията на Лаплас, имаме:

P ( | XB - a |<8} = 2Ф

таблица със стойности на функцията на Лаплас намираме стойността на t.

Като определи

T, получаваме F(t) = g Тъй като g е дадено, тогава чрез

От равенството намираме, че оценката е точна.

Това означава, че доверителният интервал за a има формата:

Като се има предвид извадка от популацията X

нг Да се" X2 Xm
н. n1 n2 nm

n = U1 + ... + nm, тогава доверителният интервал ще бъде:

Пример 6.35. Намерете доверителния интервал за оценка на математическото очакване a на нормалното разпределение с надеждност 0,95, като знаете средната стойност на извадката Xb = 10,43, размер на извадката n = 100 и стандартно отклонение s = 5.

Нека използваме формулата

Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира оценяваният имот. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, така че за анализ се използва извадка от обекти. Тази извадка не винаги се оказва хомогенна, понякога е необходимо да я изчистите от крайни точки - твърде високи или твърде ниски пазарни оферти. За тази цел се използва доверителен интервал. Целта на това изследване е да се извърши сравнителен анализ на два метода за изчисляване на доверителния интервал и да се избере оптималната опция за изчисление при работа с различни проби в системата estimatica.pro.

Доверителният интервал е интервал от стойности на атрибути, изчислени въз основа на извадка, която с известна вероятност съдържа оценения параметър на генералната съвкупност.

Смисълът на изчисляването на доверителния интервал е да се конструира такъв интервал въз основа на извадкови данни, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал съдържа неизвестната стойност на прогнозната стойност с определена вероятност. Колкото по-широк е интервалът, толкова по-голяма е неточността.

Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 метода:

  • чрез медианата и стандартното отклонение;
  • чрез критичната стойност на t-статистиката (коефициент на Стюдънт).

Етапи на сравнителен анализ на различни методи за изчисляване на CI:

1. формира извадка от данни;

2. обработваме го чрез статистически методи: изчисляваме средна стойност, медиана, дисперсия и др.;

3. изчисляване на доверителния интервал по два начина;

4. анализирайте почистените проби и получените доверителни интервали.

Етап 1. Извадка от данни

Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба на 1-стайни апартаменти в 3-та ценова зона с тип "Хрушчов".

Таблица 1. Първоначална проба

Цена 1 кв.м., ед

Фиг. 1. Първоначална проба



Етап 2. Обработка на първоначалната проба

Обработката на извадка с помощта на статистически методи изисква изчисляване на следните стойности:

1. Средно аритметично

2. Медианата е число, характеризиращо извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина са по-малки от медианата

(за извадка с нечетен брой стойности)

3. Диапазон - разликата между максималните и минималните стойности в извадката

4. Дисперсия - използва се за по-точна оценка на вариацията на данните

5. Стандартното отклонение на извадката (наричано по-нататък - SD) е най-често срещаният показател за дисперсията на коригиращите стойности около средноаритметичната стойност.

6. Коефициент на вариация - отразява степента на разсейване на коригиращите стойности

7. коефициент на колебание - отразява относителното колебание на екстремните ценови стойности в извадката около средната

Таблица 2. Статистически показатели на оригиналната извадка

Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде висок. По този начин можем да кажем, че оригиналната проба не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.

Етап 3. Изчисляване на доверителния интервал

Метод 1. Изчисляване с използване на медианата и стандартното отклонение.

Доверителният интервал се определя, както следва: минимална стойност - стандартното отклонение се изважда от медианата; максимална стойност - стандартното отклонение се добавя към медианата.

Така доверителният интервал (47179 CU; 60689 CU)

Ориз. 2. Стойности, попадащи в доверителен интервал 1.



Метод 2. Конструиране на доверителен интервал с помощта на критичната стойност на t-статистиката (коефициент на Стюдънт)

С.В. Грибовски в книгата си „Математически методи за оценка на стойността на имота“ описва метод за изчисляване на доверителния интервал с помощта на коефициента на Стюдънт. Когато изчислява с помощта на този метод, оценителят трябва сам да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде конструиран доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Те съответстват на доверителни вероятности от 0,9; 0,95 и 0,99. С този метод се приема, че истинските стойности на математическото очакване и дисперсията са практически неизвестни (което почти винаги е вярно при решаване на практически проблеми с оценка).

Формула за доверителен интервал:

n - размер на извадката;

Критичната стойност на t-статистиката (разпределение на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ STUDIST);

∝ - ниво на значимост, приемете ∝=0,01.

Ориз. 2. Стойности, попадащи в доверителния интервал 2.

Етап 4. Анализ на различни методи за изчисляване на доверителния интервал

Два метода за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни стойности на интервалите. Съответно получихме две различни почистени проби.

Таблица 3. Статистика за три проби.

Индекс

Първоначална проба

1 вариант

Вариант 2

Средна стойност

дисперсия

Коеф. вариации

Коеф. трептения

Брой излезли от експлоатация обекти, бр.

Въз основа на извършените изчисления можем да кажем, че стойностите на доверителния интервал, получени по различни методи, се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.

Ние обаче смятаме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:

  • ако пазарът е неразвит, използвайте метода за изчисление, като използвате медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
  • ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.

При изготвянето на статията са използвани:

1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имотите. Москва, 2014 г

2. Системни данни estimatica.pro

Като начало нека си припомним следното определение:

Да разгледаме следната ситуация. Нека вариантите на популацията имат нормално разпределение с математическо очакване $a$ и стандартно отклонение $\sigma$. Средната стойност на извадката в този случай ще се счита за случайна променлива. Когато количеството $X$ е нормално разпределено, средната стойност на извадката също ще бъде нормално разпределена с параметрите

Нека намерим доверителен интервал, който покрива стойността $a$ с надеждност $\gamma $.

За да направим това, имаме нужда от равенство

От него получаваме

Оттук можем лесно да намерим $t$ от таблицата на стойностите на функциите $Ф\left(t\right)$ и, като следствие, да намерим $\delta $.

Нека си припомним таблицата със стойностите на функцията $Ф\left(t\right)$:

Фигура 1. Таблица на стойностите на функциите $Ф\left(t\right).$

Доверителен интеграл за оценка на математическото очакване за неизвестен $(\mathbf \sigma )$

В този случай ще използваме коригираната стойност на дисперсията $S^2$. Заменяйки $\sigma $ с $S$ в горната формула, получаваме:

Примерни задачи за намиране на доверителен интервал

Пример 1

Нека величината $X$ има нормално разпределение с дисперсия $\sigma =4$. Нека размерът на извадката е $n=64$ и надеждността е $\gamma =0,95$. Намерете доверителния интервал за оценка на математическото очакване на това разпределение.

Трябва да намерим интервала ($\overline(x)-\delta ,\overline(x)+\delta)$.

Както видяхме по-горе

\[\delta =\frac(\sigma t)(\sqrt(n))=\frac(4t)(\sqrt(64))=\frac(\t)(2)\]

Параметърът $t$ може да бъде намерен от формулата

\[Ф\left(t\right)=\frac(\gamma )(2)=\frac(0,95)(2)=0,475\]

От таблица 1 намираме, че $t=1,96$.

Нека случайната променлива X на популацията е нормално разпределена, като се има предвид, че дисперсията и стандартното отклонение s на това разпределение са известни. Изисква се да се оцени неизвестното математическо очакване, като се използва средната стойност на извадката. В този случай задачата се свежда до намиране на доверителен интервал за математическото очакване с надеждност b. Ако посочите стойността на доверителната вероятност (надеждност) b, тогава можете да намерите вероятността да попаднете в интервала за неизвестното математическо очакване, като използвате формула (6.9a):

където Ф(t) е функцията на Лаплас (5.17а).

В резултат на това можем да формулираме алгоритъм за намиране на границите на доверителния интервал за математическото очакване, ако дисперсията D = s 2 е известна:

  1. Задайте стойността на надеждност – b.
  2. От (6.14) изразете Ф(t) = 0,5 × b. Изберете стойността на t от таблицата за функцията на Лаплас въз основа на стойността Ф(t) (вижте Приложение 1).
  3. Изчислете отклонението e, като използвате формула (6.10).
  4. Запишете доверителен интервал, като използвате формула (6.12), така че с вероятност b да е валидно неравенството:

.

Пример 5.

Случайната променлива X има нормално разпределение. Намерете доверителни интервали за оценка с надеждност b = 0,96 на неизвестното математическо очакване a, ако е дадено:

1) общо стандартно отклонение s = 5;

2) средна стойност на извадката;

3) размер на извадката n = 49.

Във формула (6.15) на интервалната оценка на математическото очакване А с надеждност b всички величини с изключение на t са известни. Стойността на t може да се намери с помощта на (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

Използвайки таблицата в Приложение 1 за функцията на Лаплас Ф(t) = 0,48, намерете съответната стойност t = 2,06. следователно . Като заместите изчислената стойност на e във формула (6.12), можете да получите доверителен интервал: 30-1,47< a < 30+1,47.

Необходимият доверителен интервал за оценка с надеждност b = 0,96 на неизвестното математическо очакване е равен на: 28,53< a < 31,47.