Стандартно отклонение. Стандартно отклонение, метод на изчисление, приложение

Провеждане на всякакви Статистически анализнемислимо без изчисления. В тази статия ще разгледаме как да изчислим дисперсия, стандартно отклонение, коефициент на вариация и други. статистически показателив Excel.

Максимална и минимална стойност

Средно линейно отклонение

Средното линейно отклонение е средната стойност на абсолютните (по модул) отклонения от в анализирания набор от данни. Математическа формулаима формата:

а– средно линейно отклонение,

х– анализиран показател,

Х– средна стойност на показателя,

н

В Excel тази функция се извиква SROTCL.

След като изберете функцията SROTCL, ние посочваме диапазона от данни, върху който трябва да се извърши изчислението. Натиснете "OK".

дисперсия

(модул 111)

Може би не всеки знае какво, така че ще обясня - това е мярка, която характеризира разпространението на данни около математическо очакване. Обикновено обаче е налична само проба, така че те използват следната формулаотклонения:

s 2– дисперсия на извадката, изчислена от данни от наблюдение,

х– индивидуални ценности,

Х– средно аритметично за извадката,

н– броя на стойностите в анализирания набор от данни.

Кореспондентски Функция на ExcelДИСП.Г. Когато анализирате относително малки проби (до около 30 наблюдения), трябва да използвате , което се изчислява по следната формула.

Разликата, както виждате, е само в знаменателя. Excel има функция за изчисляване на примерна безпристрастна дисперсия DISP.B.

Изберете желаната опция (обща или селективна), посочете диапазона и щракнете върху бутона „OK“. Получената стойност може да бъде много голяма поради предварителното квадратиране на отклоненията. Дисперсията в статистиката е много важен показател, но обикновено не се използва чиста форма, и за допълнителни изчисления.

Стандартно отклонение

Стандартното отклонение (RMS) е коренът на дисперсията. Този показател се нарича още стандартно отклонение и се изчислява по формулата:

от население

по проба

Можете просто да вземете корена на дисперсията, но Excel има готови функции за стандартно отклонение: STDEV.GИ STDEV.V(съответно за генералната и извадкова популации).

Стандарт и стандартно отклонение, повтарям, са синоними.

След това, както обикновено, посочете желания диапазон и щракнете върху „OK“. Стандартното отклонение има същите мерни единици като анализирания индикатор и следователно е сравнимо с оригиналните данни. Повече за това по-долу.

Коефициентът на вариация

Всички индикатори, разгледани по-горе, са обвързани с мащаба на изходните данни и не позволяват да се получи образна представа за вариациите на анализираната популация. За да получите относителна мярка за дисперсия на данни, използвайте коефициентът на вариация, което се изчислява чрез разделяне стандартно отклонениеНа средно аритметично. Формулата за коефициента на вариация е проста:

Няма готова функция за изчисляване на коефициента на вариация в Excel, която не е голям проблем. Изчислението може да се направи чрез просто разделяне на стандартното отклонение на средната стойност. За да направите това, напишете в лентата с формули:

STANDARDEV.G()/AVERAGE()

Обхватът на данните е посочен в скоби. Ако е необходимо, използвайте примерното стандартно отклонение (STDEV.V).

Коефициентът на вариация обикновено се изразява като процент, така че можете да рамкирате клетка с формула в процентен формат. Необходимият бутон се намира на лентата в раздела „Начало“:

Можете също да промените формата, като изберете от контекстното меню, след като маркирате желаната клетка и щракнете с десния бутон.

Коефициентът на вариация, за разлика от други показатели за разсейване на стойностите, се използва като независим и много информативен показател за вариация на данните. В статистиката е общоприето, че ако коефициентът на вариация е по-малък от 33%, тогава наборът от данни е хомогенен, ако е повече от 33%, тогава той е хетерогенен. Тази информация може да бъде полезна за предварително характеризиране на данните и за идентифициране на възможности за по-нататъшен анализ. В допълнение, коефициентът на вариация, измерен като процент, ви позволява да сравните степента на разсейване на различни данни, независимо от техния мащаб и мерни единици. Полезен имот.

Коефициент на трептене

Друг показател за дисперсията на данните днес е коефициентът на трептене. Това е отношението на диапазона на вариация (разликата между максималните и минималните стойности) към средната стойност. Няма готова формула на Excel, така че ще трябва да комбинирате три функции: MAX, MIN, AVERAGE.

Коефициентът на колебание показва степента на вариацията спрямо средната стойност, която може да се използва и за сравняване на различни набори от данни.

Като цяло, използвайки Excel, много статистически показатели се изчисляват много просто. Ако нещо не е ясно, винаги можете да използвате полето за търсене във функцията. Е, Google е тук, за да помогне.

Заслужава да се отбележи, че това изчисляване на дисперсията има недостатък - оказва се предубедено, т.е. нейното математическо очакване не е равно на истинската стойност на дисперсията. Прочетете повече за това. В същото време не всичко е толкова лошо. С увеличаването на размера на извадката той все още се доближава до своя теоретичен аналог, т.е. е асимптотично безпристрастен. Следователно, когато работите с големи размери на извадката, можете да използвате формулата по-горе.

Полезно е езикът на знаците да се преведе на езика на думите. Оказва се, че дисперсията е средният квадрат на отклоненията. Тоест първо се изчислява средната стойност, след което се взема разликата между всяка първоначална и средна стойност, повдига се на квадрат, добавя се и след това се разделя на броя на стойностите в популацията. Разликата между индивидуалната стойност и средната стойност отразява мярката на отклонението. Той се повдига на квадрат, така че всички отклонения да станат изключително положителни числа и да се избегне взаимното унищожаване на положителните и отрицателните отклонения при сумирането им. След това, като имаме квадратни отклонения, ние просто изчисляваме средната аритметична стойност. Средно - квадрат - отклонения. Отклоненията се повдигат на квадрат и се изчислява средната стойност. Решението се крие само в три думи.

Въпреки това, в чистата си форма, като средно аритметично или индекс, дисперсията не се използва. Това е по-скоро спомагателен и междинен показател, който е необходим за други видове статистически анализи. Дори няма нормална мерна единица. Съдейки по формулата, това е квадратът на мерната единица на оригиналните данни. Без бутилка, както се казва, не можете да го разберете.

(модул 111)

За да се върне дисперсията в реалността, тоест да се използва за по-обикновени цели, от нея се извлича корен квадратен. Оказва се т.нар стандартно отклонение (RMS). Има имена" стандартно отклонение"или" сигма "(от името на гръцката буква). Формулата за стандартно отклонение е:

За да получите този индикатор за пробата, използвайте формулата:

Както при дисперсията, има малко по-различна опция за изчисление. Но с нарастването на извадката разликата изчезва.

Стандартното отклонение, очевидно, също характеризира мярката за дисперсия на данните, но сега (за разлика от дисперсията) може да се сравни с оригиналните данни, тъй като те имат същите мерни единици (това е ясно от формулата за изчисление). Но този индикатор в чистата му форма не е много информативен, тъй като съдържа твърде много междинни изчисления, които са объркващи (отклонение, квадрат, сума, средна стойност, корен). Въпреки това вече е възможно да се работи директно със стандартното отклонение, тъй като свойствата на този показател са добре проучени и известни. Например, има това правило три сигма, което гласи, че данните имат 997 стойности от 1000 в рамките на ±3 сигма от средната аритметична стойност. Стандартното отклонение, като мярка за несигурност, също е включено в много статистически изчисления. С негова помощ се определя степента на точност на различни оценки и прогнози. Ако вариацията е много голяма, тогава стандартното отклонение също ще бъде голямо, следователно прогнозата ще бъде неточна, което ще се изрази например в много широк доверителни интервали.

Коефициентът на вариация

Стандартното отклонение дава абсолютна оценка на мярката за дисперсия. Следователно, за да се разбере колко голямо е разсейването спрямо самите стойности (т.е. независимо от техния мащаб), е необходимо относителен показател. Този индикатор се нарича коефициент на вариацияи се изчислява по следната формула:

Коефициентът на вариация се измерва като процент (ако се умножи по 100%). Въз основа на този показател може да се сравни най-много различни явлениянезависимо от техния мащаб и мерни единици. Този факти прави коефициента на вариация толкова популярен.

В статистиката се приема, че ако стойността на коефициента на вариация е по-малка от 33%, тогава съвкупността се счита за хомогенна, а ако е над 33%, тогава тя е хетерогенна. Трудно ми е да коментирам нещо тук. Не знам кой е определил това и защо, но се смята за аксиома.

Чувствам, че съм увлечен от сухата теория и трябва да внеса нещо визуално и образно. От друга страна, всички вариационни индикатори описват приблизително едно и също нещо, само че се изчисляват по различен начин. Следователно е трудно да се покажат различни примери, но не и тяхната същност. Така че нека сравним как стойностите на различните индикатори за вариация се различават за един и същ набор от данни. Да вземем пример с изчисляването на средното линейно отклонение (от ). Ето изходните данни:

И график, който да ви напомня.

Използвайки тези данни, ние изчисляваме различни показателивариации.

Средната стойност е обичайното средно аритметично.

Диапазонът на вариация е разликата между максимума и минимума:

Средното линейно отклонение се изчислява по формулата:

Стандартно отклонение:

Нека обобщим изчислението в таблица.

Както може да се види, линейната средна стойност и стандартното отклонение дават подобни стойности за степента на вариация на данните. Дисперсията е сигма на квадрат, така че винаги ще бъде относително голямо число, което всъщност не означава нищо. Диапазонът на вариация е разликата между екстремните стойности и може да говори много.

Нека обобщим някои резултати.

Вариацията на индикатора отразява променливостта на процес или явление. Степента му може да се измери с помощта на няколко показателя.

1. Диапазон на вариация - разликата между максимума и минимума. Отразява диапазона от възможни стойности.
2. Средно линейно отклонение – отразява средната стойност на абсолютните (по модул) отклонения на всички стойности на анализираната съвкупност от средната им стойност.
3. Дисперсия - средният квадрат на отклоненията.
4. Стандартното отклонение е коренът на дисперсията (среден квадрат на отклоненията).
5. Коефициентът на вариация е най-универсалният показател, отразяващ степента на разсейване на стойностите, независимо от техния мащаб и мерни единици. Коефициентът на вариация се измерва като процент и може да се използва за сравняване на вариацията на различни процеси и явления.

По този начин в статистическия анализ има система от показатели, които отразяват хомогенността на явленията и стабилността на процесите. Често индикаторите за вариация нямат самостоятелно значение и се използват за по-нататъшен анализ на данни (изчисляване на доверителни интервали

X i -случайни (текущи) величини;

Хсредната стойност на случайните променливи за извадката се изчислява по формулата:

Така, дисперсията е средният квадрат на отклоненията . Тоест първо се изчислява средната стойност, след което се взема разликата между всяка първоначална и средна стойност се повдига на квадрат , се добавя и след това се разделя на броя на стойностите в популацията.

Разликата между индивидуалната стойност и средната стойност отразява мярката на отклонението. Той се повдига на квадрат, така че всички отклонения да станат изключително положителни числа и да се избегне взаимното унищожаване на положителните и отрицателните отклонения при сумирането им. След това, като имаме квадратни отклонения, ние просто изчисляваме средната аритметична стойност.

Отговорът на вълшебната дума "дисперсия" се крие само в тези три думи: средно - квадрат - отклонения.

Стандартно отклонение (MSD)

Вземайки корен квадратен от дисперсията, получаваме т.нар. стандартно отклонение".Има имена "стандартно отклонение" или "сигма" (от името на гръцката буква σ .). Формулата за стандартното отклонение е:

Така, дисперсията е сигма на квадрат или стандартното отклонение на квадрат.

Стандартното отклонение, очевидно, също характеризира мярката за дисперсия на данните, но сега (за разлика от дисперсията) може да се сравни с оригиналните данни, тъй като те имат същите мерни единици (това е ясно от формулата за изчисление). Диапазонът на вариация е разликата между екстремните стойности. Стандартното отклонение, като мярка за несигурност, също участва в много статистически изчисления. С негова помощ се определя степента на точност на различни оценки и прогнози. Ако вариацията е много голяма, тогава стандартното отклонение също ще бъде голямо и следователно прогнозата ще бъде неточна, което ще се изрази например в много широки доверителни интервали.

Следователно в методите статистическа обработкаданни при оценките на недвижими имоти, в зависимост от изискваната точност на задачата се използва правилото на две или три сигми.

За да сравним правилото за две сигми и правилото за три сигми, използваме формулата на Лаплас:

П-П,

където Ф(х) е функцията на Лаплас;



Минимална стойност

β = максимална стойност

s = сигма стойност (стандартно отклонение)

а = средно

В този случай се използва специална форма на формулата на Лаплас, когато границите на стойностите на α и β случайна величина X са на еднакво разстояние от центъра на разпределението a = M(X) с определено количество d: a = a-d, b = a+d. Или (1) Формула (1) определя вероятността за дадено отклонение d на случайна променлива X с нормален закон на разпределение от нейното математическо очакване M(X) = a. Ако във формула (1) вземем последователно d = 2s и d = 3s, получаваме: (2), (3).

Правилото на две сигми

Може да бъде почти надеждно (с доверителна вероятност от 0,954), че всички стойности на случайна променлива X с нормален закон на разпределение се отклоняват от нейното математическо очакване M(X) = a със стойност не по-голяма от 2s (две стандартни отклонения ). Доверителната вероятност (Pd) е вероятността от събития, които обикновено се приемат за надеждни (тяхната вероятност е близка до 1).

Нека илюстрираме правилото на две сигми геометрично. На фиг. Фигура 6 показва крива на Гаус с център на разпределение a. Площта, ограничена от цялата крива и оста Ox, е 1 (100%), а площта извит трапецмежду абсцисите a–2s и a+2s, според правилото на двете сигми, е равно на 0,954 (95,4% от общата площ). Площта на засенчените зони е 1-0,954 = 0,046 (»5% от общата площ). Тези области се наричат ​​критична област на случайната променлива. Стойностите на случайна променлива, попадащи в критичната област, са малко вероятни и на практика условно се приемат за невъзможни.

Вероятността за условно невъзможни стойности се нарича ниво на значимост на случайна променлива. Нивото на значимост е свързано с вероятността за доверие по формулата:

където q е нивото на значимост, изразено като процент.

Правилото на трите сигми

При решаване на проблеми, които изискват по-голяма надеждност, когато вероятността за доверие (Pd) се приема равна на 0,997 (по-точно 0,9973), вместо правилото за две сигми, съгласно формула (3), се използва правилото три сигма



Според правило три сигмапри вероятност за доверие 0.9973 критичната област ще бъде областта на стойностите на атрибута извън интервала (a-3s, a+3s). Нивото на значимост е 0,27%.

С други думи, вероятността, че абсолютна стойностотклоненията ще надвишат три пъти стандартното отклонение, много малко, а именно равно на 0,0027 = 1-0,9973. Това означава, че само 0,27% от случаите ще се случи. Такива събития, въз основа на принципа на невъзможността за малко вероятни събития, могат да се считат за практически невъзможни. Тези. вземането на проби е много точно.

Това е същността на правилото на трите сигми:

Ако една случайна променлива е разпределена нормално, тогава абсолютната стойност на нейното отклонение от математическото очакване не надвишава три пъти стандартното отклонение (MSD).

На практика правилото на трите сигми се прилага, както следва: ако разпределението на изследваната случайна променлива е неизвестно, но условието, посочено в горното правило, е изпълнено, тогава има причина да се приеме, че изследваната променлива е нормално разпределена ; в противен случай не се разпространява нормално.

Нивото на значимост се взема в зависимост от допустимата степен на риск и поставената задача. За оценка на недвижими имоти обикновено се приема по-малко прецизна извадка, следвайки правилото за две сигми.

Един от основните инструменти на статистическия анализ е изчисляването на стандартното отклонение. Този индикатор ви позволява да оцените стандартното отклонение за извадка или за популация. Нека научим как да използваме формулата за стандартно отклонение в Excel.

Нека веднага да определим какво е стандартното отклонение и как изглежда формулата му. Това количество е корен квадратен от средната аритметична стойност на квадратите на разликата между всички количества в редицата и тяхната средна аритметична стойност. Има идентично наименование за този показател - стандартно отклонение. И двете имена са напълно равностойни.

Но, естествено, в Excel потребителят не трябва да изчислява това, тъй като програмата прави всичко за него. Нека научим как да изчисляваме стандартното отклонение в Excel.

Изчисляване в Excel

Можете да изчислите посочената стойност в Excel с помощта на две специални функции STDEV.V(въз основа на извадката) и STDEV.G(въз основа на общата съвкупност). Принципът на тяхното действие е абсолютно същият, но те могат да бъдат извикани по три начина, които ще разгледаме по-долу.

Метод 1: Съветник за функции


Метод 2: Раздел Формули


Метод 3: Ръчно въвеждане на формулата

Има и начин, по който изобщо няма да е необходимо да извиквате прозореца на аргументите. За да направите това, трябва да въведете формулата ръчно.


Както можете да видите, механизмът за изчисляване на стандартното отклонение в Excel е много прост. Потребителят трябва само да въведе числа от популацията или препратки към клетките, които ги съдържат. Всички изчисления се извършват от самата програма. Много по-трудно е да се разбере какъв е изчисленият показател и как резултатите от изчислението могат да се приложат на практика. Но разбирането на това вече е свързано повече с областта на статистиката, отколкото с обучението за работа със софтуер.

В тази статия ще говоря за как да намерите стандартното отклонение. Този материал е изключително важен за пълното разбиране на математиката, така че учителят по математика трябва да отдели отделен урок или дори няколко за изучаването му. В тази статия ще намерите връзка към подробен и разбираем видео урок, който обяснява какво е стандартно отклонение и как да го намерите.

Стандартно отклонениедава възможност да се оцени разпространението на стойностите, получени в резултат на измерване на определен параметър. Обозначава се със символа (гръцката буква "сигма").

Формулата за изчисление е доста проста. За да намерите стандартното отклонение, трябва да вземете корен квадратен от дисперсията. Така че сега трябва да попитате: „Какво е дисперсия?“

Какво е дисперсия

Определението за дисперсия е така. Дисперсията е средната аритметична стойност на квадратните отклонения на стойностите от средната стойност.

За да намерите дисперсията, извършете последователно следните изчисления:

  • Определете средната стойност (обикновена средна аритметична стойност на поредица от стойности).
  • След това извадете средната стойност от всяка стойност и повдигнете на квадрат получената разлика (получавате разлика на квадрат).
  • Следващата стъпка е да се изчисли средноаритметичната стойност на получените квадратни разлики (Можете да разберете защо точно квадратите по-долу).

Нека разгледаме един пример. Да приемем, че вие ​​и вашите приятели решите да измерите височината на вашите кучета (в милиметри). В резултат на измерванията получихте следните размери на височина (при холката): 600 mm, 470 mm, 170 mm, 430 mm и 300 mm.

Нека изчислим средната стойност, дисперсията и стандартното отклонение.

Първо нека намерим средната стойност. Както вече знаете, за да направите това, трябва да съберете всички измерени стойности и да ги разделите на броя на измерванията. Напредък на изчислението:

Средно мм.

Така че средната (средноаритметична) е 394 mm.

Сега трябва да определим отклонение на височината на всяко куче от средната:

накрая за изчисляване на дисперсията, повдигаме на квадрат всяка от получените разлики и след това намираме средната аритметична стойност на получените резултати:

Дисперсия mm 2 .

Така дисперсията е 21704 mm 2.

Как да намерите стандартното отклонение

И така, как можем сега да изчислим стандартното отклонение, като знаем дисперсията? Както помним, вземете корен квадратен от това. Тоест стандартното отклонение е равно на:

Mm (закръглено до най-близкото цяло число в mm).

Използвайки този метод, открихме, че някои кучета (например ротвайлери) са много големи кучета. Но има и много малки кучета (например дакели, но не трябва да им казвате това).

Най-интересното е, че стандартното отклонение носи със себе си полезна информация. Сега можем да покажем кои от получените резултати от измерване на височината са в интервала, който получаваме, ако начертаем стандартното отклонение от средната (от двете страни на нея).

Тоест, използвайки стандартното отклонение, получаваме „стандартен“ метод, който ни позволява да разберем коя от стойностите е нормална (статистически средна) и коя е изключително голяма или, обратно, малка.

Какво е стандартно отклонение

Но... всичко ще бъде малко по-различно, ако анализираме пробаданни. В нашия пример разгледахме общо население.Тоест нашите 5 кучета бяха единствените кучета в света, които ни интересуваха.

Но ако данните са извадка (стойности, избрани от голяма популация), тогава изчисленията трябва да се направят по различен начин.

Ако има стойности, тогава:

Всички други изчисления се извършват по подобен начин, включително определянето на средната стойност.

Например, ако нашите пет кучета са само извадка от популацията кучета (всички кучета на планетата), трябва да разделим на 4, не 5,а именно:

Дисперсия на извадката = mm 2.

В този случай стандартното отклонение за извадката е равно на mm (закръглено до най-близкото цяло число).

Можем да кажем, че сме направили известна „корекция“ в случай, че нашите стойности са само малка извадка.

Забележка. Защо точно квадратни разлики?

Но защо вземаме точно разликите на квадрат, когато изчисляваме дисперсията? Да кажем, че при измерване на някакъв параметър сте получили следния набор от стойности: 4; 4; -4; -4. Ако просто съберем абсолютните отклонения от средната (разликите) помежду си... отрицателни стойностище се компенсират взаимно с положителни:

.

Оказва се, че тази опция е безполезна. Тогава може би си струва да опитате абсолютните стойности на отклоненията (т.е. модулите на тези стойности)?

На пръв поглед се оказва добре (между другото получената стойност се нарича средно абсолютно отклонение), но не във всички случаи. Нека опитаме друг пример. Нека резултатът от измерването е следният набор от стойности: 7; 1; -6; -2. Тогава средното абсолютно отклонение е:

Еха! Отново получихме резултат 4, въпреки че разликите са с много по-голям спред.

Сега нека видим какво се случва, ако повдигнем на квадрат разликите (и след това извадим корен квадратен от тяхната сума).

За първия пример ще бъде:

.

За втория пример ще бъде:

Сега е съвсем друг въпрос! Колкото по-голямо е разпространението на разликите, толкова по-голямо е стандартното отклонение... което е, към което се стремихме.

Всъщност в този методИзползва се същата идея като при изчисляване на разстоянието между точките, но се прилага по различен начин.

И от математическа гледна точка, използването на квадрати и квадратни корениосигурява повече полза, отколкото бихме могли да получим от абсолютни стойности на отклонения, което прави стандартното отклонение приложимо към други математически проблеми.

Сергей Валериевич ви каза как да намерите стандартното отклонение