Статистически редове на разпределение, тяхното значение и приложение в статистиката. Понятие и видове статистически редове

Индивидуалните стойности на изследваната променлива черта, регистрирани в резултат на наблюдението, образуват т.нар. основен ред.

Първата стъпка в организирането на основна серия е нейното класиране. Чрез подреждане на стойностите на характеристиката на основната серия, например във възходящ ред, получаваме класирани серии.

Нека разгледаме първичните серии, получени при регистриране на нивото на квалификация на работниците

Класираните серии ще изглеждат така:

Като се има предвид тази класирана серия, виждаме, че някои характерни стойности се повтарят сред различни работници (единици от населението).

Нека формулираме резултатите от наблюдението по-компактно, като присвоим всяка стойност на атрибута на броя на единиците от съвкупността, които имат еднакви стойности на атрибута. За нашия пример имаме:

Получаваме класирана (подредена) серия, характеризираща разпространениехарактеристиката се изучава от единици от съвкупността. В статистиката такива серии обикновено се наричат разпределителни редове.

При достатъчно голям брой единици от съвкупността, дори за непродължително наблюдение, горното подреждане на данните от наблюдението може да бъде тромаво. Поради това такова класиране обикновено се придружава от групиране и обобщение. Изследваният признак в случая е групов.

Оттук обща дефиниция:

Сериите на статистическото разпределение са подредено подреждане на единици от изследваната съвкупност в групи според характеристиките на групиране.

Всяка статистическа серия на разпределение се състои от два елемента:

A) от подредени стойности на характеристика или опции;

Б) броя на единиците в съвкупността със зададени стойности, т.нар честоти. Наричат ​​се честоти, изразени в части от единица или като процент от общата сума честоти.

И така, вариант– това е отделна стойност (или вариант на отделна група) на променлива характеристика, която тя приема в реда на разпределение. Когато говорим за честоти, трябва да имаме предвид, че сумата от честотите съставлява обема на изследваната съвкупност (или, с други думи, обема на серията на разпределение).

Буквата “X” обикновено означава вариант на характеристика, а буквата f означава честота.

Според съдържанието сихарактеристиките могат да бъдат атрибутивни или количествени.

Наричат ​​се редове на разпределение, изградени според атрибутивни (или качествени) характеристики серия за разпределение на атрибути.

Например разпределението на студентите по форма на обучение, по факултети, по специалности и т.н.

Наричат ​​се редове на разпределение, изградени въз основа на количествени характеристики вариационна серия.

Например разпределението на служителите по трудов стаж, по ниво заплати, производителност на труда и др.

Характеристиките, изучавани в статистиката, се променят.

По естеството на промяната (вариациите) на стойноститеразграничават се знаци:

А) знаци с непрекъсната промяна;

Б) знаци с непрекъсната промяна.

Знаци с прекъсната промянаможе да приема само краен брой специфични стойности (например тарифната категория на работниците, броят на машините и др.).

Знаци с непрекъсната промянаможе да приема всякакви стойности в определени граници (например трудов стаж, заплата, пробег на превозното средство и др.)

Според начина на изграждане се разграничаватдискретни (прекъснати) вариационни серии, базирани на прекъснати вариации на характеристиката, и интервални (непрекъснати) серии, базирани на непрекъснато променящата се стойност на характеристиката.

При конструиране на дискретна вариационна серияв първата колона (ред) са посочени специфичните стойности на всяка отделна стойност на атрибута (т.е. всяка опция), а във втората колона (ред) - честоти или честоти.

Например серия, характеризираща разпределението на работниците по тарифни категории.

При конструиране на интервална вариационна серияИндивидуалните стойности на опцията са посочени в стойностите „от - до“.

Интервалите могат да бъдат взети равни или неравни. За всеки от тях са посочени честоти и честоти (т.е. абсолютни или относителни числаединици от съвкупността, за които стойността на опциите е в този интервал).

Първият и последният интервал от серия в много случаи се приемат за отворени, т.е. за първия интервал е посочена само горната граница („до ...“), а за последния само долната граница („от ... и нагоре“, „над ...“). Използването на отворени интервали е удобно, когато в съвкупността има малък брой единици, с много малки или много големи стойностихарактеристика, рязко различна от всички други стойности.

При конструирането на интервални вариационни серии възниква въпросът за броя на групите, на които трябва да се раздели статистическият материал от наблюдение, и въпросът за размера на интервала на всяка отделна група.

Тези въпроси вече са изследвани в метода на групиране (вижте Тема 3). Там бяха обсъдени и въпроси, важни за съставянето на интервална серия, като:

1) Определяне на началото на интервалите;

2) Преброяване на честотата.

Трябва да се има предвид, че интервални вариационни серии могат да бъдат конструирани и за характеристики с дискретна вариация. Често в статистически изследванияНе е уместно да се посочва отделна стойност на дискретна характеристика, т.к това има тенденция да затруднява разглеждането на вариация в черта. Следователно възможните дискретни стойности на атрибута се разпределят в групи и се изчисляват съответните честоти (честоти).

При конструиране на интервална серия въз основа на дискретен атрибут границите на съседни интервали не се повтарят взаимно: следващият интервал започва със следващата по ред (след горната стойност на предишния интервал) дискретна стойност на атрибута.

За да изчислите обобщените характеристики на сериите на разпределение, можете да използвате както честоти, така и честоти.

Честоти като части от единица: w1=f1/∑f, w2=f2/∑f и т.н.

Честоти като проценти w1=(f1/∑f)*100, w2=(f2/∑f)*100 и т.н.


Свързана информация.


Резултатите от обобщенията и групировките, материалите за статистически наблюдения се представят под формата на разпределителни серии и статистически таблици.

Сериите на статистическото разпределение са подредено подреждане на единици от изследваната съвкупност в групи според характеристиките на групиране. Те характеризират състава и позволяват да се прецени хомогенността на популацията, границите на нейното изменение и моделите на развитие на наблюдавания обект.

В зависимост от характеристиката, която е в основата на серията на разпределение, се разграничават атрибутивни и вариационни серии.

Вариантите са индивидуалните стойности на характеристика, които тя приема в серия от вариации, т.е. специфична стойност на различна характеристика.

Честоти - извиква се броят на отделните опции или всяка група от вариационна серия, т.е. това е число, което показва колко често се срещат определени опции в серия за разпространение.

Сумата от всички честоти определя размера на цялата популация или нейния обем. Вариационните серии се състоят от два елемента: опции и честоти. Честотите се изразяват като части от единици или като процент от общата сума (наречени честоти). Съответно сумата от честотите е равна на 1 или 100%.

В зависимост от характера на изменението на признака се разграничават дискретни и интервални серии.

Дискретните редове характеризират разпределението на единиците на съвкупността според дискретна характеристика, която приема само фиксирана стойност, най-често цяло число.

Интервални вариационни серии са серии, в които стойностите на вариантите са дадени под формата на интервали.

Графично дискретните серии са представени като разпределителен полигон. Интервална серия – под формата на хистограма на разпределение.

Статистически таблици

Резултатите от обобщаването и групирането на материалите от наблюдения обикновено се представят под формата на статистически таблици. Това е най-рационалната форма за представяне на обобщени резултати. Значението на статистическите таблици е, че те ви позволяват да покриете материалите на статистическото резюме като цяло.

от външен видстатистическите таблици са поредица от пресичащи се вертикални и хоризонтални линии. Вертикално - редове, хоризонтално - колони.

Таблица, която е съставена, но не е попълнена, се нарича оформление на таблица. Статистическата таблица се състои от два елемента: субект и предикат. Предмет – обект на изследване – единици от съвкупността, които се характеризират с числени показатели. Предикатът е списък от числени показатели, които характеризират обекта на изследване, т.е. предмет на масата.

Имената на единиците или групите, които образуват предмета, са дадени в лявата част на таблицата в заглавията на редовете, а имената на показателите, които те характеризират, т.е. предикат, в горната част на таблицата в заглавията на колоните.

В зависимост от конструкцията предметът на статистическата таблица е разделен на три вида:

1. Просто

2. Група

3. Комбинация

1) Прости - в предмета на които няма групировки. Според естеството на представения материал прости масиима:

· списък;

· териториални;

· хронологичен.

2) Групова - при която обектът, който се изучава, се разделя на групи по един или друг признак.

3) Комбинация - таблици, в които предметът е групиране на единици съвкупност по два или повече признака, взети в комбинация.

Когато в предиката има няколко показателя, развитието на предиката може да бъде просто и сложно. Простото развитие на предикат включва паралелно подреждане на индикатори, а сложното се комбинира.

Статистически графики

Статистическият материал, получен в резултат на разработката, разположен в таблици, често трябва да бъде визуално представен чрез конструиране на статистически графики.

В статистиката графиката е визуално представяне на статистически данни с помощта на геометрични линии и фигури или географски карти (картограма).

Всяка графика съдържа следните елементи:

1. Графично изображение - основата на графиката - геометрични знаци, набор от точки, линии, фигури, с помощта на които се изобразява статистическа информация.

2. Полиграфията е мястото, където се намира графичното изображение.

3. Пространствени ориентири – съставят се с помощта на координатна система.

4. Указания за мащаба – зависят от мащаба и обхвата на графиката.

5. Операция на графа – това е името и съответните полета на отделните му части.

В зависимост от използването на геометричните знаци графиките се делят на точкови, линейни, лентови, квадратни и кръгли. Графиките идват под формата на негеометрични фигури, те се наричат ​​фигурни.

Статистическите графики са разделени според метода на конструиране и задачите:

1. Диаграми:

а) сравнения;

б) говорители;

в) структурни.

2. Статистически карти:

а) картограми;

б) картографски диаграми.

Диаграмата е най-често срещаният метод за графично представяне, използван за визуално сравняване на количества, които се различават една от друга.

Диаграмата е графика на количествени зависимости.

Статистическите карти са графики на количествено разпределение върху повърхност. По основното си предназначение те са близки до диаграмите, но се различават по това, че представляват конвенционални изображения на статистически данни върху контурна географска карта.

Статистическите карти показват пространственото разпределение или пространственото разпределение на статистическите данни.

1. Статистическите карти включват картограми - това е схематична карта или план на района, в който отделните територии, в зависимост от стойността на изобразения показател, са обозначени с помощта на графични символи.

2. Картограми - комбинация от картограма с диаграма.

В специални случаи, когато е необходимо да се изобрази някакъв статистически показател, който се получава чрез умножаване на две други величини, и те трябва да бъдат изобразени на графика, се използват специални графични знаци, те се наричат ​​знаци на Warzal.


Свързана информация.


Въведение

От незапомнени времена човечеството взема предвид много явления и обекти, свързани с неговата жизнена дейност и свързаните с тях изчисления. Хората получиха разнообразни, макар и различни по пълнота, на различни етапи от социалното развитие. Данни, които се вземат предвид ежедневно в процеса на вземане на икономически решения и в обобщен вид на държавно ниво при определяне на хода на икономическите и социална политикаи естеството на външнополитическата дейност.

Водени от съображенията за зависимостта на благосъстоянието на нацията от размера на създаденото полезен продукт, интересите на стратегическата сигурност на държавите и народите от размера на възрастното мъжко население, приходите на хазната от размера на облагаемите ресурси и т.н., отдавна са ясно признати и прилагани под формата на различни счетоводни действия.

Като се вземат предвид постиженията икономическа наукаСтана възможно да се изчислят показатели, които най-общо характеризират резултатите от процеса на възпроизводство на ниво общество: общ обществен продукт, национален доход, брутен национален продукт.

Цялата изброена по-горе информация се предоставя на обществото във все по-големи обеми от статистиката, която е необходима част от държавния апарат. Така статистиката може да говори на език статистически показателиза много неща в много ярка и убедителна форма.

За Статистически анализданни в работата си използвах програмата Excel (изчисляване на формули и начертаване на графики).

Статистически редове на разпределение, тяхното значение и приложение в статистиката

В резултат на обработката и систематизирането на данните от първичните статистически наблюдения се получават групировки, наречени редове на разпределение. В тях е известен броят на единиците за наблюдение в групите. Представени в абсолютно и относително изражение.

Сериите на статистическото разпределение са подредено разпределение на единиците от съвкупността, които се изучават в групи според определена различна характеристика. Той характеризира състава (структурата) на изследваното явление, позволява ни да преценим хомогенността на съвкупността, модела на разпространение и границите на вариация на единиците от популацията.

Статистическите серии са разделени на:

Атрибутивни - това са серии, конструирани по атрибутивни характеристики, във възходящ или низходящ ред на наблюдаваните знания.

Тоест качествени характеристики, които нямат цифров израз и характеризират свойството, качеството на изследваното социално-икономическо явление.

Атрибутивните редове на разпределение характеризират състава на съвкупността по определени съществени характеристики.

Взети за няколко периода, тези данни позволяват да се изследват промените в структурата.

Броят на групите в серията за разпределение на атрибутите е адекватен на броя на градациите. Разновидности на атрибутивни характеристики.

Пример за серия на разпределение на атрибути е даден в таблица 1.

Таблица 1. Разпределение на студентите от 1 курс по успеваемост

Елементите на този ред на разпределение са градациите на атрибутивния признак „Постижение” („имат време” - „нямат време”) и числеността на всяка група в абсолютно (хора) и относително (%) изражение.

Положилите изпита по дисциплината студенти са 46. Техен специфично тегловъзлиза на 92%.

Вариационните редове са редове, изградени на количествена основа.

Вариационните серии на разпределение се състоят от два елемента: опции и честоти:

Вариантите са числени стойности на количествена характеристика в серия с вариационно разпределение. Те могат да бъдат положителни и отрицателни, абсолютни и относителни. Така при групиране на предприятията според резултатите стопанска дейностположителните опции означават печалба и отрицателни числа- това е загуба.

Честотите са номерата на отделните опции или всяка група от вариационна серия, т.е. Това са числа, показващи колко често се появяват определени опции в серия за разпространение. Сумата от всички честоти се нарича обем на популацията и се определя от броя на елементите на цялата популация.

Честотите са честоти, изразени като относителни стойности (части от единици или проценти). Сумата от честотите е равна на единица или 100%. Замяната на честотите с честоти позволява да се сравняват вариационни серии с различни числанаблюдения.

Вариационните серии, в зависимост от характера на вариацията, се делят на дискретни и интервални.

Серия с дискретно вариационно разпределение е серия, в която групите са съставени според характеристика, която се променя дискретно и приема само цели числа.

Пример за дискретна серия от вариационни разпределения е даден в таблица 2.

Таблица 2. Разпределение на студентите по резултат от изпита

В гр. Таблица 1, Таблица 2 представя опции за серия от дискретни вариации. В гр. 2 - честоти, а в гр. 3 - честоти. В случай на непрекъсната вариация, стойността на дадена характеристика в единици съвкупност може да приеме произволна стойност в определени граници. Различаващи се един от друг с произволно малка сума.

Интервална вариационна серия на разпределение е серия, в която групиращата характеристика, която формира основата на групирането, може да приеме определен интервалвсякакви стойности, включително дроби.

Препоръчително е да се изгради интервална серия на разпределение, на първо място, с непрекъснато изменение на характеристика, а също и ако дискретно изменение се проявява в широк диапазон, т.е. броят на вариантите на една дискретна характеристика е доста голям.

Правилата и принципите за конструиране на интервални разпределителни серии са подобни на правилата и принципите за конструиране статистически групи. Ако интервалната вариационна серия на разпределението е конструирана с на равни интервали, честотите позволяват да се прецени степента, до която интервалът е запълнен с единици съвкупност. При конструирането на неравни интервали е невъзможно да се получи информация за степента на запълване на всеки интервал. За да се извърши сравнителен анализзаетостта на интервалите се определя от показател, характеризиращ плътността на разпределение. Това е отношението на броя на единиците на популацията към ширината на интервала.

Пример за разпределение на интервалните вариации е даден в таблица 3.

Таблица 3. Разпределение строителни фирмирегион по среден бройработещ*

* - Цифрите са условни

Представеният ред на разпределение е интервален, чието формиране на групи се основава на непрекъснат признак.

За по-голяма яснота анализът на сериите на разпределение може да се извърши въз основа на тяхното графично представяне. За целта се изграждат полигон, хистограма, огив и разпределителна кумулация.

Изчислителна част на задача No5

Представени са извадкови данни (5% механична извадка) за средногодишната себестойност на дълготрайните производствени фондове и продукцията на предприятията от икономическия сектор за отчетния период.

Таблица 4. Изходни данни

Продуктова продукция, милиони рубли.

Според първоначалните данни:

1. Изградете статистическа серия от разпределение на предприятията според средната годишна цена на дълготрайните производствени активи, като формирате четири групи предприятия на равни интервали, като ги характеризирате с броя на предприятията и дела на предприятията.

2. Изчислете общите показатели на серията за разпределение:

а) средната годишна цена на дълготрайните производствени активи, претегляйки стойностите на атрибута по абсолютния брой предприятия и техния дял;

б) мода и медиана;

в) построете графики на серията на разпределение и определете стойността на модата и медианата върху тях.

Решение:

1. Първо определете дължината на интервала, като използвате формулата:

e=(x max - x min)/k,

където k е броят на групите в групирането (от условието k=4),

x max и x min - максимални и минимални стойности на серията на разпределение,

e=(60 - 20)/4=10 милиона рубли.

След това определяме долната и горната граница на интервала за всяка група:

Номер на групата

долната линия

горен лимит

Нека създадем работен лист 5, където ще обобщим първоначалните данни:

Таблица 5. Работен лист

Групи предприятия по среден годишен разход на отворен пенсионен фонд,

Предприятие No.

Средна годишна цена на OPF, милиона рубли.

изход,

Нека изчислим характеристиките на серията за разпределение по дела на предприятията, използвайки формулата:

където d е делът на предприятието;

f i - брой предприятия в групата;

F i - общ брой предприятия.

Заместете данните във формулите. Получените резултати се въвеждат във финалната таблица 6.

Всички формули и изчисления в Таблица 6 са въведени в Excel и са дадени в Приложение 1.

Таблица 6. Разпределение на предприятията по средногодишна стойност на ДМА

Това групиране показва, че по-голямата част от тези предприятия (33,3%) имат средна годишна цена на дълготрайни производствени активи от 40 до 50 милиона рубли.

2. а) Изчислете средната годишна цена на дълготрайните производствени активи, като използвате формулата за среднопретеглена аритметична стойност, претегляйки стойностите по абсолютния брой предприятия:

и по специфично тегло:

За да се изчисли средната стойност от интервална серия, е необходимо да се изразят опциите в едно (дискретно) число, това е простата средна аритметична стойност на горната и долната стойност на интервала:

Заместете данните във формулите. Ще запишем получените резултати в таблица 7.

Всички формули и изчисления в Таблица 7 са въведени в Excel и са дадени в Приложение 1.

Таблица 7. Изчисляване на средната годишна цена на отворен пенсионен фонд

Средните стойности са равни, което доказва правилността на изчисленията. Средната годишна цена на OPF е 41,333 милиона рубли.

б) Изчислете модата и медианата на тази серия.

Режимът е стойността на характеристика, която се среща най-често в изследваната популация. За сериите на разпределението на интервалните вариации режимът се изчислява по формулата:

където x Mo е долната граница на модалния интервал;

i Mo е стойността на модалния интервал;

f Mo - честота на модалния интервал;

f Mo-1 - честота на интервала, предхождащ модалния;

f Mo+1 - честота на интервала, следващ модалния.

Първоначално ще определим модалния интервал въз основа на най-високата честота на атрибута. Най-голям брой предприятия - 10 - средната годишна цена на дълготрайните производствени активи е в диапазона от 40 - 50 милиона рубли, което е модално.

Заместете данните във формулата.

От изчислението става ясно, че модалната стойност на разходите за OPF на предприятията е цена, равна на 44 милиона рубли.

Медианата е опция, разположена в средата на подредена вариационна серия, разделяща я на две равни части. За интервални вариационни серии медианата се изчислява по формулата:

където x Me е долната граница на средния интервал;

i Me - стойността на медианния интервал;

F е сумата от честотите на серията;

S Me-1 е сумата от натрупаните честоти на серията, предхождаща медианния интервал;

f Me - честота на медианния интервал.

Определяме медианния интервал, в който се намира поредният номер на медианата. За да направите това, нека изчислим сумата от честотите като кумулативен сбор до число, което надвишава половината от обема на населението (30/2 = 15). Въвеждаме получените данни в изчислителната таблица 8.

Таблица 8. Изчисляване на медианата

В колоната „Сума от натрупаните честоти” стойността 23 съответства на интервала 40 - 50. Това е средният интервал, в който се намира медианата.

Заместете данните във формулата.

Изчислението показва, че половината от предприятията имат средна годишна цена на дълготрайни производствени активи до 42 милиона рубли, докато другата половина е над тази сума.

в) Изградете графики на тази серия на разпределение въз основа на получените данни:

Ориз. 1.

Медиана

Ориз. 2. Кумулативно разпределение на предприятията по среден годишен разход на отворен пенсионен фонд

Особена форма на групиране на данни представляват т.нар статистически серии,или числени стойности на характеристика, разположени в определен ред. В зависимост от това какви характеристики се изучават, статистическите серии се разделят на атрибутивни, вариационни, динамични, регресионни серии, серии от класирани стойности на характеристиките и серии от натрупани честоти. Най-често се използва в психологията вариационенредове, редове регресияи редове класирани стойности на характеристиките.

Вариационни серииразпределенията се наричат ​​двойна серия от числа, показваща как числените стойности на дадена характеристика са свързани с тяхната честота в дадена проба. Например, психолог проведе тест за интелигентност, използвайки теста на Wechsler на 25 ученици, и суровите резултати за втория субтест се оказаха следните: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Както виждате, някои числа попадат в тази серияняколко пъти. Следователно, като се вземе предвид броят на повторенията, тези серии могат да бъдат представени в по-удобна, компактна форма:

Това е вариационната серия. Числата, които показват колко пъти се срещат отделни опции в дадена популация, се наричат ​​честоти или тегла на опциите. Те се обозначават с малка буква от латинската азбука. f iи имат индекс „i“, съответстващ на номера на променливата във вариационната серия.

Процентното представяне на честотите е полезно в случаите, когато е необходимо да се сравнят вариационни серии, които се различават значително по обем. Например при тестване на училищната готовност на децата в града, градското селище и селото са изследвани проби от деца съответно от 1000, 300 и 100 души. Разликата в размера на пробите е очевидна. Следователно е по-добре да сравнявате резултатите от тестовете, като използвате проценти на честотата.

Горната серия (3.1) може да бъде представена по различен начин. Ако елементите на серията са подредени във възходящ ред, тогава ще се получи така наречената класирана вариационна серия:

Тази форма на представяне (3.3) е по-предпочитана от (3.1), тъй като по-добре илюстрира модела на вариация на атрибута.

Честотите, характеризиращи класираните вариационни серии, могат да се добавят или натрупват. Натрупаните честоти се получават чрез последователно сумиране на честотните стойности от първата честота до последната.

Като пример, нека погледнем отново ред 3.3. Нека го трансформираме в серия 3.4, в която въвеждаме допълнителен ред и го наричаме „честотни натрупвания“:

Нека да разгледаме по-отблизо как се оказа последният ред. В началото на честотната серия има 1. В кумулативната серия 2 е на второ място - това е сумата от първата и втората честота, т.е. 1 + 1, на трето място има 4, това е сумата от втората (вече натрупана честота) и третата честота, т.е. 2 + 2, на четвъртата 8 = 4 + 4 и т.н.


Обхват(понякога това количество се нарича разпространение)пробите са обозначени с буквата Р.Това е най-простият показател, който може да се получи за извадка - разликата между максималните и минималните стойности на дадена конкретна вариационна серия, т.е.

Ясно е, че колкото повече варира измерената характеристика, толкова по-голяма е стойността R,и обратно.

Въпреки това може да се случи две серии от проби да имат еднакви средна стойност и диапазон, но естеството на вариацията на тези серии ще бъде различно. Например, дадени две проби:

Ако средните стойности и спредовете са равни за тези две примерни серии, естеството на тяхната вариация е различно. За да се разбере по-ясно природата на вариациите в пробите, трябва да се обърнете към техните разпределения.

Таблици и графики на честотното разпределение

По правило анализът на данните започва с изучаване на това колко често определени стойности на характеристиката (променливата), представляваща интерес за изследователя, се срещат в наличния набор от наблюдения. За целта те изграждат таблици и графики на честотното разпределение.Те често са основата за получаване на ценни, смислени научни открития.

Ако една характеристика приема само няколко възможни стойности (до 10-15), тогава таблицата за разпределение на честотата показва честотата на поява на всяка характерна стойност. Ако е посочено колко пъти се среща всяка характерна стойност, тогава това е таблица абсолютенчестотно разпределение, ако е посочен делът на наблюденията, попадащи върху определена стойност на дадена характеристика, тогава говорим за роднинаразпределителни честоти.

В много случаи един знак може да поеме много различни значения, например, ако измерим времето за решаване на тестова задача. В този случай може да се прецени разпределението на характеристиката таблица с групирани честоти,в които честотите са групирани по рангове или интервали от стойности на атрибути.

Друг вид разпределителни таблици са разпределителните таблици натрупаначестота Те показват как честотите се натрупват, когато стойностите на характеристиките се увеличават. Срещу всяка стойност (интервал) е посочена сумата от честотите на поява на всички онези наблюдения, за които стойността на характеристиката не надвишава дадена стойност(по-малко от горната граница на този интервал). Натрупаните честоти се съдържат в десните колони на таблицата. 3.2 и 3.3.

За по-нагледно представяне се изгражда графика на честотното разпределение или графика на натрупаните честоти - хистограма или изгладена крива на разпределение.

Хистограмата на честотното разпределение е стълбовидна диаграма, всяка колона от която се основава на конкретна стойност на атрибут или битов интервал (за групирани честоти). Височината на колоната е пропорционална на честотата на срещане на съответната стойност. На фиг. 3.1 е показана хистограма на честотното разпределение за примера от табл. 3.2.

Хистограма на изкривени честотисе различава от хистограма на разпределение по това, че височината на всяка лента е пропорционална на честотата, натрупана към дадена стойност (интервал). На фиг. 3.2 показва хистограма на натрупаните честоти за данните в табл. 3.2.

Строителство полигон на честотното разпределениенаподобява конструкцията на хистограма. В хистограма горната част на всяка колона, съответстваща на честотата на поява на дадена стойност (интервал) на характеристика, е сегмент с права линия. А за многоъгълника е отбелязана точка, съответстваща на средата на този сегмент. След това всички точки са свързани с прекъсната линия (фиг. 3.3). Вместо хистограма или многоъгълник често се изобразява изгладена крива на разпределение на честотата. На фиг. Фигура 3.4 показва хистограма на разпределение за примера от табл. 3.3 (ленти) и изгладена крива на същото честотно разпределение.

Таблиците и графиките на честотното разпределение предоставят важна предварителна информация за форма на разпространение на характеристиката:за това кои стойности се срещат по-рядко и кои по-често и колко изразена е променливостта на характеристиката. Обикновено се разграничават следните типични форми на разпространение. Равномерно разпределение –когато всички значения се срещат еднакво (или почти еднакво) често. Симетрично разпределение -когато екстремните стойности се срещат еднакво често. Нормална дистрибуция- симетрично разпределение, при което екстремните стойности са редки и честотата постепенно нараства от крайните към средните стойности на характеристиката. Изкривени разпределения- левичар(с преобладаване на честоти с ниски стойности), дясностранно(с преобладаване на честоти с високи стойности).

Самите таблици и графики на разпределението на чертата ни позволяват да направим някои значими заключения, когато сравняваме групи от субекти помежду си. Чрез сравняване на разпределенията можем не само да преценим кои стойности се срещат по-често в определена група, но и да сравним групите според степента на тежест индивидуални различия - променливостна тази основа.

Таблиците и графиките на натрупаните честоти ви позволяват бързо да получите допълнителна информация за това колко субекти (или каква част от тях) имат тежест на черта, която не надвишава определена стойност.

Раздел 4. Описателна статистика
(Статистическо разпределениеи него числови характеристики)

Една променлива може да приема много стойности. В началния етап на обработка на данни, вместо да се вземат предвид всички стойности на променлива, се препоръчва да се анализира описателна статистика. Те дават Главна идеяотносно стойностите или диапазона от стойности, които една променлива приема.

Към първичната описателна статистика ( Описателна статистика)обикновено се отнасят до числените характеристики на разпределението на характеристика, измерена в извадка. Всяка такава характеристика отразява в една числова стойностразпределителна собственост набор от резултати от измерване:от тяхна гледна точка местоположениена числовата ос или по отношение на техните променливост.Основната цел на всяка от първичните описателни статистики е да замени много стойности на характеристика, измерена в извадка, с едно число (например средната стойност като мярка за централна тенденция). Компактното описание на група, използваща първична статистика, позволява да се интерпретират резултатите от измерването, по-специално чрез сравняване на първичната статистика на различни групи.

Диапазон на разпространениев статистиката това е най-простото групиране, което е подредено разпределение на единиците от съвкупността в групи според изследваната характеристика на променливата.

Според характера на изследваната характеристика сериите се делят на атрибутивни(когато вариращата характеристика е качествена, т.е. няма количествено изражение) и вариационен(ако изследваната характеристика се измерва количествено).

Във всеки ред за разпределение има два основни елемента:

Опциите са специфични стойности на характеристика;

Честотите са числа, показващи колко често се появяват тези опции.

Ако опциите са представени чрез цели стойности на атрибута, тогава се извикват такива вариационни серии на разпределение отделени ако опциите са представени с числови интервали, тогава се извикват такива серии интервал.

Сериите за разпределение се допълват с честоти и натрупани (кумулативни) честоти.

Честота- относителна честота, определяща се от отношението на броя на груповите единици към общия обем на съвкупността.

Натрупани честотипоказват колко единици от съвкупността имат характеристична стойност не по-голяма от дадена стойност. Определя се чрез последователно добавяне към честотата в първия интервал на следващите честоти от серията.

Стойността на интервала на групиране на серия от интервални вариации се определя по формулата

където е максималната стойност на атрибута, е минималната стойност на атрибута, е броят на разпределените групи.

Когато се решава колко групи трябва да се формират, трябва да се вземе предвид обхватът на вариацията и броят на единиците в изследваната популация. Колкото по-голям е диапазонът на вариация на характеристиката, лежаща в основата на групирането, толкова повече групи, като правило, могат да бъдат формирани.

Връзката между броя на групите и броя на популационните единици n може да се изрази с формулата на американския учен Стърджис:

Тази зависимост може да служи като ориентир при определяне на броя на групите в случай, че разпределението на единиците на съвкупността по даден признак се доближава до нормалното.

Ако например е необходимо да се групират на равни интервали според данните за стойността на дълготрайните активи на предприятията, чиято максимална стойност е 7 милиона рубли, минималната стойност е 1 милион рубли. и е необходимо да изберете 4 групи, тогава размерът на интервала се определя по следния начин

В нашия пример групирането с равни интервали ще приеме следната форма:

Когато пишете по този начин, трябва да запомните правилото, че лявата цифра включва посочената стойност, а дясната не. Следователно предприятия с дълготрайни активи от 2,5 милиона рубли. трябва да се класифицират във втора група.

Нека илюстрираме изграждането на серия на разпределение с условен пример.

Пример 2.1. Има следните данни за трудовия стаж на служителите в малките предприятия, години.

9, 3, 7, 2, 5, 3, 11, 6, 5, 4, 7

Необходимо е да се изгради поредица от разпределение на работниците по трудов стаж, като се обработват 3 групи на равни интервали.

Размерът на интервала за групиране на работниците по трудов стаж се определя по формулата

Тогава интервалите ще бъдат както следва:

2 - 5, 5 - 8, 8 - 11

Нека преброим честотите и представим резултатите в таблица, която ще допълним с честоти и кумулативни честоти

Таблица 2.1. Разпределение на служителите по производствен опит

Сериите на разпределение могат да бъдат изобразени графично за яснота и удобство на анализа. Основните видове графики на сериите на разпределение: честотен полигон (фиг. 1), хистограма (фиг. 2), кумулативна (фиг. 3).

За да се изобрази изградената интервална серия от работници по производствен опит под формата на честотен полигон, тя трябва да се превърне в дискретна серия. За да направите това, определете средните точки (центрове) на интервалите -

(3,5; 6,5; 9,5). От тези средни точки възстановете перпендикуляри, равни на честотите, и свържете върховете им с сегменти.

При конструирането на хистограма на серия от разпределение на работниците по трудов стаж на оста x се нанасят интервали от серията, чиято височина е равна на честотите, нанесени на ординатата. Над абсцисната ос са изградени правоъгълници, чиято площ съответства на стойностите на продуктите на интервалите и техните честоти.

Ориз. 2.

При графично представянеКумулатите на натрупаните честоти се нанасят върху полето на графиката под формата на перпендикуляри към абсцисната ос в горните граници на интервалите, а именно 5, 8, 11. След това перпендикулярите се свързват със сегменти, което води до прекъсната линия, която започва от нула и се увеличава през цялото време, докато достигне височина, равна на обща сумачестота


Ориз. 3.

Анализът на редовете и графиките показва, че разпределението на работниците по трудов стаж е неравномерно; колкото повече се различава трудовият стаж на служителите от средния трудов стаж, толкова по-рядко се срещат такива служители.

Обобщението на първичните данни под формата на серия на разпределение ви позволява да видите вариациите и състава на съвкупността според изследваната характеристика, да сравнявате групите една с друга, да изучавате тяхната динамика и да установявате естеството на разпределението на единиците според особена характеристика.

Сериите за разпространение обаче не предоставят изчерпателно описание на избраните групи. За да се решат редица специфични проблеми, да се идентифицират особеностите в развитието на явленията, да се открият тенденции и да се установят зависимости, е необходимо да се групират статистически данни.

Как се извършва конкретно групиране ще обсъдим в следващия въпрос.