Съставете пример за серия от дискретни вариации. Конструиране на интервални вариационни серии за непрекъснати количествени данни

При конструирането на серия от интервално разпределение се решават три въпроса:

  • 1. Колко интервала трябва да взема?
  • 2. Каква е дължината на интервалите?
  • 3. Каква е процедурата за включване на съвкупност от единици в границите на интервалите?
  • 1. Брой интервалиможе да се определи от Формула на Стърджис:

2. Дължина на интервала или интервална стъпка, обикновено се определя по формулата

Където Р-диапазон на вариация.

3. Редът на включване на единиците на съвкупността в границите на интервала

може да бъде различно, но при изграждането на интервален ред разпределението трябва да бъде строго определено.

Например това: [), в което единиците на съвкупността са включени в долните граници, но не са включени в горните граници, а се прехвърлят към следващия интервал. Изключение от това правило е последният интервал, чиято горна граница включва последното число от класираната серия.

Границите на интервала са:

  • затворен - с две екстремни стойности на атрибута;
  • open - с една крайна стойност на атрибута (предитакъв и такъв номер или надтакъв и такъв номер).

С цел асимилация теоретичен материалнека се представим обща информацияза решения задача от край до край.

Има условни данни за средния брой мениджъри по продажбите, количеството продадени от тях подобни стоки, индивидуалната пазарна цена за този продукт, както и обема на продажбите на 30 компании в един от регионите на Руската федерация през първото тримесечие на отчетната година (Таблица 2.1).

Таблица 2.1

Първоначална информация за междусекторна задача

Номер

мениджъри,

Цена, хиляди рубли

Обем на продажбите, милиони рубли.

Номер

мениджъри,

Количество продадени стоки, бр.

Цена, хиляди рубли

Обем на продажбите, милиони рубли.

Въз основа на първоначалната информация, както и на допълнителната информация, ще съставим индивидуални задачи. След това ще представим методиката за решаването им и самите решения.

Междусекторна задача. Задача 2.1

Използвайки изходните данни от табл. Изисква се 2.1изграждане дискретна серияразпределение на фирмите по количество продадени стоки (Таблица 2.2).

Решение:

Таблица 2.2

Дискретни серии от разпределение на фирмите по количество продадени стоки в един от регионите на Руската федерация през първото тримесечие на отчетната година

Междусекторна задача. Задача 2.2

изисква сеизградете класирана серия от 30 фирми според средния брой мениджъри.

Решение:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Междусекторна задача. Задача 2.3

Използвайки изходните данни от табл. 2.1, задължително:

  • 1. Конструирайте интервална серия от разпределение на фирмите по брой мениджъри.
  • 2. Изчислете честотите на сериите на разпределение на фирмите.
  • 3. Направете изводи.

Решение:

Нека изчислим по формулата на Стърджис (2.5) брой интервали:

Така вземаме 6 интервала (групи).

Дължина на интервала, или интервална стъпка, изчислете по формулата

Забележка.Редът за включване на популационните единици в границите на интервала е следният: I), при който популационните единици се включват в долните граници, но не се включват в горните граници, а се прехвърлят в следващия интервал. Изключение от това правило е последният интервал I ], чиято горна граница включва последния номер на класираната серия.

Изграждаме интервална серия (Таблица 2.3).

Интервални серииразпределение на фирмите, но средният брой мениджъри в един от регионите на Руската федерация през първото тримесечие на отчетната година

Заключение.Повечето голяма групафирми е група с среден броймениджъри 25-30 души, което включва 8 компании (27%); Най-малката група със среден брой мениджъри 40-45 души включва само една компания (3%).

Използвайки изходните данни от табл. 2.1, както и интервална серия от разпределение на фирмите по брой мениджъри (Таблица 2.3), изисква сеизградете аналитично групиране на връзката между броя на мениджърите и обема на продажбите на фирмите и въз основа на това направете заключение за наличието (или липсата) на връзка между тези характеристики.

Решение:

Аналитичното групиране се основава на факторни характеристики. В нашата задача факторната характеристика (x) е броят на мениджърите, а резултантната характеристика (y) е обемът на продажбите (Таблица 2.4).

Да строим сега аналитично групиране(Таблица 2.5).

Заключение.Въз основа на данните от изграденото аналитично групиране можем да кажем, че с увеличаване на броя на мениджърите по продажби се увеличава и средният обем на продажбите на компанията в групата, което показва наличието на пряка връзка между тези характеристики.

Таблица 2.4

Помощна таблица за построяване на аналитична групировка

Брой мениджъри, хора,

Фирмен номер

Обем на продажбите, милиони рубли, г

" = 59 f = 9,97

I-™ 4 -Ю.22

74 '25 1PY1

U4 = 7 = 10,61

при = ’ =10,31 30

Таблица 2.5

Зависимостта на обема на продажбите от броя на мениджърите на компанията в един от регионите на Руската федерация през първото тримесечие на отчетната година

КОНТРОЛНИ ВЪПРОСИ
  • 1. Каква е същността на статистическото наблюдение?
  • 2. Назовете етапите на статистическото наблюдение.
  • 3. Какви са организационните форми на статистическото наблюдение?
  • 4. Назовете видовете статистическо наблюдение.
  • 5. Какво е статистическо резюме?
  • 6. Назовете видовете статистически отчети.
  • 7. Какво е статистическо групиране?
  • 8. Назовете видовете статистически групировки.
  • 9. Какво е серия за разпространение?
  • 10. Наименувайте структурните елементи на разпределителния ред.
  • 11. Каква е процедурата за изграждане на серия за разпределение?

При обработката на големи количества информация, което е особено важно при извършване на съвременни научни разработки, пред изследователя стои сериозната задача да групира правилно изходните данни. Ако данните са дискретни по природа, тогава, както видяхме, не възникват проблеми - просто трябва да изчислите честотата на всяка характеристика. Ако изследваната характеристика има непрекъснатохарактер (което е по-често срещано в практиката), тогава изборът на оптимален брой интервали за групиране на признаци в никакъв случай не е тривиална задача.

За групиране на непрекъснати случайни променливи целият вариационен диапазон на характеристиката се разделя на определен брой интервали Да се.

Групиран интервал (непрекъснато) вариационна серия се наричат ​​интервали, класирани по стойността на атрибута (), където броят на наблюденията, попадащи в r"-ия интервал, или относителните честоти (), са посочени заедно със съответните честоти ():

Интервали на характерни стойности

mi честота

стълбовидна диаграмаИ кумулативен (ogiva),вече разгледани подробно от нас, са отлично средство за визуализация на данни, което ви позволява да получите първична представа за структурата на данните. Такива графики (фиг. 1.15) се конструират за непрекъснати данни по същия начин, както за дискретни данни, само като се вземе предвид фактът, че непрекъснатите данни напълно запълват областта на възможните си стойности, приемайки всякакви стойности.

Ориз. 1.15.

Ето защо колоните на хистограмата и кумулацията трябва да се допират една до друга и да нямат области, където стойностите на атрибута не попадат във всички възможни(т.е. хистограмата и кумулатите не трябва да имат „дупки“ по абсцисната ос, които не съдържат стойностите на изследваната променлива, както на фиг. 1.16). Височината на лентата съответства на честотата – броят наблюдения, попадащи в даден интервал, или относителната честота – делът на наблюденията. Интервали не трябва да се пресичати обикновено са с еднаква ширина.

Ориз. 1.16.

Хистограмата и многоъгълникът са приближения на кривата на плътност на вероятността (диференциална функция) f(x)теоретично разпределение, разглеждано в курса по теория на вероятностите. Ето защо изграждането им е толкова важно в началното статистическа обработкаколичествени непрекъснати данни - по външния им вид може да се съди за хипотетичния закон на разпределение.

Cumulate – крива на натрупаните честоти (честоти) на интервална вариационна серия. Графиката се сравнява с кумулата интегрална функцияразпространение F(x), също обсъдени в курса по теория на вероятностите.

По принцип понятията хистограма и кумулация се свързват конкретно с непрекъснати данни и техните серии от интервални вариации, тъй като техните графики са емпирични оценки на функцията на плътност на вероятността и функцията на разпределение, съответно.

Изграждането на интервална вариационна серия започва с определяне на броя на интервалите к.И тази задача е може би най-трудната, важна и противоречива в разглежданата проблематика.

Броят на интервалите не трябва да е твърде малък, тъй като това ще направи хистограмата твърде гладка ( прекалено загладен),губи всички характеристики на променливостта на оригиналните данни - на фиг. 1.17 можете да видите как същите данни, върху които графиките на фиг. 1.15, използван за конструиране на хистограма с по-малък брой интервали (лявата графика).

В същото време броят на интервалите не трябва да бъде твърде голям - в противен случай няма да можем да оценим плътността на разпределението на изследваните данни по цифровата ос: хистограмата ще бъде недостатъчно изгладена (незагладен),с празни интервали, неравномерни (виж Фиг. 1.17, дясна графика).

Ориз. 1.17.

Как да определите най-предпочитания брой интервали?

Още през 1926 г. Хърбърт Стърджис предложи формула за изчисляване на броя на интервалите, на които е необходимо да се раздели първоначалният набор от стойности на изследваната характеристика. Тази формула наистина стана изключително популярна - повечето статистически учебници я предлагат и много статистически пакети я използват по подразбиране. Доколко това е оправдано и във всички случаи е много сериозен въпрос.

И така, на какво се основава формулата на Стърджис?

Нека помислим биномно разпределение }