Определяне на размера на извадката. Размер на извадката - извадков метод на социологическо изследване

Определяне на размера на извадката

Социологическото изследване рядко е непрекъснато, като например преброяването на населението. Обикновено пълно проучване се провежда с малка популация.

Най-често проучванията имат избирателен характер, при които най-много важна причинае възможността за разпространение на получените резултати и заключения сред цялото население. В този случай цялостното проучване е непрактично. Осигуряването на тази нецелесъобразност е въпрос на представителност на извадката, т.е. достатъчна количествена и качествена представителност на генералната съвкупност в извадката.

Условията за запазване на представителността на извадката са:

1) равни възможности за всеки член на съвкупността да бъде включен в извадката;

2) подборът трябва да се извършва независимо от изследваната характеристика (в противен случай, например, само спортисти могат да бъдат включени в извадката);

3) когато е възможно, селекцията трябва да се прави от хомогенни популации;

4) размерът на извадката трябва да е достатъчно голям.

Следващият въпрос е: как да се определи достатъчен размер на извадката? За да направите това, е необходимо да имате характеристики на генералната съвкупност според най-важните (от гледна точка на изследването) характеристики. Това включва например информация за броя на желаещите да учат физическа култураи спорт, броя на участващите хора и т.н. Но като правило такива характеристики (или много от тях) не са известни. Пилотните проучвания са насочени именно към тяхното идентифициране.

Нека дадем пример за определяне на размера на извадката. В подготовката за провеждане на конкретно социологическо изследване, на базата на теоретични предпоставки, бяха идентифицирани характеристиките и атрибутите, които ще бъдат изследвани. Например желанието за занимания с физическо възпитание, спорт, големината на нуждата, участие в дейности и т.н.

Въз основа на резултатите от изучаването на тези характеристики в пилотно проучване (30 или повече респонденти) се определя размерът на извадката.

Да приемем, че в пилотно проучване са анкетирани 147 студенти от 4-та година в четири университета в Република Беларус.

За желанието да се занимавате с физическо възпитание бяха получени следните разпределения:

1. „Не, не искам“ - 5 души;

2. „По-скоро не искам, отколкото искам“ - 3 души;

3. “Безразлични” - 11 души;

4. „Предпочитам да искам, отколкото да не искам” - 34 души;

5. „Да, искам“ - 72 души.

За изчисляване на размера на извадката се използват следните формули:

t - 1,96 - Разпределение на Стюдънт за вероятност от 0,95 или 95% (т.е. ако изискваната вероятност за съвпадение на характеристиките на извадката и характеристиките на популацията е 95%, винаги = 1,96. Тяхното съответствие от 95% е общо прието изискване в социологическите изследвания.

За нашето разпространение:


При условие, че извадката в пилотното проучване ще представлява популационен модел, размерът на извадката за изследване на желанието за занимания с физическо възпитание трябва да бъде най-малко 147 души. Тогава, с вероятност от 95%, можем да кажем, че общата средна е в рамките на 4,39 + 0,155.

Тъй като моделът на извадката в пилотното проучване в университетите не представлява общ модел на популацията (проучването е проведено в четири от 30 университета), ние увеличаваме полученото n (30/4) със 7,5 пъти. Тогава необходимият размер на извадката е 1102 респонденти.

Качествената представителност на получената извадка се оценява чрез сравняване на съществените характеристики (или свързани с съществените) на генералната съвкупност и извадката. За учениците например такива характеристики са: съотношение между половете, обхват тренировъчни сесиивъв физическото възпитание, съотношението на формите на занятията и др.

Когато липсва информация за характеристиките на елементите на генералната съвкупност, се изключва възможността за определяне на размера на извадката по формули. В този случай може да се разчита на дългогодишния опит на практикуващите социолози, който показва, че извадката от 100-250 души е достатъчна за пробни проучвания. При масови проучвания, ако размерът на генералната съвкупност е 5000 души, достатъчен размер на извадката е поне 500 души, но ако размерът на генералната съвкупност е 5000 души или повече, тогава 10% от нейния състав (но не повече от 2000-2500 души). Това характеризира сравнително надеждните резултати от изследването.

Където – средна стойност на извадката, З- стойност на стандартизираното нормално разпределение случайна величина, съответстваща на интегралната вероятност, равна на 1 – α/2, σ - стандартно отклонение на популацията, н– размер на извадката

Изтеглете бележката в или формат, примери във формат

В тази формула количеството, добавено и извадено от равен на половината от дължината на интервала. Той определя мярката за неточност на оценката, произтичаща от грешка на извадката, която се обозначава със символа ди се изчислява по формулата

След решаване на уравнение (2) за н, получаваме:

На практика изчисляването на тези количества не е лесно. Как да се определи нивото на достоверност и грешката на извадката? Обикновено само експерти по темата (т.е. хора, които разбират значението на оценяваните стойности) могат да отговорят на този въпрос. Обикновено нивото на доверие е 95% (в този случай З= 1,96). Ако е необходимо да се увеличи нивото на доверие, обикновено се избира стойност от 99%. Ако можете да се ограничите до по-ниско ниво на увереност, изберете 90%. Когато определяте грешка на извадката, не трябва да мислите за нейната величина (по принцип всяка грешка е нежелателна). Грешката трябва да бъде зададена така, че получените резултати да могат да се интерпретират разумно.

В допълнение към нивото на достоверност и грешката на извадката е необходимо да се знае стандартното отклонение на популацията. За съжаление, този параметър почти никога не е известен. В някои случаи стандартното отклонение на популацията може да бъде оценено въз основа на предишни проучвания. В други ситуации експертът може да вземе предвид размера на извадката и разпределението на случайната променлива. Например, ако популацията има нормално разпределение, нейният диапазон е приблизително 6 σ (т.е. ±3 σ в околността математическо очакване). Следователно стандартното отклонение е приблизително една шеста от диапазона. Ако стойността σ не може да се оцени по този начин, е необходимо да се извърши пилотен проект и да се изчисли стандартното отклонение от резултатите.

Пример 1.Да се ​​върнем на проблема с одита. Да приемем, че от информационната система е извлечена извадка, състояща се от 100 фактури, попълнени през последния месец. Компанията иска да конструира интервал, съдържащ математическото очакване на популацията, чието ниво на доверие е 95%. Как беше определен размерът на извадката? Трябва ли да се изяснява?

Да кажем, че след консултация с експерти, работещи в компанията, статистиците установиха приемлива грешкаизвадково изследване, равно на ±5 долара, а нивото на доверие е 95%. Предишни изследвания показват, че стандартното отклонение на населението е приблизително $25. д = 5, σ = 25 и З= 1,96 (съответстващо на 95% ниво на сигурност). Използвайки формула (3), получаваме:

следователно н= 96. Така размерът на извадката от 100 е избран успешно и напълно отговаря на изискванията, поставени от компанията.

Пример 2.Индустриална компания в Средния Запад произвежда електрически изолатори. Ако изолаторът се повреди по време на работа, възниква късо съединение. За да тества здравината на изолатора, компанията провежда тестове, които определят максималната сила, необходима за счупване на изолатора. Силата се измерва в паундове товар, причиняващ повреда на изолатора (Фигура 1, Колона A). Да предположим, че трябва да оценим средна силаразрушаване на изолатора с точност от +25 lbs при 95% доверителен интервалза тази стойност. Данните от предишно проучване предполагат стандартно отклонение от 100 паунда. Определете необходимия размер на извадката.

Решение. Така, д= 25, σ =100, 95% ниво на достоверност (т.е. Z = 1,96) (фиг. 1).

Ориз. 1. Определяне на размера на извадката

По този начин, н= 62 (дробните резултати обикновено се закръглят до най-близкото цяло число).

Определяне на размера на извадката за оценка на дела на дадена характеристика в популацията

По-горе разгледахме метод за определяне на размера на извадката за оценка на математическото очакване на популацията. Нека сега приемем, че трябва да определим дела на фактурите, които не отговарят на правилата, приети от компанията (за първоначалните условия вижте пример 1 по-горе). Колко фактури трябва да бъдат извлечени от информационната система, така че конструираният интервал да има зададено ниво на достоверност? За да отговорим на този въпрос, прилагаме същия подход, както при определяне на размера на извадката за оценка на математическото очакване.

Грешката на извадката се определя по формула (2). При оценка на дела на характеристика стойността σ трябва да се замени с . Така формулата за грешката на извадката приема следната форма:

Изразяване нчрез останалите количества получаваме следната формула:

По този начин, за да определите размера на извадката, трябва да знаете три параметъра:

  1. Изискваното ниво на достоверност, чрез което се определя стойността З.
  2. Допустима извадкова грешка д.
  3. Истински дял от успеха Р.

На практика изчисляването на тези количества не е лесно. Ако нивото на доверие е известно, критичната стойност на стандартизираната нормална дистрибуция З. Грешка при вземане на проби допределя точността, с която се оценява делът на успехите в популацията. Третият параметър е делът на успехите в популацията Р- точно това е параметърът, който трябва да оценим. И така, как да оценим диапазона на промяна на стойност Рпо неговите примерни стойности?

Има два начина. Първо, в много ситуации, за оценка на стойността Рмогат да се използват резултати от предишни проучвания. Второ, ако няма данни от предишни проучвания, може да се опита да се оцени параметърът Ртака че да се избегне подценяването на размера на извадката. Моля, имайте предвид, че във формула (5) количеството p(1 – p)е в числителя. Следователно е необходимо да се намери максималната стойност на това количество. Очевидно това се постига, когато Р = 0,5.

По този начин, ако делът на дадена характеристика в популацията Ре неизвестен предварително, за да определите размера на извадката, който трябва да зададете Р= 0,5. В този случай размерът на извадката ще бъде надценен, което ще доведе до допълнителни разходи за нейното създаване. Ако истинският процент на успех в популацията е много различен от 0,5, доверителният интервал ще бъде много по-тесен от изисквания. Оценка на параметъра Рв този случай ще бъде много точен, но ще трябва да платите за него допълнително време сми и финансови ресурси.

Да се ​​върнем на проблема с одита. Да предположим, че одиторът желае да конструира интервал, съдържащ дела на грешните фактури, чието ниво на доверие е 95%. Допустимата точност е ±0,07. Резултатите от предишни проверки показват, че делът на грешните фактури не надвишава 0,15. По този начин, д = 0,07, Р= 0,15 и З= 1,96 (съответстващо на 95% ниво на сигурност). Използвайки формула (5), получаваме:

По този начин размерът на извадката от 100 е избран абсолютно правилно и напълно отговаря на изискванията на компанията.

Определяне на размера на извадката,извлечени от крайната популация

За да се определи размерът на извадката, която се извлича от крайна популация без връщане, трябва да се използва корекционен фактор. Например, когато се оценява математическото очакване, грешката на извадката се изчислява по следната формула:

Когато се оценява делът на дадена характеристика, грешката на извадката е равна на:

За изчисляване на размера на извадката за оценка на математическото очакване или съотношението на характеристика се използват формулите:

Където н 0 - размер на извадката без отчитане на корекционния коефициент за крайната съвкупност. Прилагането на корекционния коефициент води до следната формула:

Използвани са материали от книгата Levin et al. – М.: Уилямс, 2004. – стр. 471–476

За определяне на размера на извадката се използва стойността З, но не T, тъй като да се изчисли критична стойност Tразмерът на извадката трябва да бъде известен предварително. В повечето случаи размерите на извадката позволяват добро приближение T- разпределение чрез стандартизирано нормално разпределение.

Интервалът с 95% ниво на сигурност е разделен на две равни части. Първата част е вляво от математическото очакване на населението, а втората вдясно. Z-стойността, съответстваща на вероятност от 2,5% (0,025 площ) е –1,96, а Z-стойността, съответстваща на обща площ от 0,975, е +1,96. Удобно е да се използва за изчисление Функция на Excel З=NORM.ST.REV(r), където Р– вероятност, замествайки стойностите p 1 = 2,5% и p 2 = 97,5%

Всяка професия има свой набор от любими въпроси. За изследователите на пазара въпросът за размера на извадката със сигурност е на първо място в списъка. Обикновено се формулира така:

  • Бихме искали да възложим проучване на посетителите на московските търговски центрове. Каква проба ни трябва?
  • Нашите целевата аудитория– приблизително 300 000 души. Колко души трябва да анкетираме, за да сме представителни? Ами ако целевата аудитория е 3 милиона?
  • Трябва да оценим потенциала за продажба на апартаменти в Санкт Петербург на жителите на северните руски градове. Каква проба да направя?
Размерът на извадката е наистина важен, защото определя цената на бъдещите изследвания, да не говорим за качеството на получените резултати и заключения. В тази статия ще говорим за това как да изчислим оптимален размеризвадки от масово проучване. Нашият материал ще бъде полезен на всички, които по един или друг начин са изправени пред необходимостта да провеждат маркетингови проучвания сами или да ги поръчат от специализирана агенция.

Основното погрешно схващане за размера на извадката

Много хора вярват, че колкото по-голяма е целевата група, толкова по-голям трябва да бъде размерът на извадката. Следователно, уж, за да разберете мнението на жителите градче, достатъчно е да интервюирате 200-300 души, но за да разберете мнението за Русия като цяло, 5000 няма да са достатъчни.

Междувременно този стереотип няма нищо общо с реалността. Размерът на извадката не зависи от размера на целевата група (на статистически език се нарича „генерална съвкупност“) и се определя от два напълно различни фактора. Единственото изключение от това правило са случаите, когато населението е много малко, например 1-2 хиляди души, но такива ситуации са рядкост в реалната практика на маркетингови проучвания.

Два фактора, които определят размера на извадката

Размерът на извадката при масово проучване зависи от два фактора:

  1. Точността на данните, които трябва да бъдат получени на изхода, е същата „статистическа грешка“. За извадка от 100 респондента тя ще бъде в рамките на плюс-минус 10%, а за извадка от 1000 респондента ще бъде в рамките на плюс-минус 3,1%. Повече подробности за това по-долу.
  2. Броят и размерът на подгрупите, на които пробата трябва да бъде разделена по време на анализа. Например, ако се провежда електорално проучване, тогава ще се интересуваме основно от ядрото на активните избиратели. По правило делът на „ядрото“ рядко надвишава 20-25% от общото население. Следователно размерът на извадката трябва да бъде изчислен така, че една четвърт от общия й обем да позволява пълен статистически анализ.
Противно на общоприетото схващане, качеството на извадката се определя не от нейния размер, а от нейната представителност. Представителността е съответствието между извадката и съвкупността по ключови параметри. Най-често като такива „отправни точки” се използват лесно измерими социално-демографски показатели: пол, възраст, образование, професия и местожителство.

Два вида грешка при вземане на проби

Всяко селективно наблюдение (т.е. когато не интервюираме всички, а правим случаен подбор от общата популация) е свързано с грешка в данните. Тази грешка обикновено се нарича "грешка при вземане на проби". Може да бъде два вида:

  1. Систематичен– е свързано с грешки в дизайна на пробите. Оценяването на неговия размер, посока и степен на изместване е много трудно, най-често невъзможно. Например, ако на респондентите се задават въпроси от представители на маргинализирани социални класи, това ще повлияе на желанието за участие в изследването от страна на представители на по-заможни групи от населението. В резултат това ще доведе до изключително трудна за оценка систематична грешка и изкривяване на данните.
  2. Случаен– свързано е с действието на законите на статистиката. Размерът му се изчислява лесно с помощта на формулите математическа статистикаи теория на вероятностите. Те ви позволяват да направите информирани заключения относно доверителния интервал на даден знак. Например, ако статистическата грешка е плюс или минус 10%, а получената стойност на индикатора се окаже 25%, тогава доверителният интервал е от 15% до 35%.

Целта на изследователя е да събира данни по начин, който минимизира пристрастията на извадката. Тогава ще бъде възможно да се намали статистическата грешка само до случайна грешка, която може да се изчисли с помощта на формули.

Как да изчислим размера на грешката при произволна извадка

Случайната грешка на извадката зависи не само от размера на извадката, но и от дисперсията, тоест степента на хомогенност на данните. Колкото по-хомогенни са данните (т.е. колкото по-малко е разпространението на получените стойности или дисперсия), толкова по-малко грешкамостри.

Има формула за изчисляване на произволна извадкова грешка, но за удобство препоръчваме да използвате онлайн калкулатори, например този. Тя ви позволява лесно да извършвате два вида изчисления:

  • изчисляване на размера на статистическата грешка въз основа на размера на извадката и изчислената дисперсия;
  • определя размера на извадката, необходим за получаване на оценка на желаната степен на прецизност.
Ето как изглежда неговият работен прозорец:

Параметърът за доверие (едно от полетата в калкулатора) обикновено е настроен на 95%. Това означава, че в 95% от случаите разпределението на характеристиката в популацията ще попадне в рамките на изчисления доверителен интервал (т.е. стойността на самата характеристика в извадката плюс или минус размера на статистическата грешка). По-рядко се използва стойност на надеждност от 97% или 99% - това съответно означава, че такова попадение ще се случи в 97% или 99% от случаите. В този случай надеждността на извадката се увеличава, но размерът на извадката се увеличава.

Най-трудната част от определянето на размера на извадката е компромисът между изискваната точност и разходите за събиране на данни. Този процес се усложнява от факта, че учетворяването на размера на извадката само удвоява точността (съответстваща на корен квадратенот увеличаване на размера на извадката).

Казус: определяне на размера на извадката за оценка на потенциала на пазара за продажби на столични недвижими имоти на купувачи от регионите

През ноември-декември 2016 г. проведохме проучване на търсенето на апартаменти в нови сгради в Москва и Санкт Петербург от жители на различни градове на Русия. Проучването включва три метода за събиране на данни: масово представително проучване на населението на възраст от 20 до 60 години (извършено с помощта на технологията CATI), както и серия от експертни интервюта с брокери и задълбочени интервюта с потенциални купувачиапартаменти

Проучването обхваща 33 града, характеризиращи се с повишено търсене на недвижими имоти в Санкт Петербург и Москва. Планираната извадка от изследването, изчислена по формули, възлиза на 21 500 респонденти. Този размер е значително по-голям от „стандартния“ размер на извадката, използван в маркетинговите проучвания. С какво е свързано това? голям размерпроби?

Работата е там, че клиентът се нуждаеше от оценки поотделно за всеки град, а не само „за цялата страна“. Всъщност ние не работим с 1 проба, а с 33 отделни проби за всеки град. Делът на хората, които се интересуват от покупка на апартамент в Санкт Петербург или Москва, е експертно определен на 5% от броя на жителите на изследваните градове.

В зависимост от важността на града за клиента, ръководителят на проекта от Агенцията определя допустимата статистическа грешка, в рамките на която трябва да се поберат крайните резултати. За това използвахме специален макрос в MS Excel, но тези изчисления могат да се извършат и с помощта на калкулатор за вземане на проби. В резултат на това размерът на извадката варира от 500 до 1000 респонденти за всеки от градовете в проучването, което дава общо 21 500 души.

  1. Определете структурата на целевата група. Планирате ли да анализирате отделни подгрупи или анализът на извадката като цяло ще бъде достатъчен?
  2. Определете желаната точност на данните. Например, ако трябва да оцените динамиката на пазарния дял за една година, включете го в специален калкулатор приблизителна стойностсподеляния и „игра“ с различни размери на извадката.
  3. Намерете баланс между разходите за събиране на данни (пряко пропорционални на размера на извадката) и необходимата точност.
Статистиката знае всичко. И Илф и Е. Петров, “12 стола”

Представете си, че изграждате голям моли искате да оцените трафика, навлизащ в зоната за паркиране. Не, нека дадем друг пример... те така или иначе никога няма да направят това. Трябва да оцените вкусовите предпочитания на посетителите на вашия портал, за което трябва да проведете анкета сред тях. Как да съгласувам количеството данни и възможната грешка? Нищо сложно - колкото по-голяма е вашата извадка, толкова по-малка е грешката. Тук обаче също има нюанси.

Теоретичен минимум

Няма да навреди да опресните паметта си; тези термини ще ни бъдат полезни по-късно.

  • Население– Съвкупността от всички обекти, сред които се извършва изследване.
  • проба– Подмножество, част от обектите от цялата съвкупност, която участва пряко в изследването.
  • Грешка от първи вид- (α) Вероятността за отхвърляне на нулевата хипотеза, когато е вярна.
  • Грешка от втори тип- (β) Вероятност Неотхвърлете нулевата хипотеза, когато е невярна.
  • 1 - β- Статистическа сила на критерия.
  • μ 0 И μ 1- Средни стойности при нулевата и алтернативната хипотеза.


Още в самите дефиниции на грешки от първи и втори тип има място за спорове и интерпретации. Как да вземем решение за тях и кой да изберем като нула? Ако изследвате нивото на замърсяване на почвата или водата, как формулирате нулевата хипотеза: има замърсяване или няма замърсяване? Но от това размерът на извадката зависиот общата съвкупност от обекти.



Оригинален население, както и пробаможе да има произволно разпределение, но средната има нормалноили Гаусово разпределениеблагодарение на централната гранична теорема.


По отношение на параметрите на разпределението и в частност на средната стойност са възможни няколко вида изводи. Първоедин от тях се нарича доверителен интервал. Той показва обхвата на възможните стойности на параметрите, с посочените фактор на доверието. Така например 100(1-α)% доверителен интервалЗа μ ще бъде така (Lv. 1).




Второот изводи - тестване на хипотези. Може да е нещо подобно.

  • H 0: μ = h
  • H 1: μ > h
  • H2: μ< h

СЪС доверителен интервал 100(1-α) за μ можете да избирате между H 1 и H 2:

  • Ако долната граница доверителен интервал 100(1-α)< h , то тогда отхвърлете H 0в полза на H2.
  • Ако горната граница доверителен интервал 100(1-α) > h, тогава отхвърлете H 0в полза на H 1.
  • Ако доверителен интервал 100(1-α) включва h, тогава не можем да отхвърлим H 0 и този резултат се счита за несигурен.

Ако трябва да проверим стойността μ за един мостриот съвкупността, тогава критерият ще приеме формата.



Доверителен интервал, граница на грешка и размер на извадката

Нека вземем първото уравнение и изразим ширината от там доверителен интервал(Lv. 2).



В някои случаи можем да заменим t-статистиката на Стюдънт с z на стандартното нормално разпределение. С друго опростяване заместваме половината от wвърху грешката на измерване E. Тогава нашето уравнение ще приеме формата (Уравнение 3).



Както виждаме грешката всъщност намалява с увеличаване на броя на входните данни. Откъдето е лесно да извлечете това, което търсите (Lv. 4).


Упражнение - броене с Р

Нека проверим хипотезата, че средната стойност на тази извадка за броя на насекомите в капана е равна на 1.

  • H 0: μ = 1
  • H 1: μ > 1
Насекоми 0 1 2 3 4 5 6
Капани 10 9 5 5 1 2 1

>x<- read.table("/tmp/tcounts.txt") >y = unlist(x, use.names="false") > mean(z);sd(z) 1,636364 1,654883

Имайте предвид, че средното и стандартното отклонение са почти равни, което е естествено за разпределението на Поасон. 95% доверителен интервал за t-статистиката на Student и df=32.


> qt(.975, 32) 2.036933

и накрая получаваме критичния интервал за средната стойност: 1.05 - 2.22 .


> μ=средно(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2,223159 > μ - st * sd(z)/sqrt(33) 1,049568

В резултат на това H 0 трябва да бъде отхвърлен и H 1 приет, тъй като с вероятност от 95%, μ > 1.


В същия пример, ако приемем, че знаем действителното стандартно отклонение - σ , а не неговата оценка, получена с помощта на произволна извадка, е възможно да се изчисли изискваното n за дадена грешка. Нека изчислим за E=0,5.


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

Корекция на вятъра

Всъщност няма причина да вярваме, че ще разберем σ (вариация), докато μ (средно) предстои да оценим. Поради това уравнение 4 има малко практическо приложение, освен за особено прецизни примери за комбинаторика, а реалистичното уравнение за n е малко по-сложно, като се има предвид неизвестното σ (Lv. 5).



забележи, че σ в последното уравнение не с шапка (^), а с тилда (~). Това е следствие от факта, че в самото начало дори нямаме оценъчен стандартно отклонениепроизволна извадка - , и вместо това използваме планирано- . Откъде да вземем последното? Можем да кажем, че се появи неочаквано: експертна оценка, груби оценки, минал опит и т.н.


Какво ще кажете за втория член от дясната страна на 5-то уравнение, откъде идва това? Тъй като корекцията на Гюнтер е необходима.


В допълнение към уравнения 4 и 5, има още няколко приблизително формули за оценка, но това вече заслужава отделна публикация.

Един от основните компоненти на едно добре проектирано проучване е дефинирането на извадката и какво представлява представителната извадка. Това е като примера с тортата. В крайна сметка, не е нужно да изядете целия десерт, за да разберете вкуса му? Малка част е достатъчна.

И така, тортата е население (т.е. всички респонденти, които отговарят на условията за проучването). Може да се изрази географски, например само жители на Московска област. Пол - само жени. Или има възрастови ограничения - руснаци над 65 години.

Изчисляването на населението е трудно: трябва да разполагате с данни от преброяване на населението или проучвания за предварителна оценка. Следователно обикновено генералната съвкупност се „оценява“ и от полученото число се изчислява извадкова популацияили проба.

Какво е представителна извадка?

проба– това е ясно определен брой респонденти. Неговата структура трябва да съвпада възможно най-много със структурата на генералната популация по отношение на основните характеристики на селекцията.

Например, ако потенциалните респонденти са цялото население на Русия, където 54% ​​са жени и 46% са мъже, тогава извадката трябва да съдържа точно същия процент. Ако параметрите съвпадат, тогава извадката може да се нарече представителна. Това означава, че неточностите и грешките в изследването са сведени до минимум.

Размерът на извадката се определя, като се вземат предвид изискванията за точност и икономичност. Тези изисквания са обратно пропорционални едно на друго: колкото по-голям е размерът на извадката, толкова по-точен е резултатът. Освен това, колкото по-висока е точността, толкова повече разходи са необходими за провеждане на изследването. И обратното, колкото по-малка е извадката, толкова по-малко разходи струва, толкова по-малко точно и по-случайно се възпроизвеждат свойствата на генералната съвкупност.

Ето защо, за да изчислят обема на избор, социолозите измислиха формула и създадоха специален калкулатор:

Вероятност за довериеИ грешка на доверието

Какво означават условията " вероятност за доверие" И " грешка на доверието"? Вероятността за доверие е показател за точност на измерването. А грешката на доверието е възможна грешка в резултатите от изследването. Например, с население от повече от 500 000 души (да речем, живеещи в Новокузнецк), извадката ще бъде 384 души с вероятност за доверие 95% и допустима грешка 5% ИЛИ (с доверителен интервал 95±5%).

Какво следва от това? При провеждане на 100 изследвания с такава извадка (384 души) в 95 процента от случаите получените отговори според законите на статистиката ще бъдат в рамките на ±5% от първоначалния. И ще получим представителна извадка с минимална вероятност за статистическа грешка.

След като размерът на извадката бъде изчислен, можете да видите дали има достатъчен брой респонденти в демо версията на панела с въпросници. Можете да научите повече за това как да проведете панелно проучване.