Визначення обсягу вибірки. Обсяг вибірки – вибірковий метод соціологічного дослідження

Визначення обсягу вибірки

Соціологічні дослідження рідко бувають суцільними, як, наприклад, перепис населення. Зазвичай суцільне дослідження проводиться за невеликої генеральної сукупності.

Найчастіше дослідження мають вибірковий характер, при якому найбільше важливою основоює можливість поширення отриманих результатів та висновків на всю генеральну сукупність. У разі суцільне дослідження недоцільно. Забезпечення цієї недоцільності - питання репрезентативності вибірки, тобто. достатньої кількісної та якісної представницькості генеральної сукупності у вибірці.

Умовами дотримання репрезентативності вибірки є:

1) рівна можливість кожного члена генеральної сукупності потрапити у вибірку;

2) відбір необхідно проводити незалежно від ознаки, що вивчається (інакше у вибірку можуть потрапити, наприклад, тільки спортсмени);

3) відбір наскільки можна проводити з однорідних сукупностей;

4) величина вибірки має бути досить великою.

Далі постає питання: як визначити достатній обсяг вибірки? Для цього необхідно мати характеристики генеральної сукупності за найважливішими (з погляду дослідження) ознаками. До них, наприклад, можна віднести відомості про кількість охочих займатися фізичною культуроюта спортом, про кількість котрі займаються тощо. Але, як правило, такі характеристики (чи багато хто з них) не відомі. Пілотажні дослідження таки спрямовані на їх виявлення.

Наведемо приклад визначення обсягу вибіркової сукупності. У ході підготовки до проведення конкретно-соціологічного дослідження на підставі теоретичних посилок було виділено характеристики та ознаки, що підлягають вивченню. Наприклад, бажання займатися фізичною культурою, спортом, величина потреби, участь у видах діяльності та ін.

З результатів вивчення цих ознак у пробному дослідженні (30 і більше респондентів) визначається обсяг вибірки.

Припустимо, що у пробному дослідженні опитано 147 студентів 4-х курсів у чотирьох вишах Республіки Білорусь.

Для бажання займатися фізичною культурою отримані такі розподіли:

1.«Ні, не хочу» - 5 осіб;

2.«Швидше не хочу, ніж хочу» - 3 особи;

3.«Байдуже» - 11 осіб;

4.«Швидше хочу, ніж не хочу» - 34 особи;

5. «Так, хочу» - 72 особи.

Для розрахунку обсягу вибірки використовуються формули:

t - 1,96 - розподіл Стьюдента для ймовірності 0,95 або 95% (тобто, якщо необхідна ймовірність відповідності характеристик вибірки та характеристик генеральної сукупності 95%, завжди = 1,96. Їх відповідність на 95% - загальноприйнята вимога соціологічні дослідження.

Для нашого розподілу:


За умови, що вибірка в пробному дослідженні являла собою модель генеральної сукупності, величина вибіркової сукупності для вивчення бажання займатися фізичною культурою повинна бути не менше 147 осіб. Тоді із ймовірністю 95% можна стверджувати, що генеральне середнє лежить у межах 4,39+ 0,155.

Оскільки модель вибірки в пробному дослідженні у вузах не є моделлю генеральної сукупності (опитування було в чотирьох вузах з 30), то збільшуємо отримане n (30/4) у 7,5 рази. Тоді необхідний обсяг вибірки – 1102 респонденти.

Якісна представництво отриманої вибірки оцінюється порівнянням істотних показників (чи пов'язаних із суттєвими) генеральної сукупності та вибірки. Для студентства, наприклад, такими характеристиками є: співвідношення за статтю, охоплення навчальними заняттямиз фізичного виховання, співвідношення форм занять та інших.

Коли інформація про ознаки елементів генеральної сукупності відсутня, виключається можливість визначення обсягу вибіркової сукупності формулами. В цьому випадку можна спертися на багаторічний досвід соціологів - практиків, що свідчить про те, що для пробних опитувань достатня вибірка обсягом 100-250 чоловік. При масових опитуваннях, якщо величина генеральної сукупності 5000 людина, достатній обсяг вибіркової сукупності - щонайменше 500 людина, якщо ж величина генеральної сукупності 5000 чоловік і більше, то - 10% її складу (але трохи більше 2000-2500 людина). Це характеризує достовірні результати дослідження.

де - Середнє значення вибірки, Z- значення стандартизованої нормально розподіленої випадкової величини, що відповідає інтегральній ймовірності, що дорівнює 1 – α/2, σ - стандартне відхилення генеральної сукупності, n- Обсяг вибірки

Завантажити нотатку у форматі або , приклади у форматі

У цій формулі величина, що додається і віднімається з дорівнює половині довжини інтервалу. Вона визначає міру неточності оцінки, що виникає внаслідок помилки вибіркового дослідження, що позначається символом ета обчислюється за формулою

Розв'язавши рівняння (2) щодо n, Отримаємо:

Насправді обчислити ці величини непросто. Як визначити довірчий рівень та помилку вибіркового дослідження? Зазвичай відповісти на це питання можуть лише експерти в предметній галузі (тобто люди, які розуміють значення оцінюваних величин). Як правило, довірчий рівень дорівнює 95% (у цьому випадку Z= 1,96). Якщо потрібно підняти довірчий рівень, зазвичай вибирають величину, що дорівнює 99%. Якщо обмежитися нижчим довірчим рівнем, вибирають 90%. Визначаючи помилку вибіркового дослідження, не варто думати про її величину (у принципі будь-яка помилка небажана). Слід задати таку помилку, щоб отримані результати припускалися розумної інтерпретації.

Крім довірчого рівня та помилки вибіркового дослідження, необхідно знати стандартне відхилення генеральної сукупності. На жаль, цей параметр майже ніколи не відомий. У деяких випадках стандартне відхилення генеральної сукупності можна оцінити на основі попередніх досліджень. В інших ситуаціях експерт може врахувати розмах вибірки та розподіл випадкової змінної. Наприклад, якщо генеральна сукупність має нормальний розподіл, її розмах приблизно дорівнює 6 σ (тобто ±3 σ на околиці математичного очікування). Отже, стандартне відхилення приблизно одно однієї шостої частини діапазону. Якщо величину σ неможливо оцінити у такий спосіб, необхідно виконати пілотний проект та обчислити стандартне відхилення за результатами.

приклад 1.Повернемося до завдання про аудиторську перевірку. Припустимо, що з інформаційної системи вилучено вибірку, що складається зі 100 накладних, заповнених протягом останнього місяця. Компанія хоче побудувати інтервал, що містить математичне очікування генеральної системи, довірчий рівень якого дорівнює 95%. Як було визначено обсяг вибірки? Чи слід його уточнити?

Припустимо, що після консультацій з експертами, які працюють у компанії, статистики встановили припустиму помилкувибіркового дослідження дорівнює ±5 дол., а довірчий рівень – 95%. Результати попередніх досліджень свідчать, що стандартне відхилення генеральної сукупності приблизно дорівнює 25 дол. е = 5, σ = 25 та Z= 1,96 (що відповідає 95% довірчого рівня). За формулою (3) отримуємо:

Отже, n= 96. Таким чином, обсяг вибірки, що дорівнює 100, був обраний вдало і цілком відповідає вимогам, висунутим компанією.

приклад 2.Якась промислова компанія на Середньому Заході виробляє електричні ізолятори. Якщо під час роботи ізолятор виходить із ладу, відбувається коротке замикання. Щоб перевірити міцність ізолятора, компанія проводить випробування, під час яких визначається максимальна сила, необхідна руйнації ізолятора. Сила вимірюється в фунтах навантаження, що призводить до руйнування ізолятора (рис. 1, стовпець А). Припустимо, що нам необхідно оцінити середню силуруйнування ізолятора з точністю +25 фунтів при 95%-ному довірчому інтервалідля цієї величини. Дані, отримані у попередньому дослідженні, свідчать, що стандартне відхилення дорівнює 100 фунтів. Визначте потрібний обсяг вибірки.

Рішення. Отже, е= 25, σ =100, довірчий рівень 95% (тобто Z = 1,96) (рис. 1).

Мал. 1. Визначення обсягу вибірки

Таким чином, n= 62 (дрібні результати, як правило, округляють з надлишком до найближчого цілого).

Визначення обсягу вибірки для оцінки частки ознаки у генеральній сукупності

Вище ми розглянули спосіб визначення обсягу вибірки з метою оцінки математичного очікування генеральної сукупності. Припустимо тепер, що нам необхідно визначити частку накладних, що не відповідають правилам, прийнятим компанією (початкові умови див. приклад 1 вище). Скільки накладних слід витягти з інформаційної системи, щоб побудований інтервал мав заданий рівень довіри? Для відповіді це питання застосуємо той самий підхід, що й щодо обсягу вибірки з метою оцінки математичного очікування.

Помилка вибіркового дослідження визначається за такою формулою (2). Оцінюючи частки ознаки величину σ слід замінити на величину. Таким чином, формула для помилки вибіркового дослідження набуває такого вигляду:

Висловлюючи nчерез інші величини, отримуємо таку формулу:

Таким чином, для визначення обсягу вибірки необхідно знати три параметри:

  1. Необхідний довірчий рівень, яким визначається величина Z.
  2. Допустиму помилку вибіркового дослідження е.
  3. Справжню частку успіхів р.

Насправді обчислити ці величини нелегко. Якщо відомий довірчий рівень, можна визначити критичне значення стандартизованого нормального розподілу Z. Помилка вибіркового дослідження евизначає точність, з якою оцінюється частка успіхів у генеральній сукупності. Третій параметр – частка успіхів у генеральній сукупності р- це саме той параметр, який необхідно оцінити. Отже, як оцінити діапазон зміни величини рза його вибірковими значеннями?

Існують два способи. По-перше, у багатьох ситуаціях для оцінки величини рможна використати результати попередніх досліджень. По-друге, якщо дані про попередні дослідження недоступні, можна спробувати оцінити параметр ртак, щоб унеможливити недооцінку обсягу вибірки. Зверніть увагу на те, що у формулі (5) величина р(1 – р)стоїть у чисельнику. Отже, необхідно визначити максимальне значення цієї величини. Очевидно, що воно досягається при р = 0,5.

Таким чином, якщо частка ознаки в генеральній сукупності рзаздалегідь невідома, визначення обсягу вибірки слід задати р= 0,5. В цьому випадку обсяг вибірки буде переоцінений, що призведе до додаткових витрат на її створення. Якщо справжня частка успіхів у генеральній сукупності дуже відрізняється від 0,5, довірчий інтервал виявиться значно вже, ніж потрібно. Оцінка параметра ру цьому випадку буде дуже точною, проте за це доведеться заплатити додатковими часами. ыми та фінансовими ресурсами.

Повернемося до завдання про аудиторську перевірку. Припустимо, аудитор хоче побудувати інтервал, що містить частку помилкових накладних, довірчий рівень якого дорівнює 95%. Допустима точність дорівнює ±0,07. Результати попередніх перевірок свідчать, частка помилкових накладних вбирається у 0,15. Таким чином, е = 0,07, р= 0,15 та Z= 1,96 (що відповідає 95% довірчого рівня). За формулою (5) отримуємо:

Таким чином, обсяг вибірки, рівний 100, був обраний правильно і цілком відповідає вимогам, висунутим компанією.

Визначення обсягу вибірки,вилученої з кінцевої генеральної сукупності

Для визначення обсягу вибірки, витягнутої з кінцевої генеральної сукупності без повернення, необхідно використовувати коефіцієнт поправки. Наприклад, при оцінці математичного очікування вибіркова помилка обчислюється за такою формулою:

Оцінюючи частки ознаки помилка вибіркового дослідження дорівнює:

Щоб обчислити обсяг вибірки з метою оцінки математичного очікування чи частки ознаки, застосовуються формулы:

де n 0 - обсяг вибірки без урахування поправочного коефіцієнта кінцевої генеральної сукупності. Застосування поправного коефіцієнта призводить до наступної формули:

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 471–476

Для визначення розміру вибірки використовується величина Z, а не t, оскільки для обчислення критичного значення tрозмір вибірки потрібно знати заздалегідь. У більшості випадків розміри вибірки дозволяють добре апроксимувати t-розподіл стандартизованим нормальним розподілом.

Інтервал з довірчим рівнем 95% поділяється на дві рівні частини. Перша частина лежить ліворуч від математичного очікування генеральної сукупності, а друга - праворуч. Значення величини Z, що відповідає ймовірності 2,5% (площі 0,025), дорівнює -1,96, а значення величини Z, відповідної сумарної площі 0,975, +1,96. Для розрахунку зручно скористатися функцією Excel Z=НОРМ.СТ.ОБР(р), де р- Імовірність, підставляючи значення р 1 = 2,5% і р 2 = 97,5%

Кожна професія має свій набір улюблених питань. Для дослідників ринку цей список очолює, безумовно, питання розмірі вибірки. Зазвичай його формулюють так:

  • Ми хотіли б замовити дослідження щодо відвідувачів московських торгових центрів. Яка нам потрібна вибірка?
  • Наша цільова аудиторія- Приблизно 300 000 осіб. Скільки людей потрібно опитати, щоб було репрезентативно? А якщо цільова аудиторія буде 3 млн?
  • Нам необхідно оцінити потенціал продажів квартир у Санкт-Петербурзі мешканцям північних міст Росії. Яку вибірку зробити?
Розмір вибірки дійсно важливий, тому що визначає вартість майбутнього дослідження, не кажучи вже про якість підсумкових результатів та висновків. У цій статті ми розповімо про те, як розрахувати оптимальний розмірвибірки масового опитування. Наш матеріал буде корисним усім, хто так чи інакше стикається з необхідністю проведення маркетингових досліджень своїми силами або замовляє їх у спеціалізованого агентства.

Головна помилка про розмір вибірки

Багато хто впевнений, що чим більший розмір цільової групи, тим більше має бути розмір вибірки. Тому нібито щоб дізнатися думку жителів маленького міста, Досить опитати людина 200-300, ну а для з'ясування думки щодо Росії в цілому і 5000 буде мало.

Тим часом цей стереотип не має нічого спільного з реальністю. Розмір вибірки не залежить від чисельності цільової групи (мовою статистики вона називається «генеральною сукупністю») і визначається двома зовсім іншими факторами. Єдиний виняток із цього правила – випадки, коли генеральна сукупність дуже маленька, наприклад, 1-2 тисячі осіб, але такі ситуації у реальній практиці маркетингових досліджень трапляються рідко.

Два фактори, від яких залежить розмір вибірки

Розмір вибірки масового опитування залежить від двох факторів:

  1. Точності даних, які потрібно отримати на виході – це та сама «статистична похибка». Для вибірки у 100 респондентів вона буде у межах плюс-мінус 10%, а для вибірки у 1000 респондентів – у межах плюс-мінус 3,1%. Докладніше про це – нижче.
  2. Кількості та розміру підгруп, на які потрібно розбивати вибірку під час аналізу. Наприклад, якщо проводиться електоральне дослідження, то переважно нас цікавитиме ядро ​​активних виборців. Зазвичай, частка «ядра» рідко перевищує 20-25% від населення. Тому розмір вибірки потрібно розраховувати так, щоб одна чверть від загального обсягу дозволяла проводити повноцінний статистичний аналіз.
Всупереч поширеній думці, якість вибірки визначається не її розміром, а репрезентативністю. Репрезентативність – це відповідність між вибіркою та генеральною сукупністю за ключовими параметрами. Найчастіше, як такі «реперні точки» використовують соціально-демографічні показники, що легко вимірюються: стать, вік, освіта, рід занять і місце проживання.

Два різновиди помилки вибірки

Будь-яке вибіркове спостереження (тобто коли ми опитуємо не всіх поспіль, а робимо випадковий відбір із генеральної сукупності) пов'язане з похибкою даних. Цю похибку зазвичай називають помилкою вибірки. Вона може бути двох видів:

  1. Систематична- Пов'язана з помилками проектування вибірки. Оцінити її розмір, напрямок та ступінь усунення дуже складно, найчастіше – неможливо. Наприклад, якщо питання респондентам задаватимуть представники маргінальних соціальних верств, це вплине на готовність брати участь у дослідженні з боку представників більш забезпечених груп населення. У результаті це призведе до вкрай важко оцінюваної систематичної помилки та спотворення даних.
  2. Випадкова- Пов'язана з дією законів статистики. Її розмір легко розраховується за формулами математичної статистикита теорії ймовірності. Вони дозволяють робити обґрунтовані висновки про довірчий інтервал ознаки. Наприклад, якщо статистична похибка становить плюс-мінус 10%, а отримане значення показника дорівнювало 25%, то довірчий інтервал дорівнює від 15% до 35%.

Завдання дослідника – зібрати дані те щоб мінімізувати систематичну помилку вибірки. Тоді можна буде звести статпохибку лише до випадкової помилки, яку можна розрахувати за формулами.

Як розрахувати розмір випадкової помилки вибірки

Випадкова помилка вибірки залежить тільки від обсягу вибірки, а й від дисперсії, тобто ступеня однорідності даних. Чим однорідніші дані (тобто чим менше розкид отриманих значень, або дисперсія), тим менше помилкавибірки.

Існує формула розрахунку випадкової помилки вибірки, проте для зручності рекомендуємо користуватися онлайн-калькуляторами, наприклад, ось цим. Він дозволяє легко провести два види розрахунку:

  • розрахувати величину статистичної похибки на основі розміру вибірки та передбачуваної дисперсії;
  • визначити розмір вибірки, необхідний отримання оцінки потрібного ступеня точності.
Ось так виглядає його робоче вікно:

Як параметр довірчої надійності (одне з полів у калькуляторі) зазвичай використовується значення 95%. Це означає, що в 95% випадків розподіл ознаки в генеральній сукупності потрапить до розрахованого довірчого інтервалу (тобто саме значення ознаки у вибірці плюс-мінус розмір статистичної похибки). Рідше використовується значення надійності в 97% або 99% - воно, відповідно, означає, що подібне потрапляння відбудеться у 97% або 99% випадків. У разі надійність вибірки підвищується, але збільшується розмір вибірки.

Найскладніше щодо розміру вибірки – пошук компромісу між необхідної точністю і вартістю збору даних. Цей процес ускладнюється тим, що збільшення розміру вибірки вчетверо призводить до збільшення точності лише вдвічі (відповідає квадратного коренявід величини приросту вибірки).

Кейс: визначення розміру вибірки для оцінки потенціалу ринку продажу столичної нерухомості покупцям із регіонів

У листопаді-грудні 2016 року ми провели дослідження попиту на квартири в новобудовах Москви та Санкт-Петербурга з боку мешканців різних міст Росії. Дослідження включало в себе три методи збору даних: масове репрезентативне опитування населення у віці від 20 до 60 років (проводилося з використанням технології CATI), а також серію експертних інтерв'ю з ріелторами та глибинних інтерв'ю з потенційними покупцямиквартир.

Дослідження охоплювало 33 міста, що відрізняються підвищеним попитом на петербурзьку та московську нерухомість. Планова вибірка дослідження, розрахована за формулами, становила 21500 респондентів. Цей обсяг значно більший за «стандартний» обсяг вибірки, що використовується в маркетингових дослідженнях. З чим же пов'язаний такий великий розмірвибірки?

Справа в тому, що клієнту були потрібні оцінки окремо по кожному місту, а не просто «загалом по країні». Практично ми працюємо не з 1 вибіркою, а з 33 окремими вибірками по кожному місту. Частка людей, зацікавлених у купівлі квартири в Санкт-Петербурзі або Москві, була експертно визначена в рамках 5% від числа мешканців опитуваних міст.

Залежно від важливості міста для замовника керівник проекту з боку Агентства визначив допустиму статистичну похибку, в яку повинні вкладатися підсумкові результати. Для цього ми використовували спеціальний макрос у MS Excel, але ці розрахунки також можна виконати за допомогою калькулятора вибірки. В результаті розмір вибірки варіював від 500 до 1000 респондентів по кожному з міст дослідження, що в сумі дало заявлені 21 500 осіб.

  1. Визначте структуру цільової групи. Чи плануєте ви аналізувати окремі підгрупи чи достатньо буде аналізу щодо вибірки загалом?
  2. Визначте бажану точність даних. Наприклад, якщо потрібно оцінити динаміку ринкової частки за рік, підставте у спеціальний калькулятор зразкове значеннячастки та «пограйте» з різними обсягами вибірки.
  3. Знайдіть баланс між вартістю збору даних (прямо пропорційною обсягу вибірки) і необхідною точністю.
Статистика знає усі. І Ільф та Є. Петров, «12 Стільців»

Уявіть собі, що ви будуєте великий торговий центрта бажаєте оцінити автомобільний потік в'їзду на територію паркування. Ні, давайте інший приклад… вони все одно цього ніколи не робитимуть. Вам необхідно оцінити смакові уподобання відвідувачів вашого порталу, для чого необхідно провести серед них опитування. Як ув'язати кількість даних та можливу похибку? Нічого складного - чим більша ваша вибірка, тим менша похибка. Однак тут є нюанси.

Теоретичний мінімум

Не зайве освіжити пам'ять, ці терміни нам знадобляться далі.

  • Населення- Безліч всіх об'єктів, серед яких проводиться дослідження.
  • Вибірка- Підмножина, частина об'єктів з усієї популяції, яка безпосередньо бере участь у дослідженні.
  • Помилка першого роду- (α) Імовірність відкинути нульову гіпотезу, тоді як вона вірна.
  • Помилка другого роду- (β) Ймовірність невідкинути нульову гіпотезу, тоді як вона хибна.
  • 1 - β- Статистична потужність критерію.
  • μ 0 і μ 1- Середні значення при нульовій та альтернативній гіпотезі.


Вже в самих визначеннях помилки першого та другого роду є простір для дебатів та тлумачень. Як з ними визначитися і яку вибрати як нульову? Якщо ви досліджуєте рівень забруднення ґрунту чи вод, то як сформулюєте нульову гіпотезу: чи забруднення є, чи ні забруднення? Адже від цього залежить обсяг вибіркиіз загальної популяції об'єктів.



Початкова популяція, так само як і вибіркаможе мати будь-який розподіл, проте середнє значення має нормальнеабо гаусовий розподілзавдяки Центральній Граничній Теоремі.


Щодо параметрів розподілу та середнього значення зокрема можливо кілька типів висновків. Першез них називається довірчим інтервалом. Він вказує на інтервал можливих значень параметра, із зазначеним коефіцієнтом довіри. Так, наприклад, 100(1-α)% довірчий інтервалдля μ буде таким (Ур. 1).




Другез висновків - перевірка гіпотези. Воно може бути приблизно таким.

  • H 0: μ = h
  • H 1: μ > h
  • H 2: μ< h

З довірчим інтервалом 100(1-α) для μ можна зробити вибір на користь H1 і H2:

  • Якщо нижня межа довірчого інтервалу 100(1-α)< h , то тогда відкидаємо H 0на користь H2.
  • Якщо верхня межа довірчого інтервалу 100(1-α) > h, тоді відкидаємо H 0на користь H1.
  • Якщо довірчого інтервалу 100(1-α) включає в себе h, тоді ми не може відкинути H 0 і такий результат вважається невизначеним.

Якщо нам потрібно перевірити значення μ для однієї вибіркиіз загальної сукупності, то критерій набуде вигляду.



Довірчий інтервал, похибка та розмір вибірки

Візьмемо найперше рівняння і висловимо звідти ширину довірчого інтервалу(Ур. 2).



У деяких випадках ми можемо замінити t-статистику Стьюдента з стандартного нормального розподілу z. Ще одним спрощенням замінимо половину від wна похибку виміру E. Тоді наше рівняння набуде вигляду (Ур. 3).



Як бачимо похибка дійсно зменшується разом із зростанням кількості вхідних даних. Звідки легко вивести шукане (Ур. 4).


Практика - рахуємо з R

Перевіримо гіпотезу у тому, що середнє значення цієї вибірки кількості комах у пастці дорівнює 1.

  • H 0: μ = 1
  • H 1: μ > 1
Комахи 0 1 2 3 4 5 6
Пастки 10 9 5 5 1 2 1

> x<- read.table("/tmp/tcounts.txt") >y = unlist(x, use.names="false") > mean(z);sd(z) 1.636364 1.654883

Зверніть увагу, що середнє та стандартне відхилення практично рівні, що природно для розподілу Пуассона. Довірчий інтервал 95% для t-статистики Стьюдента та df=32.


> qt(.975, 32) 2.036933

і нарешті отримуємо критичний інтервал для середнього значення: 1.05 - 2.22 .


> μ=mean(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

У результаті слід відбракувати H 0 і прийняти H 1 так як з ймовірністю 95%, μ > 1.


У тому ж прикладі, якщо прийняти, що нам відомо дійсне стандартне відхилення - σ , а чи не її оцінка отримана з допомогою випадкової вибірки, можна розрахувати необхідне n даної похибки. Порахуємо для E = 0.5.


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

Виправлення на вітер

Насправді немає жодних причин, думати, що нам буде відома σ (дисперсія), у той час як μ (Середнє) нам ще тільки належить оцінити. Через це рівняння 4 має мало практичної користі, крім особливо рафінованих прикладів області комбінаторики, а реалістичне рівняння для n дещо складніше при невідомій σ (Ур. 5).



Зверніть увагу, що σ в останньому рівнянні не з шапкою (^), а тильдою (~). Це наслідок того, що на самому початку ми не маємо навіть оцінного стандартного відхиленнявипадкової вибірки - , і замість неї ми використовуємо заплановане- . Звідки ми беремо останнє? Можна сказати, що зі стелі: експертна оцінка, грубі прикидки, минулий досвід і т.д.


А що щодо другого складового правої сторони 5-го рівняння, звідки воно взялося? Оскільки необхідна поправка Гюнтера.


Крім рівнянь 4 і 5 є ще кілька приблизно-оцінних формул, але це вже заслуговує на окремий пост.

Один із головних компонентів ретельно продуманого дослідження – визначення вибірки та що таке репрезентативна вибірка. Це як у прикладі з тортом. Не обов'язково ж з'їдати весь десерт, щоб зрозуміти його смак? Досить невеликої частини.

Так ось, торт – це Генеральна сукупність (Тобто всі респонденти, які підходять для опитування). Вона може бути виражена територіально, наприклад, лише жителі Московської області. Гендерно – лише жінки. Або мати обмеження за віком – росіяни віком від 65 років.

Вирахувати генеральну сукупність складно: потрібно мати дані перепису населення чи попередніх оціночних опитувань. Тому зазвичай генеральну сукупність «прикидають», та якщо з отриманого числа вираховують вибіркову сукупністьабо вибірку.

Що таке репрезентативна вибірка?

Вибірка- Це чітко визначена кількість респондентів. Її структура має максимально збігатися зі структурою генеральної сукупності за основними характеристиками добору.

Наприклад, якщо потенційні респонденти – все населення Росії, де 54% — це жінки, а 46% — чоловіки, то вибірка повинна містити таке саме відсоткове співвідношення. Якщо збіг параметрів відбувається, вибірку можна назвати репрезентативною. Це означає, що неточності та помилки у дослідженні зводяться до мінімуму.

Обсяг вибірки визначається з урахуванням вимог точності та економічності. Ці вимоги обернено пропорційні одна одній: що більше обсяг вибірки, то точніше результат. У цьому що вища точність, тим більше витрат необхідно проведення дослідження. І навпаки, що менше вибірка, то менше на неї витрат, тим менш точно і більш випадково відтворюються властивості генеральної сукупності.

Тому для обчислення обсягу вибору соціологами було винайдено формулу та створено спеціальний калькулятор:

Довірча ймовірністьі довірча похибка

Що означають терміни « довірча ймовірність» та « довірча похибка»? Довірча ймовірність – це показник точності вимірів. А довірча похибка – можлива помилка результатів дослідження. Наприклад, при генеральній сукупності понад 500 00 осіб (припустимо, що проживають у Новокузнецьку) вибірка дорівнюватиме 384 особи при довірчої ймовірності 95% та похибки 5% АБО (при довірчому інтервалі 95±5%).

Що з цього випливає? При проведенні 100 досліджень з такою вибіркою (384 особи) у 95 відсотків випадків відповіді, що одержуються, за законами статистики будуть знаходитися в межах ±5% від вихідного. І ми отримаємо репрезентативну вибірку із мінімальною ймовірністю статистичної помилки.

Після того, як підрахунок обсягу вибірки виконано, можна подивитися чи є достатня кількість респондентів у демо-версії Панелі Анкетолога. А як провести панельний опитування можна докладніше дізнатися.