नमूना आकार का निर्धारण. नमूना आकार - समाजशास्त्रीय अनुसंधान की नमूना पद्धति

नमूना आकार का निर्धारण

समाजशास्त्रीय अनुसंधान शायद ही कभी निरंतर होता है, जैसे, उदाहरण के लिए, जनसंख्या जनगणना। आमतौर पर, एक संपूर्ण अध्ययन एक छोटी आबादी के साथ आयोजित किया जाता है।

अक्सर, अध्ययन प्रकृति में चयनात्मक होते हैं, जिनमें सबसे अधिक महत्वपूर्ण कारणप्राप्त परिणामों और निष्कर्षों को संपूर्ण जनसंख्या तक प्रसारित करने की संभावना है। इस मामले में, एक व्यापक अध्ययन अव्यावहारिक है। इस अक्षमता को सुनिश्चित करना नमूने की प्रतिनिधित्वशीलता का प्रश्न है, अर्थात। नमूने में सामान्य जनसंख्या की पर्याप्त मात्रात्मक और गुणात्मक प्रतिनिधित्वशीलता।

नमूना प्रतिनिधित्व बनाए रखने की शर्तें हैं:

1) जनसंख्या के प्रत्येक सदस्य को नमूने में शामिल होने का समान अवसर;

2) अध्ययन किए जा रहे गुण की परवाह किए बिना चयन किया जाना चाहिए (अन्यथा, उदाहरण के लिए, केवल एथलीटों को नमूने में शामिल किया जा सकता है);

3) जब भी संभव हो, चयन सजातीय आबादी से किया जाना चाहिए;

4) नमूने का आकार काफी बड़ा होना चाहिए।

अगला प्रश्न यह है: पर्याप्त नमूना आकार कैसे निर्धारित करें? ऐसा करने के लिए सबसे महत्वपूर्ण (अनुसंधान की दृष्टि से) विशेषताओं के अनुसार सामान्य जनसंख्या की विशेषताओं का होना आवश्यक है। इनमें, उदाहरण के लिए, अध्ययन करने के इच्छुक लोगों की संख्या के बारे में जानकारी शामिल है भौतिक संस्कृतिऔर खेल, शामिल लोगों की संख्या, आदि। लेकिन, एक नियम के रूप में, ऐसी विशेषताएं (या उनमें से कई) ज्ञात नहीं हैं। पायलट अध्ययन का उद्देश्य सटीक रूप से उनकी पहचान करना है।

आइए हम नमूना जनसंख्या के आकार को निर्धारित करने का एक उदाहरण दें। एक विशिष्ट समाजशास्त्रीय अध्ययन आयोजित करने की तैयारी में, सैद्धांतिक परिसर के आधार पर, अध्ययन की जाने वाली विशेषताओं और विशेषताओं की पहचान की गई थी। उदाहरण के लिए, शारीरिक शिक्षा, खेल-कूद में संलग्न होने की इच्छा, आवश्यकता की भयावहता, गतिविधियों में भागीदारी आदि।

एक पायलट अध्ययन (30 या अधिक उत्तरदाताओं) में इन विशेषताओं के अध्ययन के परिणामों के आधार पर, नमूना आकार निर्धारित किया जाता है।

आइए मान लें कि एक पायलट अध्ययन में, बेलारूस गणराज्य के चार विश्वविद्यालयों में 147 चतुर्थ वर्ष के छात्रों का सर्वेक्षण किया गया था।

शारीरिक शिक्षा में संलग्न होने की इच्छा के लिए, निम्नलिखित वितरण प्राप्त हुए:

1. "नहीं, मैं नहीं चाहता" - 5 लोग;

2. "बल्कि मैं जितना चाहता हूँ उससे ज़्यादा नहीं चाहता" - 3 लोग;

3. "उदासीन" - 11 लोग;

4. "मैं न चाहने के बजाय चाहूँगा" - 34 लोग;

5. "हाँ, मुझे चाहिए" - 72 लोग।

नमूना आकार की गणना करने के लिए, निम्नलिखित सूत्रों का उपयोग किया जाता है:

टी - 1.96 - 0.95 या 95% की संभावना के लिए छात्र वितरण (यानी, यदि नमूने की विशेषताओं और जनसंख्या की विशेषताओं के मिलान की आवश्यक संभावना 95% है, तो हमेशा = 1.96। 95% का उनका पत्राचार आम तौर पर होता है) समाजशास्त्रीय अनुसंधान में स्वीकृत आवश्यकता।

हमारे वितरण के लिए:


बशर्ते कि पायलट अध्ययन में नमूना एक जनसंख्या मॉडल का प्रतिनिधित्व करेगा, शारीरिक शिक्षा में संलग्न होने की इच्छा का अध्ययन करने के लिए नमूना जनसंख्या का आकार कम से कम 147 लोगों का होना चाहिए। फिर, 95% की संभावना के साथ, हम कह सकते हैं कि सामान्य औसत 4.39 + 0.155 की सीमा के भीतर है।

चूंकि विश्वविद्यालयों में पायलट अध्ययन में नमूना मॉडल सामान्य जनसंख्या मॉडल का प्रतिनिधित्व नहीं करता है (सर्वेक्षण 30 में से चार विश्वविद्यालयों में आयोजित किया गया था), हम परिणामी एन (30/4) को 7.5 गुना बढ़ा देते हैं। फिर आवश्यक नमूना आकार 1102 उत्तरदाताओं का है।

परिणामी नमूने की गुणात्मक प्रतिनिधित्वशीलता का आकलन सामान्य जनसंख्या और नमूने की आवश्यक विशेषताओं (या आवश्यक लोगों से संबंधित) की तुलना करके किया जाता है। उदाहरण के लिए, छात्रों के लिए, ऐसी विशेषताएं हैं: लिंग अनुपात, कवरेज प्रशिक्षण सत्रशारीरिक शिक्षा में, कक्षाओं के रूपों का अनुपात, आदि।

जब सामान्य जनसंख्या के तत्वों की विशेषताओं के बारे में जानकारी गायब होती है, तो सूत्रों का उपयोग करके नमूना जनसंख्या के आकार को निर्धारित करने की संभावना को बाहर रखा जाता है। इस मामले में, कोई समाजशास्त्रियों के अभ्यास के कई वर्षों के अनुभव पर भरोसा कर सकता है, जो इंगित करता है कि 100-250 लोगों का नमूना आकार परीक्षण सर्वेक्षण के लिए पर्याप्त है। सामूहिक सर्वेक्षणों में, यदि सामान्य जनसंख्या का आकार 5000 लोगों का है, तो पर्याप्त नमूना आकार कम से कम 500 लोगों का है, लेकिन यदि सामान्य जनसंख्या का आकार 5000 लोगों या अधिक है, तो इसकी संरचना का 10% (लेकिन इससे अधिक नहीं) 2000-2500 लोग)। यह अध्ययन के काफी विश्वसनीय परिणामों की विशेषता है।

कहाँ - नमूना माध्य मान, जेड- सामान्य रूप से वितरित मानकीकृत का मूल्य अनियमित परिवर्तनशील वस्तु, के बराबर अभिन्न संभाव्यता के अनुरूप 1 – α/2, σ - जनसंख्या का मानक विचलन, एन- नमूने का आकार

नोट को प्रारूप में डाउनलोड करें, प्रारूप में उदाहरण

इस सूत्र में मात्राओं को जोड़ा तथा घटाया जाता है अंतराल की आधी लंबाई के बराबर. यह नमूनाकरण त्रुटि के परिणामस्वरूप अनुमान की अशुद्धि के माप को परिभाषित करता है, जिसे प्रतीक द्वारा दर्शाया जाता है और सूत्र द्वारा गणना की जाती है

के लिए समीकरण (2) हल करना एन, हम पाते हैं:

व्यवहार में, इन मात्राओं की गणना करना आसान नहीं है। आत्मविश्वास स्तर और नमूनाकरण त्रुटि का निर्धारण कैसे करें? आमतौर पर, केवल विषय वस्तु विशेषज्ञ (यानी, जो लोग मूल्यांकन किए जा रहे मूल्यों का अर्थ समझते हैं) ही इस प्रश्न का उत्तर दे सकते हैं। आमतौर पर आत्मविश्वास का स्तर 95% है (इस मामले में)। जेड= 1.96). यदि आत्मविश्वास के स्तर को बढ़ाना आवश्यक है, तो आमतौर पर 99% का मान चुना जाता है। यदि आप स्वयं को निम्न आत्मविश्वास स्तर तक सीमित कर सकते हैं, तो 90% चुनें। नमूनाकरण त्रुटि का निर्धारण करते समय, आपको इसकी भयावहता के बारे में नहीं सोचना चाहिए (सिद्धांत रूप में, कोई भी त्रुटि अवांछनीय है)। त्रुटि को सेट किया जाना चाहिए ताकि प्राप्त परिणामों की उचित व्याख्या की जा सके।

आत्मविश्वास स्तर और नमूनाकरण त्रुटि के अलावा, जनसंख्या के मानक विचलन को जानना आवश्यक है। दुर्भाग्य से, यह पैरामीटर लगभग कभी ज्ञात नहीं है। कुछ मामलों में, पिछले अध्ययनों के आधार पर जनसंख्या मानक विचलन का अनुमान लगाया जा सकता है। अन्य स्थितियों में, विशेषज्ञ नमूना आकार और यादृच्छिक चर के वितरण को ध्यान में रख सकता है। उदाहरण के लिए, यदि जनसंख्या का वितरण सामान्य है, तो इसकी सीमा लगभग 6 है σ (अर्थात् ±3 σ आसपास के क्षेत्र में गणितीय अपेक्षा). इसलिए, मानक विचलन सीमा का लगभग छठा हिस्सा है। यदि मान σ इस तरह से अनुमान नहीं लगाया जा सकता है, एक पायलट परियोजना को अंजाम देना और परिणामों से मानक विचलन की गणना करना आवश्यक है।

उदाहरण 1।चलिए ऑडिट समस्या पर वापस आते हैं। आइए मान लें कि पिछले महीने के दौरान भरे गए 100 चालानों का एक नमूना सूचना प्रणाली से निकाला गया है। कंपनी जनसंख्या की गणितीय अपेक्षा वाले एक अंतराल का निर्माण करना चाहती है, जिसका आत्मविश्वास स्तर 95% है। नमूना आकार कैसे निर्धारित किया गया था? क्या इसे स्पष्ट किया जाना चाहिए?

मान लीजिए कि कंपनी में काम करने वाले विशेषज्ञों से परामर्श के बाद सांख्यिकीविदों ने पाया स्वीकार्य त्रुटिनमूना अध्ययन ±5 डॉलर के बराबर है, और आत्मविश्वास का स्तर 95% है। पिछला शोध बताता है कि जनसंख्या मानक विचलन लगभग $25 है। = 5, σ = 25 और जेड= 1.96 (95% आत्मविश्वास स्तर के अनुरूप)। सूत्र (3) का प्रयोग करने पर हमें प्राप्त होता है:

इस तरह, एन= 96. इस प्रकार, 100 का नमूना आकार सफलतापूर्वक चुना गया था और कंपनी द्वारा आगे रखी गई आवश्यकताओं का पूरी तरह से अनुपालन करता है।

उदाहरण 2.मिडवेस्ट में एक औद्योगिक कंपनी विद्युत इंसुलेटर का उत्पादन करती है। यदि ऑपरेशन के दौरान इंसुलेटर विफल हो जाता है, तो शॉर्ट सर्किट होता है। किसी इंसुलेटर की ताकत का परीक्षण करने के लिए, कंपनी परीक्षण करती है जो इंसुलेटर को तोड़ने के लिए आवश्यक अधिकतम बल निर्धारित करती है। बल को लोड के पाउंड में मापा जाता है जिससे इंसुलेटर विफल हो जाता है (चित्र 1, कॉलम ए)। मान लीजिए हमें अनुमान लगाने की आवश्यकता है औसत ताकत 95% पर +25 पाउंड की सटीकता के साथ इन्सुलेटर विनाश विश्वास अंतरालइस मूल्य के लिए. पिछले अध्ययन का डेटा 100 पाउंड के मानक विचलन का सुझाव देता है। आवश्यक नमूना आकार निर्धारित करें.

समाधान। इसलिए, = 25, σ =100, 95% आत्मविश्वास स्तर (अर्थात् Z = 1.96) (चित्र 1)।

चावल। 1. नमूना आकार का निर्धारण

इस प्रकार, एन= 62 (आंशिक परिणाम आमतौर पर निकटतम पूर्ण संख्या तक पूर्णांकित किए जाते हैं)।

जनसंख्या में किसी विशेषता की हिस्सेदारी का अनुमान लगाने के लिए नमूना आकार का निर्धारण करना

ऊपर हमने जनसंख्या की गणितीय अपेक्षा का अनुमान लगाने के लिए नमूना आकार निर्धारित करने की एक विधि की जांच की। आइए अब मान लें कि हमें उन चालानों का अनुपात निर्धारित करने की आवश्यकता है जो कंपनी द्वारा अपनाए गए नियमों का अनुपालन नहीं करते हैं (प्रारंभिक स्थितियों के लिए, ऊपर उदाहरण 1 देखें)। सूचना प्रणाली से कितने चालान निकाले जाने चाहिए ताकि निर्मित अंतराल में एक निश्चित आत्मविश्वास स्तर हो? इस प्रश्न का उत्तर देने के लिए, हम गणितीय अपेक्षा का अनुमान लगाने के लिए नमूना आकार निर्धारित करते समय वही दृष्टिकोण लागू करते हैं।

नमूनाकरण त्रुटि सूत्र (2) द्वारा निर्धारित की जाती है। किसी विशेषता के हिस्से का अनुमान लगाते समय, मूल्य σ द्वारा प्रतिस्थापित किया जाना चाहिए। इस प्रकार, नमूनाकरण त्रुटि का सूत्र निम्नलिखित रूप लेता है:

जताते एनशेष मात्राओं के माध्यम से, हमें निम्नलिखित सूत्र प्राप्त होता है:

इस प्रकार, नमूना आकार निर्धारित करने के लिए, आपको तीन मापदंडों को जानना होगा:

  1. आवश्यक आत्मविश्वास स्तर जिसके द्वारा मूल्य निर्धारित किया जाता है जेड.
  2. स्वीकार्य नमूनाकरण त्रुटि .
  3. सफलता का सच्चा हिस्सा आर.

व्यवहार में, इन मात्राओं की गणना करना आसान नहीं है। यदि आत्मविश्वास का स्तर ज्ञात है, तो मानकीकृत का महत्वपूर्ण मूल्य सामान्य वितरण जेड. नमूनाकरण त्रुटि उस सटीकता को निर्धारित करता है जिसके साथ जनसंख्या में सफलताओं के अनुपात का अनुमान लगाया जाता है। तीसरा पैरामीटर जनसंख्या में सफलताओं की हिस्सेदारी है आर- यह बिल्कुल वही पैरामीटर है जिसका हमें मूल्यांकन करने की आवश्यकता है। तो, किसी मूल्य के परिवर्तन की सीमा का अनुमान कैसे लगाया जाए आरइसके नमूना मूल्यों द्वारा?

दो तरीके हैं. सबसे पहले, कई स्थितियों में, मूल्य का अनुमान लगाना आरपिछले अध्ययनों के परिणामों का उपयोग किया जा सकता है। दूसरे, यदि पिछले अध्ययनों से डेटा उपलब्ध नहीं है, तो कोई पैरामीटर का अनुमान लगाने का प्रयास कर सकता है आरताकि नमूना आकार को कम आंकने से बचा जा सके। कृपया ध्यान दें कि सूत्र (5) में मात्रा पी(1-पी)अंश में है. अतः इस मात्रा का अधिकतम मान ज्ञात करना आवश्यक है। जाहिर है, यह तब हासिल होता है जब आर = 0,5.

इस प्रकार, यदि जनसंख्या में किसी विशेषता का अनुपात आरयह पहले से ज्ञात नहीं है कि आपको कौन सा नमूना आकार निर्धारित करना चाहिए आर= 0.5. इस मामले में, नमूना आकार को अधिक महत्व दिया जाएगा, जिससे इसके निर्माण के लिए अतिरिक्त लागत आएगी। यदि जनसंख्या में वास्तविक सफलता दर 0.5 से बहुत भिन्न है, तो आत्मविश्वास अंतराल आवश्यकता से बहुत कम होगा। पैरामीटर अनुमान आरइस मामले में यह बहुत सटीक होगा, लेकिन आपको इसके लिए अतिरिक्त समय देना होगा एसमील और वित्तीय संसाधन।

चलिए ऑडिट समस्या पर वापस आते हैं। मान लीजिए कि ऑडिटर गलत चालानों के अनुपात वाले एक अंतराल का निर्माण करना चाहता है जिसका आत्मविश्वास स्तर 95% है। स्वीकार्य सटीकता ±0.07 है। पिछली जाँचों के नतीजे बताते हैं कि ग़लत चालानों का अनुपात 0.15 से अधिक नहीं है। इस प्रकार, = 0,07, आर= 0.15 और जेड= 1.96 (95% आत्मविश्वास स्तर के अनुरूप)। सूत्र (5) का उपयोग करके हम प्राप्त करते हैं:

इस प्रकार, 100 का नमूना आकार बिल्कुल सही ढंग से चुना गया था और कंपनी द्वारा रखी गई आवश्यकताओं को पूरी तरह से पूरा करता है।

नमूना आकार का निर्धारण,अंतिम जनसंख्या से निकाला गया

बिना लौटाए एक सीमित जनसंख्या से लिए गए नमूने के आकार को निर्धारित करने के लिए, एक सुधार कारक का उपयोग किया जाना चाहिए। उदाहरण के लिए, गणितीय अपेक्षा का अनुमान लगाते समय, नमूना त्रुटि की गणना निम्न सूत्र का उपयोग करके की जाती है:

किसी विशेषता के हिस्से का अनुमान लगाते समय, नमूनाकरण त्रुटि बराबर होती है:

गणितीय अपेक्षा या किसी विशेषता के अनुपात का अनुमान लगाने के लिए नमूना आकार की गणना करने के लिए, सूत्रों का उपयोग किया जाता है:

कहाँ एन 0 - अंतिम जनसंख्या के लिए सुधार कारक को ध्यान में रखे बिना नमूना आकार। सुधार कारक को लागू करने से निम्नलिखित सूत्र प्राप्त होता है:

लेविन एट अल पुस्तक से सामग्री का उपयोग प्रबंधकों के लिए किया जाता है। - एम.: विलियम्स, 2004. - पी. 471-476

नमूना आकार निर्धारित करने के लिए, मान का उपयोग किया जाता है जेड, लेकिन नहीं टी, गणना करने के बाद से महत्वपूर्ण मान टीनमूना आकार पहले से ज्ञात होना चाहिए। ज्यादातर मामलों में, नमूना आकार एक अच्छे अनुमान की अनुमति देता है टी- मानकीकृत सामान्य वितरण द्वारा वितरण।

95% आत्मविश्वास स्तर वाले अंतराल को दो बराबर भागों में विभाजित किया गया है। पहला भाग जनसंख्या की गणितीय अपेक्षा के बायीं ओर और दूसरा दायीं ओर स्थित है। 2.5% (0.025 क्षेत्र) की संभावना के अनुरूप Z मान -1.96 है, और 0.975 के कुल क्षेत्रफल के अनुरूप Z मान +1.96 है। गणना के लिए इसका उपयोग सुविधाजनक है एक्सेल फ़ंक्शन जेड=NORM.ST.REV(पी),कहां आर– संभाव्यता, मानों को प्रतिस्थापित करना पी 1 = 2.5% और पी 2 = 97.5%

प्रत्येक पेशे के अपने पसंदीदा प्रश्न होते हैं। बाज़ार शोधकर्ताओं के लिए, नमूना आकार का प्रश्न निस्संदेह इस सूची में सबसे ऊपर है। इसे आमतौर पर इस प्रकार तैयार किया जाता है:

  • हम मॉस्को शॉपिंग सेंटरों में आने वाले आगंतुकों पर एक अध्ययन कराना चाहेंगे। हमें किस नमूने की आवश्यकता है?
  • हमारा लक्षित दर्शक- लगभग 300,000 लोग। प्रतिनिधि बनने के लिए हमें कितने लोगों का सर्वेक्षण करने की आवश्यकता है? यदि लक्षित दर्शक 3 मिलियन हैं तो क्या होगा?
  • हमें उत्तरी रूसी शहरों के निवासियों के लिए सेंट पीटर्सबर्ग में अपार्टमेंट की बिक्री की क्षमता का आकलन करने की आवश्यकता है। मुझे कौन सा नमूना बनाना चाहिए?
नमूना आकार वास्तव में महत्वपूर्ण है क्योंकि यह भविष्य के शोध की लागत निर्धारित करता है, न कि परिणामी परिणामों और निष्कर्षों की गुणवत्ता का उल्लेख करने के लिए। इस लेख में हम गणना कैसे करें के बारे में बात करेंगे इष्टतम आकारसामूहिक सर्वेक्षण नमूने. हमारी सामग्री उन सभी के लिए उपयोगी होगी, जिन्हें किसी न किसी तरह से स्वयं विपणन अनुसंधान करने या किसी विशेष एजेंसी से ऑर्डर करने की आवश्यकता का सामना करना पड़ता है।

नमूना आकार के बारे में मुख्य ग़लतफ़हमी

बहुत से लोग मानते हैं कि लक्ष्य समूह जितना बड़ा होगा, नमूना आकार उतना ही बड़ा होना चाहिए। इसलिए, माना जाता है कि, निवासियों की राय जानने के लिए छोटा शहर, यह 200-300 लोगों का साक्षात्कार लेने के लिए पर्याप्त है, लेकिन समग्र रूप से रूस पर राय जानने के लिए, 5000 पर्याप्त नहीं होंगे।

इस बीच, इस रूढ़िवादिता का वास्तविकता से कोई लेना-देना नहीं है। नमूना आकार लक्ष्य समूह के आकार पर निर्भर नहीं करता है (सांख्यिकीय भाषा में इसे "सामान्य जनसंख्या" कहा जाता है) और दो पूरी तरह से अलग-अलग कारकों द्वारा निर्धारित किया जाता है। इस नियम का एकमात्र अपवाद ऐसे मामले हैं जब जनसंख्या बहुत छोटी है, उदाहरण के लिए, 1-2 हजार लोग, लेकिन विपणन अनुसंधान के वास्तविक अभ्यास में ऐसी स्थितियां दुर्लभ हैं।

दो कारक जो नमूना आकार निर्धारित करते हैं

सामूहिक सर्वेक्षण का नमूना आकार दो कारकों पर निर्भर करता है:

  1. आउटपुट पर प्राप्त किए जाने वाले डेटा की सटीकता वही "सांख्यिकीय त्रुटि" है। 100 उत्तरदाताओं के नमूने के लिए यह प्लस या माइनस 10% के भीतर होगा, और 1000 उत्तरदाताओं के नमूने के लिए यह प्लस या माइनस 3.1% के भीतर होगा। इसके बारे में अधिक जानकारी नीचे दी गई है।
  2. उपसमूहों की संख्या और आकार जिनमें विश्लेषण के दौरान नमूने को विभाजित किया जाना चाहिए। उदाहरण के लिए, यदि कोई चुनावी अध्ययन किया जा रहा है, तो हमारी रुचि मुख्य रूप से सक्रिय मतदाताओं के मूल में होगी। एक नियम के रूप में, "कोर" का हिस्सा शायद ही कभी कुल आबादी का 20-25% से अधिक होता है। इसलिए, नमूना आकार की गणना की जानी चाहिए ताकि इसकी कुल मात्रा का एक चौथाई पूर्ण सांख्यिकीय विश्लेषण के लिए अनुमति दे सके।
आम धारणा के विपरीत, किसी नमूने की गुणवत्ता उसके आकार से नहीं, बल्कि उसकी प्रतिनिधित्वशीलता से निर्धारित होती है। प्रतिनिधित्वशीलता प्रमुख मापदंडों पर नमूने और जनसंख्या के बीच पत्राचार है। अक्सर, आसानी से मापे जाने वाले सामाजिक-जनसांख्यिकीय संकेतकों का उपयोग ऐसे "संदर्भ बिंदु" के रूप में किया जाता है: लिंग, आयु, शिक्षा, व्यवसाय और निवास स्थान।

नमूनाकरण त्रुटि के दो प्रकार

कोई भी चयनात्मक अवलोकन (अर्थात्, जब हम सभी का साक्षात्कार नहीं लेते हैं, बल्कि सामान्य जनसंख्या से यादृच्छिक चयन करते हैं) डेटा त्रुटि से जुड़ा होता है। इस त्रुटि को आमतौर पर "नमूना त्रुटि" कहा जाता है। यह दो प्रकार का हो सकता है:

  1. व्यवस्थित- सैंपलिंग डिज़ाइन त्रुटियों से जुड़ा है। इसके आकार, दिशा और विस्थापन की डिग्री का आकलन करना बहुत मुश्किल है, अक्सर असंभव होता है। उदाहरण के लिए, यदि उत्तरदाताओं से हाशिए पर मौजूद सामाजिक वर्गों के प्रतिनिधियों से प्रश्न पूछे जाते हैं, तो इससे आबादी के अधिक समृद्ध समूहों के प्रतिनिधियों की ओर से अध्ययन में भाग लेने की इच्छा प्रभावित होगी। परिणामस्वरूप, इससे डेटा की व्यवस्थित त्रुटि और विकृति का आकलन करना बेहद मुश्किल हो जाएगा।
  2. यादृच्छिक- सांख्यिकी के नियमों की कार्रवाई से जुड़ा है। इसके आकार की गणना सूत्रों का उपयोग करके आसानी से की जाती है गणितीय सांख्यिकीऔर संभाव्यता सिद्धांत. वे आपको किसी संकेत के विश्वास अंतराल के बारे में सूचित निष्कर्ष निकालने की अनुमति देते हैं। उदाहरण के लिए, यदि सांख्यिकीय त्रुटि प्लस या माइनस 10% है, और परिणामी संकेतक मान 25% हो जाता है, तो विश्वास अंतराल 15% से 35% तक है।

शोधकर्ता का लक्ष्य इस तरह से डेटा एकत्र करना है जिससे नमूनाकरण पूर्वाग्रह कम से कम हो। तब सांख्यिकीय त्रुटि को केवल एक यादृच्छिक त्रुटि तक कम करना संभव होगा, जिसकी गणना सूत्रों का उपयोग करके की जा सकती है।

यादृच्छिक नमूनाकरण त्रुटि के आकार की गणना कैसे करें

यादृच्छिक नमूनाकरण त्रुटि न केवल नमूना आकार पर निर्भर करती है, बल्कि फैलाव पर भी निर्भर करती है, अर्थात डेटा की एकरूपता की डिग्री। डेटा जितना अधिक सजातीय होगा (अर्थात, प्राप्त मूल्यों का प्रसार, या फैलाव उतना ही छोटा होगा), कम त्रुटिनमूने.

यादृच्छिक नमूनाकरण त्रुटि की गणना के लिए एक सूत्र है, लेकिन सुविधा के लिए, हम ऑनलाइन कैलकुलेटर का उपयोग करने की सलाह देते हैं, उदाहरण के लिए, यह वाला। यह आपको दो प्रकार की गणनाएँ आसानी से करने की अनुमति देता है:

  • नमूना आकार और अनुमानित भिन्नता के आधार पर सांख्यिकीय त्रुटि की मात्रा की गणना करें;
  • सटीकता की वांछित डिग्री का अनुमान प्राप्त करने के लिए आवश्यक नमूना आकार निर्धारित करें।
इसकी कार्यशील विंडो इस प्रकार दिखती है:

आत्मविश्वास पैरामीटर (कैलकुलेटर में फ़ील्ड में से एक) आमतौर पर 95% पर सेट होता है। इसका मतलब यह है कि 95% मामलों में जनसंख्या में विशेषता का वितरण गणना किए गए आत्मविश्वास अंतराल के भीतर आएगा (यानी नमूने में विशेषता का मूल्य प्लस या माइनस सांख्यिकीय त्रुटि का आकार)। 97% या 99% का विश्वसनीयता मान कम सामान्यतः उपयोग किया जाता है - इसका क्रमशः मतलब है कि ऐसी हिट 97% या 99% मामलों में होगी। इस मामले में, नमूने की विश्वसनीयता बढ़ जाती है, लेकिन नमूना आकार बढ़ जाता है।

नमूना आकार निर्धारित करने का सबसे कठिन हिस्सा आवश्यक सटीकता और डेटा संग्रह की लागत के बीच व्यापार-बंद है। यह प्रक्रिया इस तथ्य से जटिल है कि नमूना आकार को चौगुना करने से सटीकता दोगुनी हो जाती है (तदनुसार)। वर्गमूलनमूने के आकार में वृद्धि पर)।

मामला: क्षेत्रों के खरीदारों को महानगरीय अचल संपत्ति की बिक्री के लिए बाजार की क्षमता का आकलन करने के लिए नमूना आकार का निर्धारण करना

नवंबर-दिसंबर 2016 में, हमने रूस के विभिन्न शहरों के निवासियों से मॉस्को और सेंट पीटर्सबर्ग में नई इमारतों में अपार्टमेंट की मांग का अध्ययन किया। अध्ययन में डेटा संग्रह के तीन तरीके शामिल थे: 20 से 60 वर्ष की आयु की आबादी का एक जन प्रतिनिधि सर्वेक्षण (सीएटीआई तकनीक का उपयोग करके आयोजित), साथ ही रीयलटर्स के साथ विशेषज्ञ साक्षात्कार की एक श्रृंखला और गहन साक्षात्कार संभावित खरीदारअपार्टमेंट

अध्ययन में सेंट पीटर्सबर्ग और मॉस्को रियल एस्टेट की बढ़ती मांग वाले 33 शहरों को शामिल किया गया। अध्ययन का नियोजित नमूना, सूत्रों का उपयोग करके गणना की गई, 21,500 उत्तरदाताओं की थी। यह आकार विपणन अनुसंधान में उपयोग किए जाने वाले "मानक" नमूना आकार से काफी बड़ा है। इसका संबंध किससे है? बड़े आकारनमूने?

बात यह है कि ग्राहक को प्रत्येक शहर के लिए अलग-अलग अनुमान की आवश्यकता थी, न कि केवल "पूरे देश के लिए।" वास्तव में, हम 1 नमूने के साथ काम नहीं कर रहे हैं, बल्कि प्रत्येक शहर के लिए 33 अलग-अलग नमूनों के साथ काम कर रहे हैं। सेंट पीटर्सबर्ग या मॉस्को में अपार्टमेंट खरीदने में रुचि रखने वाले लोगों की हिस्सेदारी सर्वेक्षण किए गए शहरों के निवासियों की संख्या का 5% निर्धारित की गई थी।

ग्राहक के लिए शहर के महत्व के आधार पर, एजेंसी के परियोजना प्रबंधक ने अनुमेय सांख्यिकीय त्रुटि निर्धारित की जिसके भीतर अंतिम परिणाम फिट होने चाहिए। हमने इसके लिए एमएस एक्सेल में एक विशेष मैक्रो का उपयोग किया, लेकिन ये गणना सैंपलिंग कैलकुलेटर का उपयोग करके भी की जा सकती है। परिणामस्वरूप, अध्ययन में प्रत्येक शहर के लिए नमूना आकार 500 से 1,000 उत्तरदाताओं तक भिन्न था, जिसमें कुल 21,500 लोग थे।

  1. लक्ष्य समूह की संरचना निर्धारित करें. क्या आप अलग-अलग उपसमूहों का विश्लेषण करने की योजना बना रहे हैं, या संपूर्ण नमूने का विश्लेषण पर्याप्त होगा?
  2. वांछित डेटा सटीकता निर्धारित करें। उदाहरण के लिए, यदि आपको एक वर्ष में बाजार हिस्सेदारी की गतिशीलता का अनुमान लगाने की आवश्यकता है, तो इसे एक विशेष कैलकुलेटर में प्लग करें अनुमानित मूल्यविभिन्न नमूना आकारों के साथ शेयर करें और "खेलें"।
  3. डेटा संग्रह की लागत (नमूना आकार के सीधे आनुपातिक) और आवश्यक सटीकता के बीच संतुलन खोजें।
आँकड़े सब कुछ जानते हैं। और इलफ़ और ई. पेत्रोव, "12 कुर्सियाँ"

कल्पना कीजिए कि आप एक बड़ा निर्माण कर रहे हैं शॉपिंग मॉलऔर पार्किंग क्षेत्र में प्रवेश करने वाले यातायात प्रवाह का आकलन करना चाहते हैं। नहीं, चलिए एक और उदाहरण देते हैं... वैसे भी वे ऐसा कभी नहीं करेंगे। आपको अपने पोर्टल आगंतुकों की स्वाद प्राथमिकताओं का आकलन करने की आवश्यकता है, जिसके लिए आपको उनके बीच एक सर्वेक्षण करने की आवश्यकता है। डेटा की मात्रा और संभावित त्रुटि का समाधान कैसे करें? कुछ भी जटिल नहीं - आपका नमूना जितना बड़ा होगा, त्रुटि उतनी ही कम होगी। हालाँकि, यहाँ भी बारीकियाँ हैं।

सैद्धांतिक न्यूनतम

आपकी याददाश्त को ताज़ा करने में कोई दिक्कत नहीं होगी; ये शब्द बाद में हमारे लिए उपयोगी होंगे।

  • जनसंख्या- सभी वस्तुओं का समूह जिसके बीच अनुसंधान किया जाता है।
  • नमूना- उपसमुच्चय, संपूर्ण जनसंख्या से वस्तुओं का वह भाग जो सीधे अध्ययन में शामिल होता है।
  • पहली तरह की गलती- (α) सत्य होने पर शून्य परिकल्पना को अस्वीकार करने की संभावना।
  • दूसरे प्रकार की त्रुटि- (β) संभाव्यता नहींशून्य परिकल्पना असत्य होने पर अस्वीकार करें।
  • 1 - β- कसौटी की सांख्यिकीय शक्ति.
  • μ 0 और μ 1- शून्य और वैकल्पिक परिकल्पनाओं के अंतर्गत औसत मान।


पहले और दूसरे प्रकार की त्रुटियों की परिभाषा में पहले से ही बहस और व्याख्या के लिए जगह है। उन पर निर्णय कैसे लिया जाए और किसे शून्य के रूप में चुना जाए? यदि आप मिट्टी या जल प्रदूषण के स्तर की जांच कर रहे हैं, तो आप शून्य परिकल्पना कैसे तैयार करेंगे: प्रदूषण मौजूद है, या कोई प्रदूषण नहीं है? लेकिन इससे नमूना आकार निर्भर करता हैवस्तुओं की सामान्य जनसंख्या से.



मूल जनसंख्या, साथ ही नमूनाकोई भी वितरण हो सकता है, लेकिन माध्य है सामान्यया गाऊसी वितरणकेंद्रीय सीमा प्रमेय को धन्यवाद.


वितरण के मापदंडों और विशेष रूप से माध्य मान के संबंध में, कई प्रकार के अनुमान संभव हैं। पहलाउनमें से एक को बुलाया जाता है विश्वास अंतराल. यह निर्दिष्ट के साथ संभावित पैरामीटर मानों की सीमा को इंगित करता है आत्मविश्वास कारक. तो उदाहरण के लिए 100(1-α)% विश्वास अंतरालके लिए μ इस प्रकार होगा (लव. 1)।




दूसराअनुमान से - परिकल्पना परीक्षण. यह कुछ इस तरह हो सकता है.

  • H0: μ = एच
  • एच 1: μ > एच
  • H2: μ< h

साथ विश्वास अंतराल 100(1-α) के लिए μ आप एच 1 और एच 2 के बीच चयन कर सकते हैं:

  • यदि निचली सीमा विश्वास अंतराल 100(1-α)< h , то тогда एच 0 को अस्वीकार करें H2 के पक्ष में.
  • यदि ऊपरी सीमा विश्वास अंतराल 100(1-α) > एच, फिर एच 0 को अस्वीकार करेंएच 1 के पक्ष में.
  • अगर विश्वास अंतराल 100(1-α) में h शामिल है, तो हम H 0 को अस्वीकार नहीं कर सकते यह परिणाम अनिश्चित माना जाता है.

यदि हमें मूल्य की जांच करने की आवश्यकता है μ एक के लिए नमूनेसमग्रता से, तभी कसौटी रूप लेगी।



कॉन्फिडेंस इंटरवल, त्रुटि की गुंजाइश और नमूना आकार

आइए सबसे पहला समीकरण लें और वहां से चौड़ाई व्यक्त करें विश्वास अंतराल(लव. 2).



कुछ मामलों में, हम विद्यार्थी के t-सांख्यिकी को मानक सामान्य वितरण के z से प्रतिस्थापित कर सकते हैं। एक और सरलीकरण के साथ, हम आधे को प्रतिस्थापित करते हैं डब्ल्यूमाप त्रुटि ई पर। तब हमारा समीकरण (समीकरण 3) का रूप लेगा।



जैसा कि हम देखते हैं इनपुट डेटा की संख्या बढ़ने पर त्रुटि वास्तव में कम हो जाती है. जहां से आप जो खोज रहे हैं उसे प्राप्त करना आसान है (लव. 4)।


अभ्यास - R से गिनती करें

आइए इस परिकल्पना की जाँच करें कि जाल में कीड़ों की संख्या के इस नमूने का औसत मूल्य 1 के बराबर है।

  • एच 0: μ = 1
  • एच 1: μ > 1
कीड़े 0 1 2 3 4 5 6
जाल 10 9 5 5 1 2 1

>x<- read.table("/tmp/tcounts.txt") >y = असूचीबद्ध(x, उपयोग.नाम='झूठा'') > माध्य(z);sd(z) 1.636364 1.654883

ध्यान दें कि माध्य और मानक विचलन लगभग बराबर हैं, जो पॉइसन वितरण के लिए स्वाभाविक है। छात्र के टी-सांख्यिकी और डीएफ=32 के लिए 95% आत्मविश्वास अंतराल।


> क्यूटी(.975, 32) 2.036933

और अंततः हमें औसत मान के लिए क्रांतिक अंतराल प्राप्त होता है: 1.05 - 2.22 .


> μ=माध्य(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

परिणामस्वरूप, H 0 को अस्वीकार कर दिया जाना चाहिए और H 1 को स्वीकार कर लिया जाना चाहिए क्योंकि 95% की संभावना के साथ, μ > 1.


उसी उदाहरण में, यदि हम मान लें कि हम वास्तविक मानक विचलन जानते हैं - σ , और यादृच्छिक नमूने का उपयोग करके प्राप्त इसका अनुमान नहीं, किसी दी गई त्रुटि के लिए आवश्यक n की गणना करना संभव है। आइए E=0.5 की गणना करें।


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

पवन सुधार

दरअसल, यह मानने का कोई कारण नहीं है कि हम जान लेंगे σ (विचरण), जबकि μ (औसत) हमें अभी अनुमान लगाना बाकी है। इस वजह से, विशेष रूप से परिष्कृत कॉम्बिनेटरिक्स उदाहरणों को छोड़कर समीकरण 4 का व्यावहारिक उपयोग बहुत कम है, और अज्ञात को देखते हुए n के लिए एक यथार्थवादी समीकरण कुछ अधिक जटिल है σ (लव. 5).



ध्यान दें कि σ अंतिम समीकरण में कैप (^) के साथ नहीं, बल्कि टिल्ड (~) के साथ। यह इस बात का परिणाम है कि शुरुआत में ही हमारे पास कोई मूल्यांकनकर्ता भी नहीं होता है मानक विचलनयादृच्छिक नमूना - , और इसके बजाय हम उपयोग करते हैं की योजना बनाई- . हम बाद वाला कहाँ से प्राप्त करते हैं? हम कह सकते हैं कि यह अचानक सामने आया: विशेषज्ञ मूल्यांकन, मोटा अनुमान, पिछला अनुभव, आदि।


5वें समीकरण के दाईं ओर दूसरे पद के बारे में क्या, वह कहाँ से आया है? चूंकि, गुंटर का सुधार जरूरी है.


समीकरण 4 और 5 के अलावा, अनुमान लगाने के कई और सूत्र हैं, लेकिन यह पहले से ही एक अलग पोस्ट के योग्य है।

एक अच्छी तरह से डिज़ाइन किए गए अध्ययन के मुख्य घटकों में से एक नमूना को परिभाषित करना है और एक प्रतिनिधि नमूना क्या है। यह केक उदाहरण की तरह है. आख़िरकार, आपको इसका स्वाद समझने के लिए पूरी मिठाई खाने की ज़रूरत नहीं है? एक छोटा सा हिस्सा ही काफी है.

तो, केक है जनसंख्या (अर्थात, सभी उत्तरदाता जो सर्वेक्षण के लिए पात्र हैं)। इसे भौगोलिक रूप से व्यक्त किया जा सकता है, उदाहरण के लिए, केवल मॉस्को क्षेत्र के निवासियों के लिए। लिंग - केवल महिलाएँ। या आयु प्रतिबंध है - 65 वर्ष से अधिक उम्र के रूसी।

जनसंख्या की गणना करना कठिन है: आपके पास जनसंख्या जनगणना या प्रारंभिक मूल्यांकन सर्वेक्षण से डेटा होना आवश्यक है। इसलिए, आमतौर पर सामान्य जनसंख्या का "अनुमान" लगाया जाता है, और परिणामी संख्या से उनकी गणना की जाती है नमूना जनसंख्याया नमूना.

प्रतिनिधि नमूना क्या है?

नमूना- यह उत्तरदाताओं की स्पष्ट रूप से परिभाषित संख्या है। इसकी संरचना चयन की मुख्य विशेषताओं के संदर्भ में सामान्य जनसंख्या की संरचना के साथ यथासंभव मेल खाना चाहिए।

उदाहरण के लिए, यदि संभावित उत्तरदाता रूस की पूरी आबादी हैं, जहां 54% महिलाएं और 46% पुरुष हैं, तो नमूने में बिल्कुल वही प्रतिशत होना चाहिए। यदि पैरामीटर मेल खाते हैं, तो नमूने को प्रतिनिधि कहा जा सकता है। इसका मतलब यह है कि अध्ययन में अशुद्धियाँ और त्रुटियाँ न्यूनतम हो जाती हैं।

नमूना आकार सटीकता और मितव्ययता की आवश्यकताओं को ध्यान में रखते हुए निर्धारित किया जाता है। ये आवश्यकताएं एक-दूसरे के विपरीत आनुपातिक हैं: नमूना आकार जितना बड़ा होगा, परिणाम उतना ही सटीक होगा। इसके अलावा, सटीकता जितनी अधिक होगी, अध्ययन करने के लिए उतनी ही अधिक लागत की आवश्यकता होगी। और इसके विपरीत, नमूना जितना छोटा होगा, उसकी लागत उतनी ही कम होगी, सामान्य आबादी के गुणों को कम सटीक और अधिक यादृच्छिक रूप से पुन: प्रस्तुत किया जाएगा।

इसलिए, पसंद की मात्रा की गणना करने के लिए, समाजशास्त्रियों ने एक सूत्र का आविष्कार किया और बनाया विशेष कैलकुलेटर:

आत्मविश्वास की संभावनाऔर आत्मविश्वास त्रुटि

शर्तें क्या करती हैं " आत्मविश्वास की संभावना" और " आत्मविश्वास त्रुटि"? आत्मविश्वास की संभावना माप सटीकता का एक संकेतक है। और कॉन्फिडेंस एरर शोध परिणामों में एक संभावित त्रुटि है। उदाहरण के लिए, 500,00 से अधिक लोगों की आबादी के साथ (मान लें कि नोवोकुज़नेत्स्क में रहते हैं), नमूना 384 लोगों का होगा आत्मविश्वास की संभावना 95% और त्रुटि का मार्जिन 5% या (95±5% के विश्वास अंतराल के साथ)।

इससे क्या निष्कर्ष निकलता है? ऐसे नमूने (384 लोगों) के साथ 100 अध्ययन करते समय, 95 प्रतिशत मामलों में, सांख्यिकी के नियमों के अनुसार, प्राप्त उत्तर मूल के ±5% के भीतर होंगे। और हमें सांख्यिकीय त्रुटि की न्यूनतम संभावना वाला एक प्रतिनिधि नमूना मिलेगा।

नमूना आकार की गणना करने के बाद, आप देख सकते हैं कि प्रश्नावली पैनल के डेमो संस्करण में उत्तरदाताओं की पर्याप्त संख्या है या नहीं। आप पैनल सर्वेक्षण कैसे करें इसके बारे में अधिक जानकारी प्राप्त कर सकते हैं।