Що таке репрезентативність вибіркової сукупності

Репрезентативність

Репрезентативність (від фр. representant — представник) — здатність вибіркової сукупності відтворювати основні характеристики генеральної сукупності. Репрезентативність досягається за рахунок правильного формування вибірки, яка за принциповими для дослідження параметрами має відтворювати загальний об’єкт дослідження.

Вибірка не може абсолютно точно відтворювати генеральну сукупність, тому вона завжди матиме певні відхилення від неї. Помилка репрезентативності — відхилення вибіркової сукупності за певними характеристиками від генеральної сукупності. Чим більша величина відхилень, тим значніша помилка репрезентативності, тим нижча якість отриманих даних. Головне завдання на цьому етапі соціологічного дослідження — врахувати помилку репрезентативності під час інтерпретації та узагальнення результатів дослідження, проведеного із застосуванням вибіркового методу.

Значну роль у визначенні якості інформації, отриманої в результаті емпіричного дослідження, окрім репрезентативності, відіграють такі параметри, як надійність і валідність.

Oops something went wrong:

Приклад формування репрезентативної вибірки

Уявімо, що ми запланували опитування, репрезентативне для студентів бакалаврської програми певного університету. Як можна було б розрахувати та сформувати вибірку в цьому разі? Спробуймо покроково пройти всі запитання, відповіді на які приведуть нас до сформованої вибірки.

Крок 1. Хто є генеральною сукупністю та що нам уже відомо про цю сукупність?

Наша генеральна сукупність – студенти-бакалаври університету. Нехай ми з’ясували в студентському відділі кадрів, що розподіл за спеціальностями та роками навчання є таким, як наведено в таблиці 4.6.

Приклад формування репрезентативної вибірки

Таблиця 4.6. Уявний приклад: розподіл за факультетами, спеціальностями та роками навчання студентів бакалаврату

Роки навчання

спеціальностями

Факультет А

Факультет Б

Факультет В

Разом за роками навчання

Крок 2. Яким має бути обсяг вибірки? Щоб відповісти на це запитання, потрібно визначитися з низкою інших.

  • 2.1. Яку кількість людей реально опитати, зважаючи на обсяг анкети та час, який дослідники можуть приділити цьому проекту?
  • 2.2. Яким є обсяг генеральної сукупності? Якщо він невідомий, можемо працювати з формулою для нескінченно великої генеральної сукупності. У цьому прикладі обсяг генеральної сукупності відомий – 2439 (див. таблицю 4.6).
  • 2.3. Наші висновки мають стосуватися студентів бакалаврату загалом чи також певних категорій генеральної сукупності? Наприклад, висновки для чоловіків і жінок? Для студентів різних років навчання? Для студентів різних факультетів? Різних спеціальностей?
  • 2.4. Яка максимальна похибка та з якою імовірністю є прийнятною для висновків щодо всієї генеральної сукупності, щодо певних її підкатегорій? У цьому разі дизайн-ефект дорівнюватиме одиниці, адже ми не утворюватимемо підвибірок, а отже, теоретична похибка і буде дійсною похибкою.
  • • максимальний розмір вибірки, зважаючи на наявні ресурси для проведення опитування, – 550, але бажано, щоб вибірка була якомога меншою;
  • • прийнятна ймовірність – 0,9545;
  • • прийнятна похибка висновків для студентів бакалаврату загалом – до 5%;
  • • прийнятна похибка висновків для студентів за факультетами й роками навчання – до 10%.

Якби нас цікавили висновки для студентів бакалаврату загалом, то розмір теоретичної вибірки ми порахували б таким чином:

n = 1 / (Δ2 + 1/Ν) = 1 / (0,052 + 1/2439) = 344

(значення округлене до цілого числа).

На цьому розрахунок можна було б завершити, якби не та обставина, що нас цікавлять висновки, репрезентативні не лише для студентів бакалаврату загалом, а й для студентів певних факультетів і певних років навчання. Чи забезпечить вибірка обсягом 344 особи похибку для висновків за роками навчання й факультетами до 10%? Щоб перевірити це, здійснімо розрахунки похибки для кожного року навчання та кожного факультету, виходячи з того, що загальна кількість респондентів – 344. Результати відповідних розрахунків представлені в таблиці 4.7.

Таблиця 4.7. Уявний приклад: похибки вибірок, репрезентативних для студенів кожного з факультетів і років навчання

Разом за факультетами

Частка в генеральній сукупності

Кількість у вибірці

Похибка за ймовірності 0,9545

Похибка за ймовірності 0,950

Разом за роками навчання

Частка в генеральній суєтності

Пониження ймовірності з 0,9545 до 0,950 дає нам змогу декларувати результати для факультетів і років навчання в межах похибки 10,0. Альтернативно ми могли б залишити незмінною ймовірність та збільшити розмір вибірки, щоб залишитися в межах цієї похибки.

Кількість у вибірці

Похибка за ймовірності 0,9545

Похибка за ймовірності 0,950

У таблиці 4.7 можемо побачити, що незначне перевищення запланованої похибки для ймовірності 0,9545 виникає для двох категорій: студентів третього й четвертого років навчання (виділені в таблиці). Насправді незначне перевищення є також для факультету В, але воно непомітне після округлення до сотих (точніший результат – 0,10041).

У цьому конкретному прикладі перевищення похибки настільки невелике, що маємо вибір між трьома можливими рішеннями:

  • 1) писати “похибка не перевищує 10,1% з імовірністю 0,9545” замість “10,0%”;
  • 2) збільшити вибірку, щоб залишитися в межах похибки 10,0%;
  • 3) залишити той самий розмір вибірки, але трохи понизити ймовірність (наприклад, до 0,950), щоб зберегти формулювання “похибка не перевищує 10,0%”.

Найімовірніше, саме третій варіант і був би обраний на практиці. Адже, з одного боку, це позбавляє нас необхідності здійснювати розрахунки нового розміру вибірки. А з іншого – багатьом людям цілі числа подобаються більше, ніж з десятими.

Отже, зупинимося на ймовірності 0,95 рівно та вибірці 344 студенти. Однак навіть за такого рішення нам варто запланувати опитати дещо більшу кількість людей, ніж розрахована вибірка. Певний запас потрібен на той випадок, якщо деякі анкети доведеться забракувати. Які саме анкети ΰ чому можуть бути виключені з аналізу? Є дві можливі причини, з яких анкету може бути доцільно виключити з аналізу.

  • • Респондент відмовився відповісти на значну [1] кількість запитань анкети.
  • • Відповіді респондента суперечать одна одній.

Останнє означає, що або респондент не зосередився достатньою мірою на опитуванні, або інтерв’юер спрацював неякісно (чи навіть сфальшував анкету, бо полінувався реально опитати). Відповідно те, який саме запас давати, залежить від наших очікувань щодо інтерв’юерів та респондентів. Нехай ми очікуємо, що 370 є значенням із достатнім запасом: якщо опитаємо 370, то матимемо щонайменше 344 анкети для аналізу, а отже, залишимося в межах запланованих похибок.

Таким чином, ми визначили кількість респондентів у нашій вибірці (їх 370). Тепер нам потрібно визначити методику відбору цих 370 осіб: як саме відбиратимемо студентів для опитування?” [2]

Крок 3. Чи є повний список одиниць генеральної сукупності? Яку саме інформацію він містить? Від відповіді на це питання залежить:

  • • які методики відбору респондентів нам доступні, які ні;
  • • які методи опитування нам доступні (телефоном, електронною поштою, при зустрічі).

Якщо такий список нам не можуть надати, доведеться планувати відбір респондентів у форматі екзит-полу: опитувати студентів кожної спеціальності на виході з обов’язкового для відвідування заняття. При цьому, щоб забезпечити репрезентативність, необхідно буде чітко дотримуватися певного кроку відбору респондентів: наприклад, запрошувати до інтерв’ю кожного 5-го чи кожного 8-го, хто виходить з аудиторії. Відповідно формат екзит- полів є складнішим і значно більш стресовим для організаторів опитування й інтерв’юерів. Натомість, маючи списки студентів, ми можемо в спокійній обстановці відібрати випадковим чином потрібну кількість респондентів на кожній спеціальності та на кожному році навчання й дати можливість інтерв’юерам у спокійному режимі домовлятися про інтерв’ю з конкретно визначеними людьми.

Якщо студентський відділ кадрів готовий надати для дослідження перелік усіх студентів із зазначенням їхньої спеціальності, року навчання, номера телефону й поштової адреси (або електронної), то ми могли б обрати, яке саме опитування доречніше: телефонне, поштове чи при зустрічі. Якщо список студентів можуть надати, але без контактної інформації, тоді єдиний варіант – проводити опитування при зустрічі.

Якщо в нас є список усіх студентів, можна піти найпростішим шляхом: відібрати за цим списком випадковим чином необхідну кількість респондентів. Наприклад, розташувати всі прізвища за абеткою та відібрати кожного двадцятого, дванадцятого або десятого в списку залежно від розміру вибірки (у разі нашої вибірки це був би кожен шостий або сьомий, що буде пояснено нижче). А потім розшукати відповідних студентів на парах і домовитися про участь в опитуванні.

Такий метод є простим, зручним і коректним, але не оптимальним для максимально точного результату. За такої методики відбору респондентів збільшиться похибка результатів за факультетами й роками навчання: кількість опитаних студентів певного року навчання або факультету може відрізнятися від генеральної сукупності до 5% подібно до інших характеристик респондентів (стать, вік абощо). Відповідно для максимальної точності бажано, щоб пропорції факультетів, спеціальностей і років навчання у вибірці точно відповідали пропорціям у генеральній сукупності. Інакше доведеться перераховувати похибки, зважаючи на те, скільки саме осіб певного факультету або року навчання насправді потрапили до вибірки.

Щоб зберегти пропорцію, потрібно спершу трансформувати дані з таблиці 4.6 у частки генеральної сукупності, а потім помножити ці частки на 370 – визначену нами кількість респондентів. Результати відповідних розрахунків представлені в таблицях 4.8 та 4.9.

Таблиця 4.8. Уявний приклад: розподіл часток за факультетами, спеціальностями та роками навчання студентів бакалаврату (округлення до сотих)

Роки навчання

Разом за факультетами та спеціальностями

Репрезентативний зразок

У цій статті пояснюється, що таке репрезентативна вибірка та що робити, щоб отримати репрезентативну вибірку в статистиці. Крім того, ви зможете побачити приклад, який пояснює, як отримати репрезентативну вибірку.

Що таке репрезентативна вибірка?

У статистиці репрезентативна вибірка — це така, яка адекватно репрезентує окремих осіб у сукупності. Іншими словами, репрезентативна вибірка — це частина генеральної сукупності, характеристики якої подібні до сукупності, яку вона представляє.

Щоб вибірка була репрезентативною, вона повинна мати ті самі характеристики, що й сукупність. Таким чином можна виконати обчислення статистичних параметрів із вибірковими даними, які служать оцінками параметрів сукупності.

Репрезентативна вибірка дає змогу зменшити економічні витрати на статистичне дослідження, оскільки, логічно, дешевше опитувати частину сукупності, ніж аналізувати кожного її індивіда. Однак розмір вибірки не може бути занадто малим, оскільки вибірка не представлятиме сукупність належним чином. Підсумовуючи, розмір репрезентативної вибірки має бути адекватним, не надто великим і не надто малим.

Як отримати репрезентативну вибірку

Отримання репрезентативної вибірки полягає не просто у виборі відсотка статистичної сукупності, але репрезентативність вибірки залежить від кількох факторів, таких як метод вибірки, межа похибки, рівень достовірності тощо.

По-перше, для отримання репрезентативної вибірки необхідно використовувати відповідну техніку відбору . Існує кілька типів вибірки, і кожна з них підходить для певного типу вибірки. Отже, залежно від властивостей зразка краще використовувати ту чи іншу методику відбору.

За наступним посиланням ви можете побачити різні типи вибірки та який тип вибірки ідеальний для кожної ситуації. Тому ми рекомендуємо вам перейти за наведеним нижче посиланням, щоб дізнатися, який тип вибірки підходить для вашого випадку.

Крім того, вам потрібно уникати помилок вибірки. Помилка вибірки — це помилка, допущена в процесі отримання вибірки, яка призводить до того, що характеристики вибірки відрізняються від характеристик сукупності. Таким чином, оцінка параметрів популяції через вибіркові дані є некоректною. Тому слід звернути увагу як на процес відбору проб, так і на обраний метод.

По-друге, репрезентативна вибірка має бути відповідного розміру . Щоб вибірка представляла властивості сукупності, кількість спостережень у вибірці має бути достатньо великою. З іншого боку, розмір вибірки не може бути занадто великим, оскільки ціна дослідження стає вищою. Коротше кажучи, необхідно знайти баланс між репрезентативністю та вартістю вибірки, щоб вибрати ідеальний розмір вибірки.

Таким чином, щоб обчислити відповідний розмір вибірки, необхідно врахувати кілька факторів, а потім застосувати формулу. Ви можете побачити, як розраховується розмір вибірки, натиснувши таке посилання:

Приклад репрезентативної вибірки

  • Ми хочемо провести статистичне дослідження витрат населення Мексики на автомобіль, щоб дізнатися, скільки в середньому витрачає на автомобіль людина віком від 25 до 65 років. Якщо ми припустимо, що стандартне відхилення статистичної сукупності становить приблизно 45 000 доларів США, і нам потрібна похибка ± 1000 доларів США при 95% рівні довіри, поясніть, як отримати репрезентативну вибірку.

По-перше, нам потрібно розрахувати мінімальний розмір вибірки, щоб вибірка була репрезентативною за бажаних умов. Для цього застосовуємо формулу розміру вибірки:

Примітка. Якщо ви не розумієте попередній крок, ви можете ознайомитися з докладним поясненням того, як обчислити відповідний розмір вибірки, у статті, посилання на яку наведено вище.

Отже, нам потрібно запитати принаймні 7780 людей, скільки їм коштує їхня машина. Однак Мексика — дуже велика країна з великою кількістю людей, тому ми не можемо жодним чином відібрати людей, але ми повинні застосувати належний метод вибірки.

У цьому випадку ми можемо використовувати метод кластерної вибірки . Оскільки це дуже велика країна, вибір кількох людей з кожного регіону зайняв би багато часу. Однак, коли ми використовуємо метод кластерної вибірки, нам потрібно лише випадковим чином вибрати певні регіони країни, а потім випадковим чином вибрати певну кількість людей з кожного регіону. регіону і, нарешті, проаналізувати вибраних людей.

Наприклад, оскільки нам потрібно щонайменше 7780 людей, ми можемо навмання вибрати вісім територіальних областей Мексики та навмання вибрати 1000 людей з кожної географічної області. Таким чином ми застосовуємо адекватний метод вибірки, і в той же час розмір вибірки достатньо великий, щоб бути репрезентативним.

Крім того, ми повинні мати на увазі, що ми не можемо вибрати когось для проведення опитування, оскільки в цьому випадку ми хочемо провести дослідження ринку лише серед дорослих віком від 25 до 65 років. Тому необхідно переконатися, що відібрані для статистичного дослідження люди належать до цієї вікової групи.

Важливість репрезентативної вибірки

По суті, важливо, щоб вибірка статистичного дослідження була репрезентативною, щоб отримані результати можна було застосувати до всієї сукупності. Якщо досліджувана вибірка не є репрезентативною, будуть отримані результати, які не збігатимуться з генеральною сукупністю, а отже, будуть зроблені помилкові висновки.

Подібним чином, важливість репрезентативності вибірки також відображається в оцінці статистичних параметрів. Загалом значення статистичних параметрів вважаються репрезентативними для сукупності, однак, якщо вибірка не є репрезентативною, статистичні параметри будуть неправильними.

Таким чином, для того, щоб вибірка була репрезентативною, вона має бути достатньо великою, щоб відображати характеристики всієї сукупності, хоча вона не може бути надмірно великою, оскільки тоді дослідження стає дорожчим. Так само метод вибірки має бути відповідним для забезпечення репрезентативності вибірки. І якщо будь-яка з цих умов не виконується, вибірка не буде репрезентативною, а отже, результати, отримані під час опитування, будуть помилковими.

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше

Related Post

Можна материнку при вагітностіМожна материнку при вагітності

Зміст:1 Чи можна материнку при вагітності на ранніх термінах1.1 Властивості материнки1.2 Чи небезпечна материнка для вагітних?1.3 Протипоказання до застосування1.4 Особливості застосування материнки при вагітності1.5 Материнка в першому триместрі1.6 Прийом материнки

Скільки зараз платять багатодітним сім’ямСкільки зараз платять багатодітним сім’ям

Згідно з пунктом 9 Порядку у разі коли в сім'ї одночасно народилося двоє і більше дітей, внаслідок чого сім'я набула статусу багатодітної, виплата допомоги здійснюється на кожну таку дитину. Допомога