Metodologia cercetării prin sondaj reunește deciziile care fac diferența între un set de date credibil și o colecție de răspunsuri greu de interpretat. De la modul în care este ales eșantionul până la formularea fiecărei întrebări, fiecare alegere influențează cât de aproape sunt rezultatele de realitatea populației studiate.
Un sondaj nu măsoară niciodată întreaga populație. El observă un grup mic de oameni și folosește acele observații pentru a estima ce gândește sau cum se comportă un grup mult mai mare. Calitatea acestei estimări depinde de patru piloni: cum a fost selectat eșantionul, cât de mare este, cum au fost formulate întrebările și câți dintre cei contactați au răspuns efectiv. Acest ghid trece prin fiecare dintre acești piloni și prin sursele de eroare care îi pot submina.
Populație și eșantion
Populația este grupul total despre care se dorește o concluzie: toți adulții dintr-o țară, toți clienții unui magazin, toți angajații unei companii. Eșantionul este subgrupul efectiv chestionat. Diferența cheie este că eșantionul trebuie să fie reprezentativ — adică structura lui (vârstă, gen, regiune, venit, alte caracteristici relevante) să oglindească structura populației. Un eșantion mare, dar nereprezentativ, produce rezultate eronate cu o precizie aparentă, ceea ce este mai periculos decât un eșantion mic și onest.
Reprezentativitatea nu este garantată de mărime. Un sondaj cu zece mii de răspunsuri colectate doar de la utilizatorii unei singure aplicații nu reprezintă populația generală, oricât de impresionant ar părea numărul. Detaliile despre formularea efectivă a întrebărilor sunt tratate separat în secțiunea despre tipuri de întrebări.
Marja de eroare și nivelul de încredere
Pentru că un sondaj observă doar o parte din populație, rezultatul vine întotdeauna cu o incertitudine. Aceasta se exprimă prin doi termeni care merg împreună:
Marja de eroare
Intervalul în jurul rezultatului în care se află, cu mare probabilitate, valoarea reală. Dacă un sondaj arată 52% cu o marjă de ±3%, valoarea reală se află, foarte probabil, între 49% și 55%.
Nivelul de încredere
Cât de des, dacă sondajul ar fi repetat de multe ori, valoarea reală ar cădea în interiorul marjei. Standardul de fapt în cercetarea prin sondaj este 95%, ceea ce înseamnă că în 19 din 20 de repetări intervalul ar conține valoarea adevărată.
Cei doi termeni nu pot fi separați. O marjă de ±3% are sens doar atunci când i se atașează un nivel de încredere; aceeași marjă raportată la 90% încredere și la 99% încredere descrie două situații diferite. Când un sondaj raportează doar procentul, fără marjă și fără nivel de încredere, cititorul nu poate evalua cât de solid este rezultatul.
Reprezentarea de mai sus arată legătura inversă dintre mărimea eșantionului și marja de eroare: pentru a înjumătăți marja nu este suficient să dublezi eșantionul, ci trebuie aproximativ să îl împătrești. De aceea creșterea preciziei devine din ce în ce mai costisitoare pe măsură ce eșantionul crește.
Cât de mare trebuie să fie eșantionul
O întrebare frecventă este câți respondenți sunt necesari. Pentru o populație mare (de ordinul zecilor de mii sau mai mult), la un nivel de încredere de 95% și pentru proporția cea mai prudentă (50/50), mărimile orientative sunt:
| Marja de eroare (±) | Mărime eșantion aproximativă | Observații |
|---|---|---|
| ±10% | 96 | Doar pentru explorare rapidă, nu pentru concluzii ferme |
| ±5% | 385 | Pragul uzual pentru un sondaj credibil |
| ±4% | 600 | Precizie bună pentru analize pe subgrupuri |
| ±3% | 1067 | Standardul tipic al sondajelor de opinie |
| ±2% | 2401 | Necesar când diferențele măsurate sunt mici |
| ±1% | 9604 | Rar justificat economic în afara studiilor mari |
Aceste valori presupun o populație foarte mare. Când populația este mică (de exemplu cei 80 de angajați ai unui departament), se aplică o corecție pentru populații finite care reduce mărimea necesară: dincolo de un anumit punct nu mai are sens să crești eșantionul, fiindcă te apropii de a chestiona pe toată lumea. Calculul detaliat și exemple numerice suplimentare sunt prezentate în ghidul despre mărimea eșantionului.
Tipuri de eșantionare
Modul în care sunt selectați respondenții determină dacă marja de eroare are vreun sens. Metodele se împart în două familii: probabiliste, în care fiecare membru al populației are o șansă cunoscută de a fi selectat, și neprobabiliste, în care nu există o astfel de garanție.
Eșantionare aleatorie simplă
Fiecare membru al populației are exact aceeași probabilitate de a fi ales, ca la o extragere prin tragere la sorți. Este metoda de referință teoretică, pe care se bazează formulele marjei de eroare, dar necesită o listă completă a populației, ceea ce nu este întotdeauna disponibil.
Eșantionare stratificată
Populația este împărțită în straturi omogene (de exemplu pe grupe de vârstă sau regiuni), iar din fiecare strat se extrage aleatoriu un număr proporțional. Avantajul este o precizie mai bună și garanția că toate subgrupurile relevante sunt reprezentate.
Eșantionare pe cote
Operatorii primesc ținte (cote) pentru anumite categorii — de exemplu un anumit număr de femei între 30 și 45 de ani — și completează aceste cote cum pot. Este folosită des în cercetarea comercială fiindcă este rapidă și ieftină, dar nu este o metodă probabilistă, deci marja de eroare calculată este doar aproximativă.
Eșantionare de conveniență
Respondenții sunt cei ușor de accesat: vizitatorii unui site, oamenii dintr-o piață, urmăritorii unei pagini. Este cea mai slabă metodă din punct de vedere al reprezentativității și nu permite generalizări corecte la întreaga populație, oricât de mulți respondenți s-ar aduna.
Surse de bias
Biasul este o eroare sistematică, nu aleatorie. Spre deosebire de marja de eroare, care se reduce mărind eșantionul, biasul nu dispare prin mai mulți respondenți — el deformează rezultatul într-o direcție constantă. Trei tipuri sunt deosebit de frecvente:
Bias de selecție
Apare când modul de recrutare favorizează anumite persoane. Un sondaj difuzat doar online exclude cei fără acces la internet; unul realizat doar dimineața exclude cei care lucrează în acel interval.
Bias de non-răspuns
Apare când cei care refuză să răspundă diferă sistematic de cei care răspund. Dacă persoanele nemulțumite de un serviciu evită chestionarul, satisfacția măsurată va fi artificial ridicată.
Bias de formulare
Apare când întrebarea însăși înclină răspunsul. Întrebările care sugerează un răspuns, presupun ceva nedemonstrat sau folosesc etichete dezechilibrate produc date distorsionate. Acest fenomen este detaliat în ghidul despre întrebări tendențioase.
Rata de răspuns merită urmărită explicit: un sondaj trimis la 5000 de persoane din care răspund 150 are o rată de 3%, iar cei 150 nu sunt neapărat reprezentativi pentru cei 5000. O rată de răspuns scăzută este un semnal de alarmă pentru posibil bias de non-răspuns.
De la metodă la chestionar
O metodologie solidă se reflectă și în instrumentul concret. Un chestionar bine construit începe cu întrebări filtru pentru a confirma că respondentul aparține populației țintă, folosește scale echilibrate precum scala Likert, evită întrebările duble și testează formularea pe un grup pilot înainte de lansare. Pentru a vedea cum se transpun aceste principii în practică, sunt utile modelele de chestionar pe domenii, iar termenii folosiți aici sunt explicați în glosar. Pentru contextul aplicat al colectării online, există ghidul dedicat sondajelor online.
Întrebări frecvente
Ce înseamnă o marjă de eroare de ±3%?
Înseamnă că valoarea reală din populație se află, cu nivelul de încredere declarat (de obicei 95%), într-un interval de trei puncte procentuale în jurul rezultatului raportat. Un rezultat de 50% cu ±3% indică un interval real de 47%–53%.
De ce nu pot reduce marja doar mărind puțin eșantionul?
Pentru că marja scade cu rădăcina pătrată a mărimii eșantionului. Ca să o înjumătățești, trebuie să împătrești numărul de respondenți, nu doar să îl dublezi.
Un eșantion de 1000 de oameni e suficient pentru o țară întreagă?
Da, pentru o populație mare 1000 de respondenți dau o marjă în jur de ±3% la 95% încredere, indiferent dacă populația are un milion sau zece milioane. Important este ca eșantionul să fie reprezentativ.
Care e diferența dintre marja de eroare și bias?
Marja de eroare este o incertitudine aleatorie care se reduce mărind eșantionul. Biasul este o eroare sistematică, de direcție constantă, care nu dispare prin mai mulți respondenți și provine din selecție, non-răspuns sau formulare.
Ce e mai important, mărimea sau reprezentativitatea eșantionului?
Reprezentativitatea. Un eșantion mic, dar bine construit, este mai credibil decât unul foarte mare colectat de la un public neechilibrat, fiindcă mărimea nu corectează biasul de selecție.
Ce nivel de încredere se folosește în mod normal?
95% este standardul de fapt. 90% se folosește uneori pentru studii exploratorii, iar 99% pentru situații în care erorile au costuri mari; un nivel mai înalt cere însă un eșantion mai mare.
Ce este o rată de răspuns acceptabilă?
Nu există un prag universal, dar cu cât e mai mică, cu atât crește riscul de bias de non-răspuns. Important este să o raportezi și să verifici dacă cei care au răspuns diferă de cei care nu au răspuns.
Eșantionarea de conveniență e vreodată acceptabilă?
Pentru explorare rapidă, generarea de ipoteze sau testarea unui chestionar, da. Pentru concluzii care se generalizează la întreaga populație, nu, fiindcă nu permite calcularea corectă a marjei de eroare.
Ce e corecția pentru populații finite?
Este o ajustare care reduce mărimea necesară a eșantionului când populația este mică. Dacă populația are doar câteva sute de persoane, eșantionul necesar scade vizibil față de cazul unei populații foarte mari.
De ce două sondaje pe aceeași temă dau rezultate diferite?
Pentru că folosesc eșantioane diferite, metode de eșantionare diferite, formulări diferite ale întrebărilor și momente diferite. Dacă diferența dintre ele este mai mică decât suma marjelor de eroare, ea poate fi doar variație statistică, nu o schimbare reală.
