despre statistică: eșantionare.
sâmbătă, 1 dec. 2012, 21:34
Povesteam cu ceva timp în urmă că rolul statisticii este în esență acela de a organiza seturi mari de date în așa fel încât să putem spune ceva despre acestea din urmă. Având un sistem — fizic sau chimic sau informatic sau de orice alt fel, importantă e posibilitatea de a-l analiza cantitativ –, statistica ne ajută deci să îi putem evalua proprietățile dintr-un anumit punct de vedere, nu unicul și nicidecum cel mai eficient din punctul de vedere al consistenței, însă un punct anume de vedere, foarte util prin prisma avantajelor teoretice și practice pe care ni le oferă.
Să presupunem bunăoară că deținem o bucată de metal, a cărei compoziție chimică o cunoaștem apriori. Bucata respectivă este un unic obiect solid despre care știm foarte bine că este în același timp format din o mulțime de atomi legați prin forțe chimice numite și metalice. Despre metale cunoaștem și că au diverse proprietăți fizice cum ar fi conductivitatea electrică sau anumite temperaturi de topire, însă dat fiind numărul mare de molecule dintr-o bucată de metal, ar fi nepractic să cuantificăm aceste proprietăți ale bucății noastre luând în considerare fiecare moleculă în parte. Fizica statistică se dovedește în acest punct a fi esențială pentru a stabili o legătură între efectele mecanicii clasice și/sau cuantice la nivel microscopic și proprietățile macroscopice ale obiectului.
Acesta este un avantaj teoretic al statisticii. Pe de altă parte avantajele practice sunt nenumărate, mai ales dacă alegem drept context Internetul, a cărui cantitate literalmente imensă de date poate fi „minerită” și prelucrată în diverse scopuri, cel mai banal exemplu fiind acela al publicității targetate. În același timp un fișier audio sau o imagine reprezintă ele însele mine de date, acestea putând la rândul lor să fie analizate pentru a extrage cuvinte, respectiv obiecte reale. Putem realiza de exemplu un program care să cunoască un măr într-o imagine oarecare prin alcătuirea unui model statistic și testarea acestuia folosind exemple pozitive și negative [i].
Există de asemenea o serie întreagă de cazuri în care se dovedește a fi nepractică folosirea întregii populații (statistice) pentru stabilirea, respectiv testarea unui model. Revenind la exemplul cu metalul, să presupunem că de fapt metalul nostru e un metaloid, mai exact siliciu, și avem la dispoziție o cantitate mare dintr-însul, suficientă cât să producem un lot de procesoare de uz general, cum aveți dumneavoastră în telefoanele mobile, să zicem. Să presupunem că purcedem într-adevăr spre a produce procesoarele cu pricina, procedeu care implică prepararea siliciului la temperaturi înalte și un soi de gravură folosind utilaje industriale [ii]. În fazele finale ale producției dorim să testăm funcționalitatea fiecărui procesor în parte și să eliminăm rebuturile. Această metodă de testare este însă insuficientă pentru a determina anumite proprietăți ale populației, de exemplu fiabilitatea, adică durata de viață medie a unui procesor, deci cât timp funcționează normal până să crape [iii].
O abordare ar fi să luăm toate obiectele produse și să le supunem unui proces de uzură până crapă fiecare, fapt ce ne va ajuta să determinăm cu exactitate cât de fiabil a fost lotul produs. Dezavantajul abordării este că după asta nu vom mai rămâne cu nici un procesor de vândut, ceea ce ne va duce în mod inevitabil către faliment. Pe de altă parte dacă am produs un număr mare de procesoare, putem merge pe premisa că legea numerelor mari se aplică (aproape) la fel de bine și în cazul unei submulțimi formată dintr-un procent din lotul de producție. Astfel putem face din capul locului astfel încât din cincizeci de mii de indivizi ai populației să sacrificăm două sute, pe care îi vom folosi pentru a trage (cu o marjă de eroare) o concluzie despre întregul lot de procesoare. Această metodă este ceea ce numim eșantionare, care vine de la „eșantion” sau „mostră”.
Eșantionarea se poate face la rândul ei în diverse feluri. În cazul exemplului anterior putem alege la întâmplare două sute de indivizi din totalul de cincizeci de mii. Asta poate fi o strategie bună în cazul în care considerăm indivizii a fi aproape identici [iv], fapt care nu se aplică neapărat la toate distribuțiile. Alegerea unei metode de eșantionare este deci o problemă în sine.
Un alt exemplu de eșantionare este cel al banalului sondaj de opinie. Probabil că v-ați mai întrebat cum de diversele institute de statistică își permit să facă prognoze în ceea ce privește opiniile populației pe diverse teme. Sondarea populației se face conform unor metodologii destul de stricte, astfel că studiile de opinie sunt în general foarte justificate în ceea ce privește opinia generală pe un anumit subiect. Evident, și aici diavolul se găsește în detalii: e oarecum irelevant să consulți persoane de 65 de ani în ceea ce privește ultima modă în îmbrăcăminte sau elevi de liceu pe probleme de geopolitică. Alte subiecte dimpotrivă, poate că trebuie să conțină indivizi ai căror parametri (vârstă, profesie, venituri) se încadrează într-un spectru cât mai larg de valori.
În fine, abordările statistice din această categorie nu sunt exacte, cu atât mai mult în cazul în care se folosesc metode de eșantionare non-probabilistică. Exemple elocvente în acest sens sunt analizele factorilor de risc pentru asigurări în cazul cutremurelor — dat fiind că probabilitatea de producere a unui cutremur este în general necunoscută, iar pagubele potențiale sunt cu atât mai greu de evaluat — sau recentele crize bancare favorizate în mare parte de politicile prea laxe de acordare a creditelor [v]. Cu toate astea eșantionarea, împreună cu estimatorii, este o armă care face din statistică o unealtă indispensabilă în multe domenii legate de inginerie, economie și în general toate chestiile care ne fac nouă viața mai ușoară.
- Sigur, o întrebare perfect validă ar fi „cum mai exact facem asta?”. Din fericire Christopher Bishop a scris deja o carte pe temă, cred că am mai menționat-o într-un articol anterior. Ceea ce înseamnă că există deja metode consacrate de a elabora și testa modele statistice, ceea ce face ca lucrurile să fie o idee mai ușoare pentru ingineri. [↩]
- Evident, întregul proces e mai complicat de atât. Cam așa se produc de fapt CPU-urile. [↩]
- Pe englezește îi zice „Mean Time To Failure”. [↩]
- Cu alte cuvinte, dispersia indivizilor în distribuție este foarte mică, adică toate procesoarele au aproximativ aceeași calitate. Pare a fi o presupunere destul de bună în acest caz, mai ales dacă echipamentele de producție sunt foarte precise. [↩]
- Discuția în acest caz e de fapt mai complexă, dar problema de principiu cam asta a fost: bancherii au dat credite într-o veselie unor persoane cărora le-au evaluat prost riscul de neplată, în timp ce prețurile pe piața imobiliară se tot duceau în sus, și încă cum. La un moment dat s-a atins un prag unde nimeni n-a mai cumpărat — din varii motive, unul din ele fiind saturarea pieței –, astfel că piața a început să se prăbușească, oamenii au început să-și piardă locurile de muncă iar băncile s-au trezit fără lichidități. După cum ziceam, privirea e cel puțin simplistă, inclusiv Internetul având un cuvânt greu de spus în privința asta. [↩]
Comentariile sunt dezactivate.