STATISTICA DESCRIPTIVĂ observarea Obiective: organizarea sintetizarea descrierea datelor
Analiza descriptivă a datelor Analiza statistică descriptivă reperezintă un tip de analiză ce servește la descrierea, evidențierea sau rezumarea datelor într-o formă prin care se pot observa anumite tipare cu privire la datele analizate.
Analiza descriptivă a datelor Analiza experimentală a unei mărimi constă în efectuarea a numeroase măsurători și înregistrarea rezultatelor obținute. Mulțimea elementelor luate în studiu poartă denumirea de populație statistică, colectivitate statistică sau lot. Un element al populației statistice se numește unitate statistică sau individ statistic. În funcție de numărul indivizilor statistici populația statistică poate fi finită sau infinită. O populație poate fi omogenă dacă elementele componente sunt de același tip, sau neomogenă dacă componenetele sunt de tipuri diferite.
Analiza descriptivă a datelor Metodele statistice se aplică numai populațiilor omogene. Proprietatea comună tuturor unităților statistice provenite dintr-o populație omogenă poartă denumirea de caracteristică, sau variabilă. O populație poate avea una sau mai multe caracteristici. Notarea acestora se face cu literă mare.
Analiza descriptivă a datelor Datele experimentele pot fi culese printr-o cercetare: completă, în cazul măsurării caracteristicii fiecărui individ statistic. selectivă, în cazul măsurării caracteristicilor pentru un anumit număr de indivizi statistici care formează un eşantion sau o selecţie. Valoarea numerică a unei caracteristici cantitative referitoare la o unitate statistică se numeşte valoare observată.
Analiza descriptivă a datelor Totalitatea valorilor observate formează datele experimentale. Caracteristicile pot fi: - cantitative - exprimate prin valori numerice - calitative - exprimate prin atribute ca bun - defect; satisfăcător - nesatisfăcător etc. Caracteristicile cantitative pot fi: - discrete - numerele care le reprezintă aparţin mulţimii numerelor întregi sau raţionale (numărul purceilor la o fătare) - continue - dacă într-un interval se poate obţine orice valoare reală pentru caracteristică (greutate).
Analiza descriptivă a datelor Colectarea datelor experimentale se face în scopul determinării caracteristicilor populaţiilor statistice, formarea unor concluzii privind comportamentul populaţie şi luării unor decizii. Statistica descriptivă reprezintă forma cea mai simplă de analiză a caracteristicilor unei populaţii. Ea include colectarea de date, prezentarea lor sub formă de tabele, întocmirea unor reprezentări grafice şi stabilirea indicatorilor statistici.
Analiza descriptivă a datelor Tabelele trebuie în aşa fel întocmite încât sã permitã o interpretare directã şi uşoarã fãrã a mai necesita texte aplicative suplimentare. Tabelele sunt formate dintr- o reţea de linii şi coloane în care sunt trecute valorile obţinute ale caracteristicii. Primul tabel care se întocmeşte este tabelul datelor primare în care sunt trecute în ordinea mãsurãrii caracteristicile cercetate. Statistica descriptivă nu permite formularea unor concluzii referitoare la ipoteza analizată, dincolo de datele evaluate.
Indicatori sintetici ai distribuțiilor statistice
1. Populație 2. Eșantion 3. Caracteristica observată Tabel de evidență primară Repartiția de frecvență HISTOGRAMA!!!!! Indicatori sintetici
Ce ne spune HISTOGRAMA? Este un grafic care dă informaţii despre repartizarea valorilor dintr-o serie de valori Greutate corporală la 1014 pacienţi cu diferite afecţiuni:pe clase din 5kg în 5kg (http://www.umfcv.ro/files/b/i/biostatistica%20mg%20-%20cursul%20iv.pdf) Modul cum cresc barele este diferit de modul cum descresc. - asimetria - asimetrie la dreapta. Dacă indivizii de la care s-au cules datele ar fi fost normali, histograma ar fi avut un aspect mai simetric.
Ca regulă generală, este bine să se reţină că: Se pierde cu atât mai multă informaţie cu cât numărul de clase este mai mic. Nu se recomandă histograme cu 2-4 clase. Un număr prea mare de clase duce la o ascundere a esenţialului de către aspectele nesemnificative. Se recomandă: Pentru câteva zeci de valori, să se aleagă maximum 6 8 clase Pentru câteva sute de valori, să se aleagă între 10 şi 15 clase Pentru câteva mii de valori, să se aleagă peste 15 clase. O histogramă reprezintă informaţia dintr-o serie de valori cu pierdere de informaţie. Se pierde cu atât mai multă informaţie cu cât sunt mai puţine clase. Se pierde cu atât mai multă informaţie cu cât clasele au lungimi mai mari.
Nu se recomandă folosirea a mai mult de 20 30 de clase decât în cazuri speciale, în studii cu multe mii de cazuri. folosirea a mai puţin de 4 6 clase. folosirea histogramelor dacă nu avem cel puţin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face o histogramă
INDICATORII STATISTICI Statistica descriptivă - obiective Cum se prezintă valorile unei distribuţii? Cât de apropiate sunt unele de altele? Cât de diferite sunt unele de altele? Există valori care reprezintă întreaga distribuţie?
Ce sunt???? INDICATORI SINTETICI sunt descriptori numerici care condensează într-o valoare unică o anumită caracteristică a unei întregi distribuţii de valori
Categorii de indicatori 1. Indicatori ai tendinţei centrale valori tipice, reprezentative, care descriu distribuţia în întregul ei 2. Indicatori ai împrăştierii descriu caracteristica de împrăştiere a valorilor distribuţiei 3. Indicatori ai formei distribuţiei se referă la forma curbei de reprezentare grafică a distribuţiei
Indicatorii tendinţei centrale 1. valoarea medie; 2. valoarea mediana ; 3. valoarea dominanta (modulul); 4. Cuartilele.
Indicatorii tendinţei centrale - MEDIA Media este cea mai importantă şi totodată cea mai populară măsură a tendinţei centrale a unei distribuţii. MEDIA DE SONDAJ (Sample Mean) este un indicator care caracterizează un eşantion (o populaţie) din punctul de vedere al unei caracteristici studiate. MEDIA POPULAŢIEI (Population Mean) este media numerelor dintr-o populaţie numerică. Această valoare este un parametru al populaţiei, spre deosebire de media calculată dintr-un eşantion, care este doar o estimaţie a parametrului. Media aritmetică Media aritmetică ponderată Media geometrică
MEDIA ARITMETICĂ (m) Se calculează ca sumă a tuturor valorilor observate ale seriei de date împărţită la numărul de observaţii x x1 x2... x n Notaţii uzuale: (miu), atunci când este media întregii populaţii de referinţă ( x barat) sau m, atunci când se calculează pentru un eşantion (cazul cel mai frecvent) n n i 1 n x i
MEDIA ARITMETICĂ Exemplu: Pentru distribuţia 5,8,3,2,5,4 m X N 5 8 3 6 2 5 4 26 6 4,50 Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4 2 2 3 4 4 2 5 2 8 1 m = 2 2 + 3 4 + 4 2 + 5 2 + 8 1 2 + 4 + 2 + 2 + 1 = 42 11 = 3,81
Determinarea mediei în cazul datelor grupate Intervalul (i) Centrul i (x) Frecventa (fi) x * f 3-5 4 2 8 6-8 7 3 21 9-11 10 5 50 12-14 13 5 65 15-17 16 9 144 18-20 19 10 190 21-23 22 6 132 24-26 25 4 100 27-29 28 2 56 30-32 31 1 31 m = x i f i f i = 31 1 + 28 2 + + 4 2 1 + 2 + 4 + 2 = 797 47 = 16,96 Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu date grupate:
Proprietăţile mediei aritmetice Adăugarea/scăderea unei constante la fiecare valoare a distribuţiei, măreşte / scade media cu acea valoare Înmulţirea/împărţirea fiecărei valori a distribuţiei cu o constantă, multiplică divide media cu acea constantă Suma abaterii valorilor de la medie este întotdeauna egală cu zero Suma pătratului abaterilor de la medie va fi întotdeauna mai mică decât suma pătratelor abaterilor în raport cu oricare alt punct al distribuţiei
Proprietățile mediei
Media arithmetică ponderată Exemplu: Pentru distribuţia: 5,8,3,3,3,2,4,2,3,5,4 2 2 3 4 4 2 5 2 m ( X * f f ) 5*2 8*1 3*4 2* 2 4*2 2 1 4 2 2 43 11 3,90 8 1
Media geometrică Se utilizează în cazul unor repartiţii de frecvenţe care reprezintă un caracter cu ritm de creştere uniform, (cum este cel al diviziunii celulare), sau pentru aflarea unor valori intermediare, valori ce se succed în ritm mai mult geometric (deci înmulţindu-se) decât aritmetic (deci adăugându-se) x geom n x x * x *...* 1 * 2 3 x n n x i
Media geometrică Ex1: În urma unui experiment sau găsit 10 de cazuri pozitive în prima zi şi 1000 de cazuri pozitive în a treia zi. Care este media? x 10 1000 2 1010 : 2 505 x geom 2 10*1000 2 10000 100
MODUL (Mo) sau valoarea dominantă Definiție: MODUL sau VALOAREA DOMINANTĂ este valoarea sau clasa de interval a caracteristicii cu frecvența cea mai mare de apariție. 2,5 2 1,5 1 0,5 0 2,5 2 3 4 5 8 Se află prin alcătuirea tabelei de frecvenţe (simple sau grupate) şi este valoarea căreia îi corespunde frecvenţa absolută cea mai ridicată. 2 1,5 1 0,5 Distribuţii unimodale (5 8 3 2 5 4 Mo=5) Distribuții bimodale (5 8 3 2 2 5 4 Mo=5; =2) Distribuții multimodale (5 8 8 3 2 2 5 4 Mo=5; =2; =8) 0 2,5 2 1,5 1 0,5 0 2 3 4 5 8 2 3 4 5 8
Exemplu: În seria de valori 5,8,3,2,5,4, Mo=5 (apare de cele mai multe ori) x n 2,5 2 2 1 3 1 4 1 5 2 8 1 1,5 1 0,5 0 2 3 4 5 8
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. Intervalul Frecventa Intervalul Frecventa 3-5 (4) 2 18-20 (19) 10 6-8 (7) 3 21-23 (22) 6 9-11 (10) 5 24-26 (25) 4 12-14 (11) 5 27-29 (28) 2 15-17 (16) 9 30-32 (31) 1 În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo = 19.
Caracteristicile modului: - nu ține seama decât de masurile cele mai reprezentative; - necesită ordonarea datelor - corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).
MEDIANA (Me) Mediana undei serii statistice ordonate este valoarea care împarte șirul ordonat al valorilor variabilei în două parți, fiecare parte conținând acelasi numar de valori. Se notează cu Me are 50% dintre valori deasupra ei şi 50% dintre valori dedesubtul ei Dacă numărul observațiilor este impar Me este chiar valoarea de mijloc în urma ordonării lor. Dacă numărul observațiilor este par Me se calculează ca medie aritmetică a valorilor din mijlocul seriei statistice ordonate. 5,8,3,2,5,4, 2,3,4,5,5,8 Me=4,5 Seria statistică seria statistică ordonată
Cum se determină? Se ordonează crescător seria statistică. Se determină valoarea de mijloc. În cazul distribuţiilor cu număr impar de valori, Me este chiar valoarea respectivă. În cazul distribuţiilor pare, Me se calculează ca medie a celor două valori din mijlocul distribuţiei
Mediana o valoare mediană propriu-zisă nu există decît dacă numărul n este fără soţ, cînd există, de fapt, un individ mijlociu (al [n+1]/2 lea) a cărui valoare este mediana. Dacă n este par, se iau indivizii de rang n/2 şi n/2 + 1
EXEMPLU: În seria de valori 5,8,3,2,5,4, ordonată crescător (2,3,4,5,5,8), Me=4,5 (ca medie a valorilor 4 şi 5 aflate în mijlocul unei distribuţii pare). Dacă distribuţia ar fi avut 5 valori (fără 2, de exemplu), Me=5
4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 12 14 15 16 20 22 45 60 12 14 15 16 20 22 45 60
Cuartilele. Mediana este un indicator al tendinţei centrale, este valoarea de mijloc, într-o serie de valori. Cuartila este valorea pentru care să avem un sfert din valorile seriei mai mici şi respectiv, mai mari. Definiţie: Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile seriei sunt sub Q1 şi 75%, peste Definiţie: Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile seriei sunt sub Q3 şi 25%, peste.
INDICATORII TENDINȚEI CENTRALE strâns legată de nivelul de măsurare a variabilelor Modul Mediana Media Avantajele Ușor de calculat (nesemnificativ în prezent) Poate fi utilizat pentru orice tip de scală Este singurul indicator pentru scale nominale Poate fi utilizată pe scale ordinale și de interval/raport Reflectă valorile întregii distribuții Se poate calcula numai pentru variabile măsurabile pe scale interval și raport. Modul Mediana Media Dezavantajele În general, nesigur, mai ales în cazul eşantioanelor mici, când se poate modifica dramatic la o modificare minoră a unei valori; Poate să nu corespundă unei valori reale (N par); Este mai puţin sigură în extrapolarea de la eşantion la populaţie; De obicei nu corespunde unei valori reale; Conduce la interpretări greşite pe distribuţii asimetrice Poate fi puternic afectată de scorurile extreme;
Indicatori ai tendinţei centrale. (rezumat) Cei mai importanţi indicatori ai tendinţei centrale sunt media, mediana şi modul. Media indică tendinţa centrală atunci când seria de valori este repartizată simetric în jurul ei şi când valorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinţa centrală nu mai este indicată de către medie, ci de către mediană. Modul, este un indicator al tendinţei centrale, la seriile unimodale, adică atunci când în tabelul de frecvenţe există un singur maxim. Dacă avem o serie multimodală, modul îşi pierde calitatea de indicator al tendinţei centrale.
Când utilizăm indicatorii tendinței centrale? Scala de măsurare Nominală Ordinală Interval raport Cea mai bună măsură a mijlocului Modul Mediana Media și mediana Media și mediana
Grafice Box Plot Grafice Plot Box, sau Box sau graficele Plot mustăți, - sunt destul de comune în statistici și măsurători de calitate. - are cinci valori principale: low, Q1, Median, Q3 și Maxim. Exemplu: 35, 42, 48, 50, 51, 53, 54, 60, 75
xi fa fr% fc fc% 86 1 1,9% 1 1,9% 87 1 1,9% 2 3,8% 89 1 1,9% 3 5,8% 91 1 1,9% 4 7,7% 92 2 3,8% 6 11,5% 94 1 1,9% 7 13,5% 96 1 1,9% 8 15,4% 97 2 3,8% 10 19,2% 98 1 1,9% 11 21,2% 101 4 7,7% 15 28,8% 102 3 5,8% 18 34,6% 104 1 1,9% 19 36,5% 105 1 1,9% 20 38,5% 106 2 3,8% 22 42,3% 107 3 5,8% 25 48,1% 108 3 5,8% 28 53,8% 109 4 7,7% 32 61,5% 110 1 1,9% 33 63,5% 112 1 1,9% 34 65,4% 113 2 3,8% 36 69,2% 114 3 5,8% 39 75,0% 115 2 3,8% 41 78,8% 116 2 3,8% 43 82,7% 117 1 1,9% 44 84,6% 118 2 3,8% 46 88,5% 121 1 1,9% 47 90,4% 123 1 1,9% 48 92,3% 124 1 1,9% 49 94,2% 125 1 1,9% 50 96,2% 135 1 1,9% 51 98,1% 142 1 1,9% 52 100,0% Q 3 Q 1 Interval cuartilic
Arithmetic mean (μ): 107.8076923076 Median: 108 Modes: 101 109 86,87,89,91,92,92,94,96,97,97,98,101, 101,101,101,102,102,102,104,105,106, 106,107,107,107,108,108,108,109,109, 109,109,110,112,113,113,114,114,114, 115,115,116,116,117,118,118,121,123, 124,125,135,142 124 1 123 1 121 1 118 2 117 1 116 2 115 2 114 3 113 2 112 1 110 1 109 4 108 3 107 3 106 2 105 1 104 1 102 3 101 4 98 1 97 2 96 1 94 1 92 2 91 1 89 1 87 1 86 1 http://www.alcula.com/calculators/statistics/box-plot/ 5 4 3 2 1 0 Histograma
Tratarea valorilor extreme sau aberante (outlier) Stabilirea naturii valorilor extreme: erori de înregistrare (tastare); erori de măsurare; rezultate influenţate de anomalii ale condiţiilor experimentale. eşantionul a fost extras dintr-o populaţie asimetrică valorile respective fac parte din altă populaţie de valori eşantion prea mic Tratarea lor pe una din căile posibile: eliminare (dacă sunt erori necorectabile); corectare (dacă este posibil);
https://www.youtube.com /watch?v=5c9lbf3b65s https://www.youtube.com/watch?v =095BdbOunPU