LP06 - PREZENTAREA DATELOR STATISTICE (2). Realizarea tabelei de frecvență pentru datele grupate. Utilizarea funcției FREQVENCY și a opţinunii Histogram din Data Analysis Obiective: I. Realizarea tabelei de frecvență pentru datele grupate II. Calcul: Frecvenţe absolute sau frecvenţe de apariţie(f a ) Frecvenţe relative (f r ) Frecvenţe cumulate (f c ) III. Prezentarea grafică a datelor a datelor grupate - Construirea, citirea şi interpretarea unui grafic Cerințe: IV. Realizarea tabelei de frecvență utilizând funcția FREQVENCY și a opţinunii Histogram din Data Analysis 1. Pornind de la datele din tabelul Tabel LP5, realizaţi tabelele de frecvenţă pentru variabilele: glicemie, colesterol, vârstă, greutate, înălțime prin gruparea datelor pe clase: - Vârstă (5 clase) - Glicemie (5 clase), - Colesterol (5 clase), - Greutate (5 clase), - Înălțime (5 clase), 2. Calculați pentru aceste variabile frecvențele cumulate și frecvențele relative 3. Realizați histograma pe baza tebelelor de frecvență pentru variabilele de mai sus. 4. Utilizați funcția FRECVENCY pentru a realiza tabela de frecvență 5. Utilizați opțiunea Histogram din Data Analysis pentru a realiza tabela de frecvență și histograma. https://www.youtube.com/watch?v=aseufvwgjds Indicații: 1. În cazul în care variabila luată în studiu are mai mult de 10 valori distincte se recomandă gruparea valorilor în calse. Luăm în considerare variabila vârstă. Aveastă variabilă are 20 de valori disticte. Obținerea valorilor distincte se poate face manual, (copiați coloana vârstă într-o coloană alăturată, ordonați crecător, ștergeți valorile care se repetă și apoi le regrupați) sau utilizând unelte oferite de Excel 2010, Remove Duplicates din meniul Data. După ce ați obținut seria de valori distincte ale variabilei urmează stabilirea numărului de clase și gruparea valorilor pe clase. În cerințe se precizează 5 clase pentru variabila vârstă. Pentru a stabili clasele se procedează astfel: - Se face diferența dintre valoarea cea mai mare și valoarea cea mai mică (67-24= 43) - Dacă se stabilesc 5 clase, se împarte ecartul (43) la numărul de clase (43/5=8,6), și se stabilește de exemplu lățimea clasei valoare întreagă, de exemplu 8. - Se stabilesc clasele pornind de la cea mai mică valoare (24), adăugând lățimea clasei (8). Se obține prima clasă (interval) ca fiind între 24 și 32 (inclusiv 32 sau <=32) etc. 1
- Se stabilesc apoi celelalte clase (<=32, 32-40, 40-48, 48-56, 56-64, >64) - Se observă astfel că avem de fapt 6 clase în loc de 5 câte ne-am propus, lucru neimportant. Dacă s-ar fi luat lățimea clasei 9, s-ar fi obținut 6 clase. Urmează să întocmiți repartiția de frecvență, adică să stabiliți câte valori din cele observate se găsesc în fiecare clasă, adică se vor număra câte valori se găsesc în intervalul 24-32 (mai mici sau egale cu 32), apoi câte se găsesc în intervalul 32-40 (interval deschis la stanga și inchis la dreapta)ș.a.ma.d. Clasa f a 24-32 8 32-40 5 40-48 8 48-56 2 56-64 6 64-72 1 Tabelul din stânga poate fi înlocuit cu următorul: Clasa f a =<32 8 (32-40] 5 (40-48] 8 (48-56] 2 (56-64] 6 >64 1 3. La realizarea histogramei în cazul datelor grupate, pe axa Ox vor apărea clasele. Se observă că în histograma Vârstă coloanele sunt despărțite prin gap, aceasta datorită faptului că variabila vârstă se consideră ca fiind variabilă discretă. Pentru celelalte variabile ca de exemplu Greutate, Înălțime, Colesterol sau Glicemie, aceste variabile le putem considera ca fiind variabile continue iar în cest caz se recomandă ca barele să nu fie despărțite prin gap. 4. Utilizarea funcției FRECVENCY pentru realizarea tabelei de frecvență. Obținerea repartiției de frecvență se poate face cu ajutorul funcției FREQVENCY din Insert Function f x de pe bara de formule. Această funcție o găsim în categoria funcțiilor statistice. Funcția FREQVENCY calculează frecvența apariției unor valori într-un interval de valori, rezultatul fiind o matrice verticală de numere. Această funcție are 2 argumente obligatorii: FREQUENCY(data_array;bins_array) Data_array este o matrice sau o referință la un set de valori pentru care doriți să numărați frecvențele. Acest prim argument al funcției va conține domeniul din foaia de calcul ce cuprinde toate valorile observate. 2
Bins_array este o matrice sau o referință la zonele în care doriți să grupați valorile din data_array. Acest al doilea argument al funcției va conține domeniul din foaia de cacul în care sunt introduse valorile ce reprezintă limita din dreapta a claselor în care a fost împărțite observațiile. Spre exemplu pentru valorile de mai sus Bins_array va conține valorile: Bin Clasa f a 32 =<32 8 40 (32-40] 5 48 (40-48] 8 56 (48-56] 2 64 (56-64] 6 >64 1 Observații In celula F2 s-a introdus fomila =FREQUENCY(A1:D8;E2:E6) Domeniul A1:D8 contíne toate observatiile (30 observatii) FREQUENCY ignoră celulele necompletate și textul. Domeniul E2:E6 conține matricea Bin. Acest argument este obligatoriu la utilizarea funcției FREQVENCY. Obținerea valorilor din coloana Bin se face astfel: Cerința din problemă este: Vârstă (6 clase 24-32, 32-40, 40-48, 48-56, 56-64, 64-72) Clasele stabilite sunt: =<32; (32-40]; (40-48]; (48-56]; (56-64]; >64. Coloana BIN se completează cu valorile din dreapta a intervalului fiecărei clase; Cele 5 valori din coloana BIN definesc cele 6 intervale conform claselor stabilite. - Se selectează celula din dreapta primei valori din coloana BIN - Se apelează funcția FREQVENCY. Primul argument reprezintă domeniul din foaia de calcul ce conține toate valorile variabilei Vârstă (în cazul nostru domeniul A1:D8, (valorile pot apărea și pe o singură coloană)), cel de-al doilea argument reprezintă domeniul din foaia de calcul ce conține valorile BIN. Atenție se selectează numai valorile numerice nu și eticheta! - În celula F2 va apărea o primă valoare din tabela de frecvență. Pentru a obține frecvențele pentru celelalte clase se procedează astfel: se selectează domeniul F2:F7 (cu unul mai mult decât matricea Bin, obligatoriu adiacent cu domeniul Bin) și se tastează: F2 apoi CTRL+SHIFT+ENTER. - Numărul de elemente din matricea întoarsă este cu unul mai mare decât numărul de elemente din bins_array. - Se obține matricea cu frecvențele absolute. 3
5. Utilizați opțiunea Histogram din Data Analysis pentru a realiza tabela de frecvență și histogramei Întocmirea repartiţiei de frecvenţă se poate face cu opţiunea Histogram din Data Analysis (Meniul Data Office 2007, 2010, 2013). În cazul în care el nu exista va trebui instalat. Instalarea lui se face astfel: Accesarea butonului Office (situat în partea stângă-sus a ferestrei Excel) > Excel options > Add-Ins Alegem din lista MANAGE Excel Add-Ins şi se apasă butonul Go... Din lista afişată în fereastra nou apărută bifăm ANALYSIS TOOLPACK, apăsăm butonul OK şi...aşteptăm să se instaleze. Ulterior în secţiunea de meniuri DATA vom regăsi opţiunea DATA ANALYSIS Dacă opţiunea Data Analysis este prezentă, atunci se trece la pasul următor. Din fereastra de dialog care apare selectăm Histogram. Clic pe OK. - În fereastra care apare se va completa la Input Range domeniul din foia de calcul ce conţine toate valorile variabilei pentru care se dorește întocmirea tabelei de frecvență. (nu neapărat ordonat). - La Bin Range se va preciza domeniul din foaia de calcul ce conţine valorile caracteristicii x i pentru care se vor calcula frecvenţele de apariţie la fel ca la funcția FREQVENCY. (în cazul datelor grupate, valorile din dreapta a intevalelor claselor). În cazul în care acest câmp de editare rămâne necompletat, aplicaţia realizează o grupare a datelor după alte criterii. - Dacă domeniile selectate mai sus conţin şi etichete atunci se bifează Labels - La Output Range se precizează celula unde dorim să apară rezultatul (în aceiaşi foaie de calcul). - Este necesară bifarea a cel puţin uneia din cele 3 check box ce percizează ce va calcula la această apelare a opţiunii. 4
- Se calculează frecvenţa de apariţie, frecvenţa relativă cumulată şi frecvenţa absolută cumulată. Bifarea lui Char Output conduce la construirea histogramei. Apelarea funcției generează următoarele rezultate: În cazul în care nu s-a selectat nimic la Bin Range, se afișează următoarea repartiție de frecvență: Se observă că Excel a stabilit alte clase (<24, (24, 32.6], (32.6, 41.2], (41.2, 49.8], (49.8, 58.4], >58.4) Se observă că aplicația stabilește niște valori pentru care calculează frecvența de apariție. Se interpretează astfel: - valori mai mici sau egale cu 24, - apoi valori mai mari ca 24 și mai mici decît 32.6, etc. În cazul în care stabilim noi valorile pentru care să calculeze frecvența de apariție, acestea le punem într-o coloană în foaia de calcul. clase), Obțineți tabelele de frecvență (frecvențele absolute) și calculați frecvențele relative, cumulate pentru variabila vârstă și Glicemie (5 clase), Colesterol (5 clase), Greutate (5 clase), Înălțime (5 5
Rezolvați exercițiile de mai jos utilizând funcțiile Histogram si/sau Freqvency Exerciţiul 1. Notele obţinute de 40 de studenţi sunt următoarele: 8; 10; 4; 9; 6; 8; 10; 7; 8; 3;9; 6; 5; 4; 8; 7; 10; 9; 6; 5; 4; 3; 6; 9; 10; 8; 7; 7; 7; 6; 5; 5; 6; 7; 9; 10; 7; 6; 3; 4; 1. Să se întocmească repartiţia de frecvenţă 2. Să se calculeze frecvenţele relative 3. Să se calculeze frecvenţele cumulate (de apariţie şi relative) 4. Să se traseze histograma. Exerciţiul 2 Următoarele valori reperezintă ziua de incubare în urma unui posibil contact etiologic până la manifestarea unei boli infecţioase: 7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8, 8, 7, 10, 10, 3, 3, 5, 6, 7, 8. Care dintre aceste valori corespunde unei frecvenţe relative egale cu 0,16 a. 3 b. 5 c. 10 d. 8 e. 7 Se întocmeşte repartiţia de frecvenţă Se calculează frecvenţele relative. Exerciţiul 3 Următoarele valori reperezintă ziua de incubare în urma unui posibil contact etiologic până la manifestarea unei boli infecţioase: 7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8,8, 7, 10, 10, 3, 3, 5, 6, 7, 8. Care dintre aceste valori corespunde unei frecvenţe relative cumulate egală cu 68% a. 7 b. 5 c. 10 d. 8 e. Nu poate fi determinată cu aceste informaţii Se întocmeşte repartiţia de frecvenţă Se calculează frecvenţele relative. Se calculează frecvenţele relative cumulate Exerciţiul 4 Următoarele valori reperezintă ziua de incubare în urma unui posibil contact etiologic până la manifestarea unei boli infecţioase: 7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8,8, 7, 10, 10, 3, 3, 5, 6, 7, 8. Care din aceste valori corespunde unei frecvenţe absolute cumulate egală cu 10. a. 7 b. 5 c. 10 d. 8 e. Nu poate fi determinată cu aceste informaţii Se întocmeşte repartiţia de frecvenţă Se calculează frecvenţele absolute cumulate. Exerciţiul 5 Considerăm următoarea distribuţie de frecvenţe a temperaturilor zilnice: Clase de temperatură ( C) Frecvenţe (zile) (-5 ) - (-3 ) 14 (-2 ) - 0 27 6
1-3 3 4-6 5 7-9 1 Total 50 În câte zile temperatura a fost mai mare decât (nu egală cu) punctul de îngheţ? a. 41; b. 36; c. 27; d. 9; e. nu se poate determina pe baza informaţiilor disponibile. Se calculează frecvenţele absolute cumulate. Exerciţiul 6 Considerăm următoarea distribuţie de frecvenţe a temperaturilor zilnice: Clase de temperatură ( C) Frecvenţe (zile) (-5 ) - (-3 ) 14 (-2 ) - 0 27 1-3 3 4-6 5 7-9 1 Total 50 Pe baza datelor din repartiţia de frecvenză de mai sus, să se precizeze în câte zile temperatura a fost mai mică decât (nu egală cu) punctul de îngheţ: a. 9; b. 41; c. 27; d. 14; e. nu se poate determina pe baza informaţiilor disponibile. Se calculează frecvenţele absolute cumulate. Exerciţiul 7 Nivelul colesterolului la un număr de 50 de pui broiler hrăniţi în condiţii de aport de aluminiu în raţie este prezentat în tabelul următor: 1. Întocmiţi repartiţia de frecvenţă. 107 138 134 90 138 105 105 129 128 105 109 102 135 115 104 111 99 126 114 110 120 109 128 111 111 127 111 104 112 121 98 128 98 110 127 115 125 88 99 128 114 123 95 89 130 118 102 105 105 135 7
2. Calculaţi frecvenţele relative. 3. Calculaţi frecvenţele absolute cumulate. 4. Calculaţi frecvenţele relative cumulate. 5. Întocmiţi histograma. Trasaţi pe acelaşi grafic curba frecvenţelor cumulate. Exerciţiul 8 Graficul alăturat arată modul de transport a unor studenţi la şcoală. Câţi studenţi conţine eşantionul studiat? a. 20 b. 21 c. 22 d. 23 La histogramă, înălţimea barelor este egală cu frecvenţa de apariţie a caracterului X i (cel de pe axa Ox). Exerciţiul 9 Acest graphic arată în procente timpul alocat diverselor activităţi pe parcursul unei zile (24 ore). Dacă aceste informaţii ar fi fost afişate sub forma unui graphic bară, care ar fi fost înălţimea barei pentru muncă? a b c d 4 ore 4.8 ore 8 ore 9.6 ore Procentele reprezintă frecvenţele relative. Suma frecvenţelor absolute este 24 ore. Exerciţiul 10 Graficul alăturat prezintă modul în care populaţia de papagali, pe o insulă a scăzut pe parcursul perioadei de zece ani 2001-2010. Măsurătorile au fost luate la începutul fiecărui an. Care a fost declinul total al populaţiei papagal peste acel moment? a 14 b 42 c 46 d 60 Declinul=populaţia(2001)- populaţia(2010) Exerciţiul 11 Diagramă radială arată timpul petrecut în fiecare zi de către Andrei. Care este unghiul sectorului de cerc reprezentat în diagrama PIE alăturată pentru Sport. a 14 b 25.7 c 50.4 d 52 Un cerc are 360 8