Matematici aplicate științelor biologie Lab09 MV

Documente similare
Matematici aplicate științelor biologie Lab05 MV

Matematici aplicate științelor biologie Lab06 MV

EXCEL FĂRĂ SECRETE Grafice şi diagrame

rrs_12_2012.indd

PowerPoint Presentation

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ

rrs

GEOMORFOLOGIE LP

Addendum Syllabus 6 Microsoft Access 2016 REF Syllabus 6.0 Cunoașterea domeniilor în care se utilizează bazele de date Datorită potenţialului ma

Introducere în statistică

Laborator 6 - Statistică inferenţială I. Inferenţă asupra mediei - Testul Z pentru media unei populaţii cu dispersia cunoscută Se consideră o populaţi

DAN LASCU ADRIANA-LIGIA SPORIŞ ANDA OLTEANU PAUL VASILIU MATEMATICĂ. CULEGERE DE PROBLEME TIP GRILĂ PENTRU ADMITEREA ÎN ACADEMIA NAVALĂ MIRCEA CEL BĂT

Dorel LUCHIAN Gabriel POPA Adrian ZANOSCHI Gheorghe IUREA algebră geometrie clasa a VIII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Babeş-Bolyai, Cluj-Napoca 1.2 Facultatea Facultatea de Geo

PROGRAMA CONCURSULUI NAŢIONAL

fIŞE DE LUCRU

Matematika román nyelven középszint Javítási-értékelési útmutató 1813 ÉRETTSÉGI VIZSGA május 7. MATEMATIKA ROMÁN NYELVEN KÖZÉPSZINTŰ ÍRÁSBELI VI

METODE NUMERICE ÎN INGINERIE

Noțiuni matematice de bază

Biomatematica

Cursul 12 (plan de curs) Integrale prime 1 Sisteme diferenţiale autonome. Spaţiul fazelor. Fie Ω R n o mulţime deschisă şi f : Ω R n R n o funcţie de

Universitatea Politehnica din Bucureşti 2019 Disciplina: Geometrie şi Trigonometrie G1 * Varianta A 1. Ştiind cos x = 3 2, atunci sin2 x

Addendum Syllabus 6 Microsoft Excel 2010 REF Syllabus 6.0 Crearea unui nou registru de calcul pe baza unor șabloane disponibile local sau online

Matematici aplicate științelor biologie LP03 MV

Microsoft Word - C05_Traductoare de deplasare de tip transformator

1

Examenul de bacalaureat 2012

E_d_Informatica_sp_SN_2014_bar_10_LRO

FIŞA DISCIPLINEI 1. Date despre program 1.1. Instituţia de învăţământ superior Universitatea Spiru Haret 1.2. Facultatea Ştiinţe Economice Bucureşti 1

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea de Vest din Timișoara 1.2 Facultatea Matematică și Informa

1. *Care din următoarele extensii le poate obține un fișier creat în Microsoft Word? a..doc b..pdf c..txt d..xls e..mdp f..docx 2. *Care din următoare

FIŞĂ DISCIPLINĂ 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Dunărea de Jos din Galați 1.2 Facultatea Economie și Admini

Generarea semnalelor standard 1 Scopul lucrării Familiarizarea cu modul de generare şi reprezentare în mediul Matlab a semnalelor de test, considerate

Crearea ghidului de studiu Syllabus

Laborator 9- Estimarea parametrilor Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 29.nov

Subiectul 1

Microsoft Word - Excel_3.DOC

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Dunărea de Jos din Galaţi 1.2 Facultatea Economie şi Admin

Şcoala ………

CATEDRA DE STATISTICĂ ŞI ECONOMETRIE

Microsoft Word - 2 Filtre neliniare.doc

Diapositive 1

FIŞA DISCIPLINEI

Информационная система персонализации, печати и учета документов об образовании

Update firmware aparat foto Mac Mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să efectuaţi acest update de firmware. Dacă nu aveţi încr

Microsoft Word - Tema 06 - Convertoare analog-numerice.doc

Gheorghe IUREA Adrian ZANOSCHI algebră geometrie clasa a VII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA 45 Matematică. Clasa a VII-

Instructiuni licenta - 2

Lucrarea 7 Filtrarea imaginilor BREVIAR TEORETIC Filtrarea imaginilor se înscrie în clasa operaţiilor de îmbunătăţire, principalul scop al acesteia fi

Laborator 1-Teoria probabilitatilor si statistica matematica Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 1 P

Examenul de bacalaureat 2012

Examenul de bacalaureat 2012

Microsoft Word - D_ MT1_II_001.doc

RecMat dvi

I

MD.09. Teoria stabilităţii 1

Cadru general de analiză a datelor pentru promoțiile 2005 și 2009 CUPRINS Introducere I. Analiza procesului de contactare 1. Participare universități

Slide 1

Pachete de lecţii disponibile pentru platforma AeL

Microsoft Word - TIC5

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 1. Google Drive, Google Calendar, WeTr

Raportarea serviciilor de dializă la nivel CNAS

UNIVERSITATEA BABEŞ-BOLYAI CLUJ-NAPOCA FACULTATEA DE MATEMATICĂ ŞI INFORMATICĂ Concurs MATE-INFO UBB 6 aprilie 2019 Proba scrisă la MATEMATICĂ NOTĂ IM

CATEDRA DE STATISTICĂ ŞI ECONOMETRIE

CABINET MINISTRU

Microsoft Word - Tsakiris Cristian - MECANICA FLUIDELOR

Modelarea si Simularea Sistemelor de Calcul

Microsoft Word - probleme_analiza_numerica_ses_ian09.rtf

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

Microsoft PowerPoint - Curs_SDA_9_RO_2019_v2.pptx

Operatorii in C Expresii Operatori aritmetici Operatori de asignare Operatori de incrementare si decrementare Operatori relationali Operatori logici O

Ghid de Referință Explicații sumare ale operațiunilor de rutină HL-L2312D HL-L2357DW HL-L2352DW HL-L2372DN HL-L2375DW Brother recomandă să păstrați ac

Microsoft Word - cap1p4.doc

_DE0735_RO.indd

A.E.F. - suport laborator nr.1 sem.ii Noțiuni generale pentru analiza cu elemente finite utilizând Siemens NX Nastran (1) În acest laborator sunt atin

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 4. Dezvoltarea site-urilor si blog-uri

RAPORT ŞTIINŢIFIC Contract nr 33CI/2017, cod PN-III-P2-2.1-CI Titlu proiect: Sistem integrat de analiză și prognoză a consumului pentru dist

Windows 7

Laborator 10 Lect. dr. Daniel N.Pop Departamentul de Calculatoare-Inginerie electrică 17.dec

Web Social FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 2. Dezvoltarea blogurilor prin intermediul WordPress.com PREZE

GHERCĂ MAGDA CASA CORPULUI DIDACTIC BRĂILA PORTOFOLIU EVALUARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A Neamț SERIA 1 GRUPA 1 CURSANT: GHERCĂ G

Romania postcomunista. Trecut, prezent si viitor

Laborator 5 - Paradigme de Programare

PROGRAMA CONCURSUL MICII CAMPIONI I. COMPETENȚE SPECIFICE ȘI EXEMPLE DE ACTIVITĂȚI DE ÎNVAȚARE 1.1. Explicarea unor modele / regularităţi, pent

Fisa disciplinei_Utilizarea_Calc_CFDP_ _var2_

Clasa IX 1. O lăcustă face salturi, fiecare salt în linie dreaptă şi de două ori mai lung ca precedentul. Poate vreodată lăcusta să revină în punctul

I. Partea introductivă Proiectul unității de învățare CONCEPTUL DE MATRICE ŞCOALA: Colegiul Național Petru Rareș Suceava CLASA: a XI a- matematică / a

LISTA

Investeşte în oameni Proiect cofinanţat din Fondul Social European prin Programul Operaţional Sectorial pentru Dezvoltarea Resurselor Umane

Matrici și vectori în VBA În VBA, o matrice este un grup de variabile de același tip. De ce ar trebui să utilizați o matrice? Presupunem că ați vrut s

A.E.F. - suport laborator nr.5 sem.ii Analiza suprafețelor prin utilizarea elementelor 2D În acest laborator sunt atinse următoarele aspecte: realizar

carteInvataturaEd_2.0_lectia5.pdf

Regulile jocului Hotline Hotline este un slot video cu 5 role, 3 rânduri și 30 de linii (fixe) care conține simboluri Wild și Expanding Wild, Re-Spins

A.E.F. - suport laborator nr.10 sem.ii Analiza stării de contact între elemente 3D În acest laborator sunt atinse următoarele aspecte: analiza contact

Microsoft Word - DCE - lucrarea 5.doc

Transcriere:

LP09- CORELAŢII ŞI REGRESII Considerații teoretice Legăturile care există între două variabile statistice pot fi studiate folosind două tehnici: CORELAȚIA și REGRESIA. CORELAȚIA arată cât de puternică este legătura REGRESIA ajută în explicarea și previzionarea unui factor pe baza valorii altuia (altora). Prin intermediul regresiei se pot face predicții ale unei variabile, în funcție de valoarea alteia. CORELAȚIA Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele observate în populaţii statistice Coeficientul de corelație Coeficientul de corelație este o valoare cantitativă ce descrie relația dintre două sau mai multe variabile. El variază între (-1 si +1), unde valorile extreme presupun o relație perfectă între variabile în timp ce 0 înseamna o lipsa totală de relație liniară. Pentru datele de tip cantitativ continuu, normal distribuite, coeficientul de corelațiedr numește Pearson (r) Pntru datele nominale ordonate sau date de tip cantitativ continuu care nu sunt normal distribuite, coeficientul de corelație se numește Spearman. Coeficientul de determinare r 2 Măsoară proporția din variația uneia dintre variabile ce poate fi atribuită (sau explicată) de variația celeilalte variabile. Coeficientul de determinare arată procentual cât la sută din variația unei variabile e explicată de variația celeilalte variabile Ex. r 2 =0,89 89% din variația lui y este explicată de variația lui x REGRESIA Regresia statistica este folosita pentru modelarea legaturilor statistice dintre variabile. Prin regresia statistica se modeleaza legaturile statistice dintre una sau mai multe variabile endogene (denumite și variabile prezise, explicate sau dependente, și notate uzual cu Y) și una sau mai multe variabile exogene (denumite și variabile predictoare, explicative sau independente, și notate uzual cu X). Modelele construite cu o singura variabilă explicate sunt modele de regresie univariata, iar modelele construite cu mai multe variabile explicate sunt modele de regresie multivariata. Modelele de regresie univariata pot fi, la randul lor, modele de regresie simpla, construite pentru o singură variabilă explicativă, și modele de regresie multiplă, care implică mai multe variabile explicative în relație cu variabila explicată considerată. Modelele construite prin regresie pot fi folosite apoi la realizarea de predictii statistice. Pentru regresia statistică sunt disponibile modele liniare, construite pe baza unor ecuații sau funcții matematice liniare, și modele neliniare, construite pe baza unor ecuații sau funcții matematice neliniare. Regresia liniara (simplă) Legătura liniară dintre cele două variabile este descrisă de o ecuație liniară, ecuaţia de regresie (regression equation) căreia îi corespunde geometric dreapta de regresie (regression line). Dreapta de regresie Y = a + b*x, unde a se numește interceptor iar b coeficient de regresie Dacă variabila dependentă este explicată de mai multe variabile independente (predictoare) regresia se 1

numește multiplă. Regresia liniara multipla Ecuația de regresie multiplă: Y = a + b 1 X 1 + b 2 X 2 + + b k X k, unde Y reprezintă variabila dependenta iar variabilele X 1,, X k sunt variabilele explicative, predictoare. Constantele b 1,, b k reprezintă coeficienții de regresie, iar a este constanta de regresie sau interceptorul. Obiective: - Calculul Coeficientul de corelaţie Pearson - Interpretarea coeficientului de corelație - Graficul de corelaţie (XY Scatter) - Regresia liniară - Determinarea coeficienților dreptei de regresie - Trasarea dreptei de regresie Problema 1. Se realizează un studiu pe un lot format din 100 de pacienţi. Se culeg date despre următorii parametri biomedicali: vârsta (ani), greutate (kg), înălţime (cm), IMC(kg/m ), tensiunea arterială sistolică (TAS) (mmhg), tensiunea arterială diastolică (TAD) (mmhg), glicemia (mg/dl), colesterol (mg/dl). Datele sunt prezentate în fişierul Tabel LP09. Salvaţi fişierul în folderul dvs. şi realizaţi următoarele prelucrări statistice în acest fişier. a. Calculaţi coeficientul de corelaţie Pearson dintre Varsta şi Greutate cu ajutorul funcţiei CORREL. b. Calculaţi indicele de masă corporală EVIC după formula c. Calculaţi coeficientul de corelaţie Pearson dintre IMC şi TAS cu ajutorul pachetului Data Analysis - Correlation. d. Calculaţi matricea de corelaţii a variabilelor: Varsta, Greutate, Inaltime, IMC, TAS, TAD cu ajutorul Data Analysis - Correlation vârstă (ani) greutate (kg) inalțime (cm) TAS (mmhg) TAD (mmhg) glucose (mg/dl) colesterol (mg/dl) IMC vârstă (ani) 1,000 greutate (kg) 0,267 1,000 inalțime (cm) -0,403 0,477 1,000 TAS (mmhg) 0,527 0,487 0,163 1,000 TAD (mmhg) 0,413 0,116-0,112 0,747 1,000 glucose (mg/dl) 0,335 0,457 0,220 0,692 0,417 1,000 colesterol (mg/dl) 0,420 0,485 0,122 0,214-0,206 0,107 1,000 IMC 0,552 0,847-0,054 0,440 0,197 0,354 0,478 1,000 e. Completaţi interpretarea Coeficientului de corelaţie pe coloana corelaţie conform regulilor lui Colton: Reguli empirice privind interpretarea coeficientului de corelaţie Colton: 1. un coeficient de corelaţie de la -0,25 la 0,25 indică o corelaţie slabă sau nulă, 2. un coeficient de corelaţie de la 0,25 la 0,50 (sau de la -0,25 la -0,50) indică un grad de asociere acceptabil 3. un coeficient de corelaţie de la 0,5 la 0,75 (sau de la -0,5 la -0,75) indică o corelaţie moderată spre bună 2

4. un coeficient de corelaţie mai mare decât 0,75 (sau mai mic decât -0,75) indică o foarte bună asociere sau corelaţie Coeficientul de Corelatie corelatie Pearson VARSTA GREUTATE 0,266566858 slabă VARSTA IMC 0,552 acceptabila VARSTA Inaltime -0,403 acceptabila VARSTA IMC VARSTA TAS VARSTA TAD GREUTATE IMC GREUTATE Inaltime GREUTATE IMC GREUTATE TAS GREUTATE TAD Inaltime IMC Inaltime TAS Inaltime TAD IMC TAS IMC TAD TAS TAD f. Reprezentaţi grafic dependenţa (corelaţia) dintre Vârstă şi IMC, adăugaţi pe grafic dreapta de regresie asociată, calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie. g. Calculaţi coeficientul de determinare prin metoda grafică pentru Varsta şi TAS. h. Calculaţi coeficienţii dreptei de regresie dintre Varsta şi Glicemie prin metoda grafică. i. Interpretaţi graficele, dreapta de regresie şi coeficientul de determinare. j. Determinaţi coeficienţii dreptei de regresie liniară pentru variabila dependentă Glicemie şi variabila independentă Greutate cu Regression din Data Analysis. Instrucţiuni a. Calcularea coeficientului de corelaţie Pearson dintre două variabile cantitative cu ajutorul funcţiei CORREL: Coeficientul de corelaţie Pearson este un indice numeric ce dă o măsură a relaţiei dintre două variabile cantitative continue sau discrete (!!! Nu se calculează pentru altfel de variabile). Copiaţi Vârsta şi Greutatea în Sheet 2. Introduceţi în Sheet 2 următorul tablel: Selectaţi celula unde vom calcula coeficientul de corelaţie. Meniul Formulas - Butonul Insert Function - Selectaţi funcţia CORREL Array1 - domeniul variabilei Varsta Array2 - domeniul variabilei Greutate Apăsaţi OK 3

Interpretarea rezultatului: r=-0,3347 indică o corelaţie acceptabilă între Varstă şi Greutate. Semnificatia coeficientului de corelație. Se calculează t după formula: Tcalculat=6,131451 Calculam probabilitatea cu funcția TDIST(6,131451;298;2), vom obține P=2,76E-09 P mai mic decât 5% - coeficientul de corelaţie este semnificativ la un prag de semnificaţie mai mic de 0,05 c. Calcularea coeficientului de corelaţie Pearson dintre două variabile cantitative cu ajutorul pachetului Data Analysis Corelations Copiaţi IMC în Sheet 3 în coloana A Copiaţi TAS în Sheet 3 în coloana B Apelați Data Analysis: Meniul Data Butonul Data Analysis Selectaţi Correlation. Apoi Ok. Input Range: selectaţi domeniul unde se găsesc valorile variabilelor IMC şi TAS: A1:B31 Selectaţi Labels in first row. Selectaţi Output Range În rubrica de lângă selectaţi celula D2. IMC TAS (mmhg) IMC 1 SBP (mmhg) 0,439810068 1 Rezultatul: Corelaţia dintre IMC şi TAS este 0,439, valoare care corespunde unei corelaţii acceptabile. Valorile 1 obţinute corespund corelaţiilor dintre IMC cu IMC şi respectiv TAS cu TAS, corelaţii perfecte. d. Realizarea matricei de corelaţii pentru 3 sau mai multe variabile Copiaţi variabilele în Sheet 4. Atenţie: IMC se va copia folosind optiunea Paste Options - Values sau Paste Special. 4

Repetaţi paşii de la punctul anterior. Input Range: selectaţi domeniul unde se Selectaţi Labels in first row. Selectaţi Output Range În zona de editare de lângă această etichetă găsesc valorile variabile selectaţi o celula din fo Rezultatul: vârstă (ani) vârstă (ani) 1 greutate (kg) greutate (kg) 0,27 1 înălțime (cm) înălțime (cm) -0,40 0,48 1 TAS (mmhg) TAS (mmhg) 0,53 0,49 0,16 1 TAD (mmhg) TAD (mmhg) 0,41 0,12-0,11 0,75 1 glucose (mg/dl) glucose (mg/dl) 0,33 0,46 0,22 0,69 0,42 1 colesterol (mg/dl) colesterol (mg/dl) 0,42 0,49 0,12 0,21-0,21 0,11 1 IMC 0,55 0,85-0,05 0,44 0,20 0,35 0,48 1 IMC Aranjaţi tabelul cu coeficienţii de corelaţie în formatul cerut în cerinţe. e. Realizaţi un grafic XY Scatter (nor de puncte ) (instrucţiuni în Laborator 4) cu variabilele cerute. Graficul trebuie să aibă un titlu adecvat, titluri pe cele două axe, dreapta de regresie, ecuaţia dreptei de regresie şi coeficientul de determinare, ştergeţi legenda. Executaţi fiecare graficul pe o pagină nouă. Se selectează cele 2 coloane ce conțin valorile pentru variabilele cerute (dacă variabilele nu se găsesc în coloane adiacente folosiți tasta Ctrl) și le copiați în alt Sheet sau alăturat în sheetul unde se găsește tabelul. Pentru cele 2 variabile apelați opținea Insert - Charts și apoi selectați tipul de grafic Scatter. Graficul obținut este reprezentat astfel: y=f(x), unde x este prima colană iar y a doua coloană selectată. Pentru a reprezenta corect graficul precizați pe axe ce reprezintă ele. Pentru acesta folosiți unelte oferite de excel (add char element din meniul DESIGN ex: Axes, axis title, chart title, etc. Pentru a reprezenta pe grafic dreapta de regresie, coeficientul de determinare apelați opțiunea Add tredline. Este posibil dacă utilizați versiuni mai vechi ale excel (ex: excel 2003 sau 2007), opțiunile prezentate mai sus să se găsească în alte meniuri f. Interpretaţi graficele, dreapta de regresie şi coeficientul de determinare conform: 5

TAS Coeficientul de determinare este pătratul coeficientului de corelaţie r, adică d = r 2. Valoarea coeficientului de determinare exprimă o intensitate a relaţiei liniare între cele două variabile sau răspunde la întrebarea: cât la sută din variaţia lui Y se poate explica prin relaţia liniară cu X. Diagrama de dispersie (Norul de puncte) In acest sens, o idee ceva mai precisă privind relaţia între cele două caracteristici se obţine împărţind diagrama de dispersie în patru cadrane prin două drepte perpendiculare care trec prin punctul (X,Y ), având coordonatele egale cu mediile celor două variabile. Dacă există o relaţie liniară între cele două variabile atunci punctele diagramei se vor repartiza preferenţial în anumite cadrane (II şi IV sau I şi III). Dacă punctele sunt repartizate în cadranele I şi III, atunci diagrama de dispersie are o tendinţă crescătoare (dreapta de regresie va avea un trend ascendent). Dacă punctele sunt repartizate în cadranele II şi IV, atunci diagrama de dispersie are o tendinţă descrescătoare (dreapta de regresie va avea un trend descendent). Dacă punctele sunt repartizate în toate cele patru cadrane în mod egal, atunci diagrama de dispersie ne indică o corelaţie nulă. Exemplu de interpretare: Punctele diagramei sunt repartizate preferenţial în cadranele I şi III. Dependenţa dintre TAS şi Vârstă este pozitivă: o creştere a Vârstei implică o creştere a TAS. Dreapta de regresie are un trend ascendent. Diagrama de dispersie indică o tendinţă crescătoare. 27% din variaţia TAS se datorează vârstei 210 160 110 60 Corelația dintre vârstă și TAS y = 0,7544x + 93,1 R² = 0,2778 20 40 60 80 Vârstă 6

g. Determinarea dreaptei de regresie liniară cu Regression din Data Analysis: Reveniţi pe pagina unde ati copiat Varsta si TAS - Meniul Data - Butonul Data Analysis - Selectaţi Regression Input Y Range: Selectaţi domeniul valorilor variabilei TAS ca variabilă dependentă Input X Range: Selectaţi variabila Vârstă ca variabilă independentă bifaţi Labels Bifaţi opţiunea Confidence Level pentru obţinerea intervalelor de încredere (cu nivelul de semnificaţie de 95%) Rezultatele: Multiple R = 0,527 este coeficientul de corelaţie Pearson. Regression Statistics Multiple R 0,5271 R Square 0,2778 Adjusted R Square 0,2705 Standard Error 16,087 Observations 100 R Square = 0,277 este coeficientul de determinare multiplu R 2 reprezintă proporţia variaţiei lui Y explicată de relaţia liniară cu X. In cazul nostru R 2 = r 2 = 0,277, deci 27% din variaţia TAS se poate explica prin relaţia liniară cu Vârsta. coeficientul de determinare corectat 16,087 este eroarea standard estimată şi este interpretată ca media erorii în predicţia lui Y cu ecuaţia de regresie. In cazul nostru eroarea standard este în medie 16,08 şi reprezintă media erorii predicţiei TAS cu ecuaţia de regresie. Numărul total de subiecţi intraţi în studiu, în cazul nostru 100 ANOVA df SS MS F Significance F Regression 1 9756,7 9756,714 38 1,76E-08 Residual 98 25362 258,7963 Total 99 35119 Coefficient s Standa rd Error t Stat P- value Lower 95% Upper 95% Lower 95,0% Upper 95,0% Intercept 93,1 5,2446 17,75174 0 82,69263 103,508 82,69263 103,508 age (ani) 0,7544 0,1229 6,140062 0 0,510551 0,99817 0,510551 0,99817 7

Interpretare (cu italic interpretările, iar cu regular explicaţiile): Anova - analiza de regresie include şi un test cu ipoteza nulă: panta dreptei este egala cu 0 (adică nu există corelaţie între variabila dependentă şi cea independentă luate în studiu). Dacă panta este semnificativ diferită de 0 (acest lucru se întamplă dacă la Significance F avem o valoare p<0,05) tragem concuzia că există o relaţie liniară între X şi Y. In cazul nostru p este mai mic decat 0,05, deci panta dreptei de regresie este semnificativ diferită de 0, deci există corelaţie semnificativă între TAS şi Vârstă. Regression - variaţia lui Y care se explică în funcţie de X Residual - variaţia lui Y care nu se explică în funcţie de X (valoarea reziduală este de preferat să fie cât mai mică) Total - este variaţia totală, adică suma variaţiei regresiei cu variaţia reziduală df - gradele de libertate. SS - suma de pătrate. MS - media sumei de pătrate MS=SS/df F este parametrul testului F = MS(regression)/MS(residual). Significance F = 1,76E-08 în acest caz se respinge ipoteza nulă (p-value<0,05), adică corelaţia dintre cele două variabile este semnificativă. Coefficients - pentru Intercept (constanta) valoarea este 93,1, iar pentru coeficientul a (panta) valoarea este 0,7544. Deci dreapta de regresie Y=aX+b în cazul nostru este : y = 0,7544x + 93,1 Intercept - constanta T stat este un test statistic cu ipoteza nulă: constanta (intercept) nu este diferită semnificativ de zero. P-value este rezultatul testului. Dacă p-value<0,05, atunci se refuză ipoteza nulă şi se acceptă ipoteza alternativă constanta este semnificativ diferită de zero. Lower 95% şi Upper 95% formează un interval de confidenţă de 95% în jurul constantei. Varsta (X) Panta dreptei de regresie (coeficientul a) este 0,7544. 8

Problema 2. Pentru a se studia hipercolesterolemia au fost luate în studiu două eşantioane: 187 de pacienţi (lot 1) şi 255 de indemni de boală (lot 2). Pentru aceşti subiecţi au fost înregistraţi următorii parametri biologici: Varstă, Greutate, înălţime, Colesterol, Trigliceride, HDL colesterol, Glicemie. Datele se găsesc în fişierul Tabele problem propuse LP12. Realizaţi: 1. Sortaţi crescător datele cu cheia de sortare LOT (meniul Data - Sort, alegeţi LOT). 2. Calculaţi IMC (indice de masă corporală) cu formula: greutatea( kg) IMC inănălţim 2 ( m) 3. Calculaţi indicatorii de centralitate (media aritmetică, mediana), indicatorii de localizare (quartilele), indicatorii de dispersie (amplitudinea, variaţia, abaterea standard, coeficientul de variaţie, boltirea şi asimetria) pentru Varstă, IMC, Colesterol, TG, Glicemie şi HDL separat la lotul 1 şi la lotul 2. 4. Pentru lotul de bolnavi (LOT=1) pentru variabilele cantitative calculaţi matricea de corelaţie. 5. Pentru lotul de bolnavi (LOT=2) calculaţi coeficientul de corelaţie Pearson r pentru: - TG şi IMC, - Glicemie şi IMC, - TG şi HDL, - IMC şi Colesterol (utilizaţi funcţia CORREL). Interpretaţi statistic rezultatele. 6. Reprezentaţi grafic corelaţiile, realizaţi dreapta de regresie asociată, calculaţi coeficientul de determinare d şi ecuaţia dreptei de regresie pentru parametrii între care există corelaţie bună şi foarte bună (r obţinut la iii) şi iv) peste >0,5 sau sub <-0,5). 7. Determinaţi dreapta de regresie liniară pentru variabila dependentă TG şi variabila independentă IMC cu Regression din Data Analysis numai pentru pacienţii din LOT=1. Problema 3. Datele din tabelul de mai jos reprezintă presiunea medie şi umezeala medie relativă în cele 31 de zile ale lunii ianuarie 2015 întro locaţie din judeţul Timiş. Presiune medie Umez.med relativa 1015,9 86 1014,1 78 1015,6 81 1010,2 82 1007,9 84 1010,5 79 1010,5 84 1016,2 79 1024,0 77 1021,7 81 1027,1 85 1027,2 88 1018,1 88 1005,8 77 1008,0 90 1012,1 91 1015,4 84 1009,4 82 1001,4 78 997,6 71 996,7 77 995,6 81 986,6 91 980,0 89 985,3 88 992,8 87 995,8 84 992,8 90 998,3 92 1005,8 84 1005,9 76 a. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (umezeala med. relativa=f(presiune medie.) (panta şi ordonata la origine a dreptei) b. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere umezeala med. relativ=f(presiune medie) şi dreapta descrisă de ecuaţia de regresie de la pct. a 9

Problema 4. Datele din tabelul de mai jos reprezintă temperatura medie în aer şi umezeala medie relativă în cele 31 de zile ale lunii ianuarie 2009 întro locaţie din judeţul Timiş. 1. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (Temp. Aer medie=f(umezeala med. relativă.) (panta şi ordonata la origine a dreptei) 2. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere Temp. Aer medie= f(umezeala med. relativă) şi dreapta descrisă de ecuaţia de regresie de la pct. 1 Temp. aer medie Umez.med relativa Temp. aer medie Umez.med relativa -6,2 86 3,6 78-5,9 78 6,5 71-6,3 81 6,4 77-9,6 82 9 81-6,2 84 5,9 91-6,5 79 4,5 89-8,2 84 3,6 88-0,3 90 4,4 87-4,9 79 5,1 84-7,3 77 6,1 90-8,7 81 2,8 92-7,7 85 2,2 84-6,9 88-2,6 84-6,3 88-1,9 82 1,2 77-0,4 91 Problema 5. Datele din tabelul de mai jos reprezintă temperatura medie în aer şi numărul de căpuşe pe unitatea de suprafaţa măsurate într-o locaţie din judeţul Timiş. luna Ziua T Med Nr capuse luna Ziua T Med Nr capuse 1 12 6 32 6 7 20,4 2632 1 18 9 46 6 14 20,9 2851 1 25 4,5 73 6 21 24,8 3754 2 1 4,4 42 6 28 18 4173 2 8 10,7 61 7 5 16,4 4337 2 15 5,7 126 7 12 14,8 3575 2 22 10,2 84 7 19 27,3 4033 3 1 9,7 113 7 26 20,8 5106 3 8 10,2 168 8 2 20 5448 3 15 8,1 147 8 9 23,5 5613 3 22 6,8 182 8 16 22,9 4531 3 29 8,7 215 8 23 26,8 5874 4 5 8,6 238 8 30 23,1 6147 4 12 11,6 324 9 6 9,9 4648 4 19 9,5 375 9 13 13,4 1821 4 26 12,7 433 9 20 11 1617 5 3 12,1 612 9 27 17,3 1744 5 10 14,1 869 10 4 15 2136 5 17 14,8 1105 10 11 11,9 1589 10

5 24 19,5 1477 10 18 9,7 871 5 31 13,5 2248 10 25 7,3 375 1. Care este ponderea zilelor cu temperaturi mai mari de 20 C din numarul total de zile în care s-au făcut observaţii 2. Să se calculeze coeficientul de corelaţie dintre cei doi indicatori (nunmăr de căpuşe şi T med) 3. Interpretaţi rezultatul obţinut la punctul 2. 4. Stabiliţi ecuaţia de regresie ce descrie relaţia dintre cele două caracteristici urmărite (Număr de căpuşe=f(tmed.) (panta şi ordonata la origine a dreptei) 5. Reprezentaţi în acelaşi sistem de coordonate diagrama de imprăştiere Număr de căpuşe=f(tmed) şi dreapta descrisă de ecuaţia de regresie de la pct. 4 11