Analiza Bayesiana - Fundamente Teoretice si Exemple

Documente similare
FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea de Vest din Timișoara 1.2 Facultatea Matematică și Informa

PowerPoint Presentation

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

OPERATII DE PRELUCRAREA IMAGINILOR 1

Paradigme de Programare

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

Calcul Numeric

Laborator 3 - Simulare. Metode de tip Monte Carlo. I. Estimarea ariilor şi a volumelor RStudio. Nu uitaţi să va setaţi directorul de lucru: Session Se

Introducere în statistică

Aproximarea functiilor prin metoda celor mai mici patrate

Laborator 6 - Statistică inferenţială I. Inferenţă asupra mediei - Testul Z pentru media unei populaţii cu dispersia cunoscută Se consideră o populaţi

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

Inferenţa statistică

AGENDA TRAINING

DAN LASCU ADRIANA-LIGIA SPORIŞ ANDA OLTEANU PAUL VASILIU MATEMATICĂ. CULEGERE DE PROBLEME TIP GRILĂ PENTRU ADMITEREA ÎN ACADEMIA NAVALĂ MIRCEA CEL BĂT

Universitatea Lucian Blaga Sibiu Facultatea de inginerie-Departamentul de calculatoare şi Inginerie Electrică Titular curs: Şef lucrări dr.mat. Po

FIŞA DISCIPLINEI 1. Date despre program 1.1. Instituţia de învăţământ superior Universitatea Spiru Haret 1.2. Facultatea Ştiinţe Economice Bucureşti 1

Microsoft Word - Algoritmi genetici.docx

ROMÂNIA MINISTERUL EDUCAŢIEI NAȚIONALE Domeniul fundamental: Matematică și știinţe ale naturii Domeniul de licenţă: Informatică Ciclu de studii: 1 Pro

Pe o scală de la 1 la 10 în care nota 1 înseamnă sigur nu voi vota, iar nota 10 înseamnă sigur voi vota, indicați în ce măsură intenționați să vă prez

Logică și structuri discrete Relații. Funcții parțiale Marius Minea marius/curs/lsd/ 20 octombrie 2014

Slide 1

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

Lucrarea 7 Filtrarea imaginilor BREVIAR TEORETIC Filtrarea imaginilor se înscrie în clasa operaţiilor de îmbunătăţire, principalul scop al acesteia fi

20 SUBIECTE DE EXAMEN - De fapt, în pofida acestor probleme, până la urmă tot vom logaritma, căci aceasta este tehnica naturală în context. Trebuie do

PLAN DE ÎNVĂŢĂMÂNT

Suportul deciziei economice pentru sisteme informatice distribuite

PowerPoint Presentation

Microsoft Word - matem_aplicate in Economie aa FD Bala.doc

PROGRAMA CONCURSULUI NAŢIONAL

LUCRAREA 8 PROGRAMAREA NELINIARĂ ÎN REZOLVAREA PROBLEMELOR DIN ENERGETICĂ. METODE DE ORDINUL Aspecte generale Programarea neliniară are o foart

III. ECONOMISIREA ŞI INVESTIŢIILE De citit. Un bănuţ pus deoparte Nu-ţi trebuie cine ştie ce formule pentru investiţii, pentru a te bucura de dobânzil

Laborator 1-Teoria probabilitatilor si statistica matematica Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 1 P

Şcoala ………

rrs_12_2012.indd

Clasa IX 1. O lăcustă face salturi, fiecare salt în linie dreaptă şi de două ori mai lung ca precedentul. Poate vreodată lăcusta să revină în punctul

Diapositive 1

Cuantizare Vectoriala.doc

PROBLEME PRIVIND INSTABILITATEA UNOR CALCULE ALE MECANISMELOR

VALORIFICAREA EXPERIENŢEI POZITIVE PRIVIND PROIECTAREA CURRICULARĂ ÎN ÎNVĂŢĂMÂNTUL LICEAL PORNIND DE LA COMPETENŢE CA FINALITĂŢI ALE ÎNVĂŢĂRII Prof. P

Modelarea si Simularea Sistemelor de Calcul

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Microsoft Word - 2 Filtre neliniare.doc

Analiză statică Analiza fluxului de date 23 octombrie 2014

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

Microsoft PowerPoint - Curs_SDA_9_RO_2019_v2.pptx

Operatorii in C Expresii Operatori aritmetici Operatori de asignare Operatori de incrementare si decrementare Operatori relationali Operatori logici O

Cursul 8 Funcţii analitice Vom studia acum comportarea şirurilor şi seriilor de funcţii olomorfe, cu scopul de a dezvălui o proprietate esenţială a ac

Cursul 7 Formula integrală a lui Cauchy Am demonstrat în cursul precedent că, dacă D C un domeniu simplu conex şi f : D C o funcţie olomorfă cu f cont

Analiză de flux de date 29 octombrie 2012

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

Microsoft Word - Planuri_Mate_

Programarea şi utilizarea calculatoarelor

Spatii vectoriale

Paradigme de programare

PLAN DE ÎNVĂŢĂMÂNT

2

Guidelines on LGD estimates under downturn conditions_RO.docx

Microsoft Word - 0. Introducere.docx

BAC 2007 Pro Didactica Programa M1 2 Rezolvarea variantei 36 versiune finală Redactia Pro Didactica Suportul pe net:

Electricitate II

METODE NUMERICE ÎN INGINERIE

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

Cursul 12 (plan de curs) Integrale prime 1 Sisteme diferenţiale autonome. Spaţiul fazelor. Fie Ω R n o mulţime deschisă şi f : Ω R n R n o funcţie de

Microsoft Word - Ghid Met prelev.doc

Slide 1

Ecuatii si sisteme de ecuatii neliniare 1 Metoda lui Newton Algorithm 1 Metoda lui Newton pentru ecuaţia f(x) = 0. Date de intrare: - Funcţia f - Apro

Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

OBSERVAȚIA LA RECENSĂMÂNTUL POPULAȚIEI ȘI LOCUINȚELOR 2011 Potrivit rezultatelor ultimului Recensământ (2002), populația de etnie romă din România era

ELABORARE PROIECTE

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

MergedFile

Microsoft Word - TIC5

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ

GHERCĂ MAGDA CASA CORPULUI DIDACTIC BRĂILA PORTOFOLIU EVALUARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A Neamț SERIA 1 GRUPA 1 CURSANT: GHERCĂ G

Neural Networks

Microsoft PowerPoint - curs5-DPT-2010V97 [Compatibility Mode]

Microsoft Word - cap1p4.doc

Laborator 7- Distributii de probabilitate clasice Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 15.nov

06. Modelarea continua si discreta a sistemelor - MAGS 1

Laborator 9- Estimarea parametrilor Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 29.nov

C10: Teoria clasică a împrăștierii Considerăm un potențial infinit în interiorul unui domeniu sferic de rază a și o particulă incidentă (Figura 1) la

carteInvataturaEd_2.0_lectia5.pdf

ROMÂNIA MINISTERUL EDUCAŢIEI NAŢIONALE UNIVERSITATEA OVIDIUS DIN CONSTANŢA FACULTATEA DE MATEMATICĂ ŞI INFORMATICĂ PLAN DE ÎNVĂŢĂMÂNT (conţine 11 pagi

Slide 1

MergedFile

PowerPoint Presentation

1 2 1

PowerPoint Presentation

Curs 3 Permutari cu repetitie. Combinari. Algoritmi de ordonare si generare

DOMENIUL: Matematica

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ Universitatea Babeş-Bolyai superior 1.2 Facultatea Psihologie şi Ştiinţe ale Educ

Microsoft Word - FD_AA_An2 Sem II_Cerc. de mk doc

PPSD

Your Presentation Name

Transcriere:

ANALIZĂ BAYESIANĂ Fundamente Teoretice și Exemple Constantin Manuel Bosancianu Școala Doctorală de Științe Politice, Politici Publice și Relații Internaționale Central European University Metode Aplicate de Cercetare Socială Cluj-Napoca, România: 24 Iulie, 2014 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 1 / 82

Introducere Întrebări și teme Ce este nou în analiza Bayesiană? Concepte de bază Principiile analizei Bayesiene Metode moderne: algoritmul Gibbs, algoritmul Metropolis Hastings Exemple, exemple, exemple... Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 2 / 82

Introducere Istoric Scurt istoric Ramuri statistice: 1. Paradigma frecventistă: J. Neyman (CIs), E. Pearson (NHST), A. Wald (experimente); 2. Paradigma verosimilității (likelihood): R. A. Fisher inferență bazată pe un eșantion unic; 3. Paradigma Bayesiană: T. Bayes, P.-S. Laplace, B. de Finetti. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 3 / 82

Introducere Istoric Scurt istoric Paradigma Bayesiană are cele mai vechi rădăcini secolul XVIII (T. Bayes și P.-S. Laplace). Nu a devenit fezabilă pentru inferențe statistice în situații practice decât recent. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 4 / 82

Introducere Istoric Motive pentru adoptarea târzie Ostilitate a practicienilor celorlalte ramuri statistice, e.g. R. A. Fisher. Dificultăți în a accepta caracterul ei subiectiv. 1 Cerințele computaționale foarte ridicate în majoritatea aplicațiilor practice (algoritmii Gibbs sau Metropolis Hastings). 1 Mai multe despre aceasta peste câteva slide-uri. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 5 / 82

Introducere Istoric Exemplele practice Prezentarea: https://manuelbosancianu.github.io/ workshops/2014-07-cluj Am evitat să ofer și codul R, deoarece scopurile noastre sunt mai teoretice de data aceasta. Pe lângă R, mai este nevoie de un program care se ocupă de analiza propriu-zisă (JAGS, BUGS, STAN). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 6 / 82

Probabilități

Probabilități Notație Probabilitate A B A A B B Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 8 / 82

Probabilități Notație Probabilitate p(a B) = p(a) + p(b) p(a, B). Formula poate fi citită ca probabilitatea ca A sau B să se întâmple. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 9 / 82

Probabilități Notație Probabilitate p(a B) = p(a, B) = p(a) p(b), dacă și numai dacă A și B sunt independente. Formula poate fi citită ca probabilitatea ca A și B să se întâmple. Dacă A și B nu sunt independente, p(a B) = p(a B) p(b) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 10 / 82

Probabilități Notație Probabilitate condițională p(a B) = p(a, B) p(b) (1) Poate fi citită ca probabilitatea ca A să se întâmple ținând cont că B deja s-a întâmplat Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 11 / 82

Probabilități Notație Probabilitate condițională Interes politic 1 2 3 4 Total rând Ciclu secundar 19 37 39 14 4% Liceu 70 375 387 155 34% Facultate 49 397 617 224 44% MA și peste 5 95 274 180 19% Total coloană 5% 31% 45% 20% 100% Distribuțiile marginale sunt marginile, iar distribuțiile condiționale sunt coloanele sau rândurile (condiționate de valoarea celeilalte variabile). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 12 / 82

Probabilități Legea lui Bayes Legea p(a B) = p(a,b) p(b) p(b A) = p(b,a) p(a) Înmulțirea cu numitorul transformă equația 2 în { p(a, B) = p(a B) p(b) p(b, A) = p(b A) p(a) (2) (3) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 13 / 82

Probabilități Legea lui Bayes Legea Deoarece p(a, B) = p(b, A) p(a B) p(b) = p(b A) p(a) p(a B) = p(b A) p(a) p(b) (4) Legea lui Bayes! Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 14 / 82

Probabilități Legea lui Bayes Semnificația În termeni simpli, oferă posibilitatea de a inversa probabilități condiționale. Posibilități imense apar dacă înlocuim B cu date, iar A cu un parametru θ. p(θ date) = }{{} posterioară verisimilitate {}}{ p(date θ) p(date) }{{} =1 anterioară {}}{ p(θ) (5) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 15 / 82

Probabilități Legea lui Bayes Semnificația Combinăm probabilitatea de a observa datele din eșantion condiționată de modelul nostru statistic, p(date θ), cu gradul nostru de încredere în acel model, p(θ), pentru a obține probabilitatea modelului condiționată de observarea datelor din eșantion. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 16 / 82

Probabilități Exemplu Teste pentru boală Să presupunem că un virus afectează 1% din populație. Avem un test, cu 95% rată de succes: categorizează corect 95% din cazurile de infecție, și 95% din cazurile lipsite de infecție. Dacă testul îmi spune că sunt infectat, care e probabilitatea să fiu infectat? Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 17 / 82

Probabilități Exemplu Teste pentru boală Probabilitatea de depistare în cazul infecției: p(d I ) = 95%. Probabilitatea infecției: p(i ) = 1%. Probabilitatea depistării: p(d) = p(d I ) p(i ) + [1 p(d I )] p( I ) = = 0.95 0.01 + 0.05 0.99 = 0.059 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 18 / 82

Probabilități Exemplu Teste pentru boală Punând toate cele 3 elemente împreună, avem: p(i D) = = p(d I ) p(i ) = p(d) 0.95 0.01 0.161 0.059 Legea lui Bayes poate fi aplicată încă o dată, și încă o dată... Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 19 / 82

Întrebări?

Analiza Bayesiană

Analiza Bayesiană Diferențe Interpretarea probabilității 2 NON-BAYESIENI Proporția de succese dintr-o serie lungă (infinită) de probe (experimente) derulate în condiții identice. BAYESIENI Gradul de încredere (subiectivă!) a cercetătorului în valoarea unui parametru înainte de a observa datele. 2 Am folosit textul lui Jeff Gill (2008) pentru această secțiune. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 22 / 82

Analiza Bayesiană Diferențe Fix vs. aleatoriu NON-BAYESIENI Eșantionul este aleatoriu, însă parametrii care generează datele sunt ficși (există în natură). BAYESIENI Eșantionul este fix (observat de noi), însă parametrii care au generat datele sunt aleatorii (fiecare este descris printr-o distribuție a cărei varianță denotă gradul nostru de încredere în valoarea parametrului). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 23 / 82

Analiza Bayesiană Diferențe Sumarizarea rezultatelor NON-BAYESIENI Coeficienți și erori standard. Intervale de încredere care indică faptul că în 19/20 de încercări intervalul include parametrul. BAYESIENI Descrierea distribuției posterioare: medie, IQR etc. Indică faptul că suntem 95% siguri că parametrul se găsește în intervalul HPD (higest posterior density). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 24 / 82

0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 12 Ce concluzie ar lua un non-bayesian și un Bayesian?

Analiza Bayesiană Anterioară Distribuție anterioară Am trecut de la probabilități clare (ca în exemplul cu infecția), la probabilități exprimate în distribuții. Din punct de vedere teoretic, saltul nu e chiar atât de mare. O distribuție exprimă gradul nostru de încredere privind parametrul estimat. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 26 / 82

Analiza Bayesiană Anterioară Grad de încredere diferit... 0.8 0.6 0.4 0.2 0 4 2 0 2 4 6 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 27 / 82

Analiza Bayesiană Anterioară Parametri diferiți 0.8 0.6 0.4 0.2 0 4 2 0 2 4 6 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 28 / 82

Analiza Bayesiană Anterioară Exemplul cu infecția p(i ) = 1%. Însă, știm că există variabilitate în populație, e.g. cei tineri au o probabilitate mai scăzută de a fi infectați decât cei mai în vârstă. Putem exprima aceasta ca p N (1, 0.25). Un grad mai mare de incertitudine ar putea fi exprimat ca p N (1, 0.5). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 29 / 82

Analiza Bayesiană Anterioară De unde vin distribuțiile anterioare? Un aspect foarte controversal al Analizei Bayesiene, deoarece aduce subiectivism în procedură. Pe de altă parte, există suficient subiectivism ascuns în practica paradigmei frecventiste. Bayesienii trebuie să depună eforturi considerabile pentru a arăta că rezultatele obținute nu sunt datorate alegerii foarte atente a distribuției anterioare. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 30 / 82

Analiza Bayesiană Anterioară De unde vin distribuțiile anterioare? 1. Experiența cercetătorului; 2. Experți externi (procedura se numește elicitare); 3. Analize existente. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 31 / 82

Analiza Bayesiană Anterioară Tipuri de anterioare 1. Informative; 2. Non-informative; 3. Conjugate (conjugate). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 32 / 82

Analiza Bayesiană Anterioară Anterioare informative 0.4 0.2 0 4 2 0 2 4 6 Exprimă cunoștințele noastre despre valoarea parametrului și gradul nostru de încredere în aceste cunoștințe Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 33 / 82

Analiza Bayesiană Anterioară Anterioare non-informative 0.6 0.55 0.5 0.45 4 2 0 2 4 6 Exprimă lipsa oricărei cunoștințe despre parametru, ceea ce transformă analiza într-una bazată integral pe ML Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 34 / 82

Analiza Bayesiană Anterioară Anterioare conjugate În cele mai multe cazuri, distribuția posterioară e foarte dificil de obținut analitic. Caracterul conjugat e o proprietate a distribuției anterioare și a funcției verosimilității (likelihood function), care asigură că posterioara va aparține aceleiași familii de distribuții ca anterioara. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 35 / 82

Analiza Bayesiană Anterioară Anterioare conjugate Foarte importante din punct de vedere istoric, pentru ca altfel doar un număr minuscul de analize Bayesiene ar fi putut fi rezolvate. Recent, cu metodele MCMC (Markov chain Monte Carlo), care abordează problema prin simulare iar nu analitic, anterioarele conjugate nu mai sunt atât de importante. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 36 / 82

Întrebări?

Analiza Bayesiană Exemplu Estimarea unei proporții Un politician face un sondaj cu 2 săptămâni înainte de alegeri (N=100); 51% din respondenți ar vota cu ea. Cu o săptămână înainte, un nou sondaj (N=150) arată că 60% din alegători ar vota cu ea. Ce șanse de câștig are politicianul nostru? Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 38 / 82

p(θ) 0 2 4 6 8 12 beta(θ 51,49) Prior p(d θ) 0e+00 3e 44 6e 44 p(θ D) 0 2 4 6 8 12 0.0 0.2 0.4 0.6 0.8 1.0 θ Data: z=93,n=150 Likelihood 0.0 0.2 0.4 0.6 0.8 1.0 θ beta(θ 144,106) p(d)=7.97e 45 Posterior 95% HDI 0.515 0.637 0.0 0.2 0.4 0.6 0.8 1.0 θ

p(θ) 0 5 10 15 beta(θ 51,49) Prior 0.0 0.2 0.4 0.6 0.8 1.0 θ Likelihood p(d θ) 0.0e+00 1.0e 131 p(θ D) 0 5 10 15 Data: z=274,n=450 0.0 0.2 0.4 0.6 0.8 1.0 θ beta(θ 325,225) p(d)=1.36e 132 Posterior 95% HDI 0.55 0.632 0.0 0.2 0.4 0.6 0.8 1.0 θ Dar dacă al doilea sondaj e cu N=450?

p(θ) 0 20 40 60 beta(θ 5100,4900) Prior 0.0 0.2 0.4 0.6 0.8 1.0 θ Likelihood p(d θ) 0.0e+00 1.0e 131 p(θ D) 0 20 40 60 Data: z=274,n=450 0.0 0.2 0.4 0.6 0.8 1.0 θ beta(θ 5374,5076) p(d)=nan Posterior 95% HDI 0.505 0.524 0.0 0.2 0.4 0.6 0.8 1.0 θ Dar dacă al primul sondaj e cu N=10000?

Analiza Bayesiană Exemplu Exemplu Am putea continua cu exemple de alte distribuții. Matematica devine puțin mai complexă, însă raționamentul e același. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 42 / 82

Iar teorie...

MCMC Probleme mai complexe Realitatea e rareori așa 0.4 0.2 0 4 2 0 2 4 6 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 44 / 82

P (x 1) P (x 2) 0.4 P 0.2 0 1 0 1 2 2 1 x 1 x 2 3 0 4 1 3 4 P (x 1, x 2) 0.15 0.1 5 10 2 0

MCMC Probleme mai complexe Alte cazuri problematice 4 Distribuții univariate care nu pot fi descrise printr-un set de parametri. 3 În aceste cazuri, nu mai putem obține o soluție analitică pentru a descrie distribuția posterioară. 3 Spre exemplu, cei doi parametri care descriu o distribuție Gaussiană specifică: N (1, 0.25). 4 Puteți găsi figura de mai sus la: http://tex.stackexchange.com/ questions/31708/draw-a-bivariate-normal-distribution-in-tikz. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 46 / 82

MCMC Probleme mai complexe Metode Monte Carlo Soluția este de a obține o imagine aproximativă a acestei distribuții, și de a folosi această copie pentru a obține parametrii de care suntem interesați. Acesta este rolul metodelor Monte Carlo (numite astfel deoarece implică procese aleatorii). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 47 / 82

MCMC Probleme mai complexe Rolul imaginii 0.4 0.4 0.2 0.2 0 4 2 0 2 4 6 0 4 2 0 2 4 6 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 48 / 82

Algoritmul Gibbs

MCMC Gibbs Simplificare Putem aborda problema încercând să simplificăm: o distribuție multivariată poate fi secționată într-o serie de distribuții de ordin mai mic, e.g. univariate. În asta constă esența algoritmului Gibbs. Însă cum putem analiza aceste distribuții de ordin mai mic dacă nu analitic? Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 50 / 82

MCMC Gibbs Metode Metode Aproximare Eșantionare Expansiune serii Taylor Quadratură Prin respingere Prin inversiune Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 51 / 82

MCMC Gibbs Eșantionare prin respingere 0.8 0.6 0.4 g(x) 0.2 f (x) 0 1 0 1 2 3 4 5 6 Alegem un punct, z, pe funcția plic g(x). Suntem interesați de funcția f (x) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 52 / 82

MCMC Gibbs Eșantionare prin respingere 0.8 0.6 0.4 g(x) 0.2 f (x) 0 1 0 1 2 3 4 5 6 Alege aleatoriu u (0, 1) și alege punctul u g(z) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 53 / 82

MCMC Gibbs Eșantionare prin respingere 0.8 0.6 0.4 g(x) 0.2 f (x) 0 1 0 1 2 3 4 5 6 Dacă u g(z) > f (z), respinge și selectează un nou z. Dacă nu, păstrează-l ca aparținând de f(x). În cazul de față, trebuie respins. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 54 / 82

MCMC Gibbs Avantaje Metoda funcționează pentru orice formă a funcției f(x). Într-o formă puțin mai complexă funcționează pentru distribuții multivariate. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 55 / 82

MCMC Gibbs Limite Uneori e dificil de a găsi o funcție plic potrivită. Alteori, procesul poate deveni foarte ineficient dacă funcția plic e mult mai înaltă decât funcția de care suntem interesați. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 56 / 82

MCMC Gibbs Ineficiență 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 20 Distribuție gamma dificil de acoperit eficient Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 57 / 82

MCMC Gibbs Cum o folosim? Algoritmul Gibbs poate folosi eșantionarea prin respingere pentru a ajunge la o imagine a distribuției multivariate de interes. Să presupunem că avem un vector de parametri, θ 1, θ 2,..., θ k, cărora le alocăm niște valori inițiale aleatorii, S. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 58 / 82

MCMC Gibbs Algoritmul Gibbs 1. θ j=0 = S 2. j devine j + 1 3. Eșantionăm (θ j 1 θj 1 2, θ j 1 3,..., θ j 1 k ) 4. Eșantionăm (θ j 2 θj 1, θj 1 3,..., θ j 1 k ) 5.... 6. Eșantionăm (θ j k θj 1, θj 2,..., θj k 1 ) 7. Ne întoarcem la pasul 1. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 59 / 82

MCMC Exemplu Exemplu 0.4 0.3 0.2 0.1 0.4 0.3 0.2 0.1 4 2 0 2 4 X 4 2 0 2 4 Y Două variabile distribuite normal, corelate la 0.5 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 60 / 82

MCMC Exemplu Exemplu 0 0 y y 5 5 10 10 10 5 0 10 5 0 x x Parcursul algoritmului Gibbs după 10 și după 50 de iterații Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 61 / 82

MCMC Exemplu Exemplu 10 5 0 10 5 0 x y 10 5 0 10 5 0 x y Parcursul algoritmului Gibbs după 200 și după 2000 de iterații Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 62 / 82

Algoritmul Metropolis Hastings

MCMC Metropolis Hastings Probleme cu Gibbs Uneori, nu putem găsi o funcție plic, sau algoritmul e prea ineficient (respinge prea multe valori pentru fiecare valoare acceptată). Algoritmul Metropolis Hastings poate fi folosit. 5 5 Matematic vorbind, Gibbs este un caz special al Metropolis Hastings. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 64 / 82

MCMC Metropolis Hastings Exemplul politicianului Un politician trebuie să meargă în campanie pe o serie de insule, cu populații diferite. Pornește de la insula I x, dar nu poate merge decât pe insulele adiacente, I x 1 sau I x+1. Ea dorește să meargă mai des pe insulele mai populate, pentru a câștiga alegerile. Ce regulă trebuie adoptată? Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 65 / 82

MCMC Metropolis Hastings Exemplul politicianului Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 66 / 82

MCMC Metropolis Hastings Pasul 1: dreapta sau stânga? Probabilitatea p = 0.5 Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 67 / 82

MCMC Metropolis Hastings Pasul 2: schimbăm insula sau nu? Dacă I x+1 I x, da cu p = 1. Dacă I x+1 < I x, da cu p = Pop Ix+1 /Pop Ix. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 68 / 82

40% Probabilitate 15% 10% 20% 15% 1 2 3 4 5 În loc de insule, ar putea fi o distribuție

Din Kruschke (2010).

MCMC Metropolis Hastings Mai formal Algoritmul Metropolis Hastings se bazează pe 2 pași: 1. Mai întâi, o decizie aleatorie este luată cu privire la direcția de avansare; 2. Apoi, algoritmul avansează spre această direcție cu probabilitatea: { p = 1 : P(θpropus ) P(θ actual ) p = P(θ propus) : P(θ P(θ actual ) propus ) < P(θ actual ) (6) Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 71 / 82

MCMC Metropolis Hastings Imaginea Algoritmul poartă numele de lanț Markov deoarece are o memorie scurtă: poziția viitoare în distribuție nu este determinată decât de poziția actuală. Calea parcursă de algoritm reprezintă o imagine suficient de bună a distribuției de care suntem interesați. 6 6 Atât timp cât excludem primii pași, care îi dau punctului de pornire o influență prea mare asupra distribuției finale. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 72 / 82

MCMC Metropolis Hastings Algoritmul Am prezentat doar un caz special pentru un algoritm mult mai general (Metropolis, Rosenbluth, Rosenbluth, Teller, & Teller, 1953). Partea frumoasă a algoritmului este că funcționează și dacă: 1. Avem o distribuție continuă; 2. Avem mai mult de o dimensiune a distribuției; 3. Salturile dintre poziții sunt mai mari. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 73 / 82

MCMC Exemplu Exemplu Un exemplu foarte simplu de estimare a unei proporții cu ajutorul algoritmului Metropolis Hastings. Distribuția anterioară va fi una non-informativă (uniformă). Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 74 / 82

MCMC Exemplu Datele 60% Probabilitate 40% 0 1 O simplă proporție de succese dintr-un eșantion de 20 de încercări Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 75 / 82

MCMC Exemplu Un fragment important de cod Partea de cod care specifică distribuția de unde se va face eșantionarea. targetrelprob = function(theta, data) { targetrelprob = likelihood(theta, data) * prior(theta) return(targetrelprob) } Codul funcționează datorită Legii lui Bayes: Posterior Likelihood Prior. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 76 / 82

MCMC Exemplu Un fragment important de cod Partea de cod care decide dacă trecem la o nouă locație în distribuție sau stăm pe loc. probaccept = min( 1, targetrelprob( currentposition + proposedjump, mydata ) / targetrelprob( currentposition, mydata ) ) if ( runif(1) < probaccept ) { trajectory[ t+1 ] = currentposition + proposedjump } } else { trajectory[ t+1 ] = currentposition } Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 77 / 82

N pro =50000 N acc N pro =0.72 mean = 0.59 95% HDI 0.396 0.792 0.0 0.2 0.4 0.6 0.8 1.0 θ Nu suntem foarte departe de proporția inițială

N pro =50000 N acc N pro =0.65 mean = 0.626 95% HDI 0.379 0.801 0.0 0.2 0.4 0.6 0.8 1.0 θ Rezultatul cu o anterioară bimodală

MCMC Sumar Analiza Bayesiană Analiza Bayesiană este mult mai flexibilă decât metodele de analiză mai tradiționale. Însă, nu implică doar software sau cod nou, ci o nouă filosofie statistică. Rezultatele nu mai sunt obținute analitic, ci prin eșantionare, ceea ce implică cerințe computaționale MULT mai înalte. Muncă mai multă + Putere de calcul inferențe mai complexe. Manuel Bosancianu (CEU) Analiză Bayesiană FSPAC 24.07.2104 80 / 82

Mulțumesc pentru atenție!

Referințe Gill, J. (2008). Bayesian Methods: A Social and Behavioral Sciences Approach (2nd ed.). Boca Raton, FL: Chapman & Hall/CRC. Kruschke, J. K. (2010). Doing Bayesian Data Analysis: A Tutorial with R and BUGS. Burlington, MA: Academic Press. Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., & Teller, E. (1953). Equation of State Calculations by Fast Computing Machines. The Journal of Chemical Physics, 21(6), 1087 1092.