Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

Documente similare
Capitole Speciale de Informatica - Curs 5: Extragerea informatiilor prin feedback de relevanta. Metode probabiliste de extragere a informatiilor

Capitole Speciale de Informatică Curs 2: Determinarea vocabularului de termeni şi a listelor de postări 4 octombrie 2018 Reamintim că listele de indec

Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Curs 3 Permutari cu repetitie. Combinari. Algoritmi de ordonare si generare

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

LOGICA MATEMATICA SI COMPUTATIONALA Sem. I,

ALGORITHMICS

Slide 1

Logică și structuri discrete Relații. Funcții parțiale Marius Minea marius/curs/lsd/ 20 octombrie 2014

Logică și structuri discrete Limbaje regulate și automate Marius Minea marius/curs/lsd/ 24 noiembrie 2014

Analiză statică Analiza fluxului de date 23 octombrie 2014

Microsoft Word - Software pentru ordonarea multirang a componentelor unei colectivitati.doc

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

Probleme proiect TP BITPERM Implementați un algoritm care citește de la intrarea standard două numere naturale și scrie la ieșirea standard da

Laborator 3

Microsoft Word - Algoritmi genetici.docx

Spatii vectoriale

Preprocesorul C Funcţii cu numǎr variabil de argumente 6 decembrie 2005 Programarea calculatoarelor 2. Curs 10 Marius Minea

Analiză de flux de date 29 octombrie 2012

carteInvataturaEd_2.0_lectia5.pdf

Top

Programarea şi utilizarea calculatoarelor

Sistem de supraveghere video inteligent cu localizarea automata a evenimentelor de interes SCOUTER, cod proiect PN-II-IN-DPST , contract nr

Microsoft Word - Curs_09.doc

Curs8

Microsoft PowerPoint - Curs_SDA_10_RO_2019_v1.pptx

OPERATII DE PRELUCRAREA IMAGINILOR 1

Utilizare Internet

Facultatea de Matematică Anul II Master, Geometrie Algebrică Mulţimi algebrice ireductibile. Dimensiune 1 Mulţimi ireductibile Propoziţia 1.1. Fie X u

PROGRAMARE ORIENTATA PE OBIECTE

Fâciu N. Maria-Ema CASA CORPULUI DIDACTIC BRĂILA PROGRAM DE FORMARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A SERIA 1 GRUPA 2 CURSANT: Fâciu N. M

tehnologii web

Modelarea si Simularea Sistemelor de Calcul

Paradigme de programare

Declararea variabilelor

D.Rusu, Teoria măsurii şi integrala Lebesgue 6 MĂSURA LEBESGUE Cursul 5 Teorema 6.26 Există submulţimi ale lui R care nu sunt măsurabile Lebesgue. Dem

Microsoft Word - Curs_10.doc

Proiectarea Sistemelor Software Complexe

Microsoft Word - CarteC.doc

Paradigme de Programare

Microsoft Word - TIC5

Lucrarea 7 Filtrarea imaginilor BREVIAR TEORETIC Filtrarea imaginilor se înscrie în clasa operaţiilor de îmbunătăţire, principalul scop al acesteia fi

PowerPoint-Präsentation

Microsoft Word - cap1p4.doc

SUBPROGRAME

Cursul 12 (plan de curs) Integrale prime 1 Sisteme diferenţiale autonome. Spaţiul fazelor. Fie Ω R n o mulţime deschisă şi f : Ω R n R n o funcţie de

Pattern Recognition Systems

Microsoft Word - O problema cu bits.doc

O NOUA PROBLEMA DE CONCURS OLIMPIADA MUNICIPALA DE INFORMATICA, IASI 2019 V-am promis într-un articol mai vechi ca vom prezenta pe acest blog câteva p

Introducere

LUCRAREA 8 PROGRAMAREA NELINIARĂ ÎN REZOLVAREA PROBLEMELOR DIN ENERGETICĂ. METODE DE ORDINUL Aspecte generale Programarea neliniară are o foart

Microsoft PowerPoint - Curs_SDA_9_RO_2019_v2.pptx

FIŞA DISCIPLINEI ANEXA nr. 3 la metodologie 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Politehnica din Bucureşti 1.2 F

PowerPoint Presentation

PowerPoint Presentation

(Microsoft PowerPoint SIBIUEVIDENTA [Doar \356n citire])

Ecuatii si sisteme de ecuatii neliniare 1 Metoda lui Newton Algorithm 1 Metoda lui Newton pentru ecuaţia f(x) = 0. Date de intrare: - Funcţia f - Apro

1

Limbaje de Programare Curs 6 – Functii de intrare-iesire

Curs 8: Tehnica divizării (I) Algoritmi si structuri de date - Curs 8 1

Laborator5_SQL_an2

PowerPoint Presentation

Anexa nr. 2 FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior UNIVERSITATEA DE VEST TIMISOARA 1.2 Facultatea FIZICA 1.3 De

Transmisia datelor multimedia in retele de calculatoare <Titlu Lucrare>

Retele Petri si Aplicatii

Diapositive 1

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

Operatorii in C Expresii Operatori aritmetici Operatori de asignare Operatori de incrementare si decrementare Operatori relationali Operatori logici O

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

Laborator 9: Fire de execuţie Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 20 noiembrie 2011

Microsoft Word - CarteC.doc

8.1. Elemente de Aritmetică. 8. Aplicatii (15 aprilie 2019) Lema 8.1. Fie (A, +) un grup abelian şi H, K A. Atunci H K şi H + K = {h + k h H şi k K} s

Structuri de date pentru partiţii de mulţimi O partiţie finită a unei mulţimi nevide S este o mulţime finită de submulţimi ale lui S: {S 1, S 2,..., S

PowerPoint Presentation

Teacher Training Plymouth Experience

DAN LASCU ADRIANA-LIGIA SPORIŞ ANDA OLTEANU PAUL VASILIU MATEMATICĂ. CULEGERE DE PROBLEME TIP GRILĂ PENTRU ADMITEREA ÎN ACADEMIA NAVALĂ MIRCEA CEL BĂT

Tehnici de securitate pe bază de ontologii în sistemele de biblioteci virtuale

Elemente de aritmetica

ExamView Pro - Untitled.tst

Chestionarul MOSPS

Cerinte angajeaza Inginer calitate proiect - PPAP Departament Calitate Studii: Studii Superioare Tehnice Limbi straine : Engleza nivel avansat / Germa

Slide 1

Prelegerea 3 În această prelegere vom învăţa despre: Clase speciale de latici: complementate. modulare, metrice, distributive şi 3.1 Semi-distributivi

Microsoft Word - CarteC.doc

Slide 1


..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIŞA DISCIPLINEI (CO

Microsoft Word - Curs 7 - JavaScript.doc

Microsoft Word - Curs_08.doc

Gheorghe IUREA Adrian ZANOSCHI algebră geometrie clasa a VII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA 45 Matematică. Clasa a VII-

Pofta este principalul impuls de consum pentru snackuri

CURBE BÉZIER În CAGD se utilizează adesea curbele polinomiale, adică acele curbe definite de o parametrizare polinomială: C : [a, b] R 3 C(t) = (x(t),

FIŞA DISCIPLINEI ARHITECTURA SISTEMELOR DE CALCUL 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea POLITEHNICA din Bucureşti

Microsoft Word - Laborator 6 - Expresii Regulate IV.doc

Slide 1

Dorel LUCHIAN Gabriel POPA Adrian ZANOSCHI Gheorghe IUREA algebră geometrie clasa a VIII-a ediţia a V-a, revizuită mate 2000 standard EDITURA PARALELA

1. Operatii cu matrici 1 Cerinte: Sa se realizeze functii pentru operatii cu matrici patratice (de dimensiune maxima 10x10). Operatiile cerute sunt: A

Chestionar privind despăgubiri collective

Transcriere:

Clasificarea Bayes Naivă. Modelul Bernoulli 1 noiembrie 2018

Problema de clasificare Definiţie generală. Clasificarea documentelor Se dau (1) o mulţime C = {c 1, c 2,...} de clase de obiecte şi (2) un obiect o dintr-o mulţime de obiecte test T. Se cere să se decidă la ce clasă (sau clase) de obiecte aparţine obiectul o. Noi studiem doar metode de clasificare a documentelor de către sistemele de extragere a informaţiilor: Obiectele sunt documente indexate de către sistemul de IR O clasă poate fi definită în mai multe feluri: 1 ca mulţime de răspunsuri relevante pentru o cerere de informare. 2 ca mulţime de documente care se referă la un anumit subiect sau categorie

Clasificări bazate pe cereri de informare Cererile de informare pot fi: tranzitorii: se solicită o singură dată. Sunt cereri caracteristice pentru sistemele ad-hoc de extragere a informaţiilor. permanente: se solicită periodic, de exemplu cererea multicore computer chips solicitată zilnic pentru a urmări dezvoltarea procesoarelor multicore. Caracteristici ale cererilor permanente de informare: Se solicită periodic dintr-o colecţie de documente care creşte în timp Pentru a obţine cât mai multe răspunsuri relevante, sistemul de IR rafinează cererea. De exemplu multicore computer chips poate fi rafinată la (multicore OR multi-core) AND (chip OR processor OR microprocessor) Rafinarea poate deveni tot mai complexă, în timp.

Probleme de clasificare în sistemele de IR Aplicaţii 1 În paşii de preprocesare care produc indecşii inversaţi: detecţia codificării documentelor (ASCII, UNICODE UTF-8, etc.); segmentarea cuvintelor, detecţia limbajului unui document. 2 Detecţia automată a paginilor spam (care nu se indexează) 3 Detecţia automată a conţinutului sexual explicit: documente de acest tip sunt incluse doar dacă se activează o opţine de căutare, precum SafeSearch. 4 Detecţia sentimentelor (engl. sentiment detection): clasificarea automată a unei recenzii de film sau produs ca fiind pozitivă sau negativă. Această capabilitate este utilă, de ex., pt. a găsi recenzii negative îniainte de a cumăra un aparat foto. 5 Sortarea email-urilor şi plasarea lor în directoare precum: anunturi, email-uri de la familie si prieteni, etc. 6 Motoare de căutare verticală (sau pentru un anumit subiect): limitează căutarea la documente referitoare la un anumit subiect. 7 Unele sisteme de extragere ad-hoc a informaţiilor au funcţii de calcul al scorurilor de importanţă bazate pe un clasificator de document.

Metode de clasificare a documentelor Manuală, de către un operator uman sau librar care defineşte/aplică reguli de clasificare elaborarea regulilor necesită îdemânare (de ex., cum să scrie expresii regulate); găsirea unui specialist poate fi dificilă clasificarea manuală este costisitoare pentru colecţii mari de documente. Bazată pe machine learning. Criteriul de decizie al acestei metode este învăţat automat din date de antrenament/test. Exemplu: clasificarea statistică a documentelor text: se bazează pe un număr bun de documente de antrenare pentru fiecare clasă. marcarea documentelor (adică indicarea claselor la care aparţine fiecare document din colecţia de date de antrenament) se face de către un operator uman.

Clasificarea textelor Clasificatori şi metode de învăţare Presupunem că fiecare document d este descris ca element al unei mulţimi X numită spaţiu de documente, şi că mulţimea de clase este C = {c 1, c 2,..., c J }. De obicei, X este un spaţiu multidimensional. Mulţimea de antrenare D este o submulţime finită a lui X C. De exemplu d, c D poate fi d, c = Beijing joins the World Trade Organization, China Un clasificator este o funcţie γ : X C. O metodă de învăţare a unui clasificator γ din o mulţime de antrenare D este o funcţie Γ care ia ca argument o mulţime de antrenare D şi calculează un clasificator γ = Γ(D). Acest tip de învăţare este supervizată pt. că există un supervizor care controlează procesul de învăţare, prin intermediul mulţimii D.

Clasificarea textelor Metode robuste de învăţare Metoda de învăţare Γ este robustă pentru o mulţime de antrenare D şi o mulţime de documente test T dacă procentul de documente din T clasificate greşit de către clasificatorul γ = Γ(D) este mic. Deziderat al metodelor de învăţare: să fie robuste, aducă să minimizeze eroarea de clasificare a documentelor din T.

Clasificarea textelor Exemplu de clasificare a textelor, bazat pe învăţare supervizată C = {UK, China, poultry, coffee, elections, sports}

Clasificarea textelor Clasificarea Bayes naivă Premisă: Clasificarea Bayes naivă se aplică atunci când mţ. de exemple de antrenare D şi mţ. de teste T sunt similare, adică au aceeaşi distribuţie (vezi cursul următor.) Rezultă că P(c d) P(c) 1 k n d P(t k c) adică, probab. ca d D să fie în clasa c C este proporţională cu P(c) P(t k c) unde 1 k n d P(t k c) este probab. de apariţie a termenului t k în un document din clasa c. P(c) este probab. ca un document oarecare să fie în clasa c. n d este nr. de token-uri în d. De ex., dacă conţinutul lui d este Beijing and Taipei join the WTO atunci secvenţa de token-uri din d este Beijing,Taipei,join,WTO, iar n d = 4.

Clasificarea Bayes naivă Găsirea celei mai bune clasificări (engl. maximum a posteriori class, MAP) c map = arg max c C ˆP(c) 1 k n d ˆP(tk c) unde ˆP(c) şi ˆP(t k c) sunt estimările valorilor lui P(c) şi P(t k c) obţinute din mulţimea de antrenare D, iar arg max c C expr este o valoare a lui c C pentru care expr are valoarea maximă. Pentru a evita erorile de calcul numeric al lui 1 k n d ˆP(t k c), observăm că c map coincide cu c map = arg max c C = arg max c C log ˆP(c) ˆP(t k c) 1 k n d log ˆP(c) + log ˆP(t k c) 1 k n d

Clasificarea Bayes naivă Calculul valorilor lui ˆP(c) şi ˆP(tk d) ˆP(c) := N c N unde N = D şi N c = {d (d, c) D}. ˆP(t k d) := T ct t V T ct unde T ct este numărul de apariţii ale termenului t în documentele din {d (d, c) D}, incluzând apariţiile multiple. De obicei, se preferă eliminarea probab. condiţionale cu valoare 0 se aplică metoda de netezire Laplace: T ct + 1 ˆP(t k d) := t V (T ct + 1) = T ct + 1 t V (T ct ) + B unde V este vocabularul de termeni din mulţimea de antrenare şi B = V.

Clasificarea Bayes naivă Exemplu de estimare a parametrilor ˆP(c) şi ˆP(tk d), şi de clasificare C = {China, China}, D = {(d 1, China), (d 2, China), (d 3, China), (d 4, China)} docid termeni în document în c = China? mţ. de antrenare 1 Chinese Beijing Chinese da 2 Chinese Chinese Shanghai da 3 Chinese Macao da 4 Tokyo Japan Chinese nu docum. test 5 Chinese Chinese Chinese Tokyo Japan? N c = 3, N c = 1, N = 4, deci ˆP(c) = 3 4 şi ˆP(c) = 1 4 ˆP(Chinese c) = (5 + 1)/(8 + 6) = 6/14 = 3/7 ˆP(Tokyo c) = ˆP(Japan c) = (0 + 1)/(8 + 6) = 1/14 ˆP(Chinese c) = (1 + 1)/(3 + 6) = 2/9 ˆP(Tokyo c) = ˆP(Japan c) = (1 + 1)/(3 + 6) = 2/9 ˆP(c d 5 ) 3/4 (3/7) 3 (1/14) 2 0.0003 ˆP(c d 5 ) 1/4 (2/9) 3 (2/9) 2 0.0001, deci d 5 c = China

Algoritmul Bayes naiv Antrenare AntrenareBayesNaiv(C, D) 1 V :=ExtrageVocabular(D) 2 N :=NumaraDocumente(D) 3 for fiecare c C do 4 N c :=NumaraDocumenteDinClasa(D, c) 5 prior[c] := N c /N 6 text c :=ConcateneazaToateTexteleDocumentelorDinClasa(D, c) 7 for fiecare termen t V do 8 T ct :=NumaraAparitiileTermenului(text c, t) 9 for fiecare termen t V do 10 condprob[t][c] := Tct+1 t (T ct +1) 11 return V, prior, condprob

Algoritmul Bayes naiv Testare AplicaBayesNaiv(C, V, prior, condprob, d) 1 W :=ExtrageTermeniiDinDoc(V, d) 2 for fiecare c C do 3 score[c] := log prior[c] 4 for fiecare t W do 5 score[c]+ = log condprob[t][c] 6 return arg max c C score[c]

Clasificarea documentelor text Modelul Bernoulli Diferă de modelul Bayes naiv prin felul cum estimează ˆP(t c): în modelul Bayes naiv ˆP(t c):=fracţiunea conţinutului documentelor din c formată din apariţii ale lui t în modelul Bernoulli ˆP(t c):=fracţiunea documentelor din clasa c care conţin termenul t

Modelul Bernoulli Antrenare AntrenareBernoulli(C, D) 1 V :=ExtrageVocabular(D) 2 N :=NumaraDocumente(D) 3 for fiecare c C do 4 N c :=NumaraDocumenteDinClasa(D, c) 5 prior[c] := N c /N 6 for fiecare termen t V do 7 N ct :=NumaraDocumenteledinClasaCareContinTermenul(D, c, t) 8 condprob[t][c] := Nct+1 N c +2 9 return V, prior, condprob

Modelul Bernoulli Testare AplicaBernoulli(C, V, prior, condprob, d) 1 V d :=ExtrageTermeniiDinDoc(V, d) 2 for fiecare c C do 3 score[c] := log prior[c] 4 for fiecare t V do 5 if t V d then 6 score[c]+ = log condprob[t][c] 7 else score[c]+ = log(1 condprob[t][c]) 8 return arg max c C score[c]

Modelul Bernoulli Exemplu de estimare a parametrilor ˆP(c) şi ˆP(tk d), şi de clasificare docid termeni în document în c = China? mţ. de antrenare 1 Chinese Beijing Chinese da 2 Chinese Chinese Shanghai da 3 Chinese Macao da 4 Tokyo Japan Chinese nu docum. test 5 Chinese Chinese Chinese Tokyo Japan? N c = 3, N c = 1, N = 4, deci ˆP(c) = 3 4 şi ˆP(c) = 1 4 ˆP(Chinese c) = (3 + 1)/(3 + 2) = 4/5 ˆP(Tokyo c) = ˆP(Japan c) = (0 + 1)/(3 + 2) = 1/5 ˆP(Beijing c) = ˆP(Macao c) = P(Shanghai c) = (1 + 1)/(3 + 2) = 2/5 ˆP(Chinese c) = ˆP(Japan c) = ˆP(Tokyo c) = (1 + 1)/(1 + 2) = 2/3 ˆP(Beijing c) = ˆP(Macao c) = ˆP(Shanhai c) = (0 + 1)/(1 + 2) = 1/3 ˆP(c d 5 ) ˆP(c) ˆP(Chinese c) ˆP(Japan c) ˆP(Tokyo c) (1 ˆP(Beijing c)) (1 ˆP(Shanghai c)) (1 ˆP(Macao c)) 0.005 şi ˆP(c d5 ) 1/4 2/3 2/3 2/3 (1 1/3) (1 1/3) (1 1/3) 0.022, deci d 5 China

Bibliografie 1 Text classification and Naive Bayes (Cap. 13) din Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval. Ediţie online (c) 2009 Cambridge UP. http://nlp.stanford.edu/ir-book/pdf/irbookonlinereading.pdf