Capitole Speciale de Informatica - Curs 5: Extragerea informatiilor prin feedback de relevanta. Metode probabiliste de extragere a informatiilor

Documente similare
Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

Capitole Speciale de Informatică Curs 2: Determinarea vocabularului de termeni şi a listelor de postări 4 octombrie 2018 Reamintim că listele de indec

Curs 3 Permutari cu repetitie. Combinari. Algoritmi de ordonare si generare

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

Limbaje de ordinul I LOGICA DE ORDINUL I Un limbaj L de ordinul I este format din: o mulţime numărabilă V = {v n n N} de variabile; conectorii şi ; pa

Diapositive 1

Şcoala ………

Microsoft Word - Algoritmi genetici.docx

20 SUBIECTE DE EXAMEN - De fapt, în pofida acestor probleme, până la urmă tot vom logaritma, căci aceasta este tehnica naturală în context. Trebuie do

Spatii vectoriale

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

E_d_Informatica_sp_SN_2014_bar_10_LRO

OPERATII DE PRELUCRAREA IMAGINILOR 1

Microsoft Word - TIC5

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

Prelegerea 4 În această prelegere vom învăţa despre: Algebre booleene; Funcţii booleene; Mintermi şi cuburi n - dimensionale. 4.1 Definirea algebrelor

SUBPROGRAME

UNIVERSITATEA TEHNICĂ DIN CLUJ-NAPOCA FACULTATEA DE ARHITECTURĂ ȘI URBANISM Raportul decanului privind evaluarea activităților didactice de către stud

Microsoft Word - 5_ _Eval_ ETC_master_ESI_AnI-II_completat.doc

Poo Laboratoare 1 Contents Laborator7 2 1 Colecţii de obiecte în Java Interfaţa Iterator Interfaţa C

Subiectul 1

Microsoft Word - cap1p4.doc

(Microsoft PowerPoint SIBIUEVIDENTA [Doar \356n citire])

D.Rusu, Teoria măsurii şi integrala Lebesgue 6 MĂSURA LEBESGUE Cursul 5 Teorema 6.26 Există submulţimi ale lui R care nu sunt măsurabile Lebesgue. Dem

Curs 10 Aplicaţii ale calculului diferenţial. Puncte de extrem 10.1 Diferenţiale de ordin superior S¼a trecem acum la de nirea diferenţialelor de ordi

PROIECT DIDACTIC Clasa a VII-a Informatică și TIC

Așezămintele culturale din mediul urban Autori: Iulian Oană, Dan Ioan Dobre, Ada Veronica Hampu, Elena-Iulia Trifan

Slide 1

Microsoft Word - Raspunsul la niste provocari. Partea III..doc

REGULAMENTUL Concursului SMS Primăvara Ta 1. DEFINIȚII Prezentul Regulament stabileşte principiul de desfăşurare a Campaniei Primăvara Ta, precum şi p

Microsoft Word - FiltrareaNyquist-rezumat.doc

Consultatii ELa123, 06 ianuarie 2014

Prezentul Raport ilustrează statistici comparative privind calitatea serviciilor de acces la internet, pentru anul 2014, din perspectiva parametrilor

Creational design patterns

Examenul de bacalaureat 2012

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Microsoft Word - matem_aplicate in Economie aa FD Bala.doc

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea de Vest din Timișoara 1.2 Facultatea Matematică și Informa

G.I.S. Curs 3

Microsoft Word - 11_Evaluare ETC_master_Master_ESI.doc

Teoria Grafurilor şi Combinatorică recapitulare Principii de numărare Reţineţi că: P (n, r) este numărul de şiruri (sau r-permutări) de forma A 1,...,

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

LOGICA MATEMATICA SI COMPUTATIONALA Sem. I,

Slide 1

Clustere şi impurităţi în sisteme complexe

Modelarea si Simularea Sistemelor de Calcul

Microsoft Word - Lab1a.doc

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 6. Vizualizarea statisticilor prin int

Facultatea de Matematică Anul II Master, Geometrie Algebrică Mulţimi algebrice ireductibile. Dimensiune 1 Mulţimi ireductibile Propoziţia 1.1. Fie X u

Grafuri - Concepte de baza. Tipuri de grafuri. Modalitati de reprezentare

Anexa nr. 2 FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior UNIVERSITATEA DE VEST TIMISOARA 1.2 Facultatea FIZICA 1.3 De

Jerzy Jendrośka Existing dilemmas regarding legislative reform of EIA and SEA schemes in countries with Environmental Expertiza and OVOS system

8.1. Elemente de Aritmetică. 8. Aplicatii (15 aprilie 2019) Lema 8.1. Fie (A, +) un grup abelian şi H, K A. Atunci H K şi H + K = {h + k h H şi k K} s

Slide 1

ALGORITHMICS

Microsoft PowerPoint - Curs_SDA_10_RO_2019_v1.pptx

E_d_Informatica_sp_MI_2015_bar_02_LRO

1. Găsiți k numerele cele mai apropiate într-un şir nesortat Dându-se un şir nesortat și două numere x și k, găsiți k cele mai apropiate valori de x.

Probleme proiect TP BITPERM Implementați un algoritm care citește de la intrarea standard două numere naturale și scrie la ieșirea standard da

Microsoft Word - Laborator 6 - Expresii Regulate IV.doc

Microsoft Word - O problema cu bits.doc

Microsoft Word - Software pentru ordonarea multirang a componentelor unei colectivitati.doc

fIŞE DE LUCRU

rrs_12_2012.indd

UNIVERSITATEA LIBER INTERNA IONAL DIN MOLDOVA DEPARTAMENTUL TIIN E ECONOMICE DRA NAGEMENT PROGRAMA ANALITIC LA DISCIPLINA BAZELE MARKETINGULUI Chi in

PowerPoint Presentation

Web Social FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 2. Dezvoltarea blogurilor prin intermediul WordPress.com PREZE

Microsoft PowerPoint - 11_USO_curs_00 [Compatibility Mode]

Curs 8: Tehnica divizării (I) Algoritmi si structuri de date - Curs 8 1

Microsoft Word - PI-L7r.doc

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

Tiberiu Trif Analiză matematică 2 Calcul diferențial și integral în R n

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

UNIVERSITATEA VASILE ALECSANDRI DIN BACĂU MONITORIZAREA SISTEMULUI TUTORIAL ID, A ACTIVITĂȚILOR APLICATIVE IFR ȘI A CELOR DE COMUNICARE BIDIRECȚIONALĂ

PROMOTORI PENTRU DEMOCRAȚIE EUROPEANĂ 1. Introducere Metodologie de desfăşurare şi Regulament de înscriere şi participare Prezentul Regulament stabile

Universitățile românești participă la NAFSA 2019, evenimentul educațional internațional al anului Numărul 4 Aprilie 2019 La inițiativa Consiliului Naț

Laboratorul numarul 6 Reglarea turaţiei motorului asincron prin variația frecvenței de alimentare cu păstrarea raporului U/f constant Expresia turaţie

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

Paradigme de Programare

TEORIA MĂSURII Liviu C. Florescu Universitatea Al.I.Cuza, Facultatea de Matematică, Bd. Carol I, 11, R Iaşi, ROMANIA, e mail:

PROFIL COMPANIE SERVICE ECHIPAMENTE INDUSTRIALE SI AUTOMATIZARI Intelltech prezentare companie 1

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea Alexandru Ioan Cuza din Iaşi 1.2 Facultatea Facultatea de

Recruitment coordinator

PROGRAMA CONCURSULUI NAŢIONAL

PowerPoint Presentation

Microsoft Word - Guidelines Websites_legal requirements_ro.docx

SSC-Impartire

Tehnici de securitate pe bază de ontologii în sistemele de biblioteci virtuale

Adresarea memoriei Modurile de adresare constituie un instrument principal pentru reprezentarea în memorie a imaginii datelor, aşa cum este ace

CARS&CARGO Shaping Transport Collaboration Case study

COMENTARII FAZA JUDEŢEANĂ, 9 MARTIE 2013 Abstract. Personal comments on some of the problems presented at the District Round of the National Mathemati

SISTEM DE LICENȚIERE A CLUBURILOR DE FOTBAL FMF :SL/ST.11-d.02 Standard de calitate pentru licențiere (ED.2012) Ediția 2 Procedura de păstrare și arhi

Noțiuni matematice de bază

Logică și structuri discrete Relații. Funcții parțiale Marius Minea marius/curs/lsd/ 20 octombrie 2014

Furosemide Vitabalans Annex I_II_ro

Laborator 6 - Statistică inferenţială I. Inferenţă asupra mediei - Testul Z pentru media unei populaţii cu dispersia cunoscută Se consideră o populaţi

Metode de sortare - pregătire admitere - Conf.dr. Alexandru Popa Lect. dr. Andrei Pătraşcu Universitatea din Bucureşti 1

Transcriere:

Curs 5: Extragerea informaţiilor prin feedback de relevanţă. Metode probabiliste de extragere a informaţiilor 25 octombrie 2018

Extragerea informaţiilor prin feedback de relevanţă Idee de bază 1 Utilizatorul comunică o cerere simplă de informare. 2 Sistemul de IR returnează o mulţime iniţială de rezultate de căutare. 3 Utilizatorul marchează unele din rezutatele căutării ca relevante, şi altele ca irelevante. 4 Sistemul calculează o reprezentare mai bună a cererii de căutare, pe baza feedback-ului primit de la utilizator. 5 Sistemul afişează o colecţie actualizată de rezultate de căutare. Paşii 3-5 pot fi repetaţi de mai multe ori. Motivaţie: Uneori, este dificil să se formuleze o cerere de informare bună pentru o nevoie de informare. Prin feedback interactiv, sistemul poate rafina cererea de căutare a utilizatorului

Extragerea informat iilor prin feedback de relevant a Exemplu ilustrat de ca utare ı n o colect ie de imagini (1) Sistemul demonstrativ (momentan offline) http://nayana.ece.ucsb.edu/imsearch/imsearch.html interact iune declans ata de cererea init iala bike Dupa selectarea a 4 imagini ca relevante, sistemul afis eaza o colect ie actualizata de rezultate (vezi slide-ul urma tor): Capitole Speciale de Informatica

Extragerea informat iilor prin feedback de relevant a Exemplu ilustrat de ca utare ı n o colec ti de imagini (2) Observat ie: Dupa feedback, rezultatele sunt mult mai bune. Capitole Speciale de Informatica

Extragerea informaţiilor prin feedback de relevanţă Exemplu ilustrat de căutare în o colecţie de texte (1)

Extragerea informaţiilor prin feedback de relevanţă Exemplu ilustrat de căutare în o colecţie de texte (2)

Extragerea informaţiilor prin feedback de relevanţă Algoritmul Rocchio Idee de bază: După ce utilizatorul primeşte colecţia de răspunsuri C la cererea q, şi marchează submulţimea de documente C r C ca relevante, şi C nr C ca nerelevante, vrem să rafinăm cererea q în o cerere q opt astfel încât diferenţa sim( q, C r ) sim( q, C nr ) ia valoarea maximă pentru q = q opt. sim( q, C r ) măsoară gradul de similaritate dintre cererea q şi colecţia C r de documente relevante sim( q, C nr ) măsoară gradul de similaritate dintre cererea q şi colecţia C nr de documente nerelevante Dacă se foloseşte similaritatea cosinusoidală, rezultă că q opt = 1 C r 1 d C nr d C r d C nr d

Extragerea informaţiilor prin feedback de relevanţă Algoritmul Rocchio ilustrat pe un exemplu Dupa ce utilizatorul a marcat unele răspunsuri ca relevante şi altele ca nerelevante, vectorul iniţial de interogare şi-a schimbat poziţia.

Extragerea informaţiilor prin feedback de relevanţă Algoritmul Rocchio (1971) Algoritmul Rocchio a fost propus in 1971 şi folosit prima oară de sistemul SMART de extragere a informaţiilor. De obicei, se foloseşte următoarea variaţie a formulei de calcul pentru modificarea de către feedback a cererii ( q m ): q m = α q 0 + β 1 D r 1 d γ D nr d D r d D nr d unde α, β, γ R sunt greutăţi pentru gradele de importanţă ale cererii iniţiale (α), colecţiei de documente relevante (β) şi colecţiei de documente nerelevante (γ) de obicei, 0 γ < β valori rezonabile sunt α = 1, β = 0.75, γ = 0.15

Feedback de relevanţă probabilist Idee: În loc să modificăm cererea, construim un clasificator care deosebeşte mai bine răspunsurile relevante de cele nerelevante. Modelul probabilist Bayes naiv calculează pentru fiecare termen t următoarele estimări: ˆP(x t = 1 R = 1) = VR t : probabilitatea că t apare în un VR document relevant ˆP(x t = 1 R = 0) = df t VR t : probabilitatea că t apare în N VR un document irelevant unde: df t este frecvenţa de document a lui t (nr. de documente din colecţie în care apare t); VR este mulţimea real de documente relevante; VR t este submulţimea din VR în care apare t; N este numărul total de documente.

Feedback de relevanţă probabilist Observaţii Estimările de probabilitate ˆP(x t = 1 R = 1) şi ˆP(x t = 1 R = 0) se folosesc pentru a recalcula greutăţile termenilor din documentele relevante. Algoritmul de feedback probabilist foloseşte doar valori statistice despre destribuţia termenilor in documente considerate relevant. Nu se reţin informaţii despre cererea originală q.

Feedback de relevanţă pentru căutarea web Iniţial, motorul de căutare Excite a oferit suport pentru feedback de relevanţă ulterior, s-a renunţat la această capabilitate, din lipsă de interes din partea utilizatorilor Unele motoare de permit căutarea de pagini similare cu anumită pagină web selectată de utilizator. O metodă de feedback indirect de relevanţă este monitorizarea hyperlink-urilor urmate de utilizator pentru a accesa informaţii. Această tehnică exploatează structura link-urilor din reţeaua web.

Metode probabiliste de extragere a informaţiilor Principiul probabilist de gradare (ranking) Dată fiind o cerere de informare q şi un document d, se estimează P(R = 1 d, q): probabilitatea ca documentul p să fie relevant pentru cererea q. P(R = 1 d, q): probabilitatea ca documentul p să fie nerelevant pentru cererea q. şi se ordonează documentele descrescător după valoarea estimată a lui P(R = 1 d, q).

Metode probabiliste de extragere a informaţiilor Principiul probabilist de gradare (ranking) Dată fiind o cerere de informare q şi un document d, se estimează P(R = 1 d, q): probabilitatea ca documentul p să fie relevant pentru cererea q. P(R = 1 d, q): probabilitatea ca documentul p să fie nerelevant pentru cererea q. şi se ordonează documentele descrescător după valoarea estimată a lui P(R = 1 d, q). Regula de decizie Bayes optimală impune să se returneze doar documente pt. care probabilitatea de a fi relevante este mai mare decât cea de a fi nerelevante: d este relevant dacă şi numai dacă P(R = 1 d, q) > P(R = 0 d, q)

Metode probabiliste de extragere a informaţiilor Principiul probabilist de gradare cu costuri de extragere Fie C 1 costul nereturnării unui document relevant, şi C 1 costul returnării unui document nerelevant. Principiul probabilist de gradare cu costuri de extragere prevede că, dacă d este un document a.î. C 0 P(R = 0 d, q) C 1 P(R = 1 d, q) C 0 P(R = 0 d, q) C 1 P(R = 1 d, q) pentru orice document d care are urma să fie extras, atunci d este documentul următor care se extrage.

Metode probabiliste de extragere a informaţiilor Modelul de independenţă binară (BIM) Modelul folosit în mod tradiţional pt. implementarea principiului probabilist de gradare. Binar provine de la boolean, adică reprezentarea vectorială a unui document d este d = (x 1,..., x M ) unde x i = 1 dacă t i d şi x i = 0 în caz contrar. Independenţă: apariţiile termenilor în un document sunt modelate independent; nu sunt modelate relaţii între termeni. BIM presupune că relevanţa fiecărui document este independentă de relevanţa altui document. Convenţii de notaţie: P( d R = 1, q) (resp. P( d R = 0, q)): probab. ca d să fie returnat (extras), ştiind că d este relevant (resp. irelevant) pentru cererea q; P(R = 1 q) (resp. P(R = 0 q)): probab. ca un document din colecţie să fie relevant (resp. irelevant) pt. q.

Metode probabiliste de extragere a informaţiilor Modelul de independenţă binară (BIM) Ştim că P(R = 1 d, q) = P( d R = 1, q) P(R = 1 q) P( d q) P(R = 0 d, q) = P( d R = 0, q) P(R = 0 q) P( d q) P(R = 1 d, q) + P(R = 0 d, q) = 1 şi vrem să ordonăm documentele în ordine descrescătoare a lui P(R = 1 d, q). Observaţii Dacă 0 x < y < 1 atunci documentele descrescător după x 1 x < y 1 y este suficient să ordonăm P(R = 1 d, q) 1 P(R = 1 d, q) = P(R = 1 d, q) P(R = 1 q) P(R = 0 d, = q) P(R = 0 q) P( d R = 1, q) P( d R = 0, q)

Modelul probabilist de independenţă binară (BIM) Ordonează documentele d descrescător după adică după P(R = 1 q) P(R = 0 q) }{{} parte constantă P( d R = 1, q) P( d R = 0, q) P( d R = 1, q) P( d R = 0, q) = = i:x i =1 M i=1 P(x i = 1 R = 1, q) P(x i = 1 R = 1, q) P(x i R = 1, q) P(x i R = 1, q) i:x i =0 P(x i = 0 R = 1, q) P(x i = 0 R = 1, q)

Modelul probabilist de independenţă binară (BIM) Fie p ti := P(x i = 1 R = 1, q) şi u ti = P(x i = 1 R = 0, q). Tabelul de mai jos ilustrează semnificaţia acestor probabilităţi: document relevant (R = 1) nerelevant (R = 0) termen prezent x t = 1 p t u t termen absent x t = 0 1 p t 1 u t Rezultă că documentele se ordonează descrescător după P( d R = 1, q) P( d R = 0, q) = P( d R = 1, q) P( d R = 0, q) i:x i =q i =1 i:x i =q i =1 i:x i =q i =1 p ti u ti i:x i =0,q i =1 p ti (1 u ti ) u ti (1 p ti ) 1 p ti 1 u ti i:q i =1 1 p ti 1 u ti Factorii roşii nu depind de document trebuie să ordonăm descrescător după factorul albastru, sau după logaritmul lui (Retrieval Status Value): p ti (1 u ti ) RSV d := log u ti (1 p ti ) = log p t i (1 u ti ) u ti (1 p ti ) i:x i =q i =1

Modelul probabilist de independenţă binară (BIM) Calculul lui RSV d RSV d = i:x i =q i =1 c i unde c i = log p t i (1 u ti ) u ti (1 p ti ) = log p ti 1 p ti + log 1 u ti ) u ti (1 p ti ) c t = 0 dacă t are aceeaşi şansă să apară în un document relevant ca şi în un document nerelevant c t > 0 dacă t are şansă mai mare să apară în un document relevant. Întrebare: cum se pot estima valorile lui c t?

Modelul probabilist de independenţă binară (BIM) Estimarea teoretică a valorilor lui c t pentru o cerere q şi colecţie D Dacă D are N documente, S este numărul total de documente relavante pt q, s este nr. numărul total de documente relavante pt q care-l conţin pe t, atunci avem situaţia din tabelul de mai jos: documente relevant nerelevant Total Termen prezent x t = 1 s df t s df t Termen absent x t = 0 S s N df t) (S s) N df t Total S N S N Rezultă că p t = s/s, u t = (df t s)/(n S) şi c t = log Pentru a evita valori nule, se calculează s/(s s) (df t s)/((n df t) (S s)) (s + 1 2 ĉ t = K(N, df t, S, s) = log )/(S s + 1 2 ) (df t s + 1 2 )/((N dft) S + s + 1 2 )

Modelul probabilist de independenţă binară (BIM) Calculul practic al valorilor lui c t pentru o cerere q şi colecţie D Presupunănd ca procentul documentelor relevante din colecţie este f. mic, putem aproxima u t df t /N şi log 1 u t u t = log N df t df t log N df t Există mai multe metode de aproximare a cantităţii p t : 1 Unii cercetători propun utilizarea frecvenţei de termeni în documentele relevante cunoscute (dacă se cunosc unele). 2 Alţi cercetători propun utilizarea constantei p t = 0.5 3 Greiff (1998) propune p t = 1 3 + 2 3 df t/n

Bibliografie 1 Relevance feedback and query expansion (Cap. 9) şi Probabilistic information retrieval (Cap. 11) din Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval. Ediţie online (c) 2009 Cambridge UP. http://nlp.stanford.edu/ir-book/pdf/irbookonlinereading.pdf