ALGORITHMICS

Documente similare
Introducere

Slide 1

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Declararea variabilelor

Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

Curs 3 Permutari cu repetitie. Combinari. Algoritmi de ordonare si generare

Operatorii in C Expresii Operatori aritmetici Operatori de asignare Operatori de incrementare si decrementare Operatori relationali Operatori logici O

ALGORITHMICS

Analiză de flux de date 29 octombrie 2012

Ministerul Educatiei, Cercetarii si Tineretului Grup Scolar Gh. Asachi Galati Proiect pentru obtinerea certificatului de competente profesionale Speci

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

Ecuatii si sisteme de ecuatii neliniare 1 Metoda lui Newton Algorithm 1 Metoda lui Newton pentru ecuaţia f(x) = 0. Date de intrare: - Funcţia f - Apro

PowerPoint Presentation

Curs 8: Tehnica divizării (I) Algoritmi si structuri de date - Curs 8 1

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea de Vest din Timișoara 1.2 Facultatea Matematică și Informa

Analiză statică Analiza fluxului de date 23 octombrie 2014

Programarea şi utilizarea calculatoarelor

Microsoft PowerPoint - Curs_SDA_9_RO_2019_v2.pptx

Laborator 3

Lucrarea 7 Filtrarea imaginilor BREVIAR TEORETIC Filtrarea imaginilor se înscrie în clasa operaţiilor de îmbunătăţire, principalul scop al acesteia fi

Logică și structuri discrete Relații. Funcții parțiale Marius Minea marius/curs/lsd/ 20 octombrie 2014

Diapositive 1

LUCRAREA 8 PROGRAMAREA NELINIARĂ ÎN REZOLVAREA PROBLEMELOR DIN ENERGETICĂ. METODE DE ORDINUL Aspecte generale Programarea neliniară are o foart

Modelarea si Simularea Sistemelor de Calcul

Laborator 9: Fire de execuţie Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 20 noiembrie 2011

Microsoft Word - Algoritmi genetici.docx

4. Detectarea cantelor Calculul gradientului într-o imagine Detectorul de cante Canny Transformata Hough În această lucrare vor fi studiate metode de

2

7. Alinierea robustă a densităţilor de puncte 3D Măsurarea distanţei dintre diferite forme geometrice 3D Estimarea rotaţiei şi a translaţiei optime în

Subiectul 1

PHP (II)

LOGICA MATEMATICA SI COMPUTATIONALA Sem. I,

Laborator 8: PROIECTAREA BAZELOR DE DATE SUBPROGRAME in PL/SQL (partea II - functii) Un subprogram este un bloc PL/SQL cu nume (spre deosebire de bloc

Backtracking_2018

Microsoft Word - Curs 11 - PHP.doc

Microsoft Word - CarteC.doc

Procesarea Imaginilor Laborator 3: Histograma nivelurilor de intensitate 1 3. Histograma nivelurilor de intensitate 3.1. Introducere În această lucrar

Capitole Speciale de Informatica - Curs 5: Extragerea informatiilor prin feedback de relevanta. Metode probabiliste de extragere a informatiilor

Cursul 13 Mulţimi Julia Fie f : C C o funcţie complexă şi fie f n = f f f iterata de ordin n a lui f. Peste tot în continuare vom presupune că f este

Limbaje de programare Pointeri. Alocare dinamică (continuare) 26 noiembrie 2012

Microsoft Word - BD4_Curs11.doc

FIȘA DISCIPLINEI 1. Date despre program 1.1 Instituția de învățământ superior Universitatea Alexandru Ioan Cuza din Iași 1.2 Facultatea Facultatea de

Laborator5_SQL_an2

Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

Aproximarea functiilor prin metoda celor mai mici patrate

Curs 10

Microsoft Word - TIC5

G.I.S. Curs 3

tehnologii web

Universitatea “Dunarea de Jos” din Galati

Microsoft Word - Sinteza_EtapaIII_Contract 69_IDEI_final_.doc

8

Curs8

OPERATII DE PRELUCRAREA IMAGINILOR 1

Laborator - Configurarea Rutelor IPv4 Statice și Implicite Topologie Tabela de Adresare Echipame nt Interfață Adresă IP Masca de subreţea Default Gate

Algoritmi elementari Metode de căutare secvenţială binară Metode de ordonare metoda bulelor metoda inserţiei metoda selecţiei metoda numărării Intercl

SUBPROGRAME

Școala: Clasa a V-a Nr. ore pe săptămână: 4 Profesor: MATEMATICĂ Clasa a V-a Aviz director PLANIFICARE CALENDARISTICĂ ORIENTATIVĂ Nr. crt. Unitatea de

Grafuri - Concepte de baza. Tipuri de grafuri. Modalitati de reprezentare

Laborator 7: PROIECTAREA BAZELOR DE DATE SUBPROGRAME in PL/SQL (partea I - proceduri) Un subprogram este un bloc PL/SQL cu nume (spre deosebire de blo

Laborator 2: Instrucţiuni Java şi lucru cu şiruri de caractere Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 18 octombrie 2011

Microsoft PowerPoint - 20x_.ppt

Matrici și vectori în VBA În VBA, o matrice este un grup de variabile de același tip. De ce ar trebui să utilizați o matrice? Presupunem că ați vrut s

RZOLVARE EXERCITIU ZODII declare cursor distributie_zodie is select nume_zodie, count(*) distributie from zodiac z join utilizatori u on to_date(to_ch

What is scoping and why do we do it?

Laborator 3 - Simulare. Metode de tip Monte Carlo. I. Estimarea ariilor şi a volumelor RStudio. Nu uitaţi să va setaţi directorul de lucru: Session Se

Cursul 12 (plan de curs) Integrale prime 1 Sisteme diferenţiale autonome. Spaţiul fazelor. Fie Ω R n o mulţime deschisă şi f : Ω R n R n o funcţie de

PowerPoint Presentation

Textul si imaginile din acest document sunt licentiate Attribution-NonCommercial-NoDerivs CC BY-NC-ND Codul sursa din acest document este licentiat Pu

Slide 1

Microsoft PowerPoint - ImplementareLimbaj [Read-Only] [Compatibility Mode]

Utilizare Internet

Declaraţii. Instrucţiuni 19 octombrie 2005 Programarea calculatoarelor 2. Curs 3b Marius Minea

Laborator 4: Continuare Programare Orientată pe Obiecte Întocmit de: Adina Neculai Îndrumător: Asist. Drd. Gabriel Danciu 29 octombrie 2011

Metode avansate de gestiune a documentelor și a sistemelor de calcul - LABORATOR 1 -

Laborator 9- Estimarea parametrilor Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 29.nov

Microsoft Word - Pagina garda PO 1001.doc

Microsoft PowerPoint - Curs_SDA_10_RO_2019_v1.pptx

Facultatea de Matematică Anul II Master, Geometrie Algebrică Mulţimi algebrice ireductibile. Dimensiune 1 Mulţimi ireductibile Propoziţia 1.1. Fie X u

Slide 1

III. Tablouri (Arrays) și Clustere

2.1.Tipul tablou unidimensional

0 Probleme pentru pregătirea examenului final la Analiză Matematică 1. Să se calculeze următoarele integrale improprii: dx a) x 4 ; b) x 3 dx dx

Paradigme de programare

ELABORARE PROIECTE

Limbaje de Programare Curs 6 – Functii de intrare-iesire

Microsoft Word - fisa-Prelucrarea-Digitala_Imaginilor-RO-Anca-Ignat-2018

Cursul 10 Fractali de tip Newton Vom prezenta în continuare o nouă modalitate de generare a fractalilor, modalitate care îşi are originea într-o probl

Microsoft Word - Curs_07.doc

Microsoft Word - 2 Filtre neliniare.doc

Clustere şi impurităţi în sisteme complexe

Microsoft PowerPoint - ST_5

Structuri de date pentru partiţii de mulţimi O partiţie finită a unei mulţimi nevide S este o mulţime finită de submulţimi ale lui S: {S 1, S 2,..., S

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

Interfețe și Protocoale de Comunicații Arduino-Port Paralel Arduino. Laborator 1- Portul Paralel 1 Caracteristici generale Arduino UNO este o placă de

CL2009R0976RO bi_cp 1..1

1

Transcriere:

Curs 7: Gruparea datelor (II) Data mining - Curs 7 1

Structura Metode bazate pe densitate DBSCAN DENCLUE Metode probabiliste EM - Expectation Maximization Data mining - Curs 7 2

Metode bazate pe densitate Cluster = grup dens de date similare separate de regiuni cu densitate mai mică de date Idee de bază: estimarea densităţii locale a datelor se determină numărul de date din vecinătatea punctului analizat (DBSCAN) se utilizează funcţii de influenţă pt estimarea densităţii (DENCLUE) Densitate mare Densitate mică Problema principală: Cum se estimează densitatea? Data mining - Curs 7 3

DBSCAN DBSCAN [M.Ester, H Kriegel et al, 1996] este un algoritm de grupare bazat pe următoarele elemente: Densitatea estimată într-un punct = numărul de puncte aflate în vecinătatea definită de o anumită rază (Eps) Un punct este considerat punct nucleu (core point) dacă numărul de puncte din vecinătatea sa depăşeşte un prag(minpts); acestea sunt puncte considerate a fi în interiorul clusterului Un punct frontieră (border point) are un număr de vecini mai mic decât MinPts dar este în vecinătatea unui punct nucleu; Două puncte sunt considerate conectate dacă unul este în vecinătatea celuilalt Un punct q est accesibil direct (directly density reachable) dintr-un punct nucleu p dacă e în vecinătatea lui p; accesibilitatea în sens general este definită ca fiind închiderea tranzitivă a relaţiei de accesibilitate directă (există un lanţ de puncte nucleu ce începe cu p şi se termină cu q cu proprietatea că fiecare e direct accesibil dintrun punct anterior) Un punct de tip zgomot (noise point) este orice punct care nu e nici nucleu nici frontieră Data mining - Curs 7 4

DBSCAN Data mining - Curs 7 5

DBSCAN p este accesibil din q a este accesibil din b c este accesibil din b Obs: => a şi c sunt conectate Două pcte, a şi b, dacă există un punct c astfel încât c este accesibil atât din a cât şi din b Două puncte conectate ar trebui să aparţină aceluiaşi cluster => un cluster definit pe baza densităţii este un set maximal de date conectate Data mining - Curs 7 6

DBSCAN DBSCAN (SetOfPoints, Eps, MinPts) // SetOfPoints is UNCLASSIFIED ClusterId := nextid(noise); FOR i FROM 1 TO SetOfPoints.size DO Point := SetOfPoints.get(i); IF Point.ClusterId = UNCLASSIFIED THEN IF ExpandCluster(SetOfPoints, Point,ClusterId, Eps, MinPts) THEN ClusterId := nextid(clusterid) END IF END IF END FOR END; // DBSCAN [M.Ester, H Kriegel et al, A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, 1996] 7

DBSCAN ExpandCluster(SetOfPoints, Point, ClId, Eps, MinPts) : Boolean; seeds:=setofpoints.regionquery(point,eps); IF seeds.size<minpts THEN SetOfPoint.changeClId(Point,NOISE); RETURN False; ELSE // all points in seeds are density-reachable from Point SetOfPoints.changeClIds(seeds,ClId); seeds.delete(point); WHILE seeds <> Empty DO currentp := seeds.first(); result := SetOfPoints.regionQuery(currentP, Eps); IF result.size >= MinPts THEN FOR i FROM 1 TO result.size DO resultp := result.get(i); IF resultp.clid IN {UNCLASSIFIED, NOISE} THEN IF resultp.clid = UNCLASSIFIED THEN seeds.append(resultp); END IF; SetOfPoints.changeClId(resultP,ClId); END IF; // UNCLASSIFIED or NOISE END FOR; END IF; // result.size >= MinPts seeds.delete(currentp); END WHILE; // seeds <> Empty RETURN True; END IF; END; 8

DBSCAN Date (puncte) de prelucrat Tipuri de puncte : core, border şi noise Eps = 10, MinPts = 4 Data mining - Curs 7 9

DBSCAN Date Clustere Specific: Permite identificarea clusterelor de diferite forme Robust Data mining - Curs 7 10

DBSCAN (MinPts=4, Eps=9.75). Original Points Nu este adecvat pt: variaţii în densitatea datelor date de dimensiuni mari (cu multe atribute) Data mining - Curs 7 11

DENCLUE Cluster = grup dens de date similare separate de regiuni cu densitate mai mică de date Densitate mare Idee de bază: estimarea densităţii locale a datelor se utilizează funcţii de influenţă pt estimarea densităţii Funcţie de influenţă Funcţie de densitate Densitate mică I y ( x) = 1 σ n / 2 exp n j= 1 ( x j 2 2σ y j ) 2 f ( x) = 1 N N i= 1 I x ( x) i Data mining - Curs 7 12

DENCLUE Forma funcţiei de densitate depinde de valoarea lui σ Dacă valoarea lui σ este adecvată, maximele locale ale funcţiei de densitate corespund reprezentanţilor clusterilor Pt valori mari ale lui σ fctia de densitate are un maxim unic Pt valori prea mici ale lui σ maximele locale corespund unor vârfuri izolate şi pot fi dificil de detectat σ=0.1 σ=0.05 13

Ideea algoritmului DENCLUE [Hinneburg, Keim 1998]: se aplică de căutare de tip gradient pornind de la punctele din setul de date cu scopul identificării maximelor locale Variante: Fiecare maxim local corespunde unui cluster (clusterele detectate vor fi sferice sau elipsoidale) Un cluster corespunde unui set de maxime locale învecinate (se pot identifica clustere de forma arbitrara) DENCLUE σ=0.1 Data mining - Curs 7 σ=0.05 14

Metode probabiliste Idee de bay[: Datele sunt generate de un proces stohastic (o mixtură de distribuţii de probabilitate, fiecare dintre ele corespunzând unui cluster) Scopul algoritmului de grupare este de a descoperi modelul probabilist, adică de a identifica distribuţiile de probabilitate Exemple: Algoritmul Expectation Maximization (EM) se bazează pe următoarele ipoteze: Fiecare dată este generată de o distribuţie de probabilitate (tipul de distribuţie depinde de natura datelor) În procesul de generare a datelor fiecare dintre distribuţiile de probabilitate este selectată la rândul ei cu o anumită probabilitate Data mining - Curs 7 15

Algoritmul EM Input: set de date D={x 1,x 2,,x N }, K = număr de clustere Output: o partiţie P={C 1,C 2,,C K } a setului D Iniţializarea parametrilor modelelor şi a probabilităţilor de selecţie (E-Step) Se determină probabilitatea de asignare a fiecărei date la clustere (folosind valorile curente ale parametrilor) (M-Step) Se determină parametrii modelului folosind valorile curente ale probabilităţilor de asignare a datelor la clustere Obs: In cazul datelor numerice se poate folosi distribuţia normală multidimensională pentru a modela datele aparţinând unui cluster (modelul de generare a datelor este o mixtură de gaussiene). Parametrii care se estimează sunt media şi matricea de covarianţă. Data mining - Curs 7 16

EM algorithm Ex Data Clustering Algorithms and applications (ed. CC Aggarwal, CK Reddy, 2014) Data mining - Curs 7 17

Ecuaţii care intervin in algoritmul EM Algoritmul EM Data Clustering Algorithms and applications (ed. CC Aggarwal, CK Reddy, 2014) Data mining - Curs 7 18