Data Mining. Lab 2: Pre-procesarea datelor

Documente similare
Matematici aplicate științelor biologie Lab05 MV

OPERATII DE PRELUCRAREA IMAGINILOR 1

FIŞA DISCIPLINEI 1. Date despre program 1.1 Instituţia de învăţământ superior Universitatea de Vest din Timișoara 1.2 Facultatea Matematică și Informa

E_d_Informatica_sp_SN_2014_bar_10_LRO

Pattern Recognition Systems

Capitole Speciale de Informatica - Curs 5: Extragerea informatiilor prin feedback de relevanta. Metode probabiliste de extragere a informatiilor

Slide 1

Logică și structuri discrete Limbaje regulate și automate Marius Minea marius/curs/lsd/ 24 noiembrie 2014

1. Operatii cu matrici 1 Cerinte: Sa se realizeze functii pentru operatii cu matrici patratice (de dimensiune maxima 10x10). Operatiile cerute sunt: A

Microsoft Word - Tema 06 - Convertoare analog-numerice.doc

Matematici aplicate științelor biologie Lab06 MV

Laborator 3

Subiectul 1

..MINISTERUL EDUCAŢIEI NAȚIONALE ŞI CERCETARII STIINTIFICE UNIVERSITATEA DE VEST DIN TIMIȘOARA.I CENTRUL DE DEZVOLTARE ACADEMICĂ. FIȘA DISCIPLINEI 1.

INDICATORI AI REPARTIŢIEI DE FRECVENŢĂ

Microsoft Word - 2 Filtre neliniare.doc

ALGORITMICĂ. Seminar 3: Analiza eficienţei algoritmilor - estimarea timpului de execuţie şi notaţii asimptotice. Problema 1 (L) Să se determine număru

Laborator 1-Teoria probabilitatilor si statistica matematica Sef lucrari dr.mat. Daniel N.Pop Departamentul de calculatoare si inginerie electrica 1 P

Addendum Syllabus 6 Microsoft Access 2016 REF Syllabus 6.0 Cunoașterea domeniilor în care se utilizează bazele de date Datorită potenţialului ma

Platforma 5. 1 Introducere in MSSQL Introducere Pe parcursul ultimilor ani, se poate observa o cuplare a limbajelor de programare majore cu tipuri de

Logică și structuri discrete Logică propozițională Marius Minea marius/curs/lsd/ 3 noiembrie 2014

PROGRAMA CONCURSULUI NAŢIONAL

A.E.F. - suport laborator nr.5 sem.ii Analiza suprafețelor prin utilizarea elementelor 2D În acest laborator sunt atinse următoarele aspecte: realizar

PowerPoint Presentation

E_d_Informatica_sp_MI_2015_bar_02_LRO

Probleme proiect TP BITPERM Implementați un algoritm care citește de la intrarea standard două numere naturale și scrie la ieșirea standard da

GHERCĂ MAGDA CASA CORPULUI DIDACTIC BRĂILA PORTOFOLIU EVALUARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A Neamț SERIA 1 GRUPA 1 CURSANT: GHERCĂ G

Manual de utilizare a Sistemului Informațional al Institutului Național al Justiției (SI INJ) intranet.inj.md Ver.2 Manual de utilizare a Sistemului I

Slide 1

LEGEA EDUCAŢIEI NAŢIONALE

Manual de utilizare Room Booking System

Fâciu N. Maria-Ema CASA CORPULUI DIDACTIC BRĂILA PROGRAM DE FORMARE INFORMATICĂ ȘI TIC PENTRU GIMNAZIU CLASA A V-A SERIA 1 GRUPA 2 CURSANT: Fâciu N. M

Introducere în limbajul JavaScript

Prelegerea 4 În această prelegere vom învăţa despre: Algebre booleene; Funcţii booleene; Mintermi şi cuburi n - dimensionale. 4.1 Definirea algebrelor

PAS cap. 2: Reprezentări rare p. 1/35 Prelucrarea avansată a semnalelor Capitolul 2: Reprezentări rare Bogdan Dumitrescu Facultatea de Automatică şi C

Biomedical Wi-Fi data transmissons

ALGORITMII ŞI REPREZENTAREA LOR Noţiunea de algoritm Noţiunea de algoritm este foarte veche. Ea a fost introdusă în secolele VIII-IX de către Abu Ja f

Microsoft Word - Software pentru ordonarea multirang a componentelor unei colectivitati.doc

Guns N' Roses Video Slots Regulile jocului Guns N' Roses Video Slots este un slot video cu 5 role, 3 rânduri și 20 de linii care conține substituții W

Inteligență artificială Laboratorul 8 Perceptronul și rețele de perceptroni în Scikit-learn Stanga :multimea de antrenare a punctelor 3d; Dreapta : mu

Capitole Speciale de Informatică Curs 4: Calculul scorurilor în un sistem complet de extragere a informaţiilor 18 octombrie 2018 Reamintim că în cursu

Microsoft Word - TIC5

Diapositive 1

Procesarea Imaginilor Laborator 3: Histograma nivelurilor de intensitate 1 3. Histograma nivelurilor de intensitate 3.1. Introducere În această lucrar

Curs 6: Clasificarea surselor de informatii - Clasificarea Bayes Naiva. Modelul Bernoulli

Microsoft Word - Algoritmi genetici.docx

Cuprins

Microsoft Word - cap1p4.doc

COMISIA EUROPEANĂ Bruxelles, COM(2013) 420 final RAPORT AL COMISIEI CĂTRE PARLAMENTUL EUROPEAN ȘI CONSILIU privind punerea în aplicare a Reg

A.E.F. - suport laborator nr.10 sem.ii Analiza stării de contact între elemente 3D În acest laborator sunt atinse următoarele aspecte: analiza contact

DOMENIUL: Matematica

CASA CORPULUI DIDACTIC BRAILA PROGRAM DE FORMARE INFORMATICA SI TIC PENTRU GIMNAZIU CLASA A V-A SERIA 1 GRUPA 2 CURSANT: TIMOFTI V. AFRODITA COLEGIUL

Ghid de utilizare pentru Platforma E-Admitere intranet.inj.md

CABINET MINISTRU

Utilizarea îmbinării corespondenței pentru crearea şi imprimarea scrisorilor şi a altor documente Dacă utilizați îmbinarea corespondenței când doriți

A.E.F. - suport laborator nr.7 sem.ii Utilizarea rețelelor de tip 1D & 2D În acest laborator sunt atinse următoarele aspecte: conectarea unui element

HONEYWELL AWARD

Ghid privind raportările referitoare la decontarea internalizată conform articolului 9 din regulamentul privind depozitarii centrali de titluri de val

Şcoala ………

Capitole Speciale de Informatică Curs 1: Extragerea informaţiilor. Modelul boolean şi modelul boolean extins 27 septembrie 2018 Extragerea informaţiil

Microsoft PowerPoint - ARI_R_c9-10_IP_part2 [Compatibility Mode]

PowerPoint Presentation

PowerPoint Presentation

HOTARARE GUVERN 789/2011 Emitent: Guvern Domenii: Invatamint Vigoare M.O. 569/2011 Hotarare privind aprobarea Metodologiei de evaluare in scopul clasi

Lecții de pregă,re la informa,că Admitere 2019 Tema: Discutarea problemelor date la ul,mele sesiuni de admitere Bogdan Alexe

Microsoft Visual C++ (abreviat MSVC) is a commercial integrated development environment (IDE) product engineered by Microsoft for the C, C++, and C++/

Информационная система персонализации, печати и учета документов об образовании

NORMĂ pentru aplicarea Ghidului ESMA privind raportările referitoare la decontarea internalizată conform articolului 9 din regulamentul privind depozi

PowerPoint Presentation

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 3. Achizitionarea domeniilor web si a

Paradigme de Programare

Spatii vectoriale

Școala: Clasa a V-a Nr. ore pe săptămână: 4 Profesor: MATEMATICĂ Clasa a V-a Aviz director PLANIFICARE CALENDARISTICĂ ORIENTATIVĂ Nr. crt. Unitatea de

Microsoft Word - PDS_proiect5_2019

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 1. Google Drive, Google Calendar, WeTr

Slide 1

Matrici și vectori în VBA În VBA, o matrice este un grup de variabile de același tip. De ce ar trebui să utilizați o matrice? Presupunem că ați vrut s

Regulile jocului Hotline Hotline este un slot video cu 5 role, 3 rânduri și 30 de linii (fixe) care conține simboluri Wild și Expanding Wild, Re-Spins

Microsoft Word - Curs_10.doc

MULTIMETRU DIGITAL CU SCHIMBARE AUTOMATĂ A DOMENIULUI AX201 INSTRUCŢIUNI DE UTILIZARE

Microsoft Word - Curs_08.doc

LUMINIŢA SCRIPCARIU

Utilizarea Internetului in Afaceri FSEGA, UBB Lect.univ.dr. Daniel Mican LABORATOR 4. Dezvoltarea site-urilor si blog-uri

I

GHID PENTRU RESETAREA PAROLEI Informații Generale Din dorința de a facilita procesul de autentificare, chiar dacă nu mai cunoașteti datele necesare, a

Minicurs CCS C / Aplicatia1 1.Programul CCS C Compiler. Instalare.Creare proiect. Descarcati ultima versiune a programului de

I. Partea introductivă Proiectul unității de învățare CONCEPTUL DE MATRICE ŞCOALA: Colegiul Național Petru Rareș Suceava CLASA: a XI a- matematică / a

Limbaje de Programare Curs 8 – Fisiere

DAN LASCU ADRIANA-LIGIA SPORIŞ ANDA OLTEANU PAUL VASILIU MATEMATICĂ. CULEGERE DE PROBLEME TIP GRILĂ PENTRU ADMITEREA ÎN ACADEMIA NAVALĂ MIRCEA CEL BĂT

Facultatea de Științe Politice, Administrative și ale Comunicării Str. Traian Moșoiu nr. 71 Cluj-Napoca, RO Tel.: Fax:

Astfel funcționează portalul KiTa Dortmund În 3 pași către locația de îngrijire copii Portalul KiTa Dortmund poate fi oper

ALGORITHMICS

LUCRAREA 8 PROGRAMAREA NELINIARĂ ÎN REZOLVAREA PROBLEMELOR DIN ENERGETICĂ. METODE DE ORDINUL Aspecte generale Programarea neliniară are o foart

PROGRAMARE ORIENTATA PE OBIECTE

Raportarea serviciilor de dializă la nivel CNAS

Limbaje de Programare Curs 6 – Functii de intrare-iesire

manual_ARACIS_evaluare_experti_v5

MINISTERUL EDUCAȚIEI NAȚIONALE ȘI CERCETĂRII ȘTIINȚIFICE GHID DE ÎNSCRIERE ADRESAT PĂRINȚILOR Acest ghid se adresează părinților/tutorilor legali care

Transcriere:

Data Mining Lab 2: Pre-procesarea datelor Sumar: Pregătirea datelor pentru aplicarea tehnicilor de analiză: 1. Curățare (e.g. tratarea erorilor și a valorilor absente) 2. Transformare a. Conversii intre diferite tipuri de atribute (e.g. discretizare, binarizare) b. Scalare c. Standardizare 3. Reducerea dimensiunii a. Selecția atributelor b. Selectia instanțelor 1. Curățarea datelor Datele pot conține valori eronate sau absente cauzate fie de disfuncționalități ale dispozitivelor de măsurare/înregistrare, erori umane, refuzul de a completa anumite informații (în cazul informațiilor colectate pe bază de chestionare). In unele situații erorile pot fi detectate și corectate în mod automat: a) Valori care sunt in afara domeniilor de valori valide (de exemplu, vârstă negativă, valori ale temperaturii corporale, tensiunii arteriale etc in afara plajei de valori plauzibile). In astfel de situații există mai multe variante: Eliminarea atributelor ce conțin astfel de valori (ex Weka: Filters- >Unsupervised->attribute->NumericCleaner) Eliminarea instanțelor ce conțin valori care nu sunt valide (ex Weka: Filters- >Unsupervised->Instance->SubsetByExpression) Eliminarea valorii eronate (și interpretarea ei ca valoare absentă) b) Valorile absente pot fi tratate in diferite moduri: Se consider valoarea absentă ca un caz specific (de exemplu? in Weka files) în acest caz simbolul utilizat pentru a marca o valoare absent poate fi tratat ca o valoare distinctă și poate sa apară în modelele construite pe baza datelor (de exemplu în regulile de clasificare). Aceasta este abordarea implicită în Weka. Eliminarea instanțelor ce conțin valori absente (ex Weka: Filters->Unsupervised- >Instance->SubsetByExpression; specificând expresia not ismissing(att2) se vor elimina toate instanțele în care atributul 2 are valori absente) Completarea valorilor absente cu valori estimate pe baza celor existente în setul de date (de exemplu cu media tuturor valorilor existente pentru atributul corespunzător sau cu media valorilor din instanțele similar celei care conține valoarea absent similaritatea se măsoară folosind valorile asociate celorlalte attribute). Această abordare este cunoscută sub numele de tehnica imputării. Exercițiul 1: a) Deschideți in Weka fișierul autos.arff și eliminați toate instanțele pentru care valoarea atributului 25 (price) este mai mare decât 10000 (Indicație: utilizați Filters- >Unsupervised->Instance->SubsetByExpression cu expresia ATT25<=10000) b) Deschideți in Weka fișierul breast-w.arff. Identificați atributele ce conțin valori absente și eliminați instanțele care conțin astfel de valori. Indicație: utilizați Filters- 1

I>Unsupervised->Instance->SubsetByExpression și o expresie de forma not ismissing(att<nr atribut> pentru a păstra doar instanțele complete. 2. Transformări a) Conversii între tipuri Discretizare: transformarea atributelor care iau valori într-un domeniu continuu (atribute de tip real) în atribute care iau valori într-o mulțime discretă (de tip întreg, nominal sau ordinal). Cea mai simplă abordare este de a diviza intervalul de valori [min, max] in r subintervale de aceeași lungime (de exemplu [min, min+h), [min+h, min+2h), [min+(r-1)h,max], unde h=(max-min)/r) și fiecare interval va fi asociat cu o valoare discretă (de exemplu 1, 2, 3,.r). Binarizare: permite transformarea unui atribut nominal într-un set de attribute binare (sau logice) sau transformarea unui subset de itemi (corespunzatori unei tranzactii) într-un vector binar. De exemplu, dacă un atribut A poate lua valori din mulțimea {v1,v2,v3} atunci el va fi înlocuit cu 3 atribute binare A1, A2 și A3. b) Scalare Este utilă când atribute diferite iau valori în domenii care diferă semnificativ (de exemplu un atribut ia valori in [-0.1, 0.2] și altul ia valori in [10000, 20000]) Cea mai simplă variantă de scalare este cea liniară prin care un atribut A având valoarea v din [mina,maxa] este transformat într-un atribut care ia valori in [0,1]: v min A s( v), unde min și max corespund valorii minime respectiv max A min A celei maxime c) Standardizare E utilă când interesează măsurarea abaterii valorilor față de medie în unități proporționale cu valoarea abaterii standard a datelor Prin standardizare, o valoare v este transformată după cum urmează: v avg( A) st( v), unde avg(a) reprezintă media valorilor atributului A iar stdev ( A) stdev(a) este abaterea standard a valorilor atributului A Exercițiu 2: Deschideți in Weka fișierul breast-w.arff a) Transformati toate atributele numerice prin discretizare în: (i) 10 subintervale; (ii) 5 subintervale și salvați rezultatele în fișierele breast-w-discrete10.arff și breast-wdiscrete5.arff. Indicație: Utilizați Filter->Unsupervised->Attribute->Discretize (setați numărul de subintervale ca valoare a parametrului bins (-B) b) Utilizati Weka-Experimenter pentru a analiza acuratețea următorilor clasificatori: ZeroR, OneR, J48, NaiveBayes pentru seturile de date breast-w.arff, breast-wdiscrete10.arff și breast-w-discrete5.arff Exercițiu 3: Deschideți in Weka fișierul car.arff. a) Transformati toate atributele nominale prin binarizare (Filter->Unsupervised->Attribute- >NominalToBinary) si salvați datele transformate în fișierul carbinary.arff b) Utilizați Weka-Experimenter pentru a analiza acuratețea următorilor clasificatori: ZeroR, OneR, J48, NaiveBayes aplicați datelor din car.arff și carbinary.arff 2

Reminder Lab 1: cum se utilizează Weka-Experimenter 1. Selectati Experimenter din panoul Weka (Weka chooser) 2. Click pe butonul New pentru a crea un nou experiment 3. Adaugati seturile de date - Add datasets (e.g. car.arff and carbinary.arff 4. Adaugati algoritmii - Add algorithms: zeror, oner, J48, naivebayes (oner și zeror sunt din grupul Rules, naivebayes este din grupul Bayes iar J48 este din grupul Tree ) 5. Rulați experimentul (Run) 6. Analizați rezultatele (Analyze): a. Click pe Experiment b. Aplicati testul statistic (Perform the statistical test) c. Interpretati rezultatele testului statistic (primul algoritm specificat, zeror, va fi considerat ca metodă de referinta) i. v/ /* se interpretează după cum urmează: v= număr de cazuri (datasets) pentru care metoda curentă este semnificativ mai bună decât cea de referință; / /= număr de cazuri (datasets) pentru care metoda curentă este la fel de bună ca cea de referință; *= număr de cazuri (datasets) pentru care metoda curentă este semnificativ mai slabă decât cea de referință;; Exercițiu 4. Open in Weka the file iris.arff and breast-w.arff a) Aplicați scalarea asupra atributelor (Indicatie: utilizati Filters->Unsupervised->Attribute- >Normalize) și salvați fișierele ca iris_scaled.arff și breast-w_scaled.arff b) Aplicați standardizarea supra atributelor (Indicatie: utilizati Filters->Unsupervised->Attribute- >Standardize) și salvați fișierele ca iris_standardized.arff and breast-w_standardized.arff c) Analizați impactul scalării și standardizării asupra următorilor clasificatori: ZeroR, OneR, J48, NaiveBayes, IB1, MultilayerPerceptron (din grupul Functions). Obs: schimbați pe False opțiunea NormalizeAttributes de la MultilayerPerceptron. Exercițiu 5 (temă). Inmultiti toate valorile primului atribut din breast-w.arff cu 100 (Hint: use Filters->unsupervised->attribute->MathExpression) dupa care efectuați din nou toate prelucrările specificate la Exercițiul 4. 3. Reducerea dimensiunii datelor Motivație: anumite atribute sau instante pot fi irelevante sau redundante. De exemplu un atribut care are aceeasi valoare pe intregul set de date ar trebui ignorat. Două atribute puternic correlate (e.g. A1=2*A2) sunt redundante și ar fi sufficient să se rețină doar unul dintre ele. Reducerea numărului de attribute poate reduce costul de calcul dar poate să și conducă la o imbunătățire a performanței modelului construit pe baza datelor (e.g. clasificator) Reducerea numărului de instanțe din setul de antrenare poate reduce timpul necesar antrenării (sau clasificării, in cazul clasificatorilor leneși ) dar poate să și îmbunătățească performanțele modelului (în special în cazul seturilor de date dezechilibrate) Reducerea numărului de attribute poate fi realizată prin: Selecția atributelor: o Selector de tip filtru : selecția se bazează doar pe analiza proprietăților datelor fiind independent de prelucrarea care va fi ulterior aplicată datelor. 3

o Selector de tip wrapper : selecția se realizează in contextul utilizării datelor intrun proces specific de analiză (calitatea subsetului selectat este evaluată prin prisma performanței unui model de analiză extras din date) Proiectia datelor pe un spațiu de dimensiune mai mică (e.g. Analiza componentelor principale - Principal Component Analysis) Reducerea instanțelor poate fi realizată prin: Eliminarea unor instanțe (pe baza unor reguli specifice) Selecția instanțelor (utilizând selectie aleatoare cu sau fără revenire) 3.1. Selector de tip filtru Selectia atributelor poate fi realizată in două moduri: Căutând în spațiul submulțimilor de atribute (in cazul a n atribute spațiul de căutare are cardinalul 2 n -2 se ignoră mulțimea vidă și întreg setul de atribute) Prin ierarhizarea atributelor în concordanță cu relevanța lor și selectarea celor mai relevante (în cazul a n attribute ierarhizate A 1,A 2,.A n, sunt n-1 variante de analizat: {A1}, {A 1,A 2 }, {A 1,A 2,A 3 }.{ A 1,A 2,,A n-1 } Pentru fiecare dintre variante trebuie specificate: O măsură a relevanței unui atribut sau subset de atribute o Cazul nesupervizat: informația privind clasa atributului nu este folosită pentru a evalua relevanța (analiza se bazează in principal pe corelațiile sau similaritățile dintre attribute) o Cazul supervizat: informația privind clasa este utilizată (analiza se bazează pe corelația dintre valorile atributelor si eticheta clasei) O tehnică de căutare: o Căutare exhaustivă (toate subseturile de atribute sunt analizate) o Căutare greedy (forward/backward): se adaugă/elimină cel mai bun/slab atribut identificat la momentul curent o Cautare aleatoare o Cautare bazată pe o ierarhizare (atributele sunt selectate în ordinea dictate de o ierarhie stabilită anterior) Exercițiu 6. Deschideți in Weka fisierul iris.arff, dupa care: a) Aplicati o tehnica de selectie a atributelor (e.g. Select attributes -> CfsSubsetEval, GreedyStepwise) și salvați setul redus de date (click dreapta și Save reduced date) b) Aplicați o metodă de ierarhizare a atributelor (e.g. Select attributes -> InfoGainAttributeEval, Ranker). Comparați rezultatul cu cel obținut la a). c) Analizați impactul reducerii datelor asupra performanțelor clasificatorilor (utilizând Experimenter la fel ca in exercițiile 2-3). 3.2. Proiecția datelor analiza componentelor principale Scop: se transformă datele (schimbând sistemul de axe de coordonate) astfel încât să fie eliminată corelația dintre atribute și se păstrează doar acele atribute care conservă cât mai mult din variabilitatea datelor. Această transformare poate fi realizată prin analiza în componente principale (Principal Component Analysis) parcurgând următoarele etape: 4

Se calculează matricea de covarianță C a setului de date (daca datele au n atribute atunci matricea va avea dimesniunea nxn); in practică se obișnuiește să se centreze datele inainte de a construe matricea (se scade din fiecare instanță media setului de date) Se calculează valorile și vectorii proprii ai matricii C Se ordonează descrescător valorile proprii Se selecteaza m<n vectori proprii (cei correspunzători celor mai mari valori proprii); m se alege astfel incât datele transformate să conserve cât mai mult din variabilitatea datelor inițiale (e.g. 95%) Se proiectează datele pe spațiul definit de cei m vectori proprii Exercise 7. Deschideți în Weka fisierul iris.arff a) Aplicați Principal Component Analysis (PCA) asupra datelor (e.g. Select attributes -> Principal Components, Ranker și salvați setul redus de date (click dreapta pe rezultat și Save transformed data) b) Visualizați datele transformate și comparați-le cu cele inițiale c) Analizați impactul transformării PCA asupra performanțelor clasificatorilor folosind Experimenter (vezi Exercitii 2-3). Exercitiu 8. Aplicați transformarea PCA asupra datelor arrhythmia.arff și analizați rezultatele. 5