PROIECT BIG DATA PENTRU EXPLORAREA POTENȚIALULUI DE UTILIZARE A UNOR SURSE DE DATE ALTERNATIVE ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE ABSTRACT Exp

PROIECT BIG DATA PENTRU EXPLORAREA POTENȚIALULUI DE UTILIZARE A UNOR SURSE DE DATE ALTERNATIVE ÎN DEZVOLTAREA DE STATISTICI EXPERIMENTALE ABSTRACT Explorarea și exploatarea potențialului unor noi surse de date este un obiectiv asumat în statistica oficială. Proiectul își propune să investigheze potențialul World Wide Web-ului ca sursă de date în estimarea unor statistici experimentale privind evoluția prețurilor online comparativ cu evoluția prețurilor colectate prin mijloace consacrate în statistica oficială. În acest sens, este necesară elaborarea atentă a unei metodologii și a unor tehnici specifice pentru tratarea tuturor etapelor componente unui astfel de proiect. Atenționăm cititorul că raportul prezent reprezintă o lucrare în desfășurare (working paper), rezultatele și modul în care au fost acestea obținute fiind expuse unui proces continuu de modificare, uneori fundamentală. 1

CUPRINS I. CONTEXT. OBIECTIVE....3 II. DESCRIEREA DATELOR...5 III. ORGANIZAREA CULEGERII DATELOR...6 IV. REZULTATE PRELIMINARII....9 V. LIMITĂRI.CONCLUZII PRELIMINARE.... 17 BIBLIOGRAFIE... 18 2

I. CONTEXT. OBIECTIVE. Obiectivele generale ale proiectului sunt preluate din cadrul general de modernizare a statisticii oficiale din România, alături de îmbunătățirea continuă a procesului de producție statistică în acord cu direcțiile de modernizare la nivel european exprimate în documentul Viziunea Sistemului Statistic European până la orizontul anului 2020. În cadrul ecosistemului statistic național și european au loc transformări majore ca urmare a provocărilor impuse de către noile trenduri de generare masivă de date aproape în timp real, așa numita revoluție Big Data, fie că ne referim la date generate de către indivizi, procese sau mașini. Încorporarea Big Data în procesul de producție statistică nu este caracterizată de proprietățile unei acțiuni liniare care își propune să suplinească în totalitate metodele tradiționale de generare și prelucrare a datelor în vederea obținerii unor produse statistice de calitate neîndoielnică. Mai degrabă, utilizarea Big Data presupune o abordare de tip incremental, iterativ, în care anumite componente ale unui proces tradițional de producție statistică sunt augmentate de aportul Big Data și al algoritmilor de prelucrare aferenți, condiționate de conservarea și/sau îmbunătățirea calității produsului statistic. Cu alte cuvinte, încorporarea Big Data în statistica oficială înseamnă păstrarea unui avantaj competitiv net și a relevanței produselor statisticii oficiale prin comparație cu cele furnizate de către o mulțime de jucători comerciali, cu referire în particular la marile corporații din domeniul tehnologiei informației. Sub aceste auspicii, obiectivele generale sunt reprezentate de eficientizarea procesului de producție statistică prin scăderea costurilor de producție și reducerea sarcinii de răspuns și a termenului de diseminare. Proiectele pilot interne, prin încorporarea tehnologiilor de calcul moderne, pot crea premisele dezvoltării unui cadru de testare/măsurare și pilotare de noi metodologii și tehnologii într-un mod sistematic și riguros, contribuind semnificativ la atingerea obiectivelor generale. Invariant, în discuție intră identificarea resurselor necesare derulării proiectelor. Conform Memorandului Schevingen, caracteristicile noilor surse de date implică din punct de vedere tehnic o abordare multi-disciplinară, cu precădere din sfera teoretică a statisticii matematice și a programării calculatoarelor. Generarea de soluții robuste solicită din partea echipelor însărcinate cu derularea proiectelor membrii specializați în cadrul celor două discipline amintite și excelente abilități de comunicare. În consecință, au fost formulate următoarele obiective specifice: Obiectivul 1. Identificarea și selecția canalelor online cu ponderi semnificative în totalul volumului de tranzacționare a mărfurilor și serviciilor destinate consumului gospodăriilor, astfel încât să fie acoperit întregul nomenclator de bunuri și servicii destinate consumului final al gospodăriilor. Obiectivul 2. Identificarea mijloacelor adecvate de implementare a procesului de colectare automată a prețurilor afișate în cadrul canalelor online de tranzacționare a mărfurilor și serviciilor. 3

Obiectivul 3. Derularea procesului de colectare automată a prețurilor pe parcursul unei perioade relevante: 2 ani. Obiectivul 4. Dezvoltarea unui estimator în vederea obținerii unui indice experimental al prețurilor de consum în baza datelor colectate din mediul online. Obiectivul 5. Identificarea aspectelor sensibile din punct de vedere legal ale proiectului, având în vedere reconcilierea dintre Legea 226/2009 din România, Codul de Practici al Statisticilor Europene, alte reglementări privind statistica oficială și legislația privind accesul la date disponibile online. Obiectivul 6. Diseminarea rezultatelor către diferite categorii de utilizatori interni și externi statisticii oficiale prin intermediul rapoartelor intermediare de activitate și prezentării rezultatelor, limitărilor și propunerilor aferente proiectului. Concepte și definiții utilizate. INTERNET - Rețea internațională de calculatoare, formată prin interconectarea rețelelor locale și globale, destinată să faciliteze schimbul de date și informații în diverse domenii. Abreviat din International Network. WorldWideWeb sau WWW sau Web Colecție de documente interconectate pe baza protocolului HTTP (HyperText Transfer Protocol) sau HTTPS (HyperText Transfer Protocol Secure). Site Colecție de documente WWW structurate sub o adresă WWW comună. Browser Web aplicație software ce permite navigarea și accesarea conținutului Web. Web scraping set de tehnici ce permit colectarea automatizată a adreselor WWW ale site-urilor precum și a documentelor regăsite la aceste adrese. Robot/Crawler/Spider - tehnică implementată prin procesul de web scraping de indexare automatizată a adreselor WWW. Parser aplicație software de parcugere și identificare automată a conținutului unui document. Javascript limbaj de programare destinat aplicațiilor Web. node.js mediu de execuție a codului Javascript în afara unui browser.. HTML sau HyperText Markup Language limbaj standard de meta-marcare utilizat la crearea și formatarea documentelor Web. CSS sau Cascade Style Sheets limbaj standard de stilizare a documentelor HTML. 4

XML sau extensible Markup Language limbaj de meta-marcare utilizat la crearea altor limbaje de marcare Web și pentru creare documentelor care pot fi interpretate atât de om, cât și de mașină. A fost adoptat din necesitatea modificării dinamice a documentelor Web, prin adăugarea sau eliminarea unor noi structuri sau conținut în document fără a fi necesară o re-evaluare totală a structurii acestuia. CSV sau Comma Separated Values fișier cu valori separate prin virgulă. R limbaj și mediu de programare destinat prelucrării statistice și grafice a datelor. II. Sfera de cuprindere DESCRIEREA DATELOR Ipoteza abordării democratice a indicelui prețurilor de consum, conform căreia nu există diferențe statistic semnificative între volumul și structura cheltuielilor realizate de gospodării pentru achiziționarea de mărfuri sau servicii, este extinsă asupra prețurilor observate pe site-urile Web. Populația de referință, mediul de rezidență, perioada de observare acoperită în cadrul unei luni, alături de mărfurile și serviciile incluse în nomenclatorul pe baza căruia se determină IPC sunt păstrate, cu următoarele mențiuni: În cazul în care conținutul Web este indisponibil în intervalul menționat se va decala cu o zi colectarea. Dintre mărfurile și serviciile incluse în nomenclatorul IPC, au fost țintite inițial grupa mărfurilor alimentare și posturile care acoperă articolele de îmbrăcăminte și încălțăminte din grupa mărfurilor nealimentare. Urmând ulterior, pe măsură ce înregistrăm rezultate preliminarii, să extindem asupra întregului nomenclator de mărfuri și servicii. Unitatea de observare este site-ul Web aparținând firmelor. În acest caz, ipoteza de la care pornim este că prin intermediul site-ului firmele acoperă întreg teritoriul național. Alegerea site-urilor se bazează pe stabilirea unei relații volum vânzări-cifra de afaceri, prin ordonarea descrescătoare a cifrelor de afaceri raportate de către firmele care dețin site-urile respective. Momentan, există anumite bariere, spre exemplu cel mai important jucător, din punctul de vedere al cifrei de afaceri, pe segmentul hypermarketurilor prezente în România, nu are o secțiune dedicată tranzacțiilor online. Însă mutările preconizate spre realizare la nivel European, de către firmele care dețin puncte de vânzare fizice pe acest segment, sugerează că forțele de piață vor impune migrarea către online a celor mai importanți actori din domeniu, cel puțin la nivel declarativ. Variabile înregistrate Variabilă înregistrată este prețul cu TVA. Metoda de colectare automată permite înregistrarea dublă a prețurilor pentru mărfurile și serviciile afectate de reduceri, promoții, rabaturi sau alte forme de 5

atragere clienți prin intermediul prețurilor, astfel alături de prețul afișat putem înregistra prețul vechi sau reducerea afișată sub formă de procent. Acest aspect înlesnește, spre exemplu, identificarea cu ușurință a factorilor de sezonalitate ce afecteză variația prețurilor pentru anumite categorii de mărfuri și servicii. Prețurile sunt înregistrate în fișiere de tip.csv care conțin în principiu următoarele variabile: 1. Denumire varietate numele sub care varietatea este comercializată 2. Prețul curent cu amănuntul 3. Prețul vechi și/sau reducerea cu amănuntul în cazul în care este afișat 4. Compoziție în cazul posturilor îmbrăcăminte/încălțăminte din grupa mărfurilor ne-alimentare 5. Descrierea varietății: producător și specificații tehnice 6. Data colectării 7. Adresa website-ului Selecția sortimentelor ale căror prețuri sunt ținute sub observație se face pe baza nomenclatorului de mărfuri și servicii din Ancheta Indicelui Prețurilor de Consum. Probabil va fi necesară, pe măsură ce sunt acumulate rezultate satisfăcătoare, alcătuirea unui nomenclator al unităților de observare online. III. ORGANIZAREA CULEGERII DATELOR Metoda de înregistrare Colectarea datelor are loc prin intermediul soluției software dezvoltate de către CBS Netherlands, Robot Framework. Soluția este implementată în limbajul de programare Javascript, cu ajutorul mediului de execuție node.js. Avantajul major al acestei implementări este dat de faptul că poate fi accesat în mod automat conținut Web generat în mod asincron și dinamic, prin interacțiunea dintre un utilizator/browser Web și un server Web. Automatizarea colectării de informații de pe site-urile cu conținut generat dinamic presupune simularea interacțiunii dintre utilizator/browser Web și server prin intermediul unei aplicații de tip headless browser, în acest caz phantom.js. Soluția permite configurarea unor fișiere care conțin un script ce trimite cereri de tip asincron către serverul Web prin intermediul browserului. Conținutul răspunsurilor trimise asincron de către server sunt stocate, parsate și copiate în fișiere de tip.csv. În funcție de natura și cantitatea de elemente dinamice dintr-un site Web, o sesiune de web scraping poate dura între câteva minute și o oră, un factor vital aici fiind prezența unei conexiuni la rețeaua INTERNET de ordinul zecilor de Mbps. Pe lângă soluția Robot Framework au fost explorate și alte tehnologii, expuse în Tabelul 1, unde au fost sintetizate principalele avantaje și dezavantaje. 6

Tabelul 1. Soluții pentru colectarea automată a datelor de pe site-urile Web Nr. Crt. Nume Avantaje Dezavantaje 1 Robot Framework FOSS gratuitate/modificabilă. Utilizată și dezvoltată de CBS Netherlands. Relativ ușor de utilizat. Extensibilitate. Nu este utilizabil în sensul out-of-thebox sau la cheie. FOSS - eventualele erori generate de utilizarea produsului software nu atrag răspunderea dezvoltatorilor pentru rezultatele obținute. Nu este o aplicație matură, testată de un număr mare de utilizatori. 2 Scrapy Framework FOSS gratuitate/modificabilă. Extensibilitate ridicată. Este un framework matur cu o multitudine de biblioteci software pe post de plug-inuri. Scalabilitate. 3 Apache Nutch Framework matur. Orientat Big Data. 4 Rvest Bibliotecă R. Ușor de utilizat. Integrarea rezultatelor in R. Necesită cunoștințe medii spre avansate de programare în limbajul Python. Scalabilitatea impune resurse hardware adecvate. Curbă de învățare abruptă. Curbă de învățare abruptă. Necesită încorporarea mai multor tehnologii de prelucrare a Big Data (Hadoop, MapReduce, Solr, Spark). Scalabilitate redusă. Destinat aplicatiilor de mici dimensiuni și familiarizării cu tehnicile de webscraping. 7

Lansarea unei sesiuni de Web scraping presupune, în general, următoarele etape: 1. Instalarea Robot Framework. 2. Instalarea node.js și a pachetelor dependente. 3. Crearea din linia de comandă a sistemului de operare a unui template pentru script, prin intermediul unui fișier de tip batch disponibil în RobotFramework. 3. Utilizarea unui editor de text pentru editarea scriptului. 4. Rularea fișierului script din linia de comandă cu ajutorul unui fișier de tip batch. 5. Verificarea rezultatelor din directorul în care sunt stocate fișierele.csv. Editarea unui fișier script presupune utilizarea informațiilor disponibile prin intermediul unei aplicații de tip developer tools, comune distribuțiilor majore de browsere Web (Chrome, Firefox, Edge), pentru identificarea adreselor elementelor de interes din structura unui document Web, precum și a eventualelor scripturi care pot interacționa cu respectivul element. Adresa unui element din cadrul unui document poate fi reprodusă în două moduri în cadrul fișierului script, primul fiind cu ajutorul selectorilor CSS și celălalt cu ajutorul selectorilor Xpath, diferența dintre cele două moduri este dată de faptul că al doilea poate introduce în adresă componente de conținut din cadrul elementului, astfel fiind mult mai precis. Adresele sunt furnizate unui set de proceduri care serializează procesul de navigare și parsare în cadrul site-urilor Web. Este demn de menționat că soluția RobotFramework are un grad înalt de configurare prin intermediul posibilității de introducere de proceduri specifice tehnologiei din spatele site-urilor, dovedindu-se în mâinile unui programator cu experiență o soluție de Web scraping scalabilă cerințelor unei organizații de mari dimensiuni. Rularea automată în paralel/serial a scripturilor se face cu ajutorul unui script batch. Momentan este necesară supravegherea procesului de colectare automată a prețurilor, ulterior în funcție de rezultatele obținute și de feed-back-ul părților interesate, vom încerca dezvoltarea unei soluții pentru verificarea integrității procesului de colectare și restartarea acestuia pentru scripturile care au generat un mesaj de eroare. Perioada de referință și înregistrare Colectarea automată a prețurilor observate pe site-urile din eșantion se efectuează într-una din zilele aferente decadelor 01-07, 10-17 și 20-27 ale fiecărei luni pentru mărfurile alimentare, respectiv 10-17 pentru posturile aferente articolelor de îmbrăcăminte și încălțăminte. 8

IV. REZULTATE PRELIMINARII. Datorită complexității datelor extrase prin procesul de web scraping, i.e. date semi-structurate, descompunerea la nivel de componente de bază specifice nomenclatorului IPC este necesară pentru a ataca problema estimării unui indice experimental al prețurilor de consum din date online. Date semi-structurate Structura fișierelor descărcate urmează următorul tipar pentru grupa mărfurilor alimentare: nume variabila conține numele produsului, producătorul, cantitatea varietății si anumite detalii tehnico-calitatative. Exemplu: Drojdie uscata instant Coseli 7g. preț variabila conține observații legate de prețul per unitatea de măsură sau prețul per bucată afișat pe pagina web corespunzător varietății. Exemplu: 083 Lei/bucata sau 1990 Lei/kg. sortiment, tip, categorie variabila conține detalii privind clasificarea varietății observate în diferite categorii, conform structurii site-ului. O captură a outputului fișierului care conține datele este realizată în figura 1. Figura 1. Fișier output date. Din alcătuirea outputului, se poate observa că datele sunt organizate conform structurii site-ului respectiv, în acest caz supermarketul generic, unde produsele alimentare considerate de bază ocupă primele poziții în structura ierarhică a site-ului. Varietățile sunt organizate pe categorii de produse în 9

funcție de denumirea acestora și a categoriei de nevoi pe care o deservesc. Corelarea poziției ierarhice a produsului pe site cu rata de modificare a prețului este o posibilă ipoteză de cercetare. Această ipoteză decurge în urma unor observații legate de funcțiile de sortare a varietăților pe site, spre exemplu: cele mai populare, cele mai vândute, preț crescător, preț descrescător, care expun pentru varietățile cele mai populare, produse a căror prețuri suferă variații de preț majore. Modalitatea, cea mai simplă, de a testa această ipoteză constă în colectarea a 20-30 de produse din categoria celor mai populare, pe categoriile de produse de larg consum, cu o frecvență zilnică și modelarea statistico-econometrică a observațiilor. Variabila nume conține, pe lângă denumirea varietății, informații despre cantitate și despre calitate. În acest caz observăm o structură similară în descrierea produselor plecând de la denumirea sortimentului, apoi către aspecte de ordin calitativ de genul materiilor prime utilizate în procesul de produție sau tehnici de producție, urmat de denumirea mărcii și cantitatea pusă la vânzare pentru acest tip de sortiment. O observație trivială legată de forma datelor este că acestea nu pot fi folosite direct sub această formă în procesul de clasificare și de estimare al indicilor preț. Pentru tratarea acestei probleme am dezvoltat o serie de proceduri R care permit aducerea la formă comună a datelor astfel încât să permită o manipulare flexibilă. Etape de obținere a indicelului experimental al prețurilor de consum Etapele se desfășoară secvențial, inputul de date pentru fiecare etapă depinzând de outputul etapei precedente, cu excepția primei etape al cărei input depinde de rezultatul colectării automate a datelor. În continuare, vor fi prezentate în detaliu activitățile desfășurate în cadrul fiecărei etape, întregul process fiind sintetizat în Figura.2. 10

Figura 2. Sesiune de scraping și prelucrare a datelor Robot Framework Mediul R Proceduri de calcul și clasficare Fișiere cu rezultate 11

Etapa 1. Introducere și curățare a datelor Această etapă presupune următoarele activități. Inputul activității: fișiere date prețuri. Activitatea de verificare a existenței fișierelor și a conținutului acestora prin intermediul căreia înregistrăm dacă există o corespondență de 1 la 1 între numărul de perioade decadale și numărul fișierelor prezente. De asemenea se inspectează conținutul acestora pentru a verifica integritatea tabelelor obținute prin procesul de webscraping. Verificăm prezența câmpurilor care să conțină numele varietăților, al prețurilor și al punctelor de observare. Această activitate are loc de obicei după încheierea procesului de webscraping și este realizată momentan manual. În cazul în care există elemente lipsă dintre cele enumerate procesul de webscraping se reia, cu mențiunea verificării accesibilități online a site-ului și a fișierelor de log ale aplicației de webscraping. Surse de erori identificate: site-ul este indisponibil, structura site-ului a suferit modificări, pipe-line-ul utilizat la web scraping este afectat de erori care nu sunt trate corespunzător. Outputul activității: fișiere cu date prețuri online. Inputul activității: fișiere cu date - prețuri online. Activitatea de copiere a fișierelor obținute de la toate punctele de observare online la nivelul unei luni calendaristice într-un director separat care poate avea numele lunii calendaristice respective, sau ceva asemănător. Activitatea este realizată manual. Se poate automatiza printr-un script batch. În această etapă se verifică și consistența numelor fișierelor, astfel încât această să aibă o denumire implicită furnizată de către aplicația de webscraping, anume DATA_Nume_spider.csv. DATA este preluată de către webscraper din cadrul sistemului de operare, iar Nume_spider din fișierul JSON de configurare al spider-ului. Surse de erori identificate: fișierul poate fi blocat la copiere deoarece respectivul bloc de memorie este accesat de către o altă aplicație. Outputul activății: Director de lucru R. Inputul activității: Director de lucru R. Activitatea de citire a datelor în mediul R presupune citirea secvențială a datelor din fișierele aflate în directorul din etapa precedentă prin intermediul metodelor puse la dispoziție de către mediul de programare R și transformarea acestora în structuri de date valide din punctul de vedere computational al R-ului. Activitatea se realizează prin intermediul unui script ad-hoc care citește fișierele dintr-un director de lucru în structuri de tip dataframe alocându-le un nume de tipul 12

Data(numeric)_Nume_punct_de_observare(caracter) în funcție de punctul de observare. Data este preluată din numele fișierului, iar Nume_punct_de_observare este furnizat de către utilizator prin intermediul specifia unui vector de caractere unui parametru către funcția de citire, precizând că vectorul trebuie să conțină șiruri de caractere apropiate de Nume_spider pentru identificarea și alocarea validă a numelor. Pentru o manipulare eficientă a structurilor de date, este recomandabilă alocarea unei structuri de tip listă care să conțină toate dataframe-urile. Surse de erori identificate: specificarea incorectă a elementelor din vectorul de caractere, utilizat pentru alocarea numelor, poate genera erori de citire, suprascrierea structurilor de date din cauza numelor de fișiere care pot conține aceeași dată calendaristică, incorect identificate drept valide la activitatea numărul 3, posibile erori generate de sistemul de fișiere al sistemului de operare (drepturi de citire, acces interzis la respectiva zonă de memorie utilizată de către alte aplicații). Outputul activității: Structuri de date R. Inputul activtității: Structuri de date R Activitatea de curățare a datelor presupune eliminarea elementelor care nu prezintă interes pentru etapele ulterioare, cum ar fi variabilele care conțin date de identificare a aplicației de webscraping, și transformarea corespunzătoare a celorlalte elemente în vederea calculului. Aici au fost dezvoltate o serie de scripturi R particularizate pentru fiecare punct de observare în parte ca urmare structurii specifice a informațiilor disponibile pe site-urile punctelor respective. Spre exemplu variabila preț poate fi înregistrată în două variabile denumite generic preț promoțional și preț întreg sau preț bucată și preț cantitate standard, fapt ce necesită identificarea și înlocuirea datelor aferente variabilelor din prima categorie cu date din variabila din cea de-a doua categorie prin intermediul unor comparații succesive. O altă posibilă tranformare este realizată pentru reprezentarea corectă a prețurilor din punct de vedere numeric, spre exemplu prin împărțirea la 100 a datelor culese de pe site-uri care conțin partea întreagă și partea fracțională a prețului în două elemente html diferite. Este posibilă realizarea acestei tranformări la nivelul aplicației de webscraping, dar am decis să păstrăm prelucrarea numerică a datelor integral în mediul R. Tot în cadrul acestei activități se realizează eliminarea observațiilor duplicate. Duplicarea observațiilor este un fenomen destul de des întâlnit în utilizarea actualei aplicații de webscraping si are loc datorită restartării periodice a clientului web (phantomjs) din motive de asigurare a stabilității. În momentul în care survine restartul aplicația trimite către client ultima cerere realizată înainte de restart indiferent dacă aceasta a primit sau nu un răspuns din partea serverului web. Surse de erori identificate: Erori logice de parsare a șirurilor de caractere din cauza unor reguli mult prea restrictive, spre exemplu eliminarea unor observații care au aceeași valoare la nume, dar au prețuri diferite. Outputul activității: Structuri de date R pregătite pentru calculul indicelului experimental al prețurilor de consum observate online. 13

Inputul activității: Structuri de date R pregătite pentru dezvoltarea de statistici experimentale Activitatea de codificare manuală/automată a produselor conform nomenclatorului IPC presupune identificarea observațiilor care, în baza variabilei nume, se apropie de descrierea furnizată în cadrul nomenclatorului. Aceasta activitate poate genera erori a căror propagare se poate resimți semnificativ în calitatea rezultatelor finale. Principul de la care s-a pornit, în lipsa unei experiențe anterioare în lucrul cu aspecte metodologice de selecție a varietăților unui sortiment, a fost utilizarea unui mod de gândire bazat pe ipoteza conform căreia consumatorul va alege un produs sau mai multe produse substituibile celui prezent în nomenclator într-o limită de preț rezonabilă (<= 150% din prețul unei varietăți din nomenclator.) Astfel au fost alese spre selecție pentru un singur sortiment mai multe varietăți din cadrul aceluiași punct de observare. Au fost adăugate două coloane suplimentare pentru toate structurile de date care conțin codul sortimentului și al postului de cheltuieli pentru fiecare perioadă decadală din luna de bază aleasă, pentru varitățile identificate ca făcând parte din cadrul aceluiași sortiment. Pentru a întări regula de urmărire strictă a acelorași varietăți, regăsită în metodologia de calcul a IPC, s-au realizat operațiuni de matching între structurile de date pentru toate perioadele decadale și lunile observate. Operațiunea de matching între două sau mai multe tabele s-a realizat pe baza variabilei nume care conține observații privind descrierea varietății prin intermediul potrivirii șirurilor de caractere în raport de 1 la 1. După realizarea acestei activități dintr-un număr inițial de aproximativ 10.000 de varietăți pentru care s-a realizat colectarea prețurilor din online, acestea au fost restrânse la 545 de varietăți, 216 sortimente, și 52 de posturi de cheltuieli, identificate ca și constante pe parcursul lunilor de observație, în ipoteza că descrierea oferită în observațiile realizate pentru variabila nume reprezintă un garant al invarianței caracteristicilor tehnico-calitative ale varietăților. Această tehnică a fost utilizată pentru codificarea întregului eșantion, utilizat apoi în procesul de codificare automată datelor. În Tabelul 2, se regăsesc principalele rezultate experimentale obținute până în prezent pentru codificarea automată a varietăților. Clasificarea datelor colectate în funcție de produsele din nomenclator s-a realizat folosind algoritmi din pachetul RtextTools ce au la baza arbori de decizie. Validarea opțiunii pentru unul dintre algoritmii BOOSTING, SVM, RF, SLDA si BAGGING s-a realizat pe setul de date clasificat manual aplicând tehnica Cross-Validation cu 10 subseturi. Tabel 2.Rezultate 10-fold Cross-Validation ALGORITM BOOSTING SVM RF SLDA BAGGING ACURATEȚE 0.56 0.34 0.41 0.17 0.28 14

Surse de erori: activitatea manuală de codificare a prețurilor este repetitivă, datele fiind expuse unor prelucrări eronate din cauze subiective. Outputul activității: Structură de date care conține toate perioadele observate, cu observațiile codificate conform nomenclatorului IPC. Inputul activității: Structură de date care conține observații codificate conform nomenclatorului IPC. Abordarea metodologică pentru estimarea unor statistici experimentale, propusă spre explorare, presupune o etapă de calcul a indicilor elementari de preț la nivel de varietate, sortiment, post și grupă de cheltuieli agregate, finalmente, într-un indice statistic experimental, dar care să permită retenția anumitor proprietăți a indicilor statistici consacrați în acest domeniu statistic, asigurând astfel un punct de referință relativ la criteriul comparabilității dintre cei doi tipi de indici (Figura.3.). O posibilă rută exploratorie, presupune ca inițial să se calculeaze medii aritmetice la nivel de varietate pentru fiecare lună și punct de observare. Rezultatul obținut se împarte la mediile obținute pentru fiecare varietate în parte. Se obțin astfel indicii elementari de preț la nivel de varietate. Pentru calcularea indicilor la nivel de sortiment poate fi necesară restrângerea numărului de varietăți din cadrul aceluiași punct de observare. O posibilă soluție poate fi utilizarea unei medii geometrice pentru agregarea rezultatului sub forma unei varietăți generice specifică punctului respectiv de observare 15

Figura.3. Etapele 1 proiectului de dezvoltare a unor statistici experimentale în baza surselor de date alternative. Specificarea cerințelor proiectului Proiectare Execuție Culegerea datelor Procesarea datelor Prezentarea rezultatelor Reducerea costurilor de producție statistică. Elaborarea metodologiei de calcul a statisticilor experimentale. Dezvoltarea unor abordări tehnice pretabile statisticilor experimentale. Selecția magazinelor online. Calcularea statisticii experimentale. Redactarea rapoartelor de activitate. Creșterea promptitudinii Creșterea disponibilității datelor prin utilizarea unor tehnici și procese de colectare automată a datelor din online. Adaptarea și încorporarea soluțiilor și bunelor practici internaționale în specificul activ ităților proiectului. Implementarea procedurii de colectare a datelor în cadrul unei arhitecturi software de tip open source. Îmbunătățirea timpilor de estimare a statisticilor consacrate prin utilizarea statisticilor experimentale. Punerea la dispoziție către direcțiile interesate a întregii arhitecturi a proiectului și suport tehnic. 1 Pentru descrierea și reprezentarea grafică a etapelor a fost utilizat drept reper standardul GSBPM 5.0 referitor la descriere al fazelor și sub-proceselor aferente procesului de producție statistică. 16

V. LIMITĂRI.CONCLUZII PRELIMINARE. Au fost identificate următoarele limitări, care pot deveni ipoteze de cercetare exploratorie în aria de cunoaștere a noilor surse de date raportată, momentan, la indici și indicatori statistici consacrați: Ipoteza de generalizare a achiziționării de bunuri și servicii destinate consumului de către gospodării prin intermediul tranzacțiilor online. Numărul gospodăriilor care achiziționează un produs prin intermediul canalelor online este relativ mic, și depinde în general de o serie de factori precum poziția geografică, nivelul veniturilor, nivelul educației, etc. Nu toate firmele, cu un volum al tranzacțiilor semnificativ pentru includerea în cadrul unităților de observare, dețin un site Web. Tehnologia IT poate avea un impact semnificativ asupra variației prețurilor. Un exemplu în acest sens poate fi discriminarea bazată pe poziția geografică a unui utilizator în momentul în care sunt afișate prețurile pe un anumit site. În baza rezultatelor obținute și a potențialului metodei de colectare de a fi extinsă și asupra altor cercetări de interes pentru statistica oficială sunt formulate următoarele concluzii preliminare: Concluzia 1: Continuarea derulării proiectului Big Data de explorare a potențialului de utilizare a unor surse de date alternative în vederea dezvoltării unor statistici experimentale. În cadrul proiectului un obiectiv esențial este dezvoltarea unei metodologii noi. Secundar se poate dezvolta un nomenclator separat de produse și servicii specific observațiilor din online, pe baza unor măsurători, precum longevitatea anumitor produse și servicii în oferta online și o serie de meta-date aferente produselor și serviciilor respective (spre exemplu, analiza interacțiunii online pe bază de comentarii/recenzii a cumpărătorilor cu mărcile respective și magazinul online). Concluzia 2: Este necesară dezvoltarea unei politici și a unor proceduri operaționale pentru colectarea și utilizarea datelor colectate automat din pagini Web ca surse de date alternative. Concluzia 3: Este necesară constituirea unui grup/comitet de coordonare, supraveghere și evaluare a utilizării datelor colectate prin intermediul metodelor noi pentru asigurarea respectării principiilor statisticii oficiale și a legislației în vigoare. Aspectele ce țin de coordonarea utilizării datelor pot fi exprimate în termeni de dezvoltare de noi metodologii și tipuri de indicatori statistici relevanți și eficienți din punct de vedere al costurilor pentru diferite categorii de utilizatori interni și externi. 17

BIBLIOGRAFIE 1. Institutul Național de Statistică. 2018. Metodologia anchetei Indicelui prețurilor de consum. Disponibil la: http://colectaredate.insse.ro/metadata/viewstatisticalresearch.htm?locale=ro&researchid=4807 2. Institutul Național de Statistică. 2018.Nomenclatorul mărfurilor și serviciilor utilizate în indicelui prețurilor de consum. Disponibil la: http://colectaredate.insse.ro/metadata/viewstatisticalresearch.htm?locale=ro&researchid=4807 3. Biroul Internațional al Muncii. 2004. Consumer price index manual.disponibil la: https://www.ilo.org/wcmsp5/groups/public/---dgreports/--- stat/documents/presentation/wcms_331153.pdf 4. Organizația Națiunilor Unite 2009. Practical Guide to Producing Consumer Price Indices. Disponibil la: https://www.unece.org/fileadmin/dam/stats/publications/practical_guide_to_producing_cpi.pdf 5. CBS Netherlands. 2016. RobotFramework. Disponibil la: http://research.cbs.nl/projects/robotframework/index.html 6. The R Foundation. 2018.R Disponibil la: https://cloud.r-project.org/ 7. Organizația Națiunilor Unite, 2018. GSBPM. Disponibil la: https://statswiki.unece.org/display/gsbpm/gsbpm+v5.0 18