Datu masīvu kvalitātes analizēšanas un uzlabošanas tehnoloģijas

Izdrukāt

"Datu masīvu kvalitātes analizēšanas un uzlabošanas tehnoloģijas" ir individuālais pētījums Nr. 1.8., ko Latvijas Nacionālā bibliotēka veic Eiropas Reģionālās attīstības fonda projektā "Informācijas un komunikāciju tehnoloģiju kompetences centrs".

Projektā paredzēts veikt pētījumus, kuru rezultātā tiks radītas metodes un algoritmi zemas kvalitātes datu identificēšanai un datu kvalitātes problēmu novēršanai, aptverot dažādus atribūtus, tādus kā precizitāte, integritāte, konsekvence, pilnīgums, derīgums, savlaicīgums un pieejamība. Algoritmus paredzēts balstīt uz ietvaru, kas ļautu definēt gan objektīvus datu augstas kvalitātes kritērijus – tādus, ka būtu pielietojami jebkuram datu masīvam neatkarīgi no datu semantikas, gan subjektīvus kritērijus, kas būtu attiecināmi tikai uz specifiskiem datiem. 

Projekta rezultātā, analizējot konkrētus LNB datu masīvus, tiks izveidots tipisko metadatu kļūdu un nepilnību klasifikators, kā arī algoritmi, kas spēj identificēt un novērst kļūdu klasifikatorā apkopotās kļūdas un nepilnības. Balstoties uz augstākminētajiem algoritmiem, tiks izstrādāts zemas metadatu kvalitātes objektu identificēšanas  un labošanas prototips, ar kuru tiks apstrādāti Latvijas Nacionālās bibliotēkas datu masīvu paraugi.

Projekta partneri: Latvijas Nacionālā bibliotēka, SIA "IT kompetences centrs", AS "Datorzinību centrs".

Projekta finansētājs: Eiropas Reģionālās attīstības fonds

Projekta ID Nr.: L-KC-11-0003

Projekta īstenošanas laiks: 01.08.2014. – 30.06.2015.