Zmniejszenie niepewności danych
Badacze z UE stworzyli systemy danych wykorzystujące wnioskowanie statystyczne i probabilistyczne do ograniczenia niepewności. Projekt pomógł w ujednoliceniu takich metod przy pomocy konwencjonalnych baz danych, między innymi dzięki opracowaniu skalowalnych algorytmów oraz szeregu różnych nowych narzędzi.
Różne aplikacje muszą zarządzać i podejmować decyzje przy użyciu danych o dużym stopniu niepewności. Choć niektóre narzędzia uzupełniają te braki do pewnego stopnia, to są one na ogół uproszczone i ograniczone.
Finansowany ze środków UE projekt "Heisendata - towards a next-generation uncertain-data management system" (HEISENDATA) miał na celu poprawę tej sytuacji. Zespół planował zaprojektować i zbudować nowe systemy probabilistycznych baz danych (PDBS), obsługujące modele statystyczne i wnioskowanie probabilistyczne oprócz konwencjonalnych struktur baz danych. Badacze chcieli się zająć problemami związanymi z obsługą takich nowych składników, w tym dotyczącymi przeprojektowania kluczowych komponentów systemu. Projekt HEISENDATA był realizowany przez cztery lata do lutego 2014 r.
Prace objęły trzy główne dziedziny: streszczenia nowych danych probabilistycznych do optymalizacji zapytań, nowe algorytmy i architektury PDBS oraz skalowalne algorytmy i narzędzia.
Streszczenia danych obejmowały definiowanie i tworzenie algorytmów do budowy histogramów. Na potrzeby różnych analiz błędów nowe algorytmy konstruują optymalne lub niemal optymalne histogramy i streszczenia fal elementarnych. W toku dalszych prac wprowadzono histogramy probabilistyczne, umożliwiające dokładniejszą reprezentację cech niepewności danych.
Ponadto zespół zajmował się problemami dotyczącymi nieuporządkowanego tekstu zawierającego jednostki informacji uporządkowanych. Rozwiązania te były rozszerzeniem jednego z najpopularniejszych modeli wyodrębniania informacji (IE), dzięki opracowaniu dwóch metod zapytań. Skuteczność i wydajność tych metod porównano przy pomocy rzeczywistych zbiorów danych. W efekcie otrzymano zbiór reguł umożliwiających wybieranie odpowiednich algorytmów wnioskujących w różnych warunkach, co przełożyło się na nawet 10-krotne zwiększenie prędkości.
Opracowano także ramy do skalowania dowolnych ogólnych algorytmów rozkładu jednostek, a także potwierdzono efektywność stworzonych ram. Dalsze prace pomogły w integracji systemu IE z probabilistycznym przetwarzaniem zapytań.
W projekcie HEISENDATA znaleziono nowe metody statystyczne do przetwarzania danych o dużym stopniu niepewności i zintegrowano te metody z konwencjonalnymi strukturami baz danych. Prace te prowadzone były w dziedzinie ważnej zarówno dla nauki, jak i sektora komercyjnego.
opublikowano: 2015-04-09