Naukowcy z Instytutu Podstaw Informatyki PAN w Warszawie i Politechniki Wrocławskiej pracują nad semantyczna wyszukiwarką internetową Nekst, która ma uporządkować zasoby polskiego Internetu.

Szacuje się, że w polskim Internecie zgromadzonych teraz jest około miliarda polskojęzycznych dokumentów. Dane te porządkują i analizują twórcy polskiej semantycznej wyszukiwarki internetowej Nekst. Badacze chcą do czerwca tego roku zeskanować w sumie 500 mln dokumentów (tekstów – m.in. artykułów czy plików pdf), a więc połowę polskiego Internetu. Wtedy też Nekst ma być udostępniony użytkownikom. Z czasem badacze chcą zeskanować i na bieżąco aktualizować dane o wszystkich polskich tekstach w Internecie.

– Nawet Google czy Yahoo, przy całej swojej potędze, prawdopodobnie nie mają zebranego całego polskiego Internetu  –  mówi  kierownik projektu, prof. Jacek Koronacki, dyrektor IPI PAN. Szacuje, że wyszukiwarki te gromadzić mogą tylko co piąty dokument po polsku.

Polska wyszukiwarka będzie działała według całkiem innych algorytmów niż największe wyszukiwarki międzynarodowe. – Te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka  – podkreśla prof. Koronacki. Nekst ma być  pierwszą w Europie tak dużą wyszukiwarką semantyczną dla narodowego języka.