Spindel för generering av testdata för PageRank-beräkningar

Jag har börjat utveckla en ”riktig” sökspindel för generella webbplatser. Koden skrivs som vanligt i Java och använder MySQL till en hel del ”mellanlagring”. Spindeln, med namn Medley, skiljer sig från Frisim på det sätt att den letar flera lager ner i en webbplats och följer alltså länkar i flera nivåer. Tanken är att jag med spindeln Medley skall samla in en webbplats som skall fungera som ”testdata” för PageRank-liknande beräkningar. Förhoppningen är att kunna hitta ”testdata” från en webbplats med runt 500 000 mer eller mindre ihoplänkade sidor. Sidorna skall indexeras så att boolean-sökningar kan göras (med samma index som Frisim använder). Vid sökning i Medley-indexet skall dock inte den enkla relevansordningen som används i Frisim användas utan att en PageRank-liknande rangordningar skall provas. Dessa testdata har dock inget med nyhetssökning att göra, utan syftet är helt enkelt att bygga en ”testbänk” för att kunna experimentera med beräkningar av den typ som används för PageRank (Google:s rankingsystem) eller HITS (IBM Research/AltaVista:s rankingsystem?). Inspirationen kommer från ”Google Mathematics”-seminariet och boken ”Mining the Web” av S. Chakrabarti.

Sökspindeln ser ut att fungera som den är just nu, men den är ännu inte testad på någon stor webbplats. Test på större webbplats får nog vänta till dess att jag köpt mig en (hem-)dator som jag kan köra Linux på. Återstår att skriva lite kod för att skapa glesa matriser av in och utlänkar från de indexerade webbsidorna. Detta bör dock vara enkelt att utvinna ur de länkdata som jag mellanlagrat i MySQL-databasen.

Tanken är att den webbplats som testdatana bygger på är en publik webbplats och att testdata kan bli ”open source”, om någon vill använda den för egna experiment.

Comments are closed.