Archive for december, 2003

Lite spindelresultat i jakten på PageRank-testdata

Posted in Frisim on december 29th, 2003 by Clas – Kommentering avstängd

Nu har jag fått lite resultat från en testkörning med vår sökspindel, Medley. Resultat som ska användas för att göra PageRank-liknande beräkningar. Resultatet av spindlingen, som ännu bara kommer från en mycket liten del av en sajt, är en matris som beskriver vilka sidor som länkar till vilka. I detta test avsöktes 258 webbsidor på en webbsajt. Sajten är mycket större (c:a 500 000 sidor, kanske) men jag kan bara köra koden från webbhotellsservern, och en sökmotor äter bandbredd, så jag har begränsat mig till dessa 258 sidor.

Resultatet kan ses i den graf/matris (genererad med ”spy” av en gles matris i MATLAB) som finns nedan. Matrisen har en rad och en kolumn för varje spindlad webbsida och har alltså dimensionen 258×258. Matrisen visar en punkt för varje länk. En kolumn i matrisen motsvarar utlänkar från en webbsida, varje punkt i kolumnen är en länk ut till en annan sida. Att en kolumn är helt tom indikerar att webbsidan inte har några utlänkar alls. Det finns ett antal sådana på webbsajten. En rad motsvarar också en webbsida och dess inlänkar och de horizontella raderna längst upp i figuren (speciellt den översta) beror på att många sidor länkar tillbaka till startsidan.


Nu återstår bara en dator kopplad till gratisbandbredd (t.ex. min B2-anslutning) för att spindla hela sajten och skapa en jättematris!

Hur många sidor indexeras i en sökmotor?

Posted in Frisim on december 29th, 2003 by Clas – Kommentering avstängd

Jag har roat mig med att göra lite statistik på index-storleken hos ett par sökmotorer. Som utgångspunkt har jag valt ordet ”finns” som är ett ord som förekommer ofta i svenska texter, men som inte brukar användas som stoppord (stopword). En sökning på frisim.se används som hjälpmedel. Frisim hade 71,368 webbsidor/artiklar i sitt index när detta gjordes. En sökning på ”finns” gav där 16,511 träffar. Det ger en ”utväxlingsfaktor” på 4.32. Med hjälp av denna faktor kan man göra en gissning på index-storleken hos andra sökmotorer. Jag provar med Eniro nyhetssök, Gooliat, och Google.se (sidor på svenska). Eniro returnerar 435,855, Gooliat 7,427 och Google returnerar 2,570,000 träffar. Detta ger att indexens storlek borde kunna vara i storleksordningen Eniro: 1.9 miljoner, Gooliat: 32 tusen, Google.se: 11 miljoner. Indexet för Enrios nyhetssök är imponerande stort, och dessutom ganska snabbt att söka i. Undrar om de använder egenutvecklad teknik/egen programkod!?

Spindel för generering av testdata för PageRank-beräkningar

Posted in Sökmotorer on december 28th, 2003 by Clas – Kommentering avstängd

Jag har börjat utveckla en ”riktig” sökspindel för generella webbplatser. Koden skrivs som vanligt i Java och använder MySQL till en hel del ”mellanlagring”. Spindeln, med namn Medley, skiljer sig från Frisim på det sätt att den letar flera lager ner i en webbplats och följer alltså länkar i flera nivåer. Tanken är att jag med spindeln Medley skall samla in en webbplats som skall fungera som ”testdata” för PageRank-liknande beräkningar. Förhoppningen är att kunna hitta ”testdata” från en webbplats med runt 500 000 mer eller mindre ihoplänkade sidor. Sidorna skall indexeras så att boolean-sökningar kan göras (med samma index som Frisim använder). Vid sökning i Medley-indexet skall dock inte den enkla relevansordningen som används i Frisim användas utan att en PageRank-liknande rangordningar skall provas. Dessa testdata har dock inget med nyhetssökning att göra, utan syftet är helt enkelt att bygga en ”testbänk” för att kunna experimentera med beräkningar av den typ som används för PageRank (Google:s rankingsystem) eller HITS (IBM Research/AltaVista:s rankingsystem?). Inspirationen kommer från ”Google Mathematics”-seminariet och boken ”Mining the Web” av S. Chakrabarti.

Sökspindeln ser ut att fungera som den är just nu, men den är ännu inte testad på någon stor webbplats. Test på större webbplats får nog vänta till dess att jag köpt mig en (hem-)dator som jag kan köra Linux på. Återstår att skriva lite kod för att skapa glesa matriser av in och utlänkar från de indexerade webbsidorna. Detta bör dock vara enkelt att utvinna ur de länkdata som jag mellanlagrat i MySQL-databasen.

Tanken är att den webbplats som testdatana bygger på är en publik webbplats och att testdata kan bli ”open source”, om någon vill använda den för egna experiment.

KKuriren tycker inte om…

Posted in Frisim on december 13th, 2003 by Clas – Kommentering avstängd

Sökroboten bot-frisim.se har blivit för första gången blivit ”bannad” från en nyhetssajt. Ironiskt nog är det vår lilla lokaltidning i Katrineholm, Katrineholmskuriren, som inte tycker om att vi automatläser deras startsida 14 gånger per dygn och följer länkar till nya artiklar. Det är tydligt att olika nyhetssajter har olika uppfattning om vad som är fördelaktigt för dem. Allt från att ringa upp mig på kvällstid med önskemål om att vara med (t.ex. Gotlands Tidningar) till att göra en dirigering mot en 403 Forbidden på vår sökspindels IP-nummer, vilket KKuriren uppenbarligen gjort. Man kan undra förför vissa tidningar är så måna om att få sin journalistik spridd (helt naturligt, alla skriver väl för att folk skall läsa, eller?) medan andra ser till att det inte länkas till dem. KKuriren avsäger sig kontakt med FAST, Altavista och Daypop i sin robots.txt-fil, så de har uppenbarligen något emot sökmotorer. Jag har svårt att tro att det beror på att de snålar med bandbredd/datorkapacitet. Det är synd om små tidningar som inte vill förstå det fina med Internet. Om de inte vill ha läsare, varför inte lägga ner Internetpubliceringen av dem helt och hållet?