Lite spindelresultat i jakten på PageRank-testdata

Nu har jag fått lite resultat från en testkörning med vår sökspindel, Medley. Resultat som ska användas för att göra PageRank-liknande beräkningar. Resultatet av spindlingen, som ännu bara kommer från en mycket liten del av en sajt, är en matris som beskriver vilka sidor som länkar till vilka. I detta test avsöktes 258 webbsidor på en webbsajt. Sajten är mycket större (c:a 500 000 sidor, kanske) men jag kan bara köra koden från webbhotellsservern, och en sökmotor äter bandbredd, så jag har begränsat mig till dessa 258 sidor.

Resultatet kan ses i den graf/matris (genererad med ”spy” av en gles matris i MATLAB) som finns nedan. Matrisen har en rad och en kolumn för varje spindlad webbsida och har alltså dimensionen 258×258. Matrisen visar en punkt för varje länk. En kolumn i matrisen motsvarar utlänkar från en webbsida, varje punkt i kolumnen är en länk ut till en annan sida. Att en kolumn är helt tom indikerar att webbsidan inte har några utlänkar alls. Det finns ett antal sådana på webbsajten. En rad motsvarar också en webbsida och dess inlänkar och de horizontella raderna längst upp i figuren (speciellt den översta) beror på att många sidor länkar tillbaka till startsidan.


Nu återstår bara en dator kopplad till gratisbandbredd (t.ex. min B2-anslutning) för att spindla hela sajten och skapa en jättematris!

Comments are closed.