Hur många sidor indexeras i en sökmotor?

Jag har roat mig med att göra lite statistik på index-storleken hos ett par sökmotorer. Som utgångspunkt har jag valt ordet ”finns” som är ett ord som förekommer ofta i svenska texter, men som inte brukar användas som stoppord (stopword). En sökning på frisim.se används som hjälpmedel. Frisim hade 71,368 webbsidor/artiklar i sitt index när detta gjordes. En sökning på ”finns” gav där 16,511 träffar. Det ger en ”utväxlingsfaktor” på 4.32. Med hjälp av denna faktor kan man göra en gissning på index-storleken hos andra sökmotorer. Jag provar med Eniro nyhetssök, Gooliat, och Google.se (sidor på svenska). Eniro returnerar 435,855, Gooliat 7,427 och Google returnerar 2,570,000 träffar. Detta ger att indexens storlek borde kunna vara i storleksordningen Eniro: 1.9 miljoner, Gooliat: 32 tusen, Google.se: 11 miljoner. Indexet för Enrios nyhetssök är imponerande stort, och dessutom ganska snabbt att söka i. Undrar om de använder egenutvecklad teknik/egen programkod!?

Comments are closed.