Aftonbladets Bloggsök

Aftonbladet har idag lanserat sin bloggsökmotor Bloggsok. Enligt NyTeknik så ska mer än 4000 bloggar indexeras, och mer än 10000 blogginlägg per dag.

Bloggsok bygger, precis som sökningen på DN.se och Expressen.se, på den Java-baserade sökmotorn Lucene. Eftersom jag har viss erfarenhet av Lucene så kan jag avslöja några fler avancerade sökfunktioner än de som finns beskrivna på Om Bloggsok-sidan. T.ex kan du söka på ord i titeln med sökningen: title:google. Du kan också söka på inlägg där t.ex. orden sökmotor och google förekommer med maximalt 2 ord mellan sig, genom att söka på ”google sökmotor”~2. Notera att Bloggsok sorterar bort korta så kallade stoppord som och, på, av, men och så vidare. Bloggsok klarar också, på vanligt Lucene-maner, av parenteser så det går t.ex att göra en sökning på inlägg som har ordet google i sig och åtminstone ett av orden blog eller index genom att söka på google AND (blog OR index).

Gissningvis drivs Bloggsok en server dedikerad för sökningar och en dedikerad till att indexera blogginläggen. Ingen av dessa behlöver ha så snabb processor, men om de lagrar indexet i RAM, vilket verkar troligt när jag ser hur snabb den är just nu, så krävs rätt mycket minne när databasen blir större. Det framgår dock inte om de tänkt lagra inläggen sökbart i all framtid, eller om de kommer att kasta bort inlägg från indexet när de blivit ”gamla”.

Än så länge ser den lovande ut tycker jag, även om jag hellre sett ett Google-liknande, minimalistiskt, utseende på resultatsidorna (SERPen).

Bloggen Webbsnack kommenterar innehållet i Bloggsok. Där jämförs med Technorati och Google Blog Search. Technorati och Aftonbladets Bloggsok bygger på samma tekniska plattform, Lucene.

  1. Sigge skriver:

    ”Webbsnack” har gjort en högst ovetenskaplig undersökning när man har jämfört en sökmotor som indexerat inlägg i några dagar med en som varit igång i flera år.

    Självklart kommer sökmotorn som varit igång i flera år få fler träffar än den som varit igång i bara ett par dygn.

    Oseriöst så det stänker om det. Och hade ”Webbsnack” något råg i ryggen skulle han sluta ”webbsnacka” i mössan och istället börja be om ursäkt.

  2. Clas skriver:

    Hej Sigge

    a) Lugn bara lugn. Detta inte bloggen ”Webbsnack”.

    b) Jag kan hålla med om att inte är så listigt av ”Webbsnack” att jämföra antalet sökträffar på sajterna eftersom de har index som byggts upp under olika lång tid. Dessutom, vem är intresserad av flera år gamla blogginlägg? Även om Bloggsok har ett index som ser ut att sträcka sig ett drygt år tillbaka så är omfattningen rätt smal långt tillbaka i tiden. Google Blog Search och Technorati har båda varit med rätt mycket längre.

    Det kommer inte vara något problem med att få Bloggsok att visa bättre, snabbare och fler _svenska_ sökresultat än någon annan bloggsökmotor på nätet. Indexerar ni bara RSS-summeringar så blir insamlingen av blogginlägg mycket resurssnål (jämfört med bloggsökmotorer som läser hela inlägg från webbsidor) och med Lucene så har Bloggsok en teknik som är väl i klass med de internationella konkurenterna som Tecnhorati (samma teknik), Ask och Google. Konkurensen för ren bloggsökning är ju knappast stenhård precis.

    Men Knuff.se presenterar material som förändlats fram ur sitt indexet på ett föredömligt sätt, och då menar jag inte bara en ”topplista över sökningar”, utan kopplingar mellan blogginläggen och ”riktiga” nyhetssajter och filmer. Knuff kan nyttja sina datorresurser än lite effektivare då de har en ping-tjänst som används för att ”trigga” indexering, men å andra sidan så har Aftonbladet liiite mer resurser, om de vill satsa…

  3. johan skriver:

    Om man tittar närmare på sökresultaten från Technorati och Google blog search så ser man att den största anledningen till att de har så många fler träffar är att de bl.a. indexerar vanliga svenska tidningar med RSS-flöden (DN, SvD, Dagens media, Expressen, etc) som ”svenska bloggar”.

  1. [...] Frisim: Aftonbladets Bloggsök Lite mer om tekniken bakom Aftonbladet/Bloggportalens nya Bloggsök. (tags: aftonbladet_se bloggportalen_se bloggsök_se bloggosfären bloggsöktjänster frisim) Sparat under: Omvärlden/Delicious [...]