Blogsökmotor

På sajten search.toblogornot.com har Mattias börjat bygga en sökmotor för webbloggar. Den ser ut att fungera bra tycker jag, men det är fortfarande ganska få inlägg att söka bland så det är ännu lite för tidigt för att kunna göra en bra gissning på hur sökningarna görs. Söksajten kör på en Windows-burk hos Bonet med Apache och mod_php, så det troliga är väl att det är FULLTEXT-sökningar i en MySQL-databas som används, men kanske har han hittat något bättre!?

Jag önskar att jag en vacker dag kan bygga något liknande och erbjuda lite konkurrens =) Jag skulle dock vilja ha en push-baserad version så att man slipper ladda och ”parsa” så mycket data. Jag har jämt att göra med våra nyhetsartiklar. Kanske skulle man kunna få ”push”-singaler från weblogs.se om när det finns en blog som har uppdaterat? Finns det kanske en RSS med de senaste uppdaterade bloggarna att hämta (ofta) från Weblogs.se?

Jag föreslog snubben bakom Gooliat att vi skulle samarbeta kring bygget av en webblogsökmotor, men vår email-kommunikationen går lite för långsamt för att det ska fungera bra.

Som jag gissade i ett tidigare inlägg, kör Gooliat mot en SQL-databas med FULLTEXT-indexerade artiklar. Det är ett mycket smidigt alternativ, men är rätt kapacitetskrävande (alternativt långsamt) när datamängden är stor. Gooliat säger sig ha 250 000 artiklar i sitt index, och det går rätt långsamt, när det fungerar, att göra en sökning på ett vanligt ord, tex ”och”. Och det är fortfarande något konstigt med Gooliat: Det står att de har 250000 artiklar men en sökning på ”finns” returnerar knappt 7000 stycken. Frisim har nu 45000 artiklar [tack vare att vi just tappade 2 veckors artiklar i "hårddiskkraschen" i söndags] men returnerar fler än 10000 artiklar med ”finns” i.

Comments are closed.