Funderingar kring en blog-sökmotor

Jag har lite smått börjat titta på hur man skulle kunna bygga en sökmotor för bloggar. Det som avskräcker en aning är den RSS/XML/RDF-djungel för publicering av data som finns där ute. När det gäller nyheter, som jag har viss erfarenhet av sedan tidigare är det naturligtvis ännu värre, men förhoppningen var att det borde vara enklare med dessa syndikseringsformat, då ju källan använder någon standard för publiceringen och man borde slippa använda en HTML-parser för att hitta det man vill åt.

I alla fall så är en av grundstenarna i en blog-sökmotor en parser för dessa RSS/XML/RDF-filer. Givet att man kan läsa dessa, eller i alla fall de flesta av dessa, så borde det inte vara så lurigt att göra indexering och sökformulär. Mycket av koden för indexering och sökformulär kan återanvändas från Frisim.

Eftersom jag inte är så sugen på att skriva en egen parser för blog-syndikerade data så låg det nära till hands att titta vad som finns på nätet. Lite googlande resulterade i inskiten att det finns massor med mer eller mindre färdiga små projekt för detta. Problemet är snarast att orka prova from en kod som fungerar tillräckligt bra. (Den bör provas på ett gäng olika format och sånt tar rätt mycket tid.) Dessutom vore det fint att hitta ett projekt som fortfarande utvecklas och byggs på med fler format allt eftersom de blir populära. Från början hade jag som mål att hitta någon kod som fungerar bra och är hyggligt strukturerad, och eventuellt själv skriva om den i Java. Sån tur var så är alternativen så många att det verkar möjligt att hitta även Java-baserad kod.

Jag fastnade, utan allt för mycket provande, för Informa API:t. Informa är mycket mer än en parser, det är en hel miljö för hantering av t.ex. blog-data. Som jag uppfattar koden skulle det gå relativt smärtfritt att bygga en egen NewsMonster på den. Informa använder sig av Xerces SAX parser. Jag kommer dock ”bara” att använda själva RSS-parsern. Vid en första anblick fungerar den grymt bra. Informa-parsern hanterar dock bara relativt korrekt skrivna RSS/XML/RDF-filer, men förhoppningsvis så får det bara en fostrande effekt, och inte effekten att man missar en massa bra bloggar.

Det återstår dock lite funderande kring hur t.ex. länkar och bilder i RSS-filerna skall hanteras. Lämpligen markeras länkar upp, på något sätt, så att det blir möjligt att se kopplingar mellan blog-inlägg. Bilder kanske man helt enkelt kan kasta utan att det märks. Övrig formtering som verkar finnas i vissa RSS-filer (i ”content”-blocken) kanske också kan kastas utan att det spelar någon roll.

Kanske kan de bli en beta-version av en blog-sökmotor till jul, eller nåt…

Comments are closed.