Frisim indexerar ren RSS

Frisim indexerar artiklar från nyhetssajter. Tekniken bygger på att vi söker av ”framsidor” på nyhetssajterna och följer länkar till artiklar på sajten. För de länkar som leder till en sida som Frisim tolkar som en artikel letar den ”automatiskt” fram titel, ingress och brödtext från, som den sedan indexerar. Detta är en process som kräver rätt mycket datorkraft, samtidigt som fler och fler av nyhetssajter inkluderar mer och mer material i sina RSS-feeds. På grund av att detta, och att vår ”automatiska process” ibland får problem att hitta nyhetsartiklarna har jag inkluderat en ny modul för att indexera ren RSS-data i Frisim. (Som exempel på sajt som är svår att identifiera en nyhetsartiklar på kan jag ta Resume.se som använder bilder för rubriktexten; sådant är vår sökmotor inte tränad att klara av). Tidiagre har vi i somliga fall använt RSS-feeds för att ta fram länkarna till artiklarna.

En modul som indexerar ren RSS öppnar upp möjligheten att indxera bloggar. Vi kommer inte att göra detta på kort sikt, men eftersom fler och fler bloggar växer sig till kraftfulla nyhetsförmedlare så känns det bra att ha en teknik som är förberedd för att indexera även dem. Det är möjligt att vi då blandar ”nyhetsartiklar” med blogginlägg, men att vi då märker upp blogginläggen så att de presenteras som just blogginlägg vid en sökning.

Modulen för RSS-indexering bygger på ROME som är ett fantastik kod-paket för att hantera RSS-data i Java. RSS-formatet i sig är grymt struligt att hantera då det finns en uppsjö versioner, och många sajter är slarviga med att följa de specifikationer som finns. Det blir ofta problem med HTML som kapslas in i RSS-feeden, och med svenska tecken. ROME verkar klara det utan större problem. Bara ett fåtal av de RSS-feeds jag provat är felaktigt formaterade på ett sådant sätt att ROME inte klarar av att reda upp innehållet. (Ett exempel på sådan RSS-data är den från Resume, som inte heller validerar hos FeedValidator) . I dessa fall har jag valt att ”dra” feeden genom FeedBurner vilket hjälper till att formatera data på att mer korrekt sätt.

Att indexera ren RSS-data gör att vi med nuvarande serverkapacitet kan mångdubbla antalet källor som vi kan täcka. Processen att addera en källa för indexering är dock fortfarande manuell.

Comments are closed.