Frisim klarar av att läsa RSS

Jag har nu adderat kod för att Frisim ska kunna använda RSS-data för att hitta länkar till nyhetsartiklar. Tidigare har Frisim bara använt nyhetssidors ”framsidor”, som DN.se, eller ”temasidor” för att hitta länkar till nyhetsartiklar. Nu kan även en RSS-fil användas för att ”mata” sökmotorn med nyhetslänkar. Det kan dock skapas ”onödiga” sidläsningar om det är så att vi läser både RSS och framsidor för att hitta artiklar till en och samma nyhetskälla. Det beror på att flertalet RSS-feeds från nyhetssajter inte innehåller länkar direkt till nyhetssidan, utan de länkar via klickräkningsskript som leder oss vidare genom att skicka en ”302 Temporarily moved”-status. Det innebär att vi, innan vi analyserat själva nyhetsartikeln, har svårare att se att det rör sig om en länk vi redan har i vårt index. Det problemet uppstår ej om vi bara använder RSS, ingen ”framsida”, från en specifik källa. Dessa extra sidläsningar vill vi gärna undvika då de tar upp serverkapacitet och skapar skräptrafik, men vi står ut med det under en testperiod.

För övrigt verkar det som om DN börjat skriva ”100m fritt istället för ”100m frisim” när det handlar om crawl. Kanske dags att byta namn ;-)

Comments are closed.