Lite mer blogsökmotorfunderingar

Efter att ha bränt några timmar på att bygga mig en plattform för RSS/XML/RDF-tolkning så börjar jag se problemen. Speciellt finns det ett problem med <content:encode>-data, som finns för att folk ska kunna lägga in formaterade, kompletta, inlägg i sin RSS-feed. Just denna ”encoding” är det inte mycket nytta med när man har tänkt att indexera texten. Det ställer mest till problem med svenska tecken och annat HTML-skräp som jag inte vill ha. RSS borde ha fokus på text och länkar (möjligen) men inte formatering av data. Borde man inte köra stylesheets för det!? Hur som helst så måste man alltså ”dekoda” kodade data för att kunna indexera dem.

Det som finns klart nu är i alla fall ett litet(?) program som laddar RSS-feeds från ett antal svenska bloggar, och indexerar nya inlägg. För tillfället finns bara ett kommandorads-gränssnitt, men kanske kan de bli ett webbgränssnitt om någon vecka eller så. Ännu finns ingen koppling mot t.ex. SweBlogs eller Weblogs.se, men det bör vara enkelt om man kan hitta är lämplig feed från någon av dem. Jag kommer dock bara att indexera svensk text!

Comments are closed.