Statusuppdatering: Nyhetr.se nyhetssök

Nyhetr.se, utvecklingsversionen av Frisim.com, har blivit lite mer klar. Jag har ägnat ett par timmar åt att få startsidan, Aktuellt-fliken, att fungera. Det som visas där just nu är ett urval av nyheter baserade på ”Word bursts”, dvs trendanalys av ord i nyhetstitlar och ingresser. Ord som är onormalt populära just nu används för att söka upp nyheter under det senaste dygnet. Nyheter med högst relevans mot orden visas. I nuvarande version kan man också se vilka ord som har använts för att generera sökningen. Det är mest för att jag ska kunna hålla lite koll på om stopp-ord listan är tillräcklig.

Nästa steg i utvecklingen (imorgon?) är att implementera mitt gamla system för ”entity extraction”; att leta och märka upp namn i nyhetsartiklarna. Min förhoppning är att sådan information på sikt även ska kunna användas för att förbättra identifieringen av ”relaterade nyheter”.

Nyhetr.se kör nu Varnish för cache:ning av webbsidorna. Jag har inte provat Varnish tidigare, så det som kör nu funkar väl ”halvbra”, men det beror gissningsvis på att jag inte konfigurerat rätt. Jag inbillar mig att den är inställd på att cache:a alla sidvisningar, men jag är osäker på om så verkligen blir fallet. Varnish var i alla fall enkelt att installera. Den ska vara inställd på att kasta cookies vilket verkar vara ett krav för cache:ning. Jag är lite mer osäker på om den verkligen cache:ar anrop med inloggning, men den ska vara inställd för det.

Både Nyhetr.se och Frisim.com har fått några fler källor att indexera. Tyvärr är några av dem lite ”fejk” i och med att jag bara indexerar RSS-data för dem.

Comments are closed.