Innehållsbaserade nyhetsrekommendationer

Jag skrev under sommaren på en kort text om att skapa listor med relaterade nyheter till nyhetsartikar på nätet. Inledningen finns nedan, resten i denna PDF.

Automatiskt genererade rekommendationer kan användas för att sålla i det informationsflöde som finns på Internet idag. Rekommendationssystem på Internet brukar klassificeras som innehållsbaserade (content-based) eller användarfiltrerade (collaborative filtering). De innehållsbaserade bygger på textanalys, medan de användarfiltrerade bygger på insamlade surfbeteenden hos nuvarande och tidigare besökare och besök. Dessa surfbeteenden kan vara insamlade från den egna sajten och/eller från andra sajter, som t.ex. socialmedia-sajter.

Den typ av rekommendationer som verkar vara vanligast förekommande på Internet idag rekommenderar produkter att köpa. Givet att du har lagt t.ex. en bok i e-handelssajtens virtuella varukorg så får du förslag på andra böcker som du kanske också skulle vara intresserade av att köpa. Denna typ av rekommendationer kan ha ett kommersiellt värde om de ökar försäljningen, eller ökar besöksintensiteten på webbsajten. För en specifik webbtjänst är det också relativt enkelt att utvärdera effekten av denna typ av rekommendationer, t.ex. genom före-/efter-studier.

Rekommendationen kan endera vara generell eller personligt anpassad. För att göra personliga anpassningar tittar man vanligen på vad besökaren tidigare besökt för sidor på webbsajten, vilka länkar besökaren klickat på, och vad personen köpt eller klickat på vid tidigare besök. För att implementera denna typ av automatiska system för rekommendationer ställs stora krav på informationhantering. Information om hur olika sidor eller produkter hänger ihop behöver skapas, och ska rekommendationen vara personlig så krävs också snabbt tillgänglig besöksstatistik. Både besöksstatistiken och informationen om hur sidorna eller produkterna hänger ihop måste kunna uppdateras snabbt när det tillkommer nya sidor eller produkter.

Att rekommendera ytterligare läsvärda nyhetsartiklar till en läsare av en nyhetsartikel kan även det ha ett kommersiellt intresse. Det är inte, på kort sikt, uppenbart att en nyhetssajt ”gör mer pengar” om du läser en artikel till, jämfört med att t.ex. klicka sig vidare på en annons, men på lång sikt så leder rimligen ett väl fungerande rekommendationssystem till fler sidvisningar och fler nöjda besökare.

Många nyhetssajter har redan idag en lista med länkar till andra nyhetsartiklar på sina start- och artikelsidor. Ofta är det en topplista med artiklar med flest besökare, eller liknande. Dessa länkar är oftast inte anpassade för en aktuell nyhetsartikel, och är heller inte personligt anpassade mot den specifika besökaren. Även om det tidigare skapats försök mer personligt anpassade nyhetsrekommendationer (t.ex. på den numera nedlagda Findory.com, http://www.findory.com), så, beroende på informationstillgången, är det generella, opersonliga rekommendationer, som känns aktuellt att implementera på befintliga nyhetssajter idag. Dagens nyhetssajter har relativt få besökare som är inloggade, och nyhetssajterna har oftast inte något system där besökaren kan visa sina nyhetspreferenser på andra sätt än att klicka runt och läsa nyhetsartiklar. Rekommendationssystem för nyhetsartiklar är därför oftast innehållsbaserade (content-based).

Denna text fortsätter med att beskriva ett antal tidigare publicerade metoder och system för gruppering och rekommendation av nyheter baserat på artikelinnehåll. Sedan följer en sektion som innehåller ett tänkt upplägg för innehållsbaserade rekommendationer för nyhetsartiklar. Upplägget syftar till att ta fram ett system för rekommendatione som kan visas på befintliga artikelsidor, rekommendationer som bygger på att besökaren besökt en artikelsida, funnit den intressant, och vill läsa flera relaterade artiklar.

Resten av texten kan du läsa i denna PDF.

Jag har gjort en del tester av de metoder som förslås i texten, men som vanligt så kan jag (eller rättare sagt, är jag inte så sugen) på att lägga massvis med ”fritid” på detta. Projektet har delvis ”hängt upp sig på” att ett Open Source program som jag tänkt använda inte fungerar riktigt som jag hoppades. Förhoppsningsvis så hittar jag något sätt att komma runt det.

  1. [...] Tanken är att Frisim ska vara under ständig utveckling. Normalt brukar jag göra justeringar direkt i “produktionsversionen”, vilket gör att ändringar syns direkt. Tyvärr innebär sådana ändringar att det kan uppstå fel – fel som jag inte märker förrän långt senare. I värsta fall innebär kan det innebära att allt nyhetsinsamlande avstannar, vilket får tråkiga konsekvenser. Därför utvecklar jag numera på en separat dator. Det medför att utvecklingen sker i trappsteg. Nu finns i alla fall en “helt ny” version på utvecklingsdatorn. Inget i den gamla versionen har försvunnit, men det har kommit till ett par funktioner. Bland annat så används den funktion för innehållsbaserde nyhetsrekommendationer som jag skrivit om tidigare. Indexet använder sig numera av “stemming”, först och främst för att få rekommendationerna att fungera bättre. Utvecklingsversionen har också ett nytt utseende som ser ut såhär: [...]