Relaterade nyheter – del 1

Utveckling av Frisim för att visa relaterade nyheter baserat på likheter i innehåll går framåt, sakta men säkert.

Att hitta relaterade nyheter baserat på innehåll bygger mycket på att försöka identifiera vad det är som är viktigt i nyhetsartiklarna, själva ”nyckelorden” hos dem.
För att beräkna ett ords ”viktighet” i en nyhetsartikel kan produkten (antal gånger ordet dyker upp i artikeln) multiplicerat med (ett genom andelen artiklar som innehåller ordet) användas. Detta kallas ofta TF-IDF. Det innebär att ett ord som förekommer många gånger i en artikel är mer intressanta, samtidigt som att ord som förekommer mer sällan bland artiklarna är mer intressanta. Denna avvägning mellan ord som finns ofta i en artikel och ord som finns i många artiklar gör att ord som är väldigt vanliga (som t.ex. ”och”) inte får speciellt högt TF-IDF-värde.

Detta kan alltså användas för att hitta vilka ord i en nyhetsartikel som är av större vikt än andra. Givet en lista med sådana ord för en specifik nyhetsartikel så kan andra ”relaterade nyheter” hittas genom att söka upp andra artiklar som också innehåller dessa ord och som publicerats ungefär samtidigt. Så fungerar min metod för att hitta relaterade nyheter just nu. Nedan finns en bild på hur det ser ut på min test-site.


relaterade nyheter

En massa experimenterande har också visat att stop words och stemming påverkar resultatet ganska mycket, i en positiv riktning. Tyvärr så tycker jag att utsortering av stop words och stemming minskar möjligheterna att göra bra ”normala” nyhetssökningar. Det gör att jag inte vill använda dessa vid normala sökningar, utan bara när relaterade nyheter ska hittas. En lösning hade kunnat vara att ha två index med nyhetsartiklar, en annan kanske något sämre lösning, är att försöka sålla bort stop words och göra stemming bara vid sökningen efter relaterade nyheter (query time). Jag satsar på att implementera det senare i hopp om att det ska ge ”tillräckligt bra” resultat.

Vi får se när det är klart…

Comments are closed.