Shingling baserad på Levenshtein distance

När vi distribuerar rubriklänkar till andra sajter har vi sedan tidigare sållat bort dubletter. Behovet finns eftersom samma artikel, oftast distribuerad från TT, dyker upp hos flera källor i princip samtidigt. Dock verkar TT, eller om det är nyhetssajterna själva – det vet jag inte, göra små anpassningar av rubrik och ingress för varje nyhetssajt. Detta gör att de har slunkit igenom vårt dublett-filter då de inte är identiska. Nu har vi istället implementerat en beräkning av en så kallad ”edit distance” mellan nyheternas rubrik och ingress för att sålla bort (eller klumpa ihop) dessa nästan-dubletter. Beräkningen av ”edit distance”, eller ”Levenshtein distance” baseras på denna kod. (Länktipset till koden är från HakanK.) Just nu är beräkningen implementerad ”nära presentationsskiktet” hos Frisim, och bara i en test-version. Förhoppningen är att kunna göra denna typ av ”shingling” redan när nyheten samlas in, eftersom det skulle möjliggöra ihopklumpning även av sökresultat på vår webbsida.

Update: Så här ser det ut


något Google-news inspirerat, jag vet ;)

Comments are closed.