Indentering av identiska resultat

Många nyhetssökningar resulterar i träffar på artiklar som producerats av Tidningarnas telegrambyrå (TT). Dessa artiklar finns i mer eller mindre identiska kopior på de flesta av de de svenska nyhetssajterna. För våra anpassade nyhets-feeds så försöker vi identifiera nyheter som härrör från samma TT-källa genom att beräkna en ”Levenshtein distance” mellan de senaste presenterade nyheterna för att på så sätt identifiera nyheter som är exakt lika eller liknande.

Man kunde önska att det gick att göra en liknande lösning för sökningar i det publika sökgränssnittet. Där går det dock inte att använda samma teknik, eftersom den är för beräkningskrävande.

I väntan på att vi ska hitta på något bättre har vi nu modifierat presentationen av resultaten så att när fler artiklar efter varanade på en sökresultatsida har samma titel så kommer dessa att markeras som lika genom att de indenteras (skrivs ut som en ”HTML-blockquote”). Jag vet inte hur mycket bättre tydligare sökresultaten blir av detta, men resultatsidorna ser i alla fall lite mer ut som Googles, och det måste ju vara bra ;-)

Comments are closed.