Nyhetsrangordning med hjälp av mikrobloggar

Efter att nyfiket ha följt Battelles och Search engine lands tankar på varför inte Yahoo eller Goolge gör en sökmotor för t.ex. Twitter, så hittar jag till ett blogginlägg om TweetNews.

TweetNews är en mix av sökresultat från Yahoo News och Twitter. Grundidén är att nyhetssök, som normalt visar sökresultat i datumordning, kan förbättras genom att saker som det ”kvittrats” om på en mikrobloggtjänst som t.ex. Twitter prioriteras bland sökresultaten. Detta görs i TweetNews. TweetNews bygger på en nyhetssöknnig hos Yahoo via Yahoo BOSS som kombineras med en sökning hos Twitter. Tekniskt fungerar det så att de sökord som du skriver in används för att göra en sökning på både Yahoo och Twitter. Givet dessa två uppsättningar sökresultat så ”matchas” Twitter-resultaten mot nyheternas titlar och ingresser. Nyheter som kopplas mot flera Twitter-inlägg hamnar högre i den resulterande rangordningen av nyheterna. TweetNews är ”open source”, är skrivet i Python och är anpassad för att köras på Google App Engine.

Konceptet är väldigt likt det jag använder för att rangordna nyheter under ”Aktuellt” på framsidan av Frisim, med skillnad att där används inte data från en mikrobloggtjänst, utan data från c:a 3000 bloggar. Den matchning som görs på Frisim är ”exakt” i och med att den idientifierar länkar till nyhter i bloggposter, medan TweetNews försöker match mot ord i titel och ingress, inte mot länkningar.

Eftersom det är söndag kunde jag inte hålla mig från att bygga om TweetNews så att den är anpassad för svenska nyheter. Resultatet är FrisimBOSS. Anpassningen är att jag begränsat YahooBOSS-sökningen till bara svenska nyheter i Yahoos index, samt fixat till så att svenska tecken fungerar. Det är fortfarande Twitter som används för prioriteringen. FrisimBOSS körs även den på Google App Engine.


frisim boss

Det finns definitivt förbättringspotential. Som det fungerar nu så används en Porter stemmer för engelska och stop words är engelska ord. Det är relativt enkelt att byta dessa mot svenska motsvarigheter.

När jag blir sugen så fixar jag även det och kanske passar jag då på att bygga om den så att den använder Frisim och kanske Bloggy eller Jaiku, två mikrobloggartjänster som har större andel som mikrobloggar på svenska än vad Twitter har.

Comments are closed.