Archive for september, 2007

Nyhetsrangordning

Posted in Osorterad on september 26th, 2007 by Clas – Kommentering avstängd

Jag har funderat lite på hur man kan rangordna och visa nyheter utan att kräva att användaren ger sökord och göra en sökning bland nyhetsartiklar. Sedan tidigare har jag använt klickstatistik insamlad från några hundratal sajter som visa nyhetslänkar. De mest klickade nyhetslänkarna visas upp under ”andra läser om” på Frisim. Med denna typ av rangordning så verkar det bli så att artiklar med ”fantastiska off-beat”-rubriker hamnar högt upp. Dessutom är det ofta så att nyheten i sig är inte nödvändigtivs är lika ”spännande” som själva rubriken. Ett tredje sätt är att använda Word burst, vilket också används på Frisims startsida.

Ett annat sätt att ranordna nyheter, om som används på bland annat Knuff, Aftonbladets Bloggportalen, och indirekt också på Twingly är att titta på vilka nyhetsartiklar som det länkas till från bloggar. För att kunna göra denna typ av blogglänksanalys krävs att man samlar in data från ett antal bloggar. Hur många bloggar som behövs beror förstås på vilka bloggsajter man väljer. Idealt vill man naturligtvis analysera ”alla” bloggar, men antalet är idag rätt stort, och det finns dessutom massvis med ”ointressant” där ute. Dessa ”ointressanta” bloggar länkar oftast inte till nyhetsartiklar. För att prova hur detta skulle kunna fungera så valda jag ut c:a 150 bloggar som jag tittat på ett par dagar. Bloggarna valdes ut från diverse ”topplistor”. Totalt har c:a 3500 blogginlägg analyserats. Tittar jag på vilka nyhetsartikar som det länkats till från dessa blogginlägg ser det, vid en snabb överblick, ut som ungefär samma nyhetsartiklar som visas på Knuff/nyheter även om antalet blogginlägg som analyserats av mig bara är en bråkdel av de som Knuff samlar in data från. Resultat verkar naturligt då Knuffs egen analys säger att:

33 kända bloggar står själva för över en tredjedel av det totala antalet blogglänkar till DN, SvD, Dagen och IDG under den senaste månaden.

Knuffs statistik togs fram i samband med bloggosfärens diskussion (blandannat här) om hur tillbakalänkningsfunktionen Twingly verkar ha påverkat vad svenska bloggar skriver om och länkar till.

Från min något bristfälliga mängd bloggdata kan jag bekräfta att det verkar som om de flesta nyhetsartikellänkarna görs från ett relativt litet antal bloggar, men också att länkas till ett väldigt litet antal tidningar. Naturligtvis är det så att de tidningar som ger länkar tillbaka till bloggen i samband med nyhetsartikeln (via Twingly) kommer att göra att fler länkar till just denna källa, men det är DN och SvD är det som det länkas överlägset mest till från de bloggar jag tittat på. Gissningvis beror detta på att dessa två sajter var tidigt ute med att använda Twingly, men också att man gissningsvis får flest besökare tillbaka till bloggen från dessa nyhetssajter. Twingly används t.ex. även av Ekonominyheterna, Dagen, och IDG. Min statistik säger att från de c:a 3500 blogginläggen som samlats in så har drygt 1000 länkningar gjorts till nyhetssajterna SvD, DN, IDG, Ekonominyheterna, Dagen, Metro, Expressen, Aftonbladet, Sydsvenskan, GP, E24, BLT, NA, UNT och Corren. De fördelas sig som: 397 till SvD, 382 till DN, 64 till IDG, 49 till Expressen, 44 till Aftonbladet, 33 till Dagen, 13 till Ekonominyheterna, 11 till E24, 9 till Metro, 8 till Sydsvenskan och 7 till GP. Nyhetssajterna BLT, Kkuriren, Ekuriren, NA, UNT och Corren har tillsammans bara 3 länkar till sig. Till Svt och SR finns också ett inte försumbart antal länkar, men där krävs det lite mer jobb för att se vilka som är till en ”riktig” nyhetssartikel.

Ett tredje sätt att rangordna nyhetsartiklar är genom att använda Word bursts. Det är den teknik som används för att välja till nyheterna som visas längst upp på frisim (de med bilder på). Denna metod permierar delvis ”duplicerade” nyheter som kablats ut från TT om det är så att man inte kompenserar för det på något vis.

Försöker jag se om det finns likheter mellan de två första sätten att rangordna nyheter på så ser jag att så inte verkar vara fallet, i alla fall inte för den tidsperiod och de data som jag tittat på. Blogglänkningsrangordningen lyfter fram mer ”komplexa” nyheter, ofta nyheter med politisk koppling, med rubriker som t.ex.: ”Spänd väntan på ny gryning i Burma”, ”Perssons dubbla inkomster ” och ”Beslöjade flickor möts med kritik”. Klickstatistiken lyfter fram artiklar med rubriker som ”Blixten slog ner i Antes snopp”, ”Sexhånas i finsk tv” och ”Din gps – en dödsfälla”. Även källorna skiljer sig åt en del; Aftonbladet och Expressen verkar skriva väldigt ”klickvänliga” rubriker.

Slutsatsen blir att vill jag ha en rangordning där ”seriösa” nyheter lyfts fram så verkar blogglänksmetoden fungera bra, men vill jag ha ”off-beat-nyheter” så verkar de hittas fint genom klickstatistiken.

Nyhetsfilter

Posted in Frisim on september 23rd, 2007 by Clas – Kommentering avstängd

Efter ytterligare ett antal timmars programmerande så finns det nu en körbar version av en ”uppdaterad Frisim.com”. Bloggen Internetbrus har förhoppningar(?) om att den fungerar som en Mediearkivet-kopia och att den får förbättrad relevanssortering och kategorisering. Tyvärr har den version som nu är körbar inget av detta. Då mina önskemål även för den nya versionen av sajten är att den ska vara relativt självgående och då utgångspunkten fortfarande är att sajten skapas för att öva mina programmerinsfärdigheter (hobby). Det gör att jag kommer att behöva begränsa sökningar till material som finns ”öppet” på nätet. Skillnaden mod ”gamla” Frisim.com just nu är att indexet är bättre upplagt för att sortera sökresultat i datumordning samt att ”sökspindeln” nu bör klarar av att samla in från flera sajten ”samtidigt” (bättre trådning), och att den har grön färg :-)

Som jag skrivit tidigare så har utseendet och funktionerna inspirerats bland annat av utseendet på nyhetssökningen på Sesam.se men också av sajter såsom Knuff.se, Google News Report och Aftonbladets Bloggportalen. Samtidigt försöker jag att få sajtens funktion att bli så olik till exempel feeder.se, blogseek.se, xn.se och andra sajter med MFA- (Made-For-Ads[ense]) liknande upplägg som möjligt.

Utvecklingen har kommit till det stadiet att jag måste stoppa in en massa material i indexet för att jag ska kunna avgöra om det fungerar bra eller inte. Jag har därför satt upp en test-version av sajten på adressen Nyhetsfilter.se. Sajten är inte så publik ännu, men om du skulle vara intresserad av hur den fungerar så delar jag gärna ut ett ”lösenord” för test-sajten. Nyhetsfilter körs hos Amazon EC2-server. Då jag betalar servern per timme(!) så är det inte helt otroligt att sajten är ”mer nere än uppe” då jag troligen kommer att ta ner den under de längre tidsperioder då jag inte arbetar med att utveckla test-sajten.

Uppdatering av Frisim?

Posted in Frisim on september 17th, 2007 by Clas – Kommentering avstängd

Frisim har fungerat i princip likadant under de senaste åren. Det är i princip bara utseende som justerats litegrann. De bakomliggande sökningarna har, från det att jag slutade använda MySQL för sökningar, gjorts med samma teknik hela tiden. Frisim består idag av en front-end och en applikation som sköter insamlingen av nyhterna. Alla kod är skriven i Java.

En större uppdatering har påbörjats. Mestadels för att jag är lite sugen på att programmera lite, men också för att kunna ta nyhetsprojektet till 2008 med värdighet. I den uppdatering av Frisim som jag tänker mig kommer sökmotorn istället vara uppdelad i ”tre lager”, en front-end, en sökspindel, och en applikation som håller reda på indexet. Fördelen med ”tre lager” är att programmet enklare kan spridas ut på flera servrar, samt att jag har förhoppning om att det blir enklare att få den ”trådning” som jag nu har stora problem med, att fungera. Uppdateringen kräver att c:a 50% av all kod skrivs om från början. Jag har tänkt att inspireras rätt mycket av resultatsidorna för Svenska Sesams nyhetssökning när jag slipar på funktionalitet och indexuppbyggnad. Några utländska nyheter blir det dock inte.

Bloggposten Strategies for Improving Enterprise Search presenterar sakligt ungefär vad det handlar om. Även om Frisim.com inte är ”enterprise search” så är möjligheterna och problemen ungerfär samma för nischade sökmotorer. Kanske kan även någon av idéerna som finns på Knuff.se provas, även om Knuff har blogg-data som tyvärr saknar motsvarighet för nyheter (t.ex korslänkar).

Uppdateringen till ”Frisim 2″ har fått ett annat namn än ”Frisim” under utvecklingstiden men jag har ännu inte bestämt mig för om det blir ett namnbyte eller inte. (Gissa namnet!) Utvecklingen av ”Frisim 2″ görs på Amazon EC2 och eventuellt kommer den också att köra där när den är klar. Amazon EC2 har fördelen att man vid behov enkelt kan sprida ut sökmotorn på flera servrar. EC2-lösningen (en Xen VPS) innebär att hela ”frisim” återfinns med operativsystem och program i en ”image” som gör att det går att starta ”frisim-kloner” på mindre än 10 minuter. Det känns alltid tryggt med backup:er.

Förhoppsningsvis kommer det en ”version att prova” inom någon månad.

Nyhetsartiklar hos Google News

Posted in Osorterad on september 2nd, 2007 by Clas – Kommentering avstängd

Sedan i fredags så innehåller den amerikanska versionen av Google News länkar till artiklar som lagras hos Google själva. Artiklarna är nyhetsmaterial som Google köpt in från Associate Press, Canadian Press, Agence France-Presse and The Press Association och innebär att Google inte skickar iväg besökaren till någon annan källa för att läsa nyheten, utan att den visas på Googles egna sajt. Artikelsidorna innehåller förutom hela artikeltexten också en länk tillbaka till Google News och en logga med texten ”Hosted by Google”. För de flesta artklar visas också en lista med relaterade artiklar, och ibland också relaterade bilder. Google visar ingen reklam på sina artikelsidor. Som exempel finns en artikel om Google nya nyhetsartiklar på Canadian Press. I denna artikel nämns också att trafik från Google News stått för 2.2 procent av alla trafik på nyhetssajter (i US?).

För att göra en sökning bland artiklar som återfinns hos Google så kan sökningen begränsas med site:google.com, t.ex. som denna sökning på Google.

Via ResearchBuzz

Uppdaterat: Även IDG.se skriver om detta, men blandar ihop korten en aning.