Archive for juni, 2008

Google News och långsam utveckling

Posted in Osorterad on juni 26th, 2008 by Clas – 2 Comments

I veckan har det publicerats en artikel hos New York Times som handlar om varför Google News inte växer så snabb som de andra Google-tjänsterna.

Artikeln har sitt ursprung i att någon konstaterat att det tog mer än en timme för nyheten om bortgången av en NBC News reporter att dyka upp på framsidan av Google News. Google skyller på tekniska problem, men faktum är att jag tycker att det speglar lite hur en ”nyhetsaggregator” fungerar. Det tar säkert en halvtimme för en algoritm att avgöra om det är en ”viktig” nyhet eller inte.

En nyhetsaggregator kan bara basera ”viktigheten” på vilken källa det är som publicerar, var på sajten nyheten visas, hur många andra källor som skriver om samma händelse, och i vilken ordning som källorna tar upp nyheten. Det är helt enkelt de nyhetsproducerande källorna som bestämmer vad som är viktigt, och en aggregeringssajt kan bara försöka följa efter så gott det går. Blandar man in andra typer av ”sociala tjänster” som t.ex. bloggar, mikrobloggar och sociala nätverk där folk länkar och kommenterar nyheter så har man ytterligare ett antal källor till att rangordna nyheternas ”viktighet”. Jag gissar att Google News använder sitt bloggsök, och de som pingar in sina uppdateringar till Google, inte bara för sitt bloggsök, utan även för att rangordna sina nyheter på Google News. Det gör även Frisim och t.ex. Knuff/nyheter.

Google säger att du får ut mycket av sin nyhetssökningsfunktion, och påpekar att de använder nyhetslänkar bland sina vanliga sökresultat, där de också visar annonser. John Battelle kommenterar och tror att den svaga tillväxten för Google News beror på att Google fortfarande saknar en affärsmodell för nyheter. Och visst är det väl lite märkligt att Google inte har någon koppling mellan Google News och någon av sina video-tjänster.

Många använder Google News, som är den 8:e största nyhetssajten med sina 11.4 miljoner besökare under maj månad. Många tycker också den fungerar bra, och i New York Times-artikeln intervjuas experter som tror att det inte går att göra så mycket bättre med en algoritm. Själv är jag inte lika imponerad. Det är inte funktionen i sig som jag tycker fungerar dåligt, utan problem ligger i att den svenska versionen har ganska få aktiva källor, samtidigt som det för mig som besökare är svårt att förflytta sig mellan den svenska och US-versionen av sajten. Dessutom tycker jag att det är synd att större bloggar inte räknas in bland nyhetsskällorna. Idag tittar jag hellre på Techmeme för att hitta dator-nörd-nyheter än på Google News Sci/Tech. Skillnaden i hur Techmeme och Google News fungerar rent tekniskt tror jag inte är så stor (även om Techmeme eventuellt bara läsa RSS-data, medan Google News, precis som Frisim, läser hela webbsidor). Skillnaden ligger i vilka källor som är med. Ibland är bloggar och pressmeddelanden väl så intressanta att länkas vidare till som en nyhet på en ”nyhetssajt”. Tyvärr är det också uppenbart för mig när jag jämför dessa sajter, att antalet och bredden på källor som finns i Sverige jämfört med USA är stor. Sverige har ingen egen Techcrunch, och heller ingen NYTimes, ingen Nature, och definitivt ingen Boston.com/bigpicture. (Appropå Nature så har de en aktuell artikel om eScienceNews som är en Google News som är nischad bara mot naturvetenskap.)

Så hur kan en svensk nyhetsaggregeringssajt utvecklas? Kanske kan den göras bättre genom att samla in mer data från ”social media”-sajter där besökare länkar till nyhetsartiklar, kanske kan den bli bättre genom att förbättra funktionaliteten på metoderna för att koppla ihop nyheter med varandra, och kanske kan den bli bättre om man tillåts blanda in nyheter på engelska – eventuellt genom att först automatöversätta dem till svenska för att enklare kunna koppla ihop dem med eventuella svenska versioner. Men innan jag funderar mer så ska jag provprogrammera lite :-)

Från Woopra till Google Trends

Posted in Osorterad on juni 22nd, 2008 by Clas – Kommentering avstängd

Alla som har en webbsida vill ha koll på sin besöksstatistik, så är det bara. Det spelar ingen roll om sidan har få eller många besökare, av någon anledning så vill man alltid veta. Kanske känns statistiken viktigare om sidan har många besökare, eller om sidan omsätter mycket pengar, men även med få besökare och utan intäker så vill man ”ha koll”. Jag har tidigare provat Statcounter och Google Analytics. Dessa båda funkar rätt bra, Statcounter uppdaterar sin statistik ”i realtid”, medan Google Analytics har ungefär en dags fördröjning.

Lite beroende på vilken typ av sajt det gäller så är olika typer av statistik intressantare än annan. Har du t.ex. en e-butik så är du säkert intresserad av hur ”surfvägen” för en besökare som köper skiljer sig från de som inte köper. Sånt kan man hålla koll på relativt enkelt med Google Analytics. Där kan man också göra så kallade A/B-test som gör att man kan utvärdera vilken av två versioner av en webbsida som ”funkar bäst” (dvs kanske leder till flest köp, eller fler annonsvisningar).

På Frisim använder jag Google Analytics. Senaste veckan har jag också provat Woopra som är en statstiktjänst som bygger på att man i realtid vill hålla koll på vad som händer på sajten. Statistiken tittar du på genom den Java-client som du kör lokalt på din dator. Programmet är snyggt och funkar bra.


woorpa

Från skärmbilden ovan kan man se att webbsidan där Woopra är installerat har 5 akriva besökare (dvs., 5 besök under de senaste c:a 30 sekunderna), varifrån de kommer (alla är från Sverige i mitt fall), och få en massa annan statistik om operativ och webbläsare.

Jämfört med Google Analytics är dock Woopra mesigt. Ok, det är säkert lite cool att hålla koll på sina besökare i realtid, t.ex via den karta där dina besökare plottas upp, men det bygger nog på att du har massvis med besök från hela världen. För en sajt som Frisim, som bara har svenska besökare, så blir kartan rätt ointressant. Jag fick inte Woopra att logga interna ”exitsidor” som görs med ”redirects”, så jag har inte lyckats använda det för att hålla koll på vilka nyhetslänkar det är som besökaren klickar på. För att göra det måste jag även i fortsättningen använda egna script.

Slutsatsen blir att Woopra säkert är lite kul om du har en internationell sajt med mycket besökare, men för en mindre svenska sajt så är det inte så användbart. För oss med små hemsidor, eller för dig som inte har någon hemsida alls, men ändå vill titta på webbsidesstatistik så är Google Trends för ”websites” intressant. Där kan du t.ex. konstatera att Allaannonser.se ser ut att ha fler besökare än Sesam.se.

Allt och inget

Posted in Osorterad on juni 15th, 2008 by Clas – 5 Comments

Många bloggare är intresserade av att kommentera det kommande beslutet om FRA ska ha rätt att bedriva ”signalspaning” i kabelbunden trafik (dvs, övervaka internettrafiken i Sverige). Knuff.se är den självklara samlingsplatsen för blogginläggen. Nu verkar det dock gått lite över styr och den så kallade Knuff-bombningen verkar ha gjort att Knuff just nu nöjer sig med att bara länka till nyhetsartiklar (precis som Frisim alltid gör). Lite synd, men så har jag ju ingen aning om vilken trafik/press som Knuff utsätts för.

Svagt relaterat till ovanstående om FRAs befogenheter så har Twingly lanserat sin bloggsökmotor Twingly i veckan. Ironiskt nog så ger en sökning på just FRA inga resultat alls. Lite otur kanske? Annars lovar Twingly gott, och inte minst trevligt är det att det är ett Linköpingsföretag.

Mindpark har, för första gången, lanserat en ”tjänst” – ett Mediesök. Det är en söksida som bygger på Google CSE/Site search. Googles Site Search verkar erbjuda en del riktigt schyssta funktioner för sina betalande ($100 per år) användare, som t.ex. möjlighet att påverka ordningen i vilken sökresultaten kommer. Mina gamla försök med gratisversionen av Google CSE för nyheter blev inte så bra. Jag tror att ”Mediesök” skulle förbättras avsevärt om listan med källor fanns tillgänglig.

—-

För några veckor sedan så lade BBC upp samlingssidor under namnet BBC/Topics som beta-version. Samlingssidorna är automatgenererade och syftar till att samla ihop allt material som BBC har på sin sajt inom utvalda teman och runt ”kända” personer. En kortare funktionsbeskrivning finns i deras blogg. Jag tror att denna typ av sidor borde kunna fungera bra även för svenska sajter som SR, TV4 och SVT.

BBC har också mycket annat kul på sina ”backstage”-sidor. Till exempel så finns där ett test-sida för att använda Lucene och Wikipeda för att göra automatisk taggning av texter. Spännande, men lite för långsam för att det ska fungera i drift, tror jag. (källa.)

Det svenska företaget med det schyssta namnet Tailsweep fortsätter att bygga på sin sökmotor. En massa detaljer hittar du på Lucene/Solr-maillistan.

Och eftersom alla läsare av denna utvecklingsblogg är väldigt intresserade av att se hur det ser ut på den plats där Frisim utvecklas så kommer här en bild :-)


frisim dev zone

Newsmill – kan det bli något?

Posted in Osorterad on juni 10th, 2008 by Clas – 1 Comment

De flesta stora svenska nyhetssajter som kommer från ”pappersvärlden”. De jag tänker på som inte gör det är möjligen DagensPS, Realtid, IDG, som är många tidningar, och TV-nyhetssajterna från TV4 och SVT och deras undersajter. Jag har uppfattningen att engelska och amerikanska nyhetssajter som inte har eller har haft någon pappersupplaga är betydligt fler och många av dessa är riktigt stora. Flera av dessa sajter kallas visserligen ”flerpersonsbloggar”, men skillnaden mellan dessa och en svensk nyhetssajter känns relativt liten.

PM Nilsson och Leo Lagercrantz startar snart tillsammans med Bonnier med flera sajten Newsmill. Enligt beskrivningar på mediasajterna Resumé och Dagens media så har Newsmill den amerikanska ”nyhetsbloggen” Huffingtonpost som förebild. Det låter som ett bra mål om man vill starta en blogg med nyhetsfokus, kombinerat med nyheter och användarkommentarer, eftesom den är störst; bloggen är den med störst auktoritet (antal inlänkningar?) enligt Technoratis topp 100-lista. En annan inspirationskälla sägs vara Newswine som också innehåller en hel den ”användargenererade” nyheter. (Jag betatestade Newsvine innan den lanserades i mars 2006.)

Förhoppninsvis innebär Newsmill.se att vi får se ”den nya typen” av nyhetssajt (eller debattsajt, som Jounalisten kallar den) anpassad för svenska nyheter. Kanske blir det inte mer än en re-write sajt av DagensPS-snitt men med lite bättre placering av läsarkommentarerna, men lite spännande blir det.

Newsmill.se har en blogg där man kan följa en liten del av utvecklingen.

Rundgång i nyhetsinsamlandet

Posted in Frisim on juni 9th, 2008 by Clas – Kommentering avstängd

För första gången i Frisims historia har jag noterat att det har blivit ”rundgång” i nyhetsinsamlandet. Jag noterade att domänan Frisim.com plötsligt flaggades som en av de domäner som betraktas som nyhetskälla till Frisim (inte bara blogg-källa alltså). Det verkade konstigt… Anledningen till att det kan hända är att någon blogg har länkat till en nyhetsartikel genom att klippa och klistra in ett par nyhetslänkar som leder via Frisims klickräknings-script. Eftersom Frisim tyckte sig ”förstå” att länken går till en nyhet, och då URL:en inte finns indexerad så indexeras den (igen) och Frisim står som ägare och adderas därför bland källorna.


rundgång

Det resulterar bl.a. i att en sökning begränsad till domänen frisim.com (som i bilden ovan) visar att det finns två nyheter från nyhetskällan Frisim. Klick på dessa nyheter kommer dessutom att passera klickräknings-scriptet två gånger. Buggen kommer förhoppningsvis inte att dyka upp så ofta, men den visar i alla fall att konstigheter kan inträffa är man programmerar sökmotorer, som om jag inte redan visste det ;-)