Osorterad


Osorterad02 Jul 2008 08:20 am

Jag försöker ha lite koll på vad som skrivs om Google News i svenska tidningar. Jag använder RSS från Nyhetsfilter.com och mail-alarm från Aitellu (värsta nördnamnet på den tjänsten) och Newsmachine, dels för se vilken tjänst som fungerar bäst, dels också för att jag vill hitta inte missa något. Det skrivs inte så mycket, och oftast nämns bara Google News i förbifarten när Googles alla tjänster listas.

Som jag tidigare skrivit så verkar inte TT så glada över svenska Google News. Till min stora förvåning så verkar det dock inte som om alla på TT har förstått vad Google News är för något. Häromdagen kablade TTSpektra ut en artikel som publicerades i rätt många nyhetssajter som köper TT-feeds. Artikeln finns bland annat i min lokaltidning Corren.se. Artikeln innehåller texten (min markering):

Nobelpristagaren och frihetskämpen Nelson Mandela, som fyller 90 år den 18 juli, fanns självklart på hedersplats under konserten, rapporterar Google News.

Känns en aning skumt att TT hänvisar till Google News som en “rapporterande” källa. Google News aggregerar nyheter från andra sajter, och producerar inga enga rapporter alls. Ja ja, kanske är det bara en miss som kanske uppkommit på grund av sommarjobbare som tagit över nyhetsrapporteringen i Sverige.

Osorterad26 Jun 2008 11:33 pm

I veckan har det publicerats en artikel hos New York Times som handlar om varför Google News inte växer så snabb som de andra Google-tjänsterna.

Artikeln har sitt ursprung i att någon konstaterat att det tog mer än en timme för nyheten om bortgången av en NBC News reporter att dyka upp på framsidan av Google News. Google skyller på tekniska problem, men faktum är att jag tycker att det speglar lite hur en ”nyhetsaggregator” fungerar. Det tar säkert en halvtimme för en algoritm att avgöra om det är en ”viktig” nyhet eller inte.

En nyhetsaggregator kan bara basera ”viktigheten” på vilken källa det är som publicerar, var på sajten nyheten visas, hur många andra källor som skriver om samma händelse, och i vilken ordning som källorna tar upp nyheten. Det är helt enkelt de nyhetsproducerande källorna som bestämmer vad som är viktigt, och en aggregeringssajt kan bara försöka följa efter så gott det går. Blandar man in andra typer av ”sociala tjänster” som t.ex. bloggar, mikrobloggar och sociala nätverk där folk länkar och kommenterar nyheter så har man ytterligare ett antal källor till att rangordna nyheternas ”viktighet”. Jag gissar att Google News använder sitt bloggsök, och de som pingar in sina uppdateringar till Google, inte bara för sitt bloggsök, utan även för att rangordna sina nyheter på Google News. Det gör även Frisim och t.ex. Knuff/nyheter.

Google säger att du får ut mycket av sin nyhetssökningsfunktion, och påpekar att de använder nyhetslänkar bland sina vanliga sökresultat, där de också visar annonser. John Battelle kommenterar och tror att den svaga tillväxten för Google News beror på att Google fortfarande saknar en affärsmodell för nyheter. Och visst är det väl lite märkligt att Google inte har någon koppling mellan Google News och någon av sina video-tjänster.

Många använder Google News, som är den 8:e största nyhetssajten med sina 11.4 miljoner besökare under maj månad. Många tycker också den fungerar bra, och i New York Times-artikeln intervjuas experter som tror att det inte går att göra så mycket bättre med en algoritm. Själv är jag inte lika imponerad. Det är inte funktionen i sig som jag tycker fungerar dåligt, utan problem ligger i att den svenska versionen har ganska få aktiva källor, samtidigt som det för mig som besökare är svårt att förflytta sig mellan den svenska och US-versionen av sajten. Dessutom tycker jag att det är synd att större bloggar inte räknas in bland nyhetsskällorna. Idag tittar jag hellre på Techmeme för att hitta dator-nörd-nyheter än på Google News Sci/Tech. Skillnaden i hur Techmeme och Google News fungerar rent tekniskt tror jag inte är så stor (även om Techmeme eventuellt bara läsa RSS-data, medan Google News, precis som Frisim, läser hela webbsidor). Skillnaden ligger i vilka källor som är med. Ibland är bloggar och pressmeddelanden väl så intressanta att länkas vidare till som en nyhet på en ”nyhetssajt”. Tyvärr är det också uppenbart för mig när jag jämför dessa sajter, att antalet och bredden på källor som finns i Sverige jämfört med USA är stor. Sverige har ingen egen Techcrunch, och heller ingen NYTimes, ingen Nature, och definitivt ingen Boston.com/bigpicture. (Appropå Nature så har de en aktuell artikel om eScienceNews som är en Google News som är nischad bara mot naturvetenskap.)

Så hur kan en svensk nyhetsaggregeringssajt utvecklas? Kanske kan den göras bättre genom att samla in mer data från ”social media”-sajter där besökare länkar till nyhetsartiklar, kanske kan den bli bättre genom att förbättra funktionaliteten på metoderna för att koppla ihop nyheter med varandra, och kanske kan den bli bättre om man tillåts blanda in nyheter på engelska – eventuellt genom att först automatöversätta dem till svenska för att enklare kunna koppla ihop dem med eventuella svenska versioner. Men innan jag funderar mer så ska jag provprogrammera lite :-)

Osorterad22 Jun 2008 07:52 pm

Alla som har en webbsida vill ha koll på sin besöksstatistik, så är det bara. Det spelar ingen roll om sidan har få eller många besökare, av någon anledning så vill man alltid veta. Kanske känns statistiken viktigare om sidan har många besökare, eller om sidan omsätter mycket pengar, men även med få besökare och utan intäker så vill man “ha koll”. Jag har tidigare provat Statcounter och Google Analytics. Dessa båda funkar rätt bra, Statcounter uppdaterar sin statistik “i realtid”, medan Google Analytics har ungefär en dags fördröjning.

Lite beroende på vilken typ av sajt det gäller så är olika typer av statistik intressantare än annan. Har du t.ex. en e-butik så är du säkert intresserad av hur “surfvägen” för en besökare som köper skiljer sig från de som inte köper. Sånt kan man hålla koll på relativt enkelt med Google Analytics. Där kan man också göra så kallade A/B-test som gör att man kan utvärdera vilken av två versioner av en webbsida som “funkar bäst” (dvs kanske leder till flest köp, eller fler annonsvisningar).

På Frisim använder jag Google Analytics. Senaste veckan har jag också provat Woopra som är en statstiktjänst som bygger på att man i realtid vill hålla koll på vad som händer på sajten. Statistiken tittar du på genom den Java-client som du kör lokalt på din dator. Programmet är snyggt och funkar bra.


woorpa

Från skärmbilden ovan kan man se att webbsidan där Woopra är installerat har 5 akriva besökare (dvs., 5 besök under de senaste c:a 30 sekunderna), varifrån de kommer (alla är från Sverige i mitt fall), och få en massa annan statistik om operativ och webbläsare.

Jämfört med Google Analytics är dock Woopra mesigt. Ok, det är säkert lite cool att hålla koll på sina besökare i realtid, t.ex via den karta där dina besökare plottas upp, men det bygger nog på att du har massvis med besök från hela världen. För en sajt som Frisim, som bara har svenska besökare, så blir kartan rätt ointressant. Jag fick inte Woopra att logga interna “exitsidor” som görs med “redirects”, så jag har inte lyckats använda det för att hålla koll på vilka nyhetslänkar det är som besökaren klickar på. För att göra det måste jag även i fortsättningen använda egna script.

Slutsatsen blir att Woopra säkert är lite kul om du har en internationell sajt med mycket besökare, men för en mindre svenska sajt så är det inte så användbart. För oss med små hemsidor, eller för dig som inte har någon hemsida alls, men ändå vill titta på webbsidesstatistik så är Google Trends för “websites” intressant. Där kan du t.ex. konstatera att Allaannonser.se ser ut att ha fler besökare än Sesam.se.

Osorterad15 Jun 2008 09:56 pm

Många bloggare är intresserade av att kommentera det kommande beslutet om FRA ska ha rätt att bedriva “signalspaning” i kabelbunden trafik (dvs, övervaka internettrafiken i Sverige). Knuff.se är den självklara samlingsplatsen för blogginläggen. Nu verkar det dock gått lite över styr och den så kallade Knuff-bombningen verkar ha gjort att Knuff just nu nöjer sig med att bara länka till nyhetsartiklar (precis som Frisim alltid gör). Lite synd, men så har jag ju ingen aning om vilken trafik/press som Knuff utsätts för.

Svagt relaterat till ovanstående om FRAs befogenheter så har Twingly lanserat sin bloggsökmotor Twingly i veckan. Ironiskt nog så ger en sökning på just FRA inga resultat alls. Lite otur kanske? Annars lovar Twingly gott, och inte minst trevligt är det att det är ett Linköpingsföretag.

Mindpark har, för första gången, lanserat en “tjänst” - ett Mediesök. Det är en söksida som bygger på Google CSE/Site search. Googles Site Search verkar erbjuda en del riktigt schyssta funktioner för sina betalande ($100 per år) användare, som t.ex. möjlighet att påverka ordningen i vilken sökresultaten kommer. Mina gamla försök med gratisversionen av Google CSE för nyheter blev inte så bra. Jag tror att “Mediesök” skulle förbättras avsevärt om listan med källor fanns tillgänglig.

—-

För några veckor sedan så lade BBC upp samlingssidor under namnet BBC/Topics som beta-version. Samlingssidorna är automatgenererade och syftar till att samla ihop allt material som BBC har på sin sajt inom utvalda teman och runt “kända” personer. En kortare funktionsbeskrivning finns i deras blogg. Jag tror att denna typ av sidor borde kunna fungera bra även för svenska sajter som SR, TV4 och SVT.

BBC har också mycket annat kul på sina “backstage”-sidor. Till exempel så finns där ett test-sida för att använda Lucene och Wikipeda för att göra automatisk taggning av texter. Spännande, men lite för långsam för att det ska fungera i drift, tror jag. (källa.)

Det svenska företaget med det schyssta namnet Tailsweep fortsätter att bygga på sin sökmotor. En massa detaljer hittar du på Lucene/Solr-maillistan.

Och eftersom alla läsare av denna utvecklingsblogg är väldigt intresserade av att se hur det ser ut på den plats där Frisim utvecklas så kommer här en bild :-)


frisim dev zone

Osorterad10 Jun 2008 11:15 pm

De flesta stora svenska nyhetssajter som kommer från “pappersvärlden”. De jag tänker på som inte gör det är möjligen DagensPS, Realtid, IDG, som är många tidningar, och TV-nyhetssajterna från TV4 och SVT och deras undersajter. Jag har uppfattningen att engelska och amerikanska nyhetssajter som inte har eller har haft någon pappersupplaga är betydligt fler och många av dessa är riktigt stora. Flera av dessa sajter kallas visserligen “flerpersonsbloggar”, men skillnaden mellan dessa och en svensk nyhetssajter känns relativt liten.

PM Nilsson och Leo Lagercrantz startar snart tillsammans med Bonnier med flera sajten Newsmill. Enligt beskrivningar på mediasajterna Resumé och Dagens media så har Newsmill den amerikanska “nyhetsbloggen” Huffingtonpost som förebild. Det låter som ett bra mål om man vill starta en blogg med nyhetsfokus, kombinerat med nyheter och användarkommentarer, eftesom den är störst; bloggen är den med störst auktoritet (antal inlänkningar?) enligt Technoratis topp 100-lista. En annan inspirationskälla sägs vara Newswine som också innehåller en hel den “användargenererade” nyheter. (Jag betatestade Newsvine innan den lanserades i mars 2006.)

Förhoppninsvis innebär Newsmill.se att vi får se “den nya typen” av nyhetssajt (eller debattsajt, som Jounalisten kallar den) anpassad för svenska nyheter. Kanske blir det inte mer än en re-write sajt av DagensPS-snitt men med lite bättre placering av läsarkommentarerna, men lite spännande blir det.

Newsmill.se har en blogg där man kan följa en liten del av utvecklingen.

Osorterad28 Maj 2008 09:37 pm

Google öppnar imorgon Google App Engine för alla, samtidigt som de tar bort begränsningen på max 500MB lagrad data. Prislistan blir:

Användare får betala mellan 10 till 12 cent per processorkärna och timme samt mellan 15 till 18 cent per gigabyte lagrad data och månad. Till det kommer trafikavgifter. 11 till 13 cent per utgående gigabyte och mellan 9 till 11 cent per ingående gigabyte.

När jag har tid vill jag flytta in term-vector-data från Frisims index till Googles “datastore” Big Table för lagring, och använda Google App Engine för att beräkna nyhetskluster.

————

Amazon har färdiga images för att köra Hadoop på EC2. När jag får tid ska jag sätta upp ett litet kluster av Hadoop-noder och se hur det fungerar. Amazon EC2 har också färdiga “images” av operativsystem för att köra Hadoop MapReduce för distribuerade datahantering. När jag har tid ska jag prova hur denna typ av distribuerade processning fungerar i ett litet Amazon EC2-kluster. Vet inte rikitgt vilken typ av nyhetsdataanalys som är intressant att gör på dessa vis, men det ska nog gå att hitta på något.

Osorterad22 Maj 2008 10:09 pm

Eniro lanserar sin Supersök. Det innebär att man, likt Sesam, får se sökträffar från flera av Enrios databaser på en och samma sökning. Nyhetsresultat finns också med.

Gota media bestämmer sig för att skicka med hela hela artiklarna i flera av sina tidningars RSS-feeds. Jag har skivit om hela artiklar i RSS tidigare. De väljer dock att inte ta med hela artikeln om det är så att den kommer från TT, av någon anledning.

Konceptet på AideRSS fascinerar mig. Jag funderar lite smått på om det inte går att göra en liknande tjänst fokuserad på svenska nyheter. Tanken blir då att du tar en eller flera RSS-feeds från en eller flera tidningar och tjänsten mixar ihop den till en, men den lägger bara in sådana inlägg (nyheter) som har väckt viss uppmärksamhet från “andra nyhetsläsare”. Mått på uppmärksamhet bygger man nog enklast genom att samla data från tjänster som del.icio.us, jaiku, twitter och från bloggar. Låter det användbart?

Osorterad14 Apr 2008 07:46 pm

Jag kör virtuella servrar hos Amazon EC2 sedan något år tillbaka, dels som “failover”, dels som utvecklingsserver. Till exempel ligger Nettopp.se på en sådan just nu. Amazon har tidigare lanserat möjlighen till fast IP-nummer, och idag så annonserar de en privat beta, som jag naturligtvis skrivit upp mig för att få prova, av deras nya “persistant storage”, vilket jag tolkar som en version av Amazon S3 som kan “monteras” direkt i operativet.

Amazon EC2 är en helt vanligt (virtuell) server. Du konfigurerar och installerar precis som på vilken server som helst. Det tar en massa tid, men du får det som du vill ha det om du bara har tillräckligt med tålamod. Den mest uppenbara fördel gentemot en “vanlig” server är att du kan stänga av den :-) Innan du stänger av den så kan du lagra en “image” av servern. Denna image laddar du tillbaka när du vill fortsätta köra servern och fortästta att betala. Jag har en serverimage med en Fedora, Apache, Tomcat, en massa open source-paket och all Frisim-kod installerad. Det innebär att jag i teorin skulle kunna börja “sälja” Frisim:mar till alla(?) som vill ha, genom att distribuera EC2-images.

Google lanserade Google App Engine (GAE) för ett par dagar sedan, även den i begränsad betaversion. Jag skrev naturligtvis upp mig för att få prova. GAE är gratis. GAE är inte en Amazon EC2, inte på långa vägar. När jag provar GAE så får jag samma känsla som jag fick när jag provade AMOS på min Amiga för ungefär 100 år sedan: cool och enkelt, men bara så länge jag vill göra sådana saker som utvecklaren hade i åtanke när du utvecklade verktyget. I GAE använder du Python som språk. Applikationer för GAE utvecklar du med fördel lokalt genom att ladda ned och installera Python 2.5, och GAE SDK. När det är gjort så har du en färdig testmiljö. SDK:n innehållen en webbserver och en Python-runner och den “sandlåda” som GAE körs i.


google app engine 2

Du har tillgång till ett antal bibliotek, som Google tillhandahåller, bland annat templatesystemet Django för att separera kod från design. Script som körs i GAE körs i en “sandlåda” och du kan t.ex. inte skriva till filer hur som helst. Å andra sidan så finns en “datastore”, en databas, direkt tillgänglig. Databasen hanteras med en SQL-liknande språk som de kallar GQL. GAE har dessutom kopplingar till “Google Accounts” som innebär att du kan låta dina besökare identifiera sig genom sina Gmail-logins. Det finns också tillgång till paket för att läsa data från en annan server kallar URL fetch, och ett Mail API. Men inte så mycket mer… Vill du programmera ditt eget Jaiku så känns GAE perfekt, vill du göra några mer avancerat så …. njae, det kommer att bli trixigt. Till saken hör naturligtvis att jag bara prova GAE några timmar. Projektet jag skapat följer Googles “getting started” exempel. Mitt testprojekt finns uppladdat på Klottra2.appspot.com. Klottra på , Google låter mig använda 10GB trafik per dag, gratis.

google app engine 1

Osorterad08 Apr 2008 07:41 am

Nu är det uppenbarligen dags att titta lite mer på Python. Självklart måste man ju prova Google nya “app engine” och Google App Engine applications are implemented using the Python programming language. Jag hade nog hoppats på något mer likt Amazon EC2, med lite mer frihet, men även detta ser ut som det är värt att titta mer på och Although Python is currently the only language supported by Google App Engine, we look forward to supporting more languages in the future låter lovande.

De 10.000 första som registrerar sig får ett testkonto, och during this preview period, applications are limited to 500MB of storage, 200M megacycles of CPU per day, and 10GB bandwidth per day..

Jag har just fått ett testkonto - och jag vet redan vad jag ska bygga :-) Tyvärr vet jag inte på vilken tid :-(

Osorterad03 Apr 2008 06:25 pm

När jag startade Nettopp.se så lovade jag att tacka de som hjälper till. Tyvärr har jag inte hunnit med att skapa tackrutan ännu… lite pinsamt. Tack i alla fall till Disruptive.nu, Mickey,Strm, och till Tobias på Kalmar.nu.

Som traditionen påbjuder så “lanserar” jag alltid mina projekt på Webforum.nu. Där kan man hitta en exposé av mina små “startups” från år 2000 till den i förra veckan. Tack även för de kommentarerna!

Naturligtvis kommer det också tackrutor på Nettopp, så forsätt gärna att föreslå bloggar.

Next Page »