Archive for september, 2006

Google (RSS) Reader

Posted in Osorterad on september 29th, 2006 by Clas – Kommentering avstängd

Google har gjort en rejäl uppdatering av sin RSS-läsare Google Reader. Efter en snabbtest (igen!) så tror jag faktiskt att jag kan tänka mig att byta från Bloglines till Google Reader; jag ska i alla fall göra ett försök.

Svenska Sesam öppen

Posted in Sökmotorer on september 29th, 2006 by Clas – 1 Comment

Svenska Sesam är här…

Webbsökningen, som bygger på en Schibsteds egna implementering av Fast.nos sökmaskin, ser ut att fungera bra. Söker du på namn så visas en länk högt upp direkt till Schibsteds sajt Hitta, och söker du t.ex på ett ortnamn så visas en markerad länk till en relevant(?) sida hos svenska delen av Wikipedia.

Nyhetssökningen, som intresserar mig mest, liknar den som Retriever har på Eniro/nyhetssok. Till skillnad från hos Eniro väljer du om du vill se resultat från en speciell tidning efter det att du gjort sökningen, men annars är funktionaliteten densamma. Sökresultaten på en nyhetssökning på sökordet [sesam] på sesam.se och på eniro/nyhetssok ger dock inte exkat samma träffar; till exempel saknas Ekonominyheterna.se bland Sesams resultat.

Sökresultaten vid en nyhetssökning visas i datumordning efter en sökning, men det går också att visa i relevansordning. Det går inte att få sökresultaten i RSS-format, vilket det gör på norska Sesams nyhetssök.

Sesam visar reklam vid de flesta sökningar på ”kommesiella ord”. Reklamen ser ut att gå via Overture/Yahoo.

Pressens tidning kallar Sesam nyhetssök för ett svenskt Google News. Det gör inte jag. Aftonbladet kallar Sesam för sin egen sökmotor.

Aftonbladets Bloggsök

Posted in Sökmotorer on september 26th, 2006 by Clas – 4 Comments

Aftonbladet har idag lanserat sin bloggsökmotor Bloggsok. Enligt NyTeknik så ska mer än 4000 bloggar indexeras, och mer än 10000 blogginlägg per dag.

Bloggsok bygger, precis som sökningen på DN.se och Expressen.se, på den Java-baserade sökmotorn Lucene. Eftersom jag har viss erfarenhet av Lucene så kan jag avslöja några fler avancerade sökfunktioner än de som finns beskrivna på Om Bloggsok-sidan. T.ex kan du söka på ord i titeln med sökningen: title:google. Du kan också söka på inlägg där t.ex. orden sökmotor och google förekommer med maximalt 2 ord mellan sig, genom att söka på ”google sökmotor”~2. Notera att Bloggsok sorterar bort korta så kallade stoppord som och, på, av, men och så vidare. Bloggsok klarar också, på vanligt Lucene-maner, av parenteser så det går t.ex att göra en sökning på inlägg som har ordet google i sig och åtminstone ett av orden blog eller index genom att söka på google AND (blog OR index).

Gissningvis drivs Bloggsok en server dedikerad för sökningar och en dedikerad till att indexera blogginläggen. Ingen av dessa behlöver ha så snabb processor, men om de lagrar indexet i RAM, vilket verkar troligt när jag ser hur snabb den är just nu, så krävs rätt mycket minne när databasen blir större. Det framgår dock inte om de tänkt lagra inläggen sökbart i all framtid, eller om de kommer att kasta bort inlägg från indexet när de blivit ”gamla”.

Än så länge ser den lovande ut tycker jag, även om jag hellre sett ett Google-liknande, minimalistiskt, utseende på resultatsidorna (SERPen).

Bloggen Webbsnack kommenterar innehållet i Bloggsok. Där jämförs med Technorati och Google Blog Search. Technorati och Aftonbladets Bloggsok bygger på samma tekniska plattform, Lucene.

Sesam.se om två veckor

Posted in Osorterad on september 21st, 2006 by Clas – Kommentering avstängd

Sesam.se, Schibsteds svenska sökmotor, lanseras inom två veckor skriver Dagensmedier.no. Det blir spännande att se om den kommer att fungera likadant som Sesam.no gör idag. Om inte annat så tycker jag att Sesam.no:s nyhetssök, med möjlighet att få resultat i RSS-format är trevlig.

Uppdatering: Samtidigt kan man läsa att norksa Sesam.no inte drar in så mycket pengar som planerat.

Uppdatering 2:men Schibsted hoppar över att marknadsföra premiären.

Google News har problem i Belgien

Posted in Osorterad on september 18th, 2006 by Clas – Kommentering avstängd

Google News för Belgien har tydligen fått problem. Enligt NA24.no så har en Belgisk domstol kommit fram till att Google måste betala 1 miljon euro per dag för att få fortsatta med den länkning till nyhetsartiklar som de gör idag på Google News/Belgien. Domen ska ha gått igneom den 5 september. Hmmm, det är Copiepress som stämt, men gissningsvis blir många Belgiska nyhetssajter besvika om de inte kommer att fortsätta få generöst med besökare från Google News. Jag gissar på att de hittar en annan lösning rätt snart…

Uppdatering 1: SvDs bloggare noterar samma sak. Där spekularas också om att det ännu inte givits något besked omifall Google News kommer i en svenska version, och i så fall när. Vidare skriver de att: ”Google själva duckar på frågan (läs intervju från i somras i Computer Sweden) och är säkert medvetna om att mediemotståndet kommer att bli massivt.” Jag är tveksam… Jag tror inte det är därför som Google News inte finns på svenska; jag tror att det beror på att Aftonbladet.se har så stark ställning när det gäller svenska webbnyheter.

Uppdatering 2: Oops, Google valde att ta bort vissa inhemska nyheter från den franskspråkiga delen av Google News Belgien. Detta har uppmärksammats av norska Dagens medier.

Uppdatering 3: Mer om detta i en Reuters-artikel och hos SEW.

Uppdatering 4: Google har nu fullföljt alla krav från Copiepress och publicerar utfallet av domen direkt på Google News Belgium, längst ner,


Google News Belgium

och även på Google.be

Google.be

Uppdatering 4: CNet skriver att flera nätmedier går ihop om att utveckla en utvidgad variant av Robots.txt.

Test av Amazon EC2 server

Posted in Osorterad on september 10th, 2006 by Clas – 4 Comments

Efter att ha sett vilka problem en krashad hårddisk eller trasig fläkt kan få för sin webbsajt så har jag sett mig om efter ”försäkring”. Dels vill jag ha backup på data, dels vill jag ha ytterligare en uppsättning hårdvara om den normala går sönder. Ett alternativ är att köpa dubbelt så mycket hårdvara som man behöver och hyra co-location-plats för detta. Ett annat alternativ kan vara att hyra den andra uppsättningen hårdvara. Prisskillnaden brukar inte bli så stor, co-location av egen dator är oftare billigare än hyra av server i längden.

Ett annat alternativ kanske skulle kunna vara Amazon EC2. EC2 betyder ECC som är en förkortning för elastic compute cloud och är en tjänst om Amazon har. EC2 är i princip en temporär Linux-baserad Virtual Private Server (VPS) som kopplas till en permanent separat lagringsenhet. Amazon har valt en teknisk lösningen som kallas Xen för VPS:en. Den praktiska skillnaden mellan EC2 och en vanlig VPS är att EC2 inte är permanent. Stängs EC2-VPS:en av så försvinner all data. Enda möjligheten att spara data är att sätta ihop en ”image” av ett operativsystem och lagra den permanent, eller att kopiera data till annan plats. Den permanenta lagringen görs för EC2 på Amazon:s lagringstjänst Amazon S3.

Amazon EC2 är, som namnet antyder, gjord för att utföra beräkningar som kan göras parallellt på flera datorer samtidigt, men den kan naturligtvis användas även för mindre uppgifter, t.ex. som tillfällig webbserver eller beräkningsdator. Som nyregistrerad har du möjlighet att direkt sätta upp upp till 20 stycken servrar som du kör parallellt. Varje server har en processor som motsvarar en 1.7Ghz XEON, har 1.75GB RAM och har en 160GB (temporär) hårddisk, och den är kopplad till internet med en dedikerad 2.5Mb lina. Detta är i princip samma datorkraft som man brukar få betala c:a 700kr per månad för om man hyr i USA. Även EC2 kostar pengar, men du betalar per timme. Kostnaden är 75öre per dator och timme du kör. Du betalar också 1:50kr per gigabyte som du skickar till/från datorn, och vill du lagra permanent så betalar du ungefär 1kr per gigabyte och månad. Använder du en EC2 VPS som man brukar använda en dedikerad webbserver så blir det relativt dyrt per månad, c:a 1000kr, mycket beroende på att bara ha datorn uppe 24 timmar om dygnet i 30 dagar kostar $72, c:a 550kr. Men EC2 är inte tänkt för webbapplikationer i första hand, utan för datorberäkningar där flera hopkopplade datorer önskas, kanske under kortare tidsperioder någon gång per månad eller per år.

Det skulle också gå att använda den som extra-webbserver om den ordinarie går sönder eller behöver avlastas. Givet att du har förberett ett operativsystem där du har webbserver och databas uppsatt så tar det bara några minuter att sätta igång en ny webbserver. Och du betalar bara när den är igång och för den permanenta lagringen av operativsystemet. Mitt operativsystem tar c:a 4GB, vilket alltså kostar 5kr per månad om den inte används.

För att konfigurera sitt operativsystem kan man endera sätta upp en egen server och skapa en ”image” av den, eller också utgå från det Fedora Core 4-operativ som Amazon erbjuder. Skapar du en egen ”image” kan valfritt Linux operativ användas, men du är låst till den Kernel som Amazon erbjuder. Att starta upp en ”default ” Fedora Core 4 tar ett par minuter när du väl registrerat dig för tjänsten och installerat de certifikat du behöver i din egen dator för att kommunicera med EC2. Efter det att du startat upp EC2 och öppnat port 22 för att kunna logga in utifrån så ser det ut så här:




och EC2 VPS fungerar som en helt vanlig server. Kommandot ”top” ger följande:



Den Fedora Core 4 som jag valde att börja från har webbservern Apache och MySQL installerade från början och det går snabbt att sätta upp få en enkel webbsida (med PHP) att fungera. Så här ser svaret från min index.php från Apache ut:



EC2 har två stora nackdelar om man vill använda den för webbtjänster. För det första är det omständligt att lagra data permanent. Skulle datorn din VPS kör på gå ner fösvinner allt du har lagrat på den lokala 160GB-disken. Även om detta troligen inte kommer att hända speciellt ofta innebär det att allt man vill vara säker på att ha kvar måste premanentlagra utanför VPS:en. För det andra så får servern inget fast IP-nummer, utan du tilldelas ett IP-nummer fört när servern startas. Vill du använda ett eget domännamn för att nå din server så måste du i så fall använda en tjänst som klarar dynamiska IP, som t.ex ZoneEdit. Med dessa nackdelar så är det uppenbart att Amazon inte tänkt att man ska använda datorerna som webbservrar i första hand, utan de ser den största potentialen hos EC2 är för beräkningar.

En EC2 VPS kan startas, övervakas och stoppas med hjälp av ett antal småprogram som du kör lokalt på din hemmadator, men det går också att styra den via ett SOAP-interface. Det är alltså möjligt att via script starta upp säg 10 datorer, flytta över lämplig data till dessa, sätta igång en beräkning, hämta tillbaka data när det är klart, och sedan stänga av de 10 serverarna automatiskt, från annan server. På så vis kan man göra automatiska batch-körningar.

Under tiden du använder din EC2 VPS så kan du direkt hos Amazon se hur många VPS:er och timmar du har använt, hur mycket trafik du skickat, och vad det kostar dig i slutet på månaden (se figur nedan). Notera att på alla priser läggs en ”tax”, moms, på c:a 25%.




Amazon S3 kan användas som användas för att lagra även andra typer av data, som t.ex. fil-backup:er.

Amazon EC2 är fortfarande i beta-stadiet, och antalet beta-testare är begränsat. Amazon öppnar för fler och fler beta-användare vartefter. De största bristerna just nu känns som de är i dokumentationen snarare än i hur det fungerar. Den kom-igång information som finns är deras Getting Started Guide, och för support så finns än så länge bara deras forum att tillgå. Detta gör att EC2 inte passar så bra för den som inte är van vid parallellisering eller Linux. Förhoppningsvis kommer EC2 att erbjudas med med ett S3-konto monterat som en disk på VPS:en, och med ett fast IP-nummer då den lanseras publikt. Då kan EC2 bli rikitgt intressant.

Vadå upphovsrätt? Nyhetstexter tillhör väl alla, eller?

Posted in Osorterad on september 8th, 2006 by Clas – Kommentering avstängd

Jag har många gånger diskuterat med nyhetssajter vad som är rimligt när det gäller att systematiskt hämta titel och ingress till en nyhetsartikel för att kunna göra länkar till källan. Somliga sajter tycker det är jättebra med denna typ av länkar, andra har inte bestämt sig för vad de tycker, och andra tycker inte om det.

För Frisim har jag dragit gränsern vid c:a 120 tecken för en ingress. Vi har hela artikeln i vårt index, men väljer att bara lagra titel och ingress i ”klartext”, resten är bara på indexerat format. Ok, hade det ”värre” om jag visat 150 tecken av artikeln? Ja, det tycker jag, speceillt om det gäller korta artiklar som kanske bara är runt 150 tecken, men med den längden innehåller all viktig fakta som behövs i ”nyheten”. Varför visar jag inte hela nyheten, jag har ju laddat ner den? Njo, men då behövs inte källan längre, och här kan ingen vettig person ansa att jag inte skulle ha överskridit alla rimliga gränser för vad som är, och bör vara, tillåtet enligt någon form av lag för upphovsrätt.

Även om Nils Öhman, redaktionschef på DN.se skriver om copyrightfria nyheter så tror jag inte han blir så glad över att folk uppfattar nyheterna på DN.se som så ”copyrightfria” att de vill se ett arkiv med sina nyheter upplagda på andra hemsidor. Ändå så finns det minst en svensk sajt som lägger upp kompletta nyhetsartiklar, bl.a. från DN.se, tillsammans med AdSense-reklam (så kallade Made-for-Adsense [MFA] sidor).

Kom igen GP.se, SvD.se, N24.se, Realtid.se, Expressen, och DN – se till att denna typ av sidor läggs ner! Vilka sajter det är? Sök, leta, fråga mig – maila på clas@nic-sys.se så kan jag tips er ;-)

Sesam

Posted in Osorterad on september 6th, 2006 by Clas – Kommentering avstängd

I väntan på att Svenska Sesam(!) ska öppna så får jag väl läsa Norska Sesam-bloggen.

Google News Archive

Posted in Sökmotorer on september 6th, 2006 by Clas – Kommentering avstängd

Google lanserade idag sitt nyhetsarkiv Google News Archive. Flera sajter kommenterar detta. Arkivet sträcker sig ända från 1700-talet och frammåt, för att begränsat antal källor.

Många av länkarna leder till andra nyhetsarkiv, och de flesta av dem kräver att du ”betalar per läsning”, eller en prenumeration. Det innebär att Google News Archive kan ses som en meta-sökmotor för andra nyhetsarkivs material. Visst material kan man dock läsa utan att betala.

Mycket av materialet kommer från amerikanska nyhetssajter, men det finns även ett par svenska källor med. Då det inte finns någon list på vilka källor som arkivet omfattar är det svårt att säga vilka. Allt matrerial i arkivet är kanske inte riktigt vad man kan kalla nyhetsmaterial heller. När jag försöker hitta svenska källor så ser jag i alla fall Sydsvenskan (som inte tillåter att Frisim läser deras artiklar) och Expressen. För dessa två verkar materialet vara gratis. DI.se verkar också vara åtkomlig, men bara via ett betalarkiv (Alacra Store).

Gränssnittet är typiskt Google-torrt, och sökrutor och resultatlistor liknar dem som finns för webbsökningar hos Google. Jag hade nog helst sett att det fanns någon form av grafisk version, t.ex som Frisims klickbara Trendgraf eller Topix Interactive graph, alla fall för att tillgodose slösurfande i arkivet.

Hur förbättras en nyhetssajt

Posted in Osorterad on september 5th, 2006 by Clas – Kommentering avstängd

Från bivingsreport.com:

We took a long look at the features U.S. newspapers include on their websites a few weeks back. [...] So we figured we’d use this new found expertise for good and offer the newspaper industry some unsolicited advice on how to improve their websites.

9 ways for newspapers to improve their websites och uppföljaren Disussion roundup: Ways to improve newspaper websites.