Archive for november, 2006

Ekonominyheterna.se länkar snällt

Posted in Frisim on november 26th, 2006 by Clas – Kommentering avstängd

Ekonominyheterna listar ”de hetaste svenska sajterna” i en artiklen i torsdags, och länkar snällt till frisim.se.



TT kan stämma Google

Posted in Sökmotorer on november 24th, 2006 by Clas – Kommentering avstängd

Som jag skrev i ett tidigare inlägg så verkar Tidningarnas telegrambyrå (TT) inte så glada över den nylandersade svenska versionen av Google News. Idag har E24.se en artikel som skriver att TT kräver ersättning av Google och att det kan bli aktuellt att stämma Google för copyrightintrång:

– Våra jurister har en klar uppfattning om att det rör sig om upphovsrättsintrång, säger Ulf Karlsson [chef för TTs tjänst "TT Monitor"].

För övrigt kommenterar Expressen själv sin inställning till Google News användning av nyhetsbilder i form av tumnaglar i en kommentar till mitt tidigare inlägg.

Fler reaktioner på svenska Google News

Posted in Sökmotorer on november 22nd, 2006 by Clas – 1 Comment

Nils Ö har idag en artikel på DN.se om Google News:

Man kan säga att sajten [Google News] vänder på tanken att man först väljer sajt och sedan nyhet. Här väljer man nyhet först och sajt sedan.

och

Google är alltså både konkurrent och tänkbar samarbetspartner. Om läsarnas tid och om annonsintäkterna.

Av kommentarer i bloggar så verkar både DN.se och SvD.se väldigt nöjda med att det nu finns en svensk version av Google News.

Expressen, däremot, verkar vara lite mer restriktiva i sin hållning mot Google News, då det verkar som om de hindrar Google att visa ”tumnaglar” av sina nyhetsbilder. En sökning bland Expressens artiklar på Google News resulterar nämligen inte i en enda nyhetsbild från Expressen, vilket den tidigare gjort. Ett tag visades också ”en tom vit ruta” där det borde varit en bild från Expressen.

TT tycker inte om svenska Google News

Posted in Sökmotorer on november 16th, 2006 by Clas – Kommentering avstängd

Varken IDG eller TT är positiva till nya svenska Google News. IDG tycker att kategori-indelningen är dålig, då några artiklar har hamnat i fel kategori. IDG nämner dock inte copyright-rättigheter som något problem. TT, som naturligtvis har ett stort kommersiellt intresse i hur Google News utvecklar sig i Sverige, har skrivit ihop ett pressmeddelande/nyhet som de kablat ut till flertalet sajter:

Sökmotorn Google startar en nyhetstjänst på svenska. Den kommer att möta motstånd från svensk press. Det handlar om upphovsrätt och annonspengar.

Google själva, i sin egen blogg, är naturligtvis nöjda, och det verkar även den norske ”sommarjobbare” som fick uppdraget att sätta ihop Google News för Sverige och Norge. Lite taskigt att Google News Norge fick 400 källor, men den svenksa bara 100 :-(

Uppdatering: En artikel i Medievärlden pekar åt samma håll:

I tre års tid har TT-Gruppen fört diskussioner med företag som erbjuder omvärldsbevakning och söktjänster. Från TT:s håll har man varit starkt kritik till att företagen spridit TT-material på webben utan att betala för det. Det avtal som TT-gruppen nu skrivit med Observer, AffärsData och Presstext reglerar rätten att söka, sprida och länka till upphovsrättsskyddat material.

Uppdatering 2: I Norska tidningar har Norska Google News diskuterats flitigt. Mediebedriftenes Landsforening (MBL) tycker att Google begår upphovsrättsbrott när Google länkar till nyhetssajter med hjälp av titel, ingress, och bild. I Danmark fick MBLs danska motsvarighet så stort gehör att det inte blev någon Google News Danmark alls:

[...] Men i Danmark støtte Google på flere opphavsrettslige problemer, noe som gjorde at lanseringen som skulle skje samtidig i alle de skandinaviske landene, ble utsatt. Dermed blir det ikke noe av news.google.dk med det første.

Google tänkte uppenbarligen lansera en dansk version av Google News, men ställde in i sista stund, enligt Politiken.dk:

Udsættelsen må være blevet besluttet i sidste øjeblik, da denne signatur var blevet lovet et interview med chefen for Google News, Nathan Stall, klokken 15.30 i går. Klokken 11 kom der dog en meddelelse om, at interviewet var aflyst, og at Google kun ville lancere deres nyhedstjeneste i Norge og Sverige.

Det är det den gamla domen mot Newsbooster som spökar igen, enligt Mediawatch.dk:

Googles landechef i Danmark Peter Friis siger, at processen med at tale med medierne i Danmark tager lidt længere tid på grund af de særlige omstændigheder omkring Newsbooster-dommen.

Geekboys är tillbaka som Njuice

Posted in Osorterad on november 16th, 2006 by Clas – Kommentering avstängd

Dagens media har idag en artikel om den nya svenska sajten Njuice.com. För oss som varit med ett tag i branchen så känner jag igen sajtägaren som personen som under början av 00-talet(?) drev Geekboys.org, en nyhetsaggregeringsajt som återfanns under Sprays paraply. Njuice tycker själva, enligt artikeln, att de är ”bättre” än nylanserade Google News. Jag har ingen anledningen att ifrågasätta det, då jag inte provat så mycket ännu, men det faktum att de ”bara” indexeras RSS-data, och inte hela nyhetsartiklar (som Frisim och Google News) är en mycket stor brist som inte ska underskattas när det gäller nyhetssökning.

Google News på svenska

Posted in Sökmotorer on november 14th, 2006 by Clas – Kommentering avstängd

En svensk version av Google News ska förevisas redan nu på torsdag, enligt en artikel hos IDG.se. Då Sesam.se redan ger möjlighet att få sökningar i ”alla” svenska nyhetersajters nyheter som en RSS-feed, så får Google knappast något stort försprång när det gäller RSS. Google News startsida tror jag kommer få svårt att attrahera besökare från Aftonbladet, utöver några tusentals extremt Google-frälsta. Men det ska i alla fall bli mycket kul att se hur en svensk Google News kommer att fungera!

Uppdatering: DagensMedia har pratat med folk på Agent25 och Sesam, och Sesam säger att de uppskattar konkurrensen.

Uppdatering 2: Nu finns kan man titta på Google News på svenska! Att den bara omfattar 100 nyhetskällor ser ju inte så imponerande ut, men kanske finns det inte så många fler av värde i Sverige? Som vanligt när det gäller Google News finns det ingen lista över de nyhetssajter som indexeras, tyvärr. Den svenska versionen verkar också sakna ”recommended” nyheter, och listan ”most popular”. Hmm, texten ”Skapat automatiskt 13 minuter sedan” bör nog vara ”Skapad automatiskt…”

Uppdatering 3: Resume intervjuarNathan Stoll, global produktchef för Google News:

Nathan Stoll försöker frälsa mig. Han talar som en indoktrinerad och flera citat skulle passa på floskeltoppen.

Uttalandet :

Rör ni inte materialet för att slippa eventuella förtalsrättegångar och andra juridiska problem?
– Vi väljer bara material från sajter som har en utgivningsprocess där någon annan också fattar beslut om materialet. Därför har vi inga länkar till bloggar på Google News, säger Stoll.

Verkar dock rätt snurrigt; undrar vad de menar!?

Frisim indexerar ren RSS

Posted in Frisim on november 12th, 2006 by Clas – Kommentering avstängd

Frisim indexerar artiklar från nyhetssajter. Tekniken bygger på att vi söker av ”framsidor” på nyhetssajterna och följer länkar till artiklar på sajten. För de länkar som leder till en sida som Frisim tolkar som en artikel letar den ”automatiskt” fram titel, ingress och brödtext från, som den sedan indexerar. Detta är en process som kräver rätt mycket datorkraft, samtidigt som fler och fler av nyhetssajter inkluderar mer och mer material i sina RSS-feeds. På grund av att detta, och att vår ”automatiska process” ibland får problem att hitta nyhetsartiklarna har jag inkluderat en ny modul för att indexera ren RSS-data i Frisim. (Som exempel på sajt som är svår att identifiera en nyhetsartiklar på kan jag ta Resume.se som använder bilder för rubriktexten; sådant är vår sökmotor inte tränad att klara av). Tidiagre har vi i somliga fall använt RSS-feeds för att ta fram länkarna till artiklarna.

En modul som indexerar ren RSS öppnar upp möjligheten att indxera bloggar. Vi kommer inte att göra detta på kort sikt, men eftersom fler och fler bloggar växer sig till kraftfulla nyhetsförmedlare så känns det bra att ha en teknik som är förberedd för att indexera även dem. Det är möjligt att vi då blandar ”nyhetsartiklar” med blogginlägg, men att vi då märker upp blogginläggen så att de presenteras som just blogginlägg vid en sökning.

Modulen för RSS-indexering bygger på ROME som är ett fantastik kod-paket för att hantera RSS-data i Java. RSS-formatet i sig är grymt struligt att hantera då det finns en uppsjö versioner, och många sajter är slarviga med att följa de specifikationer som finns. Det blir ofta problem med HTML som kapslas in i RSS-feeden, och med svenska tecken. ROME verkar klara det utan större problem. Bara ett fåtal av de RSS-feeds jag provat är felaktigt formaterade på ett sådant sätt att ROME inte klarar av att reda upp innehållet. (Ett exempel på sådan RSS-data är den från Resume, som inte heller validerar hos FeedValidator) . I dessa fall har jag valt att ”dra” feeden genom FeedBurner vilket hjälper till att formatera data på att mer korrekt sätt.

Att indexera ren RSS-data gör att vi med nuvarande serverkapacitet kan mångdubbla antalet källor som vi kan täcka. Processen att addera en källa för indexering är dock fortfarande manuell.

Sesam.se med RSS

Posted in Sökmotorer on november 9th, 2006 by Clas – Kommentering avstängd

I ett tidigare inlägg noterade jag att norska Sesam.no levererade nyhetssökresultaten även i RSS-format, men att det inte gällde för den svenska nyhetssökningen på Sesam.se. Nu har Sesam.se uppdaterats, och det går att få nyhetssökresultaten i RSS-format. I en ”normal” nyhetssökning markeras sökordet i resultatlistan (SERP:en) men det gör det inte i RSS-feeden, där det alltid är ingressen som ges, utöver rubriken. Varför de valt att presentera resultaten på olika sätt för webbläsare och som RSS greppar jag inte riktigt, dock.

Det går numera bra att jämföra en RSS-formaterad sökning hos Sesam.se up på [google -"wall street"] med samma sökning, [googe -"wall street"] hos oss. Schysst Sesam!

Även webbsökresultaten hos Sesam.se kan fås i RSS-format, men tyvärr inte resultatet från en bildsökningen.