Archive for maj, 2007

Googlesökning på nyhetsbilder

Posted in Sökmotorer on maj 29th, 2007 by Clas – Kommentering avstängd

Outer-court läser jag att Google har lagt till ett par ”dolda” funktioner till sin bildsökning. En av funktionerna är att begränsa bildresultaten till bilder som kommer från nyhetssajter. Spännande; det är en funktion som skulle kunna kombineras med resultat från nyhetssökningar på ett trevligt sätt. Det går också att begränsa sökningen till att bara visa ansiken; även den funktionen skulle vara intressant för att komplettera resultatet av nyhetssökningar där man tidigare identifierat ett namn på en person kopplad till nyheten.

En bildsökning, begränsad till nyhetsbilder, på Göran Persson returnerar en massa bilder från bl.a. Aftonbladet, SvD, Sydsvenskan och GP.

En bildsökning begränsad till ”ansikten” på samma Göran visar visserligen bilder även på Mona, och Fredrik, och resultatet är bara marginellt annorlunda mot en sökning som inte är begränsad till ansiken, men verkar dock något bättre om man är ute efter just ett ansikte.

Dessa begränsade bildsökningar kan inte göras direkt från Google interface, utan begränsningen till ansikten måste göras genom att lägga till &imgtype=face i slutet på sök-URL:en. På liknande sätt kan man begränsa till nyhetsbilder genom att lägga till &imgtype=news.

Frisim använder Yahoos bildsöknings-API för nyhetsbilderna på startsidan.

Nyhetssökmotorinfo

Posted in Sökmotorer on maj 28th, 2007 by Clas – Kommentering avstängd

Google news intervju:

Do you pay any of the news outlets you index in Google News?

We very much believe that what we do with Google News is fair use. When someone disagrees with that, we’re happy to talk to them and work with them to make sure their content is opted-out of the product.

Google News:

Google News använder rubriker, ingresser och i vissa fall bildmaterial från tidningarna utan att betala några som helst licenspengar. Samtidigt så får dagstidningar ofta så mycket som 25 procent av sin nättrafik från just söktjänster som Google News. Att helt enkelt vägra ge Google tillgång till det upphovsrättsskyddade materialet skulle alltså kunna ställa till det ordentligt för tidningarnas webbstatistik.

Silobreaker pressmeddelande:

Svenskarna bakom företaget Silobreaker lanserar nu sin omvärldsbevakningstjänst i en ny gratisversion. Därmed utmanar de bland annat Google News.

Google News England gör ”deals”

Posted in Osorterad on maj 22nd, 2007 by Clas – Kommentering avstängd

Från Techcrunch:

Google has secretly reached deals with several large UK news groups to formally license content for Google News. [...] If Google starts running ads on Google News now it would only strength the case of those media companies arguing that Google News infringes on copyright.

The issue is not Google’s alone. In theory any site that indexes and provides snippets of content from big media companies could easily face the same problem. Topix and Digg immediately come to mind, let alone the many smaller startups and personal sites that index news from the mainstream media.

Utfallet är kanske inte så negativt som det låter. Som det skrivs bland kommentarerna så kan man jämföra med prisjämförelsesajter. Prisjämförelsesajterna startar oftast som en sajt som ”skrapar” information direkt från webbshopparna, men som numera alltid(?) läser data i form av en feed, i samråd med webbshoppsägaren. Det är inte omöjligt att det går åt samma håll med (delar av) nyhetsartiklar. Det skulle innebära att jag fritt kan visa dem, men att det fortfarande är nyhetssajten som bestämmer hur mycket av nyhetstexten som kan visas, hur det ska prioriteras bland nyheterna, och bestämma vilka nyheter som ska exponeras.

[via Text100]

AWS-utveckling

Posted in Frisim on maj 20th, 2007 by Clas – Kommentering avstängd

En liten del av helgen har ägnats åt Amazon EC2 och möjligheten att göra en version av Frisim som använder sig av Amazons servrar. Det som finns där just ju är en identisk kopia av Frisim som kör på en virtuell server. Bara att sätta upp Apache, MySQL, PHP, Tomcat, och lite till tar sin tid när man inte är van. Tanken är i alla fall att separera sökmotorn, indexet och webbsidan lite mer än vad som är gjort i nuvarande Frisim-version. Genom att separera kod för sökningar från webbgränssnittet så blir det enklare att få till ett system som kan hantera ”samtidig” läsning och skrivning till sökmotorindexet bättre. Tanken är att all kommunikation mellan indexet och omvärlden kommer att gå via XML-filer. Så långt har jag ännu inte kommit, men lite experimenterande med lite open source-kod har det blivit. En automatisk domän-ompekare har också satts upp så att det nu finns ett domännamn som pekar mot den virtuella servern, när den är uppe.

Här är Amazons senaste fakutra i alla fall, $7.37 för 56 timmars användning plus lagring av operativsystemet:

Jag har fortfarande inte har något system för lagring av data. Om jag ska använda för riktig drift så skulle detta passa bra att något S3-verktyg för att lagra ”replikor” av indexet.

Jag använder kommandoradsgränssnittet för EC2, men RightScale verkar vara ett trevligt alternativt sätt att hålla koll på sina EC2-servrar. Kör man bara i liten skala, och inte använder kösystemet SQS så är känns det inte som om nyttan överväger jobbet att sätta upp tjänsten och säkerthetsriskerna tjänsten innebär.

Får se är det kan bli något publik av detta… Nu finns det i alla fall ytterligare en backup-frisim som kan dras igång med relativt kort varsel, förutsatt att jag sitter vid ”rätt” dator, om/när(?) co-location-burken lägger ner. Sedan tidigare finns det en failback-frisim hos Bytemark, som aldrig kommit till användning ännu. Om inte annat så skulle min nuvaranade ”image” av Frisim kunna vara ett fantastiskt ”färdigt koncept” att köpa för någon som är intresserad av att köra sin egen nyhetssökmotor. Att köpa en ”färdig” sökmotor är ju ett koncept som Google haft länge, och som fler har funderingar kring att kunna erbjuda baserat på Amazons tjänst.

Norska Sesam Nyheter

Posted in Sökmotorer on maj 14th, 2007 by Clas – 1 Comment

Den ”svenska” söksajten Sesam.se har sitt original i Sesam.no. Norska Sesam har en blogg där de ibland skriver om de senaste tilläggen till sajten. Nu senast är det en uppdatering av Sesam Nyheter som presenteras.

Det första som är uppenbart är att norska Sesams nyhetsdel nu fått en schysst startsida där senaste nytt visas. Jämfört med den nyhetslista som finns på den svenska versionen av Sesam, så är resultatet av bara denna del imponerande. Från startsidan går det också att välja ett se nyheter som har kopplats till en specifik region av Norge. Till exempel kan du se aktuella Olso-nyheter.

Nyhetssökningar görs på det ”vanliga sättet”. Till varje nyhetssökning visas också resultat från en bildsökning. Gissningsvis görs bildsökningen via Picsearch API. Även resutlat från en Sesam-bloggsökning, en nätsökning, och länkar till Wikipedia visas i högerspalten vid en nyhetssökning. Vid varje artikellänk som listas i sökresutlaten finns en klickbar stjärna. Ett klick på stjärnan förflyttar nyheten till en lista under fliken ”Mina nyheter”. Tittar man på listan av nyhetslänkar som man förflyttat till ”Mina nyheter” så visas, förutom nyhetslänken, länkar till tre relaterade nyheter. Det verkar inte som om listan med ”mina nyheter” fylls på automatiskt med nya relaterade nyheter.

Till varje nyhetssökning visas också en lista med ”relationer”, vilket är relaterade namn och ”saker” som har kopplats till de akteulla sökresultaten. Söker jag på Google så dyker Sergey Brin upp i listan över personer (kanske på grund av ”nyheten” att han gift sig idag). Bland de ”saker” som dyker upp på Sergey-sidan är bland annat ett föreslag på en sökning på global uppvärmning. Precis som på den svenska versionen kan en sökning, i efterhand, begränsas till en av de nyhetskällor som listas i vänsterkantens nyhetssajts-fasetter. Av någon anledning verkar det saknas RSS-feed för person- och ”sak”-resultaten. För ordinära nyhetssökningar finns RSS-feeds, precis som tidigare.



Till skillnad från vår Frisim och Google Nyheter så samlar inte Sesam in sina egna nyhetsartiklar, utan hämtar en feed av nyheter från Retriever. Småbilder till nyheterna verkar inte heller hämtas från själv nyhetsartiklarna utan letas fram ur Scanpix arkiv. Både norska och svenska Sesam har ett mycket tätt samarbete med norska sökföretaget FAST, som står för sökmotortekniken. Sesam ägs av norska Schibsted och de verkar ha en gigantisk reklambudget för TV-reklam för sin svenska satsning.

Hoppas nu att det kommer en version för svenska nyheter på svenska Sesam snart. Gärna ännu bättre…

Mailtjänster

Posted in Osorterad on maj 9th, 2007 by Clas – Kommentering avstängd

Hjalmar har analyserat vilka mailtjänster som används när folk registrerar sig på hans sajter. På en av sajterna verkar det vara c:a 60% som registrerar sig med en ”egen domän”, dvs en icke-mainstream-mailadress. På den andra sajten har Hjalmar knappt 30% som använder en mail med ”egen domän”.

Jag har använts den SQL-sats som Hjalmar ger för att göra samma lista för min tjänst Nyhetsrubriker.com. Resultatet syns i figuren nedan.


nyhetsrubriker statistik

Det verkar alltså, inte helt förvånande då det rimligen är folk med en egen hemsida som använder tjänsten på Nyhetsrubriker.com, att lite fler än hos Hjalmar som använder en ”egen domän” vid registreringen. På nyhetsrubriker.com är det lite mer än 70% som har och använder ”egen domän” vid registreringen. Det verkar som det är samma mailtjänster används hos oss som på Hjalmars sajter. På min Nyhetsrubriker.com hamnar inte msn.com i top 7.

Även jag är lite förvånad över att så pass många använder Hotmail, och så få använder Gmail. De data jag använt gäller för registreringar från tre år tillbaka i tiden (maj, 2004), vilket nästan exakt sammanfaller med det datum då jag själv började använda Gmail.

Då Nyhetsrubriker.com också ”kräver” att man anger URL:en till den hemsida som nyhetslänkarna kommer att visas på har jag använt en liknande SQL-fråga för att konstatera att flest har registrerat en sida på Geocities, Tripodnet, Fyristorg/Glocalnet, Bredband.net, Brinkster, Angelfire, Swipnet, Chello och Passagen, i fallande ordning.

Statistik är kul – och SQL gör det enkelt att ta fram den.