Archive for september, 2009

Söndagshack: Nyhetr Definiera

Posted in Osorterad on september 20th, 2009 by Clas – Kommentering avstängd

Lite inspirerad av Ted Valentins bloggsajt Blogipedia och Googles define-operator så har jag denna söndag satt ihop Nyhetr Definiera.

Nyhetr Definera gör sökningar på ”[ordet] är” och returnerar slutet av den mening som denna fras förekommer i. För en definiera-sökning på Gudrun Schyman visas detta:

Detta är en första version, och jag ser mycket som kan förbättras. I första hand gäller det att öka kvaliteten på texten som indexeras, men det är också lätt att se att mer avancerad genomgång av artikeltexten, t.ex. att avgöra om det är ”enligt [personen] är” som har skrivits. Att addera resultat även för sökningar av typen ”[ordet] var” och andra varianter bör också leda till flera sökresultat. Och till skillnad från Blogipedia så kan användaren inte värdera de beskrivningar som hittats. Det är också stor skillnad på att göra detta för blogginlägg och i nyhetsartiklar, i nyhetsartiklar så förkommer ”tyckande” om namngivna personer inte alls i samma omfattning som i bloggar. Nyhetr har fortfarande ett relativt litet index av nyhetsartiklar så svaren på definiera-sökningar är ofta lite tunna.

Precis som Blogipedia så är kanske inte själva söksajten så användbar som sådan. Mer intressant blir det kanske om man använder den för att länka till beskrivningar eller fördjupningar i löpande text. New Tork Times, och andra tex. DN.se, har denna form av fördjupningssidor där denna typ av beskrivningar/sökningar skulle kunna användas. Konceptet ligger skrämmande nära funktionaliteten hos en scraper site, och gissningsvis har New York Times och DN.se skapat sina fördjupningssidor för att få lite mer trafik från Google på somliga typer av sökningar, samtidigt som fördjupningssidorna är användbara för läsare som vill ha en fördjupning eller tillbakablick.

Visa tweets som länkar nyhetsartiklar?

Posted in Osorterad on september 4th, 2009 by Clas – 2 Comments

Nyhetr.se samlar in inlägg från ett fåtal bloggar för att hitta nyheter som bloggare tycker är intressanta. Det är en välprovad teknik, som tyvärr kräver att man laddar hem en massa blogg-RSS-data.

Twitter är ett snabbare sätt än bloggen för att uttrycka och sprida sin åsikt om saker och ting, så även nyheter. Därför kändes det lite attraktivt att försöka ”scanna av” Twitter för att se vad twittrare länkar till för svenska nyheter. Många av de tweets som postas på Twitter har sina länkar förkortade med en länkförkortare, Bit.ly är den vanligaste. Bit.ly har ett API som gör att du enkelt kan skapa en kort länk av en lång (shorten).

Även Twitter har ett API. API:et kan t.ex. retunera sökningar från Twitters sökmotor. När jag provkörde den så noterade jag att den verkar indexera länkar som vanlig text, vilket gör att det går bra att söka efter en länk (URL).

Tanken var att jag därför skulle kunna ta en länk till en nyhetsartikel, korta den med Bit.ly, och göra en sökning efter den på Twitter-sök för att hitta personer som kommenterat nyheten och sedan visa upp dem i anslutning till nyhetslänken på Nyhetr. Smart va? Det tyckte i alla fall jag vid en första anblick. Men, nej.

Det finns två problem.

1) Inte många Twittrare länkar till svenska nyhetsartiklar, väldigt få faktiskt. Det gör att det blir rätt ointressant. En av de mest länkade nyheterna från bloggar just nu, enligt Knuff är den nyhet hos DN som berättar att det blir en förbifart Stockholm. Länken till den artikeln kan förkortas till http://bit.ly/784Na. Gör jag en sökning på den hos Twitter så ger den bara en träff – min test-tweet, tyvärr. Är det verkligen ingen mer som ville skriva en tweet om den?

2) Twitters sökmotor är inte ”case sensitive”, vilket gör att en sökning kan returnera ”fel” förkortade länkar. Problem är dock inte oöverklomligt, eftersom felaktiga länkar går att sålla bort i efterhand.

Problem 1 är en show-stopper.

Ett alternativ till att söka efter länkar är att använda ”viktiga ord” från t.ex. en nyhetsrubrik; använda dem i sökningar hos Twitter och visa upp dem i anslutning till nyhetslänken på Nyhetr.se. Provar jag en sökning med den titeln för förbifarts-artikel som jag använde nyss, så får jag bara tre träffar, alla tre automatpostade data från nyhetssajter. Att söka med ord i nyhetsartikelrubriker är exakt samma teknik som jag provade för att rangordna nyheter med hjälp av Twitter-data så det är inte lika kul, och heller inte lika tillförlitligt, tyvärr.

Google News får autocomplete

Posted in Sökmotorer on september 1st, 2009 by Clas – Kommentering avstängd

Google skriver på Google News bloggen att Google News får ”autocomplete”, dvs sökordsförslag, i sökrutan i samband med att sökorden skrivs in. Detta är något som jag provimplementerade den första augusti Nyhetr.se och beskrev i min bloggpost.

Tyvärr verkar det inte lanserat på den svenska versionen av Google News ännu.

Sydsvenska Dagbladet provar Saplo

Posted in Sökmotorer on september 1st, 2009 by Clas – 2 Comments

I dagarna har det publicerats lite artiklar om textanalys-startupen Saplo. Realtid skriver om hur Saplo har tänkt att dra in 30 miljoner i riskkapital för att bygga vidare på sin teknik för ”sentiment-analys”. Tanken är kunna sätta ämnesord (t.ex. sökord) i ett sammanhang. Produkten som finns just nu verkar syfta till att hitta relaterade artiklar. IDG skriver i sin artikel om Saplo att nyhetssajten Sydsvenska Dagbladet blir den första betalande(?) kunden som provar den widget för att visa relaterade nyheter som Saplo tagit fram. Kopplingen mellan att hitta relaterade nyheter och sentiment-analys är inte uppenbar för mig, så det ska bli spännande att se hur det fungerar.

Uppdatering: I den förra versionen av detta blogginlägg så skrev jag SvD.se, men det gäller naturligtvis Sydsvenskan.se vilket SvDs @oholah så snällt påpekar, tack.