Archive for juni, 2009

Lucene/Solr ersätter Sesam

Posted in Osorterad on juni 30th, 2009 by Clas – 3 Comments

Hos Aftonbladet.se så har artikelsöket från Sesam.se idag ersatts med ett hembygge baserat på Lucene-baserade Solr. Även SvD har idag fått ett ”hembyggt” Lucene eller Solr-baserat artikelsök istället för Sesam. De två ser relativt lika ut, och båda använder fasetter för att begränsa sökningar till avdelningar på sajten. Aftonbladet har en lite skumma ”underfasetter” på Nyheter där man kan avgränsa sökningen till bland annat ”ämnena” Carolin eller ”Veta mer”. På SvD finns skribent-, artikeltyps, ämne(?) och tidsfasetter. Båda använder hightlight:ing för att försöka visa i vilket sammanhang som sökordet används. Facets och Hightlighting är ”hyllvara” för Solr.

Både Aftonbladet och SvD lanserar sina nya sök på Twitter. Båda sajterna verkar ha c:a 400.000 artiklar i sina index.

En snabbkoll på hur välindexat data är kan man få med ”fulsökningar”. SvD får bara knappt godkänt då t.ex. sökningen ”pepparrot på tub” inte ger någon träff när ”papparrot p å ger en träff”. Aftonbladet är lite svårare att bedöma då en sökning på t.ex. auml (som brukar dyka upp som en del i HTML-kodade ä:n) inte resulterar i någon ”highlight:ing” alls.

Eniro uppdaterar nyhetssök

Posted in Osorterad on juni 25th, 2009 by Clas – 2 Comments

Eniro har idag släppt en uppdaterad version av sitt nyhetssök. I och med uppdateringen byter de från norska Opoint som leverantör av söket till svenska Aitellu. Den absolut största förändringen är att nu finns RSS för sökresultaten. En mycket kort test visar att frassökning inte verkar fungera riktigt som jag tänkt mig. En sökning på ["Google olagligen"] ger inga resultat alls, men en sökning på samma sak men utan citat-tecken ges en träff där det är uppenbart att det finns en artikel i indexet som borde matchat. Kanske tillåter de inte frassökning? Det saknas för övrigt söktips. RSS-feeden verkar också innehålla ”underliga” länkar. En sökning på [google] ger denna länk till nyheten med titel ”Kina blockerar Google”, men det var ju inte länk till sökresultatet jag förväntade mig, utan en länk direkt till källan, men det är säkert lätt tillfixat. Startsidan ser bra ut och de ”relaterade nyheterna” som visar under de aktuella nyheter som finns på förstasidan ser helt okej ut.

I anslutning till nyhetssöket finns också ett separat bloggsök. Även bloggsöket levereras av Aitellu.

Jag ska analysera Eniros nyhetssök lite mer i detalj lite senare, och jämföra med t.ex. PSSpy. Men det blir för internt bruk så att jag inte dödar några fler kattungar.

Mer läsbart om Eniro nyhetssök här.

Statusuppdatering: Nyhetr.se nyhetssök

Posted in Frisim on juni 23rd, 2009 by Clas – Kommentering avstängd

Nyhetr.se, utvecklingsversionen av Frisim.com, har blivit lite mer klar. Jag har ägnat ett par timmar åt att få startsidan, Aktuellt-fliken, att fungera. Det som visas där just nu är ett urval av nyheter baserade på ”Word bursts”, dvs trendanalys av ord i nyhetstitlar och ingresser. Ord som är onormalt populära just nu används för att söka upp nyheter under det senaste dygnet. Nyheter med högst relevans mot orden visas. I nuvarande version kan man också se vilka ord som har använts för att generera sökningen. Det är mest för att jag ska kunna hålla lite koll på om stopp-ord listan är tillräcklig.

Nästa steg i utvecklingen (imorgon?) är att implementera mitt gamla system för ”entity extraction”; att leta och märka upp namn i nyhetsartiklarna. Min förhoppning är att sådan information på sikt även ska kunna användas för att förbättra identifieringen av ”relaterade nyheter”.

Nyhetr.se kör nu Varnish för cache:ning av webbsidorna. Jag har inte provat Varnish tidigare, så det som kör nu funkar väl ”halvbra”, men det beror gissningsvis på att jag inte konfigurerat rätt. Jag inbillar mig att den är inställd på att cache:a alla sidvisningar, men jag är osäker på om så verkligen blir fallet. Varnish var i alla fall enkelt att installera. Den ska vara inställd på att kasta cookies vilket verkar vara ett krav för cache:ning. Jag är lite mer osäker på om den verkligen cache:ar anrop med inloggning, men den ska vara inställd för det.

Både Nyhetr.se och Frisim.com har fått några fler källor att indexera. Tyvärr är några av dem lite ”fejk” i och med att jag bara indexerar RSS-data för dem.

Alternativ till Sesam.se?

Posted in Osorterad on juni 17th, 2009 by Clas – Kommentering avstängd

Idag inträffar antagligen årets största händelse i den något begränsade svenska nyhetssökmotorvärlden – den 17:e juni så stänger Sesam.se och tar ner sin nyhetssöktjänst.

Kvar finns naturligtvis ett antal andra alternativ, nästan för många för att nämna dem här, men ingen av samma kvalitet som Sesam. Sesam var i en unik position i och med att de kunnat spendera flera hundra miljoner på sitt sökmotorprojekt. Det har gjort att de kunnat använda marknadsledande teknik för indexering och sökning, och kunnat köpa in nyhetsartiklar på rensat format.

När Sesam lägger ner så skapas en lucka i den inte speciellt lukrativa publika nyhetssökmarknaden. Många på Twitter verkar saknas bra alternativ – inte så konstigt i och med att Sesam uppenbarligen var en rejäl förlustaffär. Inte ens Frisim verkar leva upp till allas kvalitetskrav.

Det hade varit ”supertajmat” att idag, den 17:e juni, lansera en ny version av vår nyhetssökmotor. Och tro det eller ej men, jag kan i alla fall ge dig en liten ”preview” av vår kommande version – den finns på Nyhetr.se.

Skillnaden mellan Nyhetr.se som den fungerar idag och ”gamla” Frisim är inte jättestor. Nytt är att Nyhetr använder ”stemming” (men inte stoppord), och att det finns en funktion för att hitta relaterade nyheter. Nyhetr.se indexerar heller inte bloggar, men använder bloggdata på samma sätt som Frisim gör. Nyhetr görs på en Amazon EC2 VPS, och inget cache:as, vilket gör denna ”preview” mycket långsam.

Tanken är att Nyhetr.se kommer att utvecklas till sveriges största och bästa publika nyhetssökmotor. Vår affärsmodell (som redan nu tillämpas på Frisim.com) är att erbjuda premiumtjänster till ett fåtal användare. Betalande kunder gör att vi kan hålla en hög tillgänglighet och att vi sporras till att hålla hög kvalitet och hyggligt hög utvecklingstakt. Vi har drivit nyhetssöksajten Frisim.com under snart 10 år, så vi vet vad det innebär att köra nyhetssök.

Gå nu till Nyhetr.se och testa, och skicka mig ett mail på clas@nic-sys.se med förslag på hur det blir bättre.