Osorterad30 Jun 2009 05:34 e m

Hos Aftonbladet.se så har artikelsöket från Sesam.se idag ersatts med ett hembygge baserat på Lucene-baserade Solr. Även SvD har idag fått ett “hembyggt” Lucene eller Solr-baserat artikelsök istället för Sesam. De två ser relativt lika ut, och båda använder fasetter för att begränsa sökningar till avdelningar på sajten. Aftonbladet har en lite skumma “underfasetter” på Nyheter där man kan avgränsa sökningen till bland annat “ämnena” Carolin eller “Veta mer”. På SvD finns skribent-, artikeltyps, ämne(?) och tidsfasetter. Båda använder hightlight:ing för att försöka visa i vilket sammanhang som sökordet används. Facets och Hightlighting är “hyllvara” för Solr.

Både Aftonbladet och SvD lanserar sina nya sök på Twitter. Båda sajterna verkar ha c:a 400.000 artiklar i sina index.

En snabbkoll på hur välindexat data är kan man få med “fulsökningar”. SvD får bara knappt godkänt då t.ex. sökningen “pepparrot på tub” inte ger någon träff när “papparrot p å ger en träff”. Aftonbladet är lite svårare att bedöma då en sökning på t.ex. auml (som brukar dyka upp som en del i HTML-kodade ä:n) inte resulterar i någon “highlight:ing” alls.

Osorterad25 Jun 2009 04:05 e m

Eniro har idag släppt en uppdaterad version av sitt nyhetssök. I och med uppdateringen byter de från norska Opoint som leverantör av söket till svenska Aitellu. Den absolut största förändringen är att nu finns RSS för sökresultaten. En mycket kort test visar att frassökning inte verkar fungera riktigt som jag tänkt mig. En sökning på ["Google olagligen"] ger inga resultat alls, men en sökning på samma sak men utan citat-tecken ges en träff där det är uppenbart att det finns en artikel i indexet som borde matchat. Kanske tillåter de inte frassökning? Det saknas för övrigt söktips. RSS-feeden verkar också innehålla “underliga” länkar. En sökning på [google] ger denna länk till nyheten med titel “Kina blockerar Google”, men det var ju inte länk till sökresultatet jag förväntade mig, utan en länk direkt till källan, men det är säkert lätt tillfixat. Startsidan ser bra ut och de “relaterade nyheterna” som visar under de aktuella nyheter som finns på förstasidan ser helt okej ut.

I anslutning till nyhetssöket finns också ett separat bloggsök. Även bloggsöket levereras av Aitellu.

Jag ska analysera Eniros nyhetssök lite mer i detalj lite senare, och jämföra med t.ex. PSSpy. Men det blir för internt bruk så att jag inte dödar några fler kattungar.

Mer läsbart om Eniro nyhetssök här.

Osorterad23 Jun 2009 11:43 e m

Nyhetr.se, utvecklingsversionen av Frisim.com, har blivit lite mer klar. Jag har ägnat ett par timmar åt att få startsidan, Aktuellt-fliken, att fungera. Det som visas där just nu är ett urval av nyheter baserade på “Word bursts”, dvs trendanalys av ord i nyhetstitlar och ingresser. Ord som är onormalt populära just nu används för att söka upp nyheter under det senaste dygnet. Nyheter med högst relevans mot orden visas. I nuvarande version kan man också se vilka ord som har använts för att generera sökningen. Det är mest för att jag ska kunna hålla lite koll på om stopp-ord listan är tillräcklig.

Nästa steg i utvecklingen (imorgon?) är att implementera mitt gamla system för “entity extraction”; att leta och märka upp namn i nyhetsartiklarna. Min förhoppning är att sådan information på sikt även ska kunna användas för att förbättra identifieringen av “relaterade nyheter”.

Nyhetr.se kör nu Varnish för cache:ning av webbsidorna. Jag har inte provat Varnish tidigare, så det som kör nu funkar väl “halvbra”, men det beror gissningsvis på att jag inte konfigurerat rätt. Jag inbillar mig att den är inställd på att cache:a alla sidvisningar, men jag är osäker på om så verkligen blir fallet. Varnish var i alla fall enkelt att installera. Den ska vara inställd på att kasta cookies vilket verkar vara ett krav för cache:ning. Jag är lite mer osäker på om den verkligen cache:ar anrop med inloggning, men den ska vara inställd för det.

Både Nyhetr.se och Frisim.com har fått några fler källor att indexera. Tyvärr är några av dem lite “fejk” i och med att jag bara indexerar RSS-data för dem.

Osorterad17 Jun 2009 12:02 f m

Idag inträffar antagligen årets största händelse i den något begränsade svenska nyhetssökmotorvärlden - den 17:e juni så stänger Sesam.se och tar ner sin nyhetssöktjänst.

Kvar finns naturligtvis ett antal andra alternativ, nästan för många för att nämna dem här, men ingen av samma kvalitet som Sesam. Sesam var i en unik position i och med att de kunnat spendera flera hundra miljoner på sitt sökmotorprojekt. Det har gjort att de kunnat använda marknadsledande teknik för indexering och sökning, och kunnat köpa in nyhetsartiklar på rensat format.

När Sesam lägger ner så skapas en lucka i den inte speciellt lukrativa publika nyhetssökmarknaden. Många på Twitter verkar saknas bra alternativ - inte så konstigt i och med att Sesam uppenbarligen var en rejäl förlustaffär. Inte ens Frisim verkar leva upp till allas kvalitetskrav.

Det hade varit “supertajmat” att idag, den 17:e juni, lansera en ny version av vår nyhetssökmotor. Och tro det eller ej men, jag kan i alla fall ge dig en liten “preview” av vår kommande version - den finns på Nyhetr.se.

Skillnaden mellan Nyhetr.se som den fungerar idag och “gamla” Frisim är inte jättestor. Nytt är att Nyhetr använder “stemming” (men inte stoppord), och att det finns en funktion för att hitta relaterade nyheter. Nyhetr.se indexerar heller inte bloggar, men använder bloggdata på samma sätt som Frisim gör. Nyhetr görs på en Amazon EC2 VPS, och inget cache:as, vilket gör denna “preview” mycket långsam.

Tanken är att Nyhetr.se kommer att utvecklas till sveriges största och bästa publika nyhetssökmotor. Vår affärsmodell (som redan nu tillämpas på Frisim.com) är att erbjuda premiumtjänster till ett fåtal användare. Betalande kunder gör att vi kan hålla en hög tillgänglighet och att vi sporras till att hålla hög kvalitet och hyggligt hög utvecklingstakt. Vi har drivit nyhetssöksajten Frisim.com under snart 10 år, så vi vet vad det innebär att köra nyhetssök.

Gå nu till Nyhetr.se och testa, och skicka mig ett mail på clas@nic-sys.se med förslag på hur det blir bättre.

Osorterad26 Maj 2009 08:30 e m

Norrmännen upprör mig när de vill ta betalt för att länka nyheter “kommersiellt”. Samtidigt så är det naturligt att Klareringstjänsten” väljer att sätta emot när Meltwater News först väljer att betala, men sedan slutar. Fd-Agent25-Matti skriver mer på sin blogg. Jag tycker det är intressant att norska Google News inte anses påverkas av detta då de är riktade mot den “privata marknaden”. Jag undrar vilken marknad som Frisim anses vara riktad mot - ingen? ;-)

Frisim22 Maj 2009 06:51 e m

Nu har jag uppdaterat min gamla WP 1.5-blogg till WP 2.7.1. Jag är rätt säker på att jag också fått bort all injicerade SPAM-länkar från mina inlägg (manuellt!) i och med uppdateringen. Förhoppningsvis är också inte heller de gamla Wordpress-php-filerna som möjliggjorde injiceringen kvar. Google verkar ha hittat problemet redan den 16:e april, men eftersom jag inte verkar ha fyllt i att Google ska maila mig meddelanden från Webmaster tools, så har jag naturligtvis missat detta problem ända fram till nu när plötsligt ett utkast som inte skulle publiceras publicerades. Jag har ansökt om en “reconsideration request” hos Google och hoppas att min blogg får komma med i deras index igen. De skriver ju så fint:

Borttagning från Googles index 16 april 2009. Till ägaren eller den webbansvarige för frisim.com/blog. Medan vi indexerade dina webbsidor upptäckte vi att några av sidorna använde teknik som inte följer våra kvalitetsriktlinjer. Vi vill gärna behålla dina sidor i Googles index. Korrigera eller ta bort alla sidor som inte följer våra kvalitetsriktlinjer om du vill att vi ska göra en omprövning. Orsaken är förmodligen att webbplatsen har ändrats av en tredje part.

Vi får se om den någonsin kommer tillbaka…

Osorterad22 Maj 2009 11:40 f m

Det förra inlägget (om ni såg det) skulla aldrig ha publicerats. Det var gissningsvis något jag skrivit eller klippt och klistrat ihop och sedn lagt i “utkast”. Problemet relaterar till ett hål i min gamla Wordpress-version. Jag tog bort inlägget då det säkert inte var varken välformulerat eller intressant.

Tack Hjalmar.

Osorterad28 Apr 2009 06:55 e m

Lucid imagination har gjort en intervju med svensken Karl W om hans användning och utvidgningar av open source sökmotorn Lucene. Bloggaren hakank nämns också på ett hörn.

Osorterad07 Apr 2009 11:41 f m

Nyhetsjättarna The Associated Press (AP) och The Wall Street Journal är på krigsstigen. I siktet har företagen Google och andra nyhetsaggregatorer. Läs en rewrite hos Metro, eller “orginalet” på NYTimes eller på News.com.au.

Uppdatering: Google kommenterar:

Users like me are sent from different Google sites to newspaper websites at a rate of more than a billion clicks per month. These clicks go to news publishers large and small, domestic and international — day and night.

And once a reader is on the newspaper’s site, we work hard to help them earn revenue.

och

In the U.S., the doctrine of fair use enshrined in the US Copyright Act allows us to show snippets and links. The fair use doctrine protects transformative uses of content, such as indexing to make it easier to find.

Osorterad05 Apr 2009 06:28 e m

I veckan fick jag reda på att Schibsted stänger igen norska Sesam.no. Det norska nyhetssöket, och en del annat från sajten, sägs flytta över till en annan Schibsted-sajt, Finn.no. I Sverige, där Aftonbladet (del av Schibsted-koncernen) är ägare av Sesam.se så verkar det mer oklart vad som händer. I Computer Sweden skrivs det att Sesam.se läggs ned, men att det är oklart vad som händer med det sajtspecifika nyhetssöket som t.ex Aftonbladet, SvD och Resume använder.

Hos Dagens Media säger de att

- Vi har haft svårt att få lönsamhet. Den här sajten bygger också på att vi har en gemensam utveckling med Norge och när de nu lagt ned blir det svårt att bära den själva.

Redan nu kan jag kostatera att en sökning på ordet [och] hos Sesam.se inte returnerar någon ny nyhetsartikel sedan 09:40 igår, den 4 maj (mer än 34 timmar sedan). Men kanske är det bara tillf’älligt - sajten är ju fortfarande uppe. De sajtspecifika versionerna verkar fortfarande fungera bra.

Detta är synd. Vi är visserligen fler i samma bransch, hehe, men Sesam.no har, med sina 100 anställda, varit de som drivit nyhetssök framåt bäst. Sesam var tidiga med “facets”, möjlighet att begränsa sökningar med bara ett klick för källor och tider; de var tidiga med “entity extraction”, att identifera namn och platser i nyheter, och de var tidiga med “federated search”, sökresultat där sökningar från andra sajter, t.ex. Wikipedia, visas och länkas. Sesam.se, som “ärvt” mycket av sin teknik från Sesam.no, hade ypperliga möjligheter att lägga energi på denna typ av finesser i och med att de inte behövt kämpa med ett av de största problem som andra nyhetssökmotorer har, att spindla nyhetskällor. Sesam.se tar in nyhetsartiklarna från Retriever, som i sin tur får artiklarna levererade direkt från nyhetssajterna. Sesam.no verkar ha kostat mycket pengar - det säger sig självt när det handlar om över 100 anställda under de fem år som de hållit på. Resultatet för de andra typerna av sökning, webb, bild och video har varit svagt, gissar jag. Samtidigt är det svårt att göra pengar på en publik nyhetssökmotor - det hade Sesam.se konstaterat redan februari 2007, när jag pratade med dem.

Kvar bland publika nyhetssökmotorer för svenska nyheter är nu, utöver min Frisim också PS Spy, som är Dagens PS nyhetsbevakningstjänst som har utvecklats av en av de gamla Agent.se-startarna; Eniro nyhetssök som drivs av norska Opoint; och Googles Google News som tyvärr inte verkar var så högt prioriterad bland Googles nationella nyhetssöksidor. Av dessa är det bara Frisim och Google News som levererar sökresultat i form av RSS-bevakningar - Eniro/nyhetssök bara genom webbsidan, och PS Spy genom webbsidan och per epost.

Denna utveckling gör mig mer taggad(?) att få den nya versionen av Frisim, med arbetsnamnetnyhetr lite mer färdig, och kanske fokusera på bara nyheter, och skippa att göra bloggar sökbara. Fokusera på en sak, och göra den så bra jag kan. Twingly och Knuff.se erbjuder bra svensk bloggsök, och jag kan knappast göra bättre än dem. Låter det bra, tycker du?

Next Page »