Sökmotorer

Nyhetsfilter.se en RWD nyhetssök

Posted in Frisim, Sökmotorer on januari 4th, 2015 by Clas – 1 Comment

Det var länge sedan jag skrev något här, och det var länge sedan jag programmerade något på någon hemsida, och speciellt länge sedan jag programmerade något på min nyhetssökmotor.

Under de senaste åren har även jag börjat läsa mer nyheter i mobilen än på laptop, och de flesta nyhetssajterna har funktionen att de anpassar nyhetspresentationen efter om du besöker med mobil eller laptop (responsive web design, RWD). Detta gör att det ju är rimligt att även min nyhetsaggregeringssajt klarar att anpassa sig, så det har jag nu provat. Jag har lagt en dag på att få till något som funkar okej i mobil och på laptop baserat på Bootstrap. Jag har använt Bootstrop och Foundation tidigare, men bara för väldigt enkla sidor. Större delen av tiden gick åt att bestämma vilket ramverk jag skulle använda (eller om jag inte skulle använda något alls). Det finns många ”plugins” och script klara för t.ex. menyer. Min approach var att titta på vad som finns, och välja det som ligger närmast hur jag vill ha det, snarare än att först bestämma hur jag vill ha det, för att eventuellt behöva skapa det på egen hand. Ett riktigt hack-upplägg med andra ord. Jag hittade Jasny som verkade vara ett meny-system som fungerade rimligt bra, och valde att bygga på det.

Jag har återanvänt 99% av gammal HTML-output från min sajt nyhetr.se, och i princip bara ändrat CSS:er till denna ”nya” version. Den nya versionen finns på Nyhetsfilter.se, som är ett gammalt domännamn som jag inte använt på länge.




Nu återstår bara att se om jag kan hålla programmerande uppe, och fokusera på den ”riktiga” programmeringen. Nyhetssöket skulle behöva uppdateras en hel del. Jag skulle vilja slippa länka till sajter artiklar som bara är en ingress och sedan kräver inloggning/betalning. Jag skulle behöva uppdatera sättet som nyheterna rangordnas på; vikta om hur Facebook och Twitter-delningar påverkar vad som visas. Jag skulle också vilja hitta på något fint sätt att kunna blanda artiklar på svenska och engelska; det är inte mycket utöver lokala nyheter som jag läser på svenska numera, och ska sidan vara användbar för mig så måste även länkar till engelskspråkiga sajter vara med.

Platser i svenska wikipedia

Posted in Sökmotorer on mars 18th, 2013 by Clas – Kommentering avstängd

Som förberedelse för utvecklingen av appen Kultursafari (se Google Play) har jag har ägnat lite tid att stoppa in artiklarna från den svenska delen av Wikipedia i ett sökbart index. Wikipedia är enkelt att ladda hem från deras nedladdningssida (för svenska delen), i XML-format. Det jag laddat ner är själva wiki-texten, vilken är ren text med formatering för bl.a. wiki-länkar. Filen är på ungefär 2.5GB. Med ett script för att importera XML-data till databasen så går detta på ungefär 15 minuter.

Många av sidorna som finns på Wikipedia handlar om sådant som kan kopplas till platser. Därför finns koordinater angivna på många av sidor. Tyvärr är inte koordinaterna en del av XML-data, utan den finns i ett wiki-format. En positionsangivelse kan se ut såhär:
{{coord|58.410734|N|15.621481|E|region:SE_type:landmark|display=title}}
och vara placerad någonstans i texten. I detta fall är koordinaterna angivna i WGS84 i decimalform. Det är också vanligt att koordinaterna är givna i grader, minuter, sekunder-format. Förutom positionen finns en ”typ” angiven, vilken oftast är satt till ”landmark” eller ”city”. För att kunna använda samma typ av XML-importeringsscript så har jag valt att gå igenom XML-filen, identifiera positionsangivelser och skriva om XML-filen med två nya XML-taggar, position och positionstyp.

Jag har valt att indexera text och koordinater i Solr. Detta gör att det går enkelt att göra fulltext-sökningar i Wikipedia-texten och att det går fint att använda Solrs stöd för ”spatial search” för att göra sökningar på artiklar som beskriver platser som ligger i närheten av en angiven koordinat, och att t.ex. söka ut sidor i svenska delen av Wikipedia som handlar om platser som ligger i Sverige. Index och text tillsammans tar ungefär 4GB utrymme.

Det verkar finnas ungefär 1.26 miljoner artiklar (exklusive omdirigeringar) i svenska Wikipedia, i alla fall i den version jag laddat hem från början av 2013. Det ser ut att vara ungefär mer än 200.000 av sidorna som är platsbestämda. Många av dessa har en ganska ”grov” platsangivelse, och många gäller länder och städer, vilket inte är så intressant. Av dessa så är det ungefär 15.000 som anger platser som ligger i Sverige. Siffran är framtagen genom att söka på platser inom en ”box” som ungefär motsvarar Sveriges yta (men inkluderar en liten del av Norge också).

Som ett första steg satte jag upp ett API för att göra spatiala sökningar, i nästa steg ska jag se om jag kan komma på något roligt sätt att kombinera spatiala sökning med sökningar i texterna. Det krävs ganska mycket jobb om man ska använda texterna till något, eftersom de är wiki-formaterade. Jag har parsat texterna med hjälp av Text_Wiki, men urspungsversionen av detta verktyg är långt från perfekt vilket gjort att jag behövt göra många små justeringar.

Nischade sökmotorer: Blekko

Posted in Sökmotorer on augusti 19th, 2010 by Clas – Kommentering avstängd

Sökmotorer som är specialiserade för att söka inom ett eller ett fåtal teman, nischade sökmotorer, blev lite populärt att utveckla runt 2006. Exempel är sökmotorer för nyheter, bilder, resor, recept, jobb, script eller program. Inte många av dem har blivit riktigt stora i sig själva, även om några har lyckats ”smyga sig in” bland generella webb-sökmotorer, t.ex. Picsearch. Super-idén bland nischade sökmotorer var Rollyo som lät varje besökare skapa sin egen söknisch genom att specificera vilka domäner som ska sökas igenom. Rollyo är inte perfekt, då det bara går att specificera ett litet antal domäner, och att sökspindeln inte kan anpassar för det specifika innehållet – även om du endast anger sajter som innehåller mat-recept så kommer indexet inte bara att innehålla ingredienser, utan även en del ”kringdata” som stör sökupplevelsen. Inte heller resultatpresentationen kan anpassas, utan är alltid sidtitel och en kort sammanfattning – inga schyssta bilder på maträtter direkt i resultatlistan till exempel.

Jag gillar konceptet att kunna begränsa sina sökningar till sajter jag gillar. Inte som ersättning till mina Google-sökningar, men som komplement, eller som en form av ”bevakningsfunktion” av sajter som jag helst inte vill missa ”intressanta” inlägg/artiklar från. Jag tycker att just sökord är en rimlig ”trigger” för att hitta inlägg eller artiklar som jag är intresserata för mig.

Twingly har provat en approach som inte bygger på sökord, utan som listar inlägg från dina utvalda källor som fått många kommentarer på sajten, eller länkar från många Twitter-tweets. Länkarna listas i omvänd tidsordning. Det är endast sajter med RSS-feeds som kan specificeras. Twingly kallar det för Twingly Channels.

I dagarna kom Blekko i en beta-version. Blekko är en generell webb-sökmotor, precis som standard-Google, även om Blekko har ett avsevärt mindre index – och verkar indexera mestadels engelskspråkigt innehåll. Men Blekko har också en ”Rollyo-funktion” i det att du kan specificera vilka sajter som din sökning ska göras bland i en lista. Varje lista du skapar namnger du, och du gör en sökning som begränsas till sajterna i listan genom att addera /listnamn till din sökning. Blekko kallar det ”slashtags”. Så långt är allt väldigt likt Rollyo. Det som gör att det även har vissa likheter med Twingly channels är att du kan sortera dina resultat i omvänd tidsordning. Skillnaden mot Twingly channels är naturligtvis att urvalet är sökordsbaserat.

Vill jag t.ex. bevaka Googles utveckling runt Apples Ipad kan jag göra en sökning på [google] begränsad till sajter som är specificerade på min /ipad-lista. Sökningen skulle då bli [google /ipad].


Resultatet från en sökning på [google] i en ipad-lista.

Nu har jag inte satt upp någon /ipad-lista, men om jag trots det gör sökningen [google /ipad] så föreslår Blekko att jag använder en /ipad-lista från en annan användare; Blekko föreslår användaren ”lloyd”:s /ipad-lista. Denna användare har redan pekat ut ett antal sajter som skriver om Ipad:en. Vill jag använda den så söker jag med [google /lloyd/ipad].



Sajter specificerade i /lloyd/ipad-listan

Blekko är känns lite listigt. Utan att ha med speciellt många svenska sajter i sitt index (bland nyhetssajterna bara Aftonbladet?) så är känns det dock lite tokigt. Om sajten inte är indexerad sedan tidigare av Blekko så kommer inga resultat att visas, även om du tar med sajten i din lista. Kanske börjar Blekko indexera de sajter som blir specificerade i listorna, men i så fall oklart hur snabbt det sker. Hade Blekko haft ett större index och bättre täckning av svenska sajter då hade detta varit riktigt intresssant.

Blekko har också några andra snygga funktioner. Sökresultaten kan också sorteras på relevans, och om du gör det så kan du, genom att klicka på en länk märkt SEO, få en förklaring till hur relevansen är framtagen.

Men som det är nu får vi vänta till det kommer en svensk version eller konkurrent, kanske…

Google News får autocomplete

Posted in Sökmotorer on september 1st, 2009 by Clas – Kommentering avstängd

Google skriver på Google News bloggen att Google News får ”autocomplete”, dvs sökordsförslag, i sökrutan i samband med att sökorden skrivs in. Detta är något som jag provimplementerade den första augusti Nyhetr.se och beskrev i min bloggpost.

Tyvärr verkar det inte lanserat på den svenska versionen av Google News ännu.

Sydsvenska Dagbladet provar Saplo

Posted in Sökmotorer on september 1st, 2009 by Clas – 2 Comments

I dagarna har det publicerats lite artiklar om textanalys-startupen Saplo. Realtid skriver om hur Saplo har tänkt att dra in 30 miljoner i riskkapital för att bygga vidare på sin teknik för ”sentiment-analys”. Tanken är kunna sätta ämnesord (t.ex. sökord) i ett sammanhang. Produkten som finns just nu verkar syfta till att hitta relaterade artiklar. IDG skriver i sin artikel om Saplo att nyhetssajten Sydsvenska Dagbladet blir den första betalande(?) kunden som provar den widget för att visa relaterade nyheter som Saplo tagit fram. Kopplingen mellan att hitta relaterade nyheter och sentiment-analys är inte uppenbar för mig, så det ska bli spännande att se hur det fungerar.

Uppdatering: I den förra versionen av detta blogginlägg så skrev jag SvD.se, men det gäller naturligtvis Sydsvenskan.se vilket SvDs @oholah så snällt påpekar, tack.

Google använder Solr

Posted in Sökmotorer on augusti 29th, 2009 by Clas – Kommentering avstängd

Google låter sina anställda jobba med volontärjobb på en liten del av sin arbetstid. De använder en sida vid namn AllForGood, som drivs av och hos Google för detta. De beskriver på Google public sector-bloggen att de bytt sökmotor från det tidigare Google-indexet, till att göra att eget index bara för sina volontär-projekt. För det indexet har de valt att inte använda sitt ”normala” system, utan istället Apache Lucene baserade Solr. Jag tycker att det är intressant att de väljer ett open source system, istället för sitt egna. Och än mer intressant att de använder samma som min utvecklingssajt Nyhetr.se.

(Via Cominvent)

Google Search Appliance i virtuell version

Posted in Sökmotorer on november 5th, 2008 by Clas – Kommentering avstängd

Google Search Applicance (GSA), burken du kan köpa från Google för att skapa en egen sökmotor, finns nu en en viruell testversion där du kan prova på hur en GSA fungerar genom att installera Googles mjukvara på din egen virtuella server.

Nytt i Apache Solr 1.3

Posted in Sökmotorer on november 5th, 2008 by Clas – Kommentering avstängd

IBM har publicerat en artikel om Apache Solr i sin developerWorks-serie.

Google bloggsök och relaterade nyheter

Posted in Sökmotorer on oktober 5th, 2008 by Clas – Kommentering avstängd

Google har modifierat startsidan på sin Google Blogsearch-sajt.


google blogsearch

Som vanligt idag när någon erbjuder en ny produkt eller tjänst så är det en killer/dödare av en redan befintlig grej. Blogsearch-sidan presenteras i media som en Techmeme killer. Själv tycker jag att Google Blogsearch blev bättre, men det är knappast en Techmeme-dödare för mig. Den dagen som Google knyter ihop Google News och Google Blogsearch så kanske de kan ge Techmeme en match. Techmeme må länka mest till bloggar, men en hel del av länkarna går också till nyhetssajter. Techmeme länkade t.ex. till svenska gp.se-artikeln om 3g-problem med iPhone:n. Om det bara var lycka som gjorde att de automatiskt(?) kunde finns titel och ingress till den artikeln vet jag dock inte.

Men även Google News verkar utvecklas, även om det går långsamt. I juli skrevs det om tester med en ny design, och nu finns den nya designen för svenska, på den udda länken news.google.be. [Länken fungerade tydligen bara tillfälligt, nu visar den det "gamla" svenska Google News utseendet.] Utseendet på startsidan är snarlikt det tidigiare, den största skillnaden är de relaterade länkarna som ”viker ut sig” när man klickar på ”fler”.


ny svensk google news 1

Länken för att visa alla relaterade nyheter till en huvudrubrik leder till en sida med uppdaterat utseende. Tidigare visades de relaterade nyheterna med samma utseende som en nyhetssökning, nu visas det tydligare vilken nyhet det är som det relateras till:

ny svensk google news 1

DagensPS lanserar PSSpy

Posted in Sökmotorer on september 1st, 2008 by Clas – Kommentering avstängd

Idag lanserade DagensPS en uppdaterad version av sin sajt, men framförallt en nyhetssöktjänst med namnet PSSpy. Jag har tidigare hintat om PSSpy i samband med att jag ”lånade” idén om att färga sökresultaten i olika färger barerat på kategori. PSSpy är främst tänkt att användas att skapa ”nyhetsbevakningar” vilka skickas med epost. Hos DagensMedia kan man läsa att de jobbat ett år med tjänsten och att den ”kostat en hel del”. Jag var hos DagensPS i mitten på februari i år och diskuterade utvecklingen av deras tjänst. Jag kan därför komplettera med att tjänsten är skapat av ett programmerar-team i Ungern, lett av den före detta Agent25 chefen Robert. Robert driver också Updatum som åtminstone på ytan ser ut att vara ett bolag för att kunna utnyttja denna sökplatform för andra sajter. PSSpy bygger, som en hel del andra ”vertikala” söktjänser, på open source indexet Lucene.

Jag har tittat till PSSpy då och då under tiden den varit under utveckling, och jag är lite imponerad över den relativt stora mängd nyhetssajter som de bevakar. När det gäller antalet bloggar som bevakas så misstänker jag att de inte lagt ner så mycket krut på dem ännu. (Not: Det är lätt och snabbt att samla in bloggdata jämfört med att samla in nyhetstexter.) Insamlingsfrekvensen verkar tyvärr vara ganska låg för många källor (kanske en gång per dag, eller så) vilket gör att tidsstämpeln i sökresultatlistorna ibland blir lite missvisande.

Kullin tycker att tjänsten ska ”back to the lab again”, och verkar inte imponeras – kanske speceillt på grund av saknad RSS-möjlihet. Själv tycker jag att favvo-ikonen på adressraden (en jordgubbe!) är cool, men mest är jag imponerad av DagensPS förmåga att sälja in annonser, och tjäna pengar, på sin sajt.