Sökmotorer

Fast och fifflet

Posted in Sökmotorer on juli 6th, 2008 by Clas – Kommentering avstängd

På denna Del.icio.us-länksamling hittar jag en TechCrunch-artikel om norska sökföretaget Fast Search & Transfer. Fast S&T står för delar av tekniken bakom Schibsteds Sesam.se, speciellt nyhetssöket.

Artikeln handlar inte om sök-teknik utan om hur Fast, genom sättet att ha redovisat framtida tänkt försäljning på, påstås har vilselett omvärlden. Delar av orginalartikeln, på norska, finns hos DN.no. Microsoft köpte FAST i april 2008.

Techmeme sökbar med Lucene

Posted in Sökmotorer on maj 20th, 2008 by Clas – 2 Comments

Min favorit bland engelskspråkiga teknik-nyhets-insamlar-sidor Techmeme har idag lagt till en sökruta. De verkar använda Lucene som sökmotor.

Sphinx, Lucene och… Minion

Posted in Sökmotorer on maj 20th, 2008 by Clas – Kommentering avstängd

Sun har lanserat en sökmotor vid namn Minion som ”open source”. Minion ser lite intressant ut. Flera av de ”finesser” som finns, som lagom smart ”stemming”, verkar bara vara utprovat för engelska tyvärr. Tydligen ska indexeringen vara snabbare med Minion än med Lucene, men ingen jämförelse finns med t.ex. Sphinx.

Snubben som verkar jag gjort större delen av jobbet bloggar om jämförelser mellan Lucene och Minion på sin Sun blogg. Där länkar han bl.a. till en föreläsningsfilm som tar upp lite typiska sökmotorkonstruktionsproblem, men den handlar tyvärr inte om Minion specifikt.

Jaikugenererad Google-intervju

Posted in Sökmotorer on maj 16th, 2008 by Clas – Kommentering avstängd

Jag skrev tidigare lite om svenska Google News och spekulationerna om att den inte innehåller artiklar från TT.

Bison@Jaiku lät meddela att han skulle intervjua de två ”publika” personer som jobbar på Google Sverige, och ville ha frågor till intervjun från Jaiku-användare. Jag kunde inte hålla mig, och önskade att han frågade dem om ryktet om Google News och TT var sant. Bison-Fredrik ställde den frågan, och många andra, och presenterar intervjun på sin blogg. På frågan som Google News så var svaret detta:

Michael Zackrisson: Varför är svenska Google News så sunkig? Finns några ambitioner att göra den mer heltäckande? Och att t ex. låta användare söka i flera olika språk? Clas Rydergren: Det vore intressant att höra hur ni ser på utvecklingen av Google News Sverige utan samarbete med TT.

Nicklas: Meh! Sunkig? Det tycker inte jag den är, men okej, jag är ju partisk. Tricket är ju att en nyhetsaggregator blir ju bättre ju fler källor den har och det där kan växa över tid. Vi utvecklar den även genom olika samarbeten. Om vi har missat någon bra nyhetskälla får ni gärna tipsa om den så att vi kan lägga in den och göra tjänsten ännu bättre.

Zackrisson@Jaiku, som ställde första-frågan, bloggar om svaret hos VA.se. Även andra har kommenterat intervjun.

Nu blev svaret på Google News-frågan inte så intressanta, men sättet att få ihop intervjufrågor är intressant. Speciellt intressant blir det på grund av att Bison@Jaiku har många ”kompisar” bland sina Jaiku- followers som är relativt väl insatta i Googles verksamhet.

TT, Eniro, Google News, Agent25 och det kalla kriget

Posted in Sökmotorer on april 12th, 2008 by Clas – 5 Comments

Matti Palm jobbade tidigare på nyhetsbevakningssajten Agent25. Han har skrivit ett inlägg på sin blogg Greenhill Relations om den dåvarande relationen mellan TT och Agent25, och hur TT idag förhåller sig till Google News. Inlägget är från 28 Mars 2008, vilket gör det uppenbart att jag inte rikitgt hänger med…. men det är intressant i alla fall. Dessutom väcker texten gamla minnen från mailkonverationer jag haft runt Frisim.

Kör din egen Twingly beta

Posted in Sökmotorer on april 7th, 2008 by Clas – 2 Comments

Twingly lanserade för några dagar sedan en ny version av sin bloggsökmotor, men bara i begränsad beta-version. Beta-versionen har dock RSS- och JSON-feeds för sökresultat vilket innebär att du enkelt kan prova Twinglys sökningar direkt via dem. Jag har satt ihop lite Javascript-kod för att, baserat på en sökbaserad JSON-feed visa upp de första 10 träffarna hos Twinglys bloggsök. Bara bloggar som är ”approved”, dvs som Twingly anser spam-fria, med sökresultaten sorterade i TwinglyRank-ordning.

Tyvärr finns det lite briser i JSON-data som jag får ut, t.ex. saknas titeln på blogginlägget, och tyvärr fungerar min kod bara i Firefox. Här kan du prova den: Twingly JSON.

Detta är det första jag gjort med JSON, och det var en trevlig upplevelse, även om jag, nästa gång jag gör något, ska använda ett ”ramverk” som t.ex. jQuery för att få det att fungera i alla browsers på en gång.

PS. Bygger du en version som fungerar i både Firefox och IE så får du gärna länka i kommentarerna. DS

Uppdatering: Twingly uttalar sig: Tanken är förstås att man ska kunna göra sådana där hack, men inte utan att vara användare så länge vi är i stängd beta. Om det visar sig att det är meningen att det ska vara stängt så ska jag försöka se till att du får reda på det innan vi stänger samt en plan för hur och när vi kan autenticera användare. :-(

Uppdatering: Twingly meddelar i en kommentar nedan att de låter JSON-feeden förbli öppen :-)

Uppdatering: Nu är sidan omgjord med jQuery och bör fungera i fler webbläsare.

Nya Twingly – på riktigt!

Posted in Sökmotorer on april 2nd, 2008 by Clas – 8 Comments

Nu har jag fått en beta-inbjudan till nya Twingly. Jag har inte provkört så mycket, men några sökningar för att försöka bilda mig en uppfattning om det är bra har jag gjort.

Förstasidan ser exklusiv ut i sin svarta utformning, men är inte uppseendeväckande på något vis. En sökruta, en logga och den kryptiska texten ”find+share”. Jag har tyvärr inte riktigt förstå vad det är jag ska share:a för något ännu, men det kanske kommer.


Twingly

Det är i alla fall lätt att förstå att jag ska skriva in ett sökord i textrutan. Jag kan sedan välja att klicka på ”search” eller ”spam-free-search”. Riktigt varför jag skulle vilja ha med spam i bland sökresultaten vet jag inte. Enda anledningen till att det skulle vara intressant är väl om Twingly inte har samma uppfattning om vad som är spam som jag har. Så, okej, givet att spamfiltret är ”trasigt” (för kinkigt) så vill jag även ha med ”spam” bland resultaten. Jag gör en sökning på [frisim] och ser vad som kommer upp. Såhär ser sökresultatsidan om jag klickar på ”spam-free-search” ut:

Twingly

Sökresultaten på [frisim] känns bra! Klickar jag på de gula (digg-lika) knapparna så ”gillar” jag ett sökresultat, och söker jag igen på samma ord, så hamnar det resultatet högre (högst?) bland sökresultaten. Ett ”gillar”-klick verkar ha samma effekt på rangordningen som en länk från en annan blogg har när jag rangordnar sökresultaten efter ”TwinglyRank”. Det går också att rangordna efter bara antal inlänkar (”gillar”-klicks räknas inte med) eller i datumordning.

Hur var det då med ”spam”? Gör jag om sökningen på [frisim] med bara ”search” (dvs., med spam inkluderat), då noterar jag att bloggen SameSameButDifferent är klassad som spam enligt Twingly. Under om författarna av den bloggen håller med Twinglys algoritm ;-)

Sånt som jag tycker är spam då, klassas det som spam av Twingly? Ja, då måste jag ju känna till några spambloggar för att kunna prova. Eftersom Frisim.com har en ping-tjänst så är jag medveten om ett par svenska ”spamnät”. Minst ett av dem handlar om smslån. En sökning på [smslån] ger mig bland annat resultaten:


Twingly

Aj aj aj, resultat två och tre i den lista jag zommat in skulle jag klassat som spam. Nummer två i resultaten tillhör (gissningsvis) sveriges största smslån-spam-nätverk. Den bör Twingly ha lyckats identifiera som spam. Tyvärr, löftet om att vara spam-fri är kaxigt och det kommer att krävas mycket svett för att kunna leva upp till det. Tyvärr är det inte uppfyllt just nu. Här behövs lite mer fingertoppskänsla, tror jag.

Som beta-testare så kan man föreslå och rösta på nya features som man vill att Twingly ska utveckla. Idén om feature-request-röstning är kopierat (ja, det är bra att kopiera fina koncept!) från bl.a. Dell som provade det på sin sajt för något halvår sedan. Feature request-listan toppas just nu av ”Hot right now”. Jag tror jag skickar in önskemål om smslån-spam-reducering ;-)


Twingly

Överlag verkar Twinglys nya sökmotor fungera väldigt bra. Det är ju bara en beta-version så de har ju lite tid på sig att trimma in sin presentation, funktioner och spam-filtret. Jag tycker att Twingly har god potential att kunna visa upp en bra bloggsöktjänst när sajten lanseras!

Rent teknisk så körs nya Twingly på 3 servrar för insamling av RSS-data, fyra servrar för dokumentlagring (tror jag), tre servrar för indexet och en som sökfront-end. Antagligen används ytterligare någon för presentation av webbsidor. Indexet som Twingly använder bygger på MySQL för lagring av dokumenten, och det är Sphinx: free open-source SQL full-text search engine som används för sökningarna. Systemet är, enligt Martin på Twingly, uppbyggt med skalbarhet i åtanke. Sphinx används med fördel ihop med MySQL, och svenska sajter som PirateBay och Jonas Lejons hobbyprojekt Bloggz bygger på den.

Recensionen på TechCrunch hamnade inte under URL:en http://www.techcrunch.com/swedens-twingly-sucks/ som jag hintade om igår (den första april) utan under /europe-focused-blog-search-engine-twingly-goes-into-private-beta/.

Jag har ännu inte provkört Twinglys JSON-interface som kan används t.ex. för att visa upp sökresultaten på egen hemsida, men API:s är kul! Bra att de är med från början. Kanske skickar jag även in en ”feature request” på att få data i ”searialized PHP” (som bl.a. Yahoo använder) för att enklare kunna processa data på serversidan innan den visas upp. Med de avancerade sökfunktionerna för att begränsa sökning till blogginlägg på utvalda bloggar som länkar till specifika sajter så kan man säkert få ihop mycket skojjigt.

Lycka till ute i världen, Twingly!

Anton på Twingly skriver i sitt mail: Vill du ha fler invites, eller vet någon som vill få en, hör av dig! / anton@twingly.com. Så, vill du prova själv så skicka honom ett mail!

Nya Twingly

Posted in Sökmotorer on april 1st, 2008 by Clas – Kommentering avstängd

Nu har jag varit och tittat den nya bloggsökmotorn från Twingly AB. Om den är bra? Vänta bara liiite till så får ni säkert se en massa beta-versions-recensioner ute på nätet. Vill du veta hur världen tar mot den nya tjänsten så är det bara att ni sitter och re-loadar Techcrunch.com så dyker det nog upp en uppdatering av Techcrunch förra postning om Twingly. (Kan det vara dagens sista aprilskämt ;-)

Äh, låt Twingly vänta ett par dagar och besök Nettopp.se istället! :-)

Hands-on: Jag tror jag förstår varför Yahoo lyckades

Posted in Sökmotorer on mars 23rd, 2008 by Clas – 8 Comments

Sökmotorer som är specialiserade på att ett visst ämne, ofta kallade vertikala sökmotorer, kan vara väldigt användbara. En söktjänst för lägenheter i Stockholm (som t.ex. Booli), en söktjänst för matlagningsrecept (som t.ex. hos Arla), eller kanske en söktjänst med bilrepareringsinstruktioner för folk med gamla bilar (finns inte ännu, eller?) känner jag mig ofta otroligt ”smart” när jag använder. Alltså blev jag intresserad av att titta på hur man kan utveckla sådana. Min nisch blev en nyhetssökmotor (ja, Frisim.com). Smart som fan – men ändå inte – eftersom ”nyheter” kan handla om lite vad som helst, alltså allt från Paris Hiltons nya hund, via mord i Arboga, till massvält i Afrika. Att nyheter handlar om en massa ”olika saker” gör att det ibland är svårt att hitta det jag tror mig kunna finna genom att använda det traditionella söksättet, att skriva in ett antal sökord i en textruta. För djupdykningar runt ett specifikt namn eller plats fungerar det dock ofta väldigt bra.

En nackdel med lite smalare sökmotorer, jämfört med Google, är att själva tjänsten hamnar i mitt det som i moderna affärssammanhang ofta kallas den långa svansen, ”the long tail”, dvs sökmotorn erbjuder en smal produkt som bara ett fåtal personer är intresserad av, men de som verkligen är intresserade är ofta entusiastiska över att ha hittat tjänsten. Men låt mig skita i det så länge, då det bara är intressant om man ska tjäna pengar på sin sajt, eller som Hjalmar (nästan) uttrycker det, det är skitgöra att sitta och hålla på med nischade siter när man istället kan gå direkt på den stora feta kalven.

En sökmotor som på ytan är en specialiserad sökmotor och delvis liknar ren nyhetssökmotor är de så kallade bloggsökmotorerna. Min, relativt nyvunna, insikt är att bloggsökmotorer är ointressanta som specialiserade sökmotorer. Bloggen är ett ”format” för att publicera sig på en hemsida, och det är allt alla dessa bloggar har gemensamt. Det som skrivs i ett specifikt blogginlägg på en blogg är oftast mycket mer intressant om det är så att jag har läst de tidigare blogginläggen – lite som att Kapitel 2 i en deckare känns mera meningsfullt om jag tidigare har läst Kapitel 1. Att göra bloggar sökbara kan dock ha intressanta sidoeffekter, som t.ex. att kunna analysera hur ofta ett namn nämns bland bloggarna, eller för att analysera till vilka andra sajter som bloggarna länkar, som t.ex. Twingly, Knuff, eller Frisim.

Slutsatsen är att jag inte borde lägga tid på att skapa en specialiserad sökmotor för bloggar utan att dessutom ha ett index eller en lista med kategoriserade bloggar.

Denna typ av bloggämneslistor går rimligt bra att skapa genom att analysera uppmärkta/taggade inlägg på ett större antal bloggar och det görs idag hos t.ex. Technorati och Blogtips.se. Listorna har alltså som syfte att hjälpa till att hitta bloggar som (ofta) skriver om ett ämne som man är intresserad av, för att kunna läsa flera inlägg från den bloggen och kanske bevaka framtida inlägg på just dessa bloggar.

Ett annat sätt är försöka kategoriera ”hela” bloggen manuellt. Det är en sådan kategorisering som gjorde sajter som Yahoo.com och Dmoz gigantiska.

Så, slutsatsen blir att jag ska komplettera Frisims index med lista med kategoriserad information. Jag tror att jag kommer att satsa på att skapa den manuellt. Kanske är det mycket jobb att kategorisera ”alla” bloggar manuellt, men samtidigt så tror jag inte att det finns mer än några hundratals svenska bloggar som verkligen är kategoriserbara (dvs som skriver om specifika ämnen). Bloggar som inte är möjliga att klämma in i en kategori får man väl försöka hitta med hjälp av bloggsök – trots allt.

Jag har redan skapat mig ett fint gränssnitt för att försöka bygga upp kategorier i vilka det bör gå att klämma in informationen. (Idealt vore om jag kunde hitta någon som är beredd att hjälpa till med vissa kategorier. Är du intresserad, maila mig på clas@nic-sys.se.) Utöver kategori-gränssnittet finns inte mycket mer än ett arbetsnamn, och det är idag Nettopp.se (typ, på norska, eller också kommer jag att återanvända någon av n7.se eller nyhetr.se, eller något annat). Själva sättet som lagringen i kategorierna är uppbyggd är, om jag får säga det själv, otroligt smart uppbyggd för att kunna skapa manuella kategoriseringar, kategorisering baserade på taggar, och kategoriseringar baserade på bloggsökresultat.

Dags för Ruby?

Posted in Sökmotorer on mars 18th, 2008 by Clas – 2 Comments

Jag har aldrig provat Ruby eller Ruby-on-Rails, men när jag ser alla tips och script som det skrivs om på diverse bloggar så verkar det som om det är dags snart. Det senaste som triggat mitt intresse är HTML-parsern Hpricot som ser fantastisk ut. Tillsammans med verktyg som FireBug så ser det ut som om man kan bygga en enkel OpenKapow, med bara något tiotal rader kod. För somliga så verkar det inte ta mer än 60 sekunder.

Frisim använder idag HTML-parsern HTMLparser 2.0, ett Java-bibliotek, och det är betydligt omständligare än 60-sekundsexemplet ovan. Å andra sidan så bygger inte Frisims HTML-scraping på att det finns en fast placering eller taggar för textstycken som är rubrik eller brödtext, utan på ett antal ”regler” som används för att hitta rubrik och löptext. Reglerna är generella for nyhetssajter och samma inställningar används för alla nyhetssajter. Frisim fungerar alltså ungefär som Tailranks spindel Spinn3r 2.1 ser ut att göra.

För övrigt tycker jag det känns som om amerikanska sajter som använder en teknik liknande det för Frisim, såsom Tailrank och Techmeme, hittar så mycket mer intressant nyhets- och bloggmaterial än vad som jag hittar på svenska. Kanske är det dags att prova att ett mer internationellt projekt parallellt. Kanske blir det projektet kodat i Ruby ;-)