Sökmotorer

Di.se om Twinglys bloggsökmotor

Posted in Sökmotorer on februari 16th, 2008 by Clas – Kommentering avstängd

Di.se har idag en artikel om linköpingsföretaget Primelabs bloggsökmotor som ska ”lanseras” i mars. Inte så mycket nytt som inte finns med här kommer fram, men ändå trevlig läsning.

Sesam.se uppdaterar nyhetssöksida

Posted in Sökmotorer on februari 6th, 2008 by Clas – 3 Comments

Sesam.se har (igår?) uppdaterat sin nyhetssök-del av Sesam.se.

Gissningsvis är detta resultatet av de ekonomisk problem som Sesam har (haft?), och som gör att…

…Sesam ska koncentrera sig på nyhetssökningar i svenska och norska medier samt katalogtjänster.

enligt en artikel i SvD i november.

Det mesta i den ”nya” svenska Sesam nyhetssök ser ut att vara ärvt direkt av norska Sesams nyhetssök, men det gör det ju inte sämre. Jag kommenterade Sesam.no när de lanserade sin version, och var uppenbarligen rätt imponerad. Precis som norska Sesam använder de ett Scanpix-arkiv för att visa små nyhetsbilder. Dock är det väldigt få bilder som presenteras i närheten av nyhetslänkarna, men desto oftare så visas det passande(?) bilder under ”relaterade bilder” som kommer av enkompletterande sökning i PicSearch bild-index. Jag misstänker att ingen utveckling eller programmering av den nya uppdateringen har gjorts i Sverige. Har jag rätt?

Sesam.ses nyhetssök visar ingen reklam, men jag hoppas ändå att denna uppdatering kan göra att Sesam.se hämtar sig lite, på något vis. Kanske kan de hämta sig så pass mycket att de kan få ingång ”självbetjäningssystemet” för sin reklamförsäljning?

Svenska Sesam använder sökteknik från FAST, så det blir lite intressant att se hur Schibsted sök/Seam utvecklas när Microsoft köper upp(?) FAST.

(Via Gunnar.)

Svenska Google News har 164 källor – vi har hela listan

Posted in Sökmotorer on januari 10th, 2008 by Clas – 1 Comment

För ungefär en vecka sedan lanserade Google några justeringar i det avancerade sökformuläret för Google News. Där finns nu en ruta för att begränsa sökningen till en specifik källa. Rutan fungerar som så att om jag skriver t.ex. att ”a” så listar den (upp till 10) källor som börjar med just bokstaven ”a”.

Jag har skrivit ett litet skript för att lista alla källor som svenska Google News säger sig indexera. Skriptet provar alla begynnelser (en bokstav eller flera om det behövs) genom att göra en massa anrop mot svenska Google News käll-förslags-funktion. Resultatet blev att svenska Google News har 296 källor enligt denna käll-förslags-funktion; alltså något fler än texten ”Sök och bläddra i 100 nyhetskällor som uppdateras oavbrutet” som de visar på sin framsida antyder.

Källorna är: 1,6 miljonerklubben, 8 Sidor, AGI, ATL, Aboland Finland, Aftonbladet, Aktuellt i Politiken, Alba, Allamedia, Allt om Digitalfoto, Allt om MC, Barometern-OT, Bergslagsposten, Beyan.net, Bike, Bilsport, Bio.nu, Biotech Sweden osv.

Hela den lista med källor som jag lyckades få fram finns i en textfil här.

Uppdatering: Efter att ha grävt lite mer bland källorna kan jag konstatera att de är 296 stycken enligt förslagsfunktionen. Några är lite ”konstiga” som källan ”bang” som inte syns om man bara ger ett ”b” i käll-rutan, men dyker upp om man skriver ”ba” – skumt. Av de 296 källorna så är det dock bara 164 som visade ett eller flera sökresultat när testet gjordes den 12 januari, 132 källor verkar alltså inte ha indexerats under de senaste 30 dagarna. Gissningvis beror det på något problem med själva Google News-spindeln.

Sökresultat

Posted in Sökmotorer on december 3rd, 2007 by Clas – Kommentering avstängd

Det finns olika sätt att presentera sökresultat på – men nästan alla text-sökmotorer presenterar dem på samma sätt! I mitt tidigare inlägg om kattungar så listade jag ett antal bloggsökmotorer. Ingen av dem är så nydanande när det gäller att presentera sökresultaten. Gissningsvis beror det på att alla är så vana vid hur Google presenterar sin sökreultat, så om det inte ser ut som hos Google så är det ingen som känner igen det som just sökresultat.

Även svenska Sesam liknar Google. Sesam har dock ett antal systersajter som använder sig av ”anpassade” sökresultat. Dessa systersajter, delvis sådana som finns inom Schibstedkoncernen, är nyhetssajter som använder Sesams nyhetssökning för att visa sajtsökningsresultat. Systersajterna är Aftonbladet, Metro, SvD och fz.se. Sökresultatsidorna hittar du på Aftonbladet, Metro, SvD och fz.se.

Sökresultatsidorna på systersajterna har lite olika utseende, och features. Utseendet är anpassat för att passsa huvudsajten, men det skiljer även i vissa features som hur ”fasetterna” som visar nyhetskategorier fungerar. Hos Metro verkar kategorierna vara automatgenererade, vilket jag anar när jag ser kategorier som ”Digitalt”, ”Pdf”, ”sok”, ”Rubriker”, ”Kontakt” och ”Annonsera i Metro”. Hos Aftonbladet fungerar det lite bättre, och där känner jag igen kategorierna från sajtens menyer. Längst upp bland Aftonbladets sökresultat finns länkar till relaterade(?) resultat hos Aftonbladet Webb-tv – snyggt! SvD visar inga kategorier alls, men visar hela sitt normala menysystem på sökresultatsidan. Snyggast är sökresultatsidan för fz.se. Där finns bilder till de resulat som förknippas med speltitlar, och av de kategorier som visas framgår att det inte bara är nyhetsartiklar och recensioner som är sökbara, utan även inlägg i sajtens forum. På sökresultatsidan hos fz.se så kan man även begränsa sökningen till ett givet år, månad och dag, genom att begränsa i den kategorivalsliknande menyn. Rätt snyggt, om än inte supersmidigt.

Undrar hur jag kan förfina Frisims sökresultatsidor

Clas dödar kattungar

Posted in Sökmotorer on november 18th, 2007 by Clas – 7 Comments

Då utvecklingen av Frisim2 fortgår och faktiskt börjar närma sig en ”körbar” version så har jag ägnat några minuter åt att titta på ett urval av de svenska tjänster som finns och som kommer att ha vissa beröringspunkter med min. Jag är mycket medveten om att varje gång jag ger kritik på en ”konkurrent” så dödar gud en kattunge, men jag kan ändå inte hålla mig, trots att jag tycker synd om kattungarna. *snyft*

1. Knuff.se presenteras ibland som ”svenska bloggosfärens medelpunkt”. Knuff.se fungerar otroligt bra, och är väldigt imponerande. Knuff har i och med att den funnits ett par år, och på grund av systersajterna bloggkartan.se, nyligen.se och bloggar.se, så finns möjlighet till att hålla koll på en mycket stor mängd data. Knuff har också lyckats otroligt bra med att plocka upp ”finesser” som att lista saker som det länkas till i blogginläggen och möjlighet att söka på en blogg för att se vilka inlägg som länkar den bloggen. Tack vare etiketterna som sätts på systersajten bloggar.se så kan möjligheten till kategorisering göras med relativt stor precision. Knuff.se innehåller förvånansvärt lite spam, gissningsvis på grund av att någon del i processen av överflyttningen från nyligen.se till knuff.se är manuell. Jag tycker att Knuff.se har en rimlig avvägning mellan mängden persenterad information och mängden Google Adsense-reklam. Jag tycker att Knuffs största styrka är de ”temasidor” där vilka nyheter, videos, böcker etc., som är ”populärast” att länka till bland blogginläggen. Antalet bloggar som är med är gissningsvis någonstans mellan 10.000 och 50.000 stycken. Alla bloggar som omfattas ”är svenska”, även om vissa är skrivna på engelska. Jag gissar att Knuff.se är baserad på MySQL och eventuellt på något FULLTEXT-lager så som Sphinx för att snabba upp vissa delar. Lite information om/runt Knuff finns i Johan Larssons blogg.


shot

2. Bloggz är en relativt ny sajt. Bloggz innehåller svenska bloggar, även om en del är på engelska (bloggen ligger då oftast på en svensk bloggtjänst). Sökningen sägs omfatta 90.000 bloggar. Bloggz har en egen ping-tjänst men hämtar också ”pingar” från annat håll (gissningsvis bl.a. från en RSS-feed med Googles Blogsearch-material). Sökresultatsidan ser konstigt ut för vissa sökresultat, vilket verkar ha att göra med funktionen för ”highlighting” av sökordet i sökresultatet inte fungerar perfekt. Jag tycker att Bloggz visar för mycket reklam på sökresultatsidorna i relation till innehåll och innehållskvalitet. Bloggz baseras på MySQL och FULLTEXT-indexet Sphinx. Lite information om/runt Bloggz finns i Jonas utvblogg.


shot

3. Tailsweep är helt ny för mig. Tailsweep har en egen ping-tjänst, men verker också plocka in data från annat håll. Sökresultaten innehåller båda svenska och utländska RSS-feeds, blandat. På startsidan står att över 125.000 bloggar är sökbara, men det är oklart om det inkluderar de nyhetssajt-feeds som är relativt vanligt förkommande bland sökresultaten. Jag hittar väldigt lite skärp (utöver nyhetssajterna?) i bloggindexet, vilket är positivt. Tailsweep har inte ”highlighting” av sökord i listan med sökresultat. Det går att söka på väldig korta ord och på årtal, men av någon mystisk anledning ger sökorden ”tailsweep” eller ”kanske” inte några resultat alls!? Normalt går sökningarna mycket snabbt, medan andra upplever jag som något långsamma. Tailsweeps sökresultatsidor visar så pass mycket Google Adsense reklam att jag lätt skulle kunna missta dem för MFA-sidor. Tailsweep är, om jag förtått det rätt, utöver sökmotorn, ett annonsnätverk. Tailsweep använder indexet Lucene. Jag har inte hittat någon utvecklingsrelaterad blogg hos Tailsweep, men en av personerna bakom driver bloggen Fosfor gadgets.


shot

4. Twingly. Twingly fokuserar på att koppla ihop nyheter med bloggar genom att erbjuda nyhetssajterna att visa vilka bloggar som länkar en specifik nyhetsartikel direkt på nyhetssajten, men erbjuder även en bloggsök-ruta på sin egen sajt. Tekniken basers på att bloggarna pingar in sina inlägg till Twinglys ping-tjänst. Twingly säger sig söka bland 83.000 svenska bloggar. Sökningarna i indexet upplever jag gå med varierande hastighet, ibland mycket snabbt, ibland betydligt långsammare. Ingen ”highlighting” görs av sökordet i sökresultaten. Utöver en länk till blogginläggen visas en länk till bloggens huvudsida och en länk till dess RSS-feed. Twingly verkar vara baserad på någon .NET/MSSQL-lösning från Microsoft. Twingly bloggar om tjänsten och företaget på Primelabs.se.


shot

5. Aftonbladets Bloggsök är en ingång till Bloggportalen. Bloggsök omfattar de bloggar som finns registrerade på Bloggportalen. Bloggportalen har i princip samma ”finesser” som Knuff.se, även om sökbarheten inte är lika stor (t.ex. på vilka bloggar som länkar en annan blogg och dylikt). Även Aftonbladets Bloggsök använder Lucene. Jag har inte hittat någon ren ”utvecklingblogg”, men på Omvärldsbloggen presenteras Aftonbladets bloggsatsningar.


shot

6. Google blogsearch. Bloggsearch har en imponerande bredd på sökresultaten, men inte så många ”finesser”. Google har en egen ping-tjänst, men hittar säkert en stor del av länkarna till de indexerade bloggarna i deras normala webbindex. I Googles blogsearch är det tydligt hur jag kan begränsa till sökresultat från en viss tidsperiod.


shot

Bilderna visar hur sajten ser ut efter en sökning på den egna sajtens namn. Jag har försökt ordna listan ovan i ”resursordning”. Knuff är ett enpersonsprojekt, Bloggsök och Googles Blogsearch är gissningsvis utvecklat av och drivs av betydligt fler. Skulle jag försöka rangordna sajterna i ”brahetsordning” så känns det svårare, men uppenbart är i alla fall att jag besöker Knuff.se oftast! För mig länns det som om Knuff prioriterar kvalitet före kvantitet. I vissa specifika lägen kan jag tycka att kvantitet (många indexerade bloggar) har prioritet, men oftast har det inte det.

Alla de listade sajterna indexerar bloggar. Några av dem inkluderar också nyhetssajters RSS-data i sina index, men det verkar inte vara ”medvetet”. Knuff separerar nyheter och bloggar, men gör inte nyheterna sökbara.

Utöver dessa känner jag bland annat till sajterna feeder.se, blogseek.se, Eniro/bloggsök, vilka jag upplever som ”lite mindre intressanta”. Finns det några fler som jag bör finna intressanta?

Google News pumpar fram gadgets

Posted in Sökmotorer on oktober 29th, 2007 by Clas – Kommentering avstängd

Google News har börjat bloppa fram gadets/apps baserad på sin nyhetssökning. För någon vecka sedan kom Google Facebook app, och idag en ny iGoogle gadget. Facebook-applikationen finns inte för svenska nyheter, men iGoogle-gadeten visar även svenska länkar. iGoogle-gadeten adderar inte så mycket funktionalitet utöver det som som redan finns på Google News-hemsida. Google News facebook applikationen använder Facebooks ”nätverk” för att kunna rekommendera nyheter till andra i nätverket.

Utvecklingen av Frisim2 går lite långsamt. En del har blivit gjort – två steg fram och ett steg tillbaka. Ännu har jag inte lyckats fånga in tillräckligt med data för att se hur det kommer att fungera i längden (med ett stort sökindex). Har du en blogg där du bloggar på svenska så får du mycket gärna pinga in dina inlägg på Nyhetsfilter. Än så länge är det mest tydliga resultatet av mitt experimenterande den $90-faktura jag fått från Amazon på den EC2-server som jag använder för att utveckla den nya versionen av sajten på.

Sökmotoralgoritmer och affärsplaner

Posted in Sökmotorer on augusti 3rd, 2007 by Clas – Kommentering avstängd

Väldigt många svenska sajter, framförallt mindre men även stora, har ett stort beroende av Google. Beroende består ofta i att sajten får stora delar av sin trafik från Google, framförallt kvalitativa nya besökare, plus att sajten ”lever” på sina intäker från Googles annonsprogram Adsense.

När det gäller Adsense så verkar flera svenska sajtägare oroliga för att Google ska stänga av dem från Adsense-programmet, och därmed omöjliggöra framtida Google-intäkter. Hjalmar visar upp ett sådant exempel. Ett ”avslag” från Google kan uppenbarligen stjälpa den även den bästa(?) affärsplan om man inte är lite försiktig.

När Google gör förändringar i sin algoritm för rangordning av sökresultat så kan det påvera sajten besökarantalet avsevärt. Flera svenska nyhetssajter har noterat hur bra Google är på att skicka trafik till dem, och har gjort försök med att ”sökmotoroptimera” sina sajter för att få ännu mer trafik. Det har fungerat bra tidvis, men vid Googles senaste sökmotoralgoritmuppdatering så gick det mindre bra för bland annat UNT och ST. Vassaeggen skriver idag om hur den verkliga mediemakten inte längre ligger hos webbtidningarna, utan hos Googles sökmotoralgoritm, då det är Google som bestämmer vilken ”vinkel” av en artikel du ska läsa genom att prioritera somliga sajter över andra. Främst gäller detta naturligtvis äldre nyhter som man hittar bland Google sökresultat.

Utan att kommentera Frisims trafik från Google så kan jag konstatera att min trafik från Spray/Lycos sökmotor på Spray har gått från c:a 200 besökare per dag ner till noll. Anledningen är dock inte ändringar i deras sökalgoritm, utan att Spray börjat länka alla sina sökningar till Eniros sökmotor istället för att använda sin egen. Tyvärr har vi ett skrivtligt avtal om länkbyte med Spray AB (mitt enda skriftliga länkbytesavtal någonsin), men det verkar inte hjälpa oss något vidare. Nu påverkar varken trafik från Google eller från Spray oss ekonomiskt i så stor grad då vi inte (längre!) visar någon reklam på våra sidor, men det är alltid bra med många besökare när man vill visa upp sin hemsida och hitta nya återkommande användare.

PS. Vill du länka Frisim.com och visa Adsense-reklam från ditt Google-konto på vår sajt så går det fortfarande bra!

Sesam.se adderar videosök från Blinkx

Posted in Sökmotorer on juli 8th, 2007 by Clas – Kommentering avstängd

Sesam.se har adderat en sökflik för videosökning. Sökfunktionen görs ”i samarbete med Blinkx” som sägs ha 12 miljoner timmar video länkat i sitt index. Videosökningen ser ut att vara den första funktion som Sesam.se adderar som inte är direkt hämtad från Sesam.no.

Många av de sökningar jag provat leder till videoklipp hos YouTube och Google Video. Söker jag på svenska ord så är klipp hos SVT och Aftonbladet vanligt förekommande i träffslistan. För YouTube-videos länkar Sesam till Blinkx där videon visas tillsammans med länkar till relaterade videos. För Google Video-videos så länkas till Google Video, som i sin tur visar källan i en ”frame” i browsern. För träffar hos Aftonbladet och SVT länkas direkt till källan. I resultatlistan för en sökning så visas en liten, rörlig, ”video-tumnagel” för varje träff – snyggt, men lite trögladdat ibland. En videosökning på Sesam och en direkt på Blinkx verkar bara skilja sig genom att Sesam visar ett sorteringsalternativ som kallas ”mix”, utöver datum och relevanssortering.

Många videos på nätet är helt språkoberoende, men det är uppenbart genom att prova några sökningar på Sesams videosökning att sökningar på engelska ger fler resultat, tex. ger en sökning på ”funny cats” betydligt fler träffar än en sökning på ”roliga katter”. Vill Sesam vända sig direkt till svenskar och sökningar på svenska så skulle de enkelt kunna förbättra sökresultaten genom att försöka översätta svenska sökord till engelska, och komplettera söksträngen med. Antagligen skulle en enkel ”ord för ord”-översättning förbättra sökupplevelsen en del.

Google News i bildversion

Posted in Sökmotorer on juni 26th, 2007 by Clas – Kommentering avstängd

I den nyligen lanserade Google News bloggen kan jag idag läsa att Google just skapat ett alternativt gränssnitt till sin Google news där det är nyhetsbilderna som får mest plats. Gränssnittet finns även för den svenska versionen av Google News.

Google News blog

Posted in Sökmotorer on juni 24th, 2007 by Clas – Kommentering avstängd

Google har startat en utvecklingswebblog om Google News på googlenewsblog.blogspot.com. Just nu finns bara ett inlägg att läsa, men kanske är startandet av den nya bloggen ett tecken på att mer utveckling av Google News är på gång.