Archive for januari, 2009

Liten mobil uppdatering

Posted in Osorterad on januari 25th, 2009 by Clas – Kommentering avstängd

Den mobila (Iphone) versionen av Frisim har fått en liten uppdatering. Nu ser den ut såhär:


frisim mobil uppdaterad

Meningen är att det ska bli samma utseende till den ”stationära” versionen när den uppdateras nästa gång. Det tidigare utseendet kan du se i detta inlägg. Bättre eller sämre?

Nyhetsrangordning med hjälp av mikrobloggar

Posted in Osorterad on januari 18th, 2009 by Clas – Kommentering avstängd

Efter att nyfiket ha följt Battelles och Search engine lands tankar på varför inte Yahoo eller Goolge gör en sökmotor för t.ex. Twitter, så hittar jag till ett blogginlägg om TweetNews.

TweetNews är en mix av sökresultat från Yahoo News och Twitter. Grundidén är att nyhetssök, som normalt visar sökresultat i datumordning, kan förbättras genom att saker som det ”kvittrats” om på en mikrobloggtjänst som t.ex. Twitter prioriteras bland sökresultaten. Detta görs i TweetNews. TweetNews bygger på en nyhetssöknnig hos Yahoo via Yahoo BOSS som kombineras med en sökning hos Twitter. Tekniskt fungerar det så att de sökord som du skriver in används för att göra en sökning på både Yahoo och Twitter. Givet dessa två uppsättningar sökresultat så ”matchas” Twitter-resultaten mot nyheternas titlar och ingresser. Nyheter som kopplas mot flera Twitter-inlägg hamnar högre i den resulterande rangordningen av nyheterna. TweetNews är ”open source”, är skrivet i Python och är anpassad för att köras på Google App Engine.

Konceptet är väldigt likt det jag använder för att rangordna nyheter under ”Aktuellt” på framsidan av Frisim, med skillnad att där används inte data från en mikrobloggtjänst, utan data från c:a 3000 bloggar. Den matchning som görs på Frisim är ”exakt” i och med att den idientifierar länkar till nyhter i bloggposter, medan TweetNews försöker match mot ord i titel och ingress, inte mot länkningar.

Eftersom det är söndag kunde jag inte hålla mig från att bygga om TweetNews så att den är anpassad för svenska nyheter. Resultatet är FrisimBOSS. Anpassningen är att jag begränsat YahooBOSS-sökningen till bara svenska nyheter i Yahoos index, samt fixat till så att svenska tecken fungerar. Det är fortfarande Twitter som används för prioriteringen. FrisimBOSS körs även den på Google App Engine.


frisim boss

Det finns definitivt förbättringspotential. Som det fungerar nu så används en Porter stemmer för engelska och stop words är engelska ord. Det är relativt enkelt att byta dessa mot svenska motsvarigheter.

När jag blir sugen så fixar jag även det och kanske passar jag då på att bygga om den så att den använder Frisim och kanske Bloggy eller Jaiku, två mikrobloggartjänster som har större andel som mikrobloggar på svenska än vad Twitter har.

Relaterade nyheter – del 1

Posted in Frisim on januari 15th, 2009 by Clas – Kommentering avstängd

Utveckling av Frisim för att visa relaterade nyheter baserat på likheter i innehåll går framåt, sakta men säkert.

Att hitta relaterade nyheter baserat på innehåll bygger mycket på att försöka identifiera vad det är som är viktigt i nyhetsartiklarna, själva ”nyckelorden” hos dem.
För att beräkna ett ords ”viktighet” i en nyhetsartikel kan produkten (antal gånger ordet dyker upp i artikeln) multiplicerat med (ett genom andelen artiklar som innehåller ordet) användas. Detta kallas ofta TF-IDF. Det innebär att ett ord som förekommer många gånger i en artikel är mer intressanta, samtidigt som att ord som förekommer mer sällan bland artiklarna är mer intressanta. Denna avvägning mellan ord som finns ofta i en artikel och ord som finns i många artiklar gör att ord som är väldigt vanliga (som t.ex. ”och”) inte får speciellt högt TF-IDF-värde.

Detta kan alltså användas för att hitta vilka ord i en nyhetsartikel som är av större vikt än andra. Givet en lista med sådana ord för en specifik nyhetsartikel så kan andra ”relaterade nyheter” hittas genom att söka upp andra artiklar som också innehåller dessa ord och som publicerats ungefär samtidigt. Så fungerar min metod för att hitta relaterade nyheter just nu. Nedan finns en bild på hur det ser ut på min test-site.


relaterade nyheter

En massa experimenterande har också visat att stop words och stemming påverkar resultatet ganska mycket, i en positiv riktning. Tyvärr så tycker jag att utsortering av stop words och stemming minskar möjligheterna att göra bra ”normala” nyhetssökningar. Det gör att jag inte vill använda dessa vid normala sökningar, utan bara när relaterade nyheter ska hittas. En lösning hade kunnat vara att ha två index med nyhetsartiklar, en annan kanske något sämre lösning, är att försöka sålla bort stop words och göra stemming bara vid sökningen efter relaterade nyheter (query time). Jag satsar på att implementera det senare i hopp om att det ska ge ”tillräckligt bra” resultat.

Vi får se när det är klart…

Bloggy öppnar

Posted in Osorterad on januari 14th, 2009 by Clas – 2 Comments

Idag öppnar den svenska mikrobloggstjänsten Bloggy. Tjänsten har tidigare varit i ”stängd beta” baserat på inbjudningar utdelade från ägaren, Jonas Lejon, själv. Jonas (Triop AB) har publicerat ett pressmeddelande på Newsdesk. Lycka till med spridningen till nya användare! Själv är jag clas.bloggy.se, men tyävrr har jag inte riktigt kommit igång att använda den ännu, men en vacker dag (eller dagen då Jaiku stänger ner ;-) ) så kanske jag börjar…

Trendgraf med tickmarks

Posted in Frisim on januari 12th, 2009 by Clas – Kommentering avstängd

Nu har Frisim fått en justerad design på startsidans trendgraf där även antalet nyhetsartiklar/bloggar framgår någorlunda av ”tickmarks” till vänster på diagrammet.




Men det går fortfarande inte att själv besätmma vilka ord det är som ska synas i grafen, utan listan slumpas ut bland 6 stycken(?) fördefinierade.

Länkbete – hur gick det?

Posted in Osorterad on januari 9th, 2009 by Clas – Kommentering avstängd

Min webbsida för att skapa Twingly-länkar från en blogg kan betraktas som ett typiskt länkbete. Ett länkbete en sida som skapats för att locka nya besökare och länkar till sidan – och även om detta kanske inte enkom var syftet i mitt fall så känns det som den hamnar i den kategorin. Jag tänkte i alla fall summera hur det gick.

Efter tre dagar kan jag konstatera detta:

Jag kan alltså konstatera att de flesta bloggare inte genererar så många besökare till en sån här typ av sajt. Förvånansvärt många besökare kommer från Jaiku och Twitter, mikrobloggar som jag (naturligtvis) har konton på, men inte är superaktiv på.

Jag kan också konstatera att länkbeten verkar svårt. Jag tror inte att jag skulle kunna komma på särskilt många idéer av liknande slag, dvs sidor som är lite ironiska eller roliga, och som jag kan skapa på mindre än, säg, 4 timmar. Twingly-länk-sök-funktionen var en idé som passade min befintliga sökmotor-funktion väldigt bra, vilket gjorde att åtminstone jag tyckte att det blev ”mycket resultat” på kort tid. Orginalidén kom dessutom från en norsk sajt så den har jag inte ägnat någon tid alls. Statistiken kan t.ex. jämföras med den för min Spotify-playlist-sida, vilket är en sida som också tagit c:a 4 timmar att utveckla, som hade 100 unika besökare under sina första tre dagar.

Reaktionerna från de som sett sidan har också varit lite olika, allt från ”oj, det måsta jag prova” (en reaktion som jag tolkar som att sajten faktiskt skulle kunna fylla ett behov för vissa), men också reaktioner som ”det funkar ju inte” (en kommentar som belyser att boolean-sökningar inte är perfekta om man vill hitta t.ex. nyheter inom ett specifikt tema, snabbt). Den erfarenhet jag fått är att eventuella nya ”länkbeten” inte ska innehålla något som kan kopplas eller tolkas som ”hora”. Ett namn som t.ex. Twingly-kung hade varit bättre men antagligen inte lika ”påträngande”.

Varför gör jag länkbeten? Ja, varför programmerade jag så kallade ”demos” på C64 och Amiga för en massa år sedan? Det är inte för att jag måste ha mer trafik, och det är inte för att kunna visa mer reklam. Antagligen för att det är för det är kul att programmera, men att det kräver för mycklet ”uppmärksamhet” och koncentration från min sida att programmera saker som inte är klara under en programmeringssession. Ur ett rent besökarperspektiv är länkbetet en flopp. Dock hade det varit enklare och ”billigare” att köpa 700 besökare via Adwords, men det ger nog få inlänkningar. Men visst, sätt upp en webbsida och försök få 700 besökare till den utan att posta i många forum och utan att länka från dina egna sajter – det är nog rätt tidskrävande det också. Detta länkbete var alltså typisk nöjesprogrammering: lite kod och snabbt resultat, men ingen nytta.

PS Det är inte meningen att du ska känna dig ”lurad” om du länkar till ett ”länkbete”. Tanken är att det är en så pass bra eller kul grej så att det verkligen är värt att besöka den. Det handlar inte om att försöka lura till sig besökare. DS

Twinglyhora? Räddningen är nära!

Posted in Frisim on januari 6th, 2009 by Clas – 4 Comments

Vet du att du kan få besökare från nyhetssajter genom att länka till dem i dina blogginläggg. Jaja, det vet ju alla bloggare. Pingar du Twingly och länkar en nyhetsartikel på en nyhetssajt som använder Twingly så länkar sajten tillbaka till ditt blogginlägg – så har det varit en tid nu. Flera bloggar i Sverige får en icke-försumbar andel av sina besökare på det sättet, se t.ex. här.

Så nu har det kommit till Sverige: Twingly-horans favoritverktyg. Baserat på en norsk föregångare, så har nu Twingly-hor-sök kommit. Som ni har väntat på denna! ;-)

Twingly-hor-sök låter dig hitta alla nyhetsartiklar som du kan länka till från din bloggpost för att maximera antalet nya besökare till din blogg. Gör såhär:

  • Fundera ut något dagsaktuellt ämne som du vill skriva om på din blogg.
  • Gå till Frisims Twingly-hor-sök och skriv en ett nyckelord i ämnet.
  • Se till att länka alla nyhetsartiklar som hor-sök föreslår. Pinga Twingly. Success!


horsök

Mottagandet från bloggosfären har varit förträfflig ;-) TheRealMymlan var först ut att prova, och har skapat ett fantastiskt exempel på hur man använder verktyget för litet seriöst Twinglyhorande. Beta Alfa skriver, länkar, och sammanfattar. Jardenberg ger den träffsäkra kommentaren ”Gah. Det där behövdes inte”.

Notera: Twinglyhora är ett ”begrepp” inom den svenska bloggosfären som beskriver fenomenet att länka många nyhetsartiklar från sin blogg i hopp om att få trafik från nyhetssajter. Du kan läsa en reflektion över detta på SameSamebutDifferent, där det framgår att det inte behöver vara så illa som begreppet kanske låter.

Med ett mått av ironi så har jag alltså byggt en version av min nyhetssökmotor som är begränsad till de nyhetssajter som använder Twingly. Alla länkar som denna version av sökmotorn hittar leder alltså till en nyhetsartikel som kommer att länka tillbaka om det är så att du länkar till den i ditt blogginlägg och pingar Twingly. Tekniskt så är det en nästan exakt ”kopia” av min sajt Nyhetsfilter som jag satte ihop på c:a 3 timmar. Säkert hälften av den tiden gick åt för att skapa loggan (nope, jag är inte så bra på att använda ritprogram).