Archive for maj, 2008

Coola saker att göra när jag orkar ta mig tid

Posted in Osorterad on maj 28th, 2008 by Clas – Kommentering avstängd

Google öppnar imorgon Google App Engine för alla, samtidigt som de tar bort begränsningen på max 500MB lagrad data. Prislistan blir:

Användare får betala mellan 10 till 12 cent per processorkärna och timme samt mellan 15 till 18 cent per gigabyte lagrad data och månad. Till det kommer trafikavgifter. 11 till 13 cent per utgående gigabyte och mellan 9 till 11 cent per ingående gigabyte.

När jag har tid vill jag flytta in term-vector-data från Frisims index till Googles ”datastore” Big Table för lagring, och använda Google App Engine för att beräkna nyhetskluster.

————

Amazon har färdiga images för att köra Hadoop på EC2. När jag får tid ska jag sätta upp ett litet kluster av Hadoop-noder och se hur det fungerar. Amazon EC2 har också färdiga ”images” av operativsystem för att köra Hadoop MapReduce för distribuerade datahantering. När jag har tid ska jag prova hur denna typ av distribuerade processning fungerar i ett litet Amazon EC2-kluster. Vet inte rikitgt vilken typ av nyhetsdataanalys som är intressant att gör på dessa vis, men det ska nog gå att hitta på något.

Eniro, RSS och åter RSS

Posted in Osorterad on maj 22nd, 2008 by Clas – Kommentering avstängd

Eniro lanserar sin Supersök. Det innebär att man, likt Sesam, får se sökträffar från flera av Enrios databaser på en och samma sökning. Nyhetsresultat finns också med.

Gota media bestämmer sig för att skicka med hela hela artiklarna i flera av sina tidningars RSS-feeds. Jag har skivit om hela artiklar i RSS tidigare. De väljer dock att inte ta med hela artikeln om det är så att den kommer från TT, av någon anledning.

Konceptet på AideRSS fascinerar mig. Jag funderar lite smått på om det inte går att göra en liknande tjänst fokuserad på svenska nyheter. Tanken blir då att du tar en eller flera RSS-feeds från en eller flera tidningar och tjänsten mixar ihop den till en, men den lägger bara in sådana inlägg (nyheter) som har väckt viss uppmärksamhet från ”andra nyhetsläsare”. Mått på uppmärksamhet bygger man nog enklast genom att samla data från tjänster som del.icio.us, jaiku, twitter och från bloggar. Låter det användbart?

Techmeme sökbar med Lucene

Posted in Sökmotorer on maj 20th, 2008 by Clas – 2 Comments

Min favorit bland engelskspråkiga teknik-nyhets-insamlar-sidor Techmeme har idag lagt till en sökruta. De verkar använda Lucene som sökmotor.

Sphinx, Lucene och… Minion

Posted in Sökmotorer on maj 20th, 2008 by Clas – Kommentering avstängd

Sun har lanserat en sökmotor vid namn Minion som ”open source”. Minion ser lite intressant ut. Flera av de ”finesser” som finns, som lagom smart ”stemming”, verkar bara vara utprovat för engelska tyvärr. Tydligen ska indexeringen vara snabbare med Minion än med Lucene, men ingen jämförelse finns med t.ex. Sphinx.

Snubben som verkar jag gjort större delen av jobbet bloggar om jämförelser mellan Lucene och Minion på sin Sun blogg. Där länkar han bl.a. till en föreläsningsfilm som tar upp lite typiska sökmotorkonstruktionsproblem, men den handlar tyvärr inte om Minion specifikt.

Jaikugenererad Google-intervju

Posted in Sökmotorer on maj 16th, 2008 by Clas – Kommentering avstängd

Jag skrev tidigare lite om svenska Google News och spekulationerna om att den inte innehåller artiklar från TT.

Bison@Jaiku lät meddela att han skulle intervjua de två ”publika” personer som jobbar på Google Sverige, och ville ha frågor till intervjun från Jaiku-användare. Jag kunde inte hålla mig, och önskade att han frågade dem om ryktet om Google News och TT var sant. Bison-Fredrik ställde den frågan, och många andra, och presenterar intervjun på sin blogg. På frågan som Google News så var svaret detta:

Michael Zackrisson: Varför är svenska Google News så sunkig? Finns några ambitioner att göra den mer heltäckande? Och att t ex. låta användare söka i flera olika språk? Clas Rydergren: Det vore intressant att höra hur ni ser på utvecklingen av Google News Sverige utan samarbete med TT.

Nicklas: Meh! Sunkig? Det tycker inte jag den är, men okej, jag är ju partisk. Tricket är ju att en nyhetsaggregator blir ju bättre ju fler källor den har och det där kan växa över tid. Vi utvecklar den även genom olika samarbeten. Om vi har missat någon bra nyhetskälla får ni gärna tipsa om den så att vi kan lägga in den och göra tjänsten ännu bättre.

Zackrisson@Jaiku, som ställde första-frågan, bloggar om svaret hos VA.se. Även andra har kommenterat intervjun.

Nu blev svaret på Google News-frågan inte så intressanta, men sättet att få ihop intervjufrågor är intressant. Speciellt intressant blir det på grund av att Bison@Jaiku har många ”kompisar” bland sina Jaiku- followers som är relativt väl insatta i Googles verksamhet.

Nettopp.se blir Frisim.com/kategori

Posted in Frisim on maj 2nd, 2008 by Clas – Kommentering avstängd

I slutet på mars så blev mitt ”utkast” till lista med kategoriserade nyhter och bloggar redo för uppstart. Den kategoriserade listan fick det norskklingande(?) namnet Nettopp och jag snodde designen rakt av från ”internetkändisen” Guy Kawasakis listsajt Alltop.com.

Nettopp.se såg vid uppstarten ut såhär:


gamla nyhetskatalogen

Alltop.com, som lanserade i början av mars, verkar ha nått viss framgång. Framgången för min ”kopia” är, inte helt oväntat, betydligt blygsammare. Utseeendet med ”remsan” över texten verkar inte rikitgt tilltala någon större massa.

Istället för att bara kasta bort hela idéen så har jag nu tagit konceptet och flyttat över det till Frisim/kategori. Domännamnet lägger jag på hyllan. Samma listor med kategoriserade nyheter och bloggar har nu fått ett ”Frisim-utseende” och ser nu ut såhär:


new nyhetskatalogen

Anledningen till att jag byggde mig en Alltop-kopia från början var inte i första hand för att jag tyckte det verkade vara så roligt att samla ihop en massa källor och försöka kategorisera dem, utan tanken var att kunna utnyttja en kategorisering i ett framtida förbättrat sök på Frisim.com.

Tittar man på vad som skrivits om Alltop på Twitter så kommer Alltop säkert att göras sökbar inom kort. En annan indikation på att kategoriserat sök bör ”funka” är det svar jag fick från Guy när jag berättade om min svenska Alltop-version:

Hi Guy,

I have studied your new site Alltop.com. I got so impressed that I made my own, Swedish-only, version. You can see it at nettopp.se. The design of my version is really similar to yours, but I hope that this is okey with you?

Currently, my version does not include nearly as many blogs and news sites as Alltop, but I am working on that. For American news categories (those who interest me) I have linked diretly to your Alltop.com instead of constructing similar pages myself. I have some plans for my version of the site. I also run a search engine for Swedish-only blogs and news. My idea is to use the manual categorisation I make for nettopp.se to construct small vertical search interfaces – so that it will be possible to search, for example, only sources about ”social media”. What do you think about that?

Good luck with Alltop.

Regards
Clas

Hans svar är kort:

Clas,

Thanks for your message. I’m glad that you like Alltop so much, and I appreciate the links. I think your vertical search engines is a good idea.

All the best to you.
Guy

Exakt hur jag ska utnyttja kategoriseringen vid sökningar återstår fortfaranade att fundera på…

Bloggar som skrivit om Nettopp-tjänsten är: Disruptive.nu om action speaks louder then(sic!) words!, SvDs Per Åström om linkr.se (RSS, KIS och konsten att utföra) och ClaJoh om Nettopp, Alltop fast på svenska.

Du hittar de kategoriserade nyheterna på Frisim.com/kategori. Fortsätt gärna att föreslå bloggar som du tycker borde vara med på listan. Vill du föreslå många bloggar till en ny, egen, kategori så går det också bra :-)

Play Frisim

Posted in Frisim on maj 1st, 2008 by Clas – Kommentering avstängd

När nu SVT skapat en fantastisk nyhetswebbplats på PlayRapport så är det ju synd att inte utnyttja möjligherna fullt ut. Så efter att ha provat lite lite med att ”bädda in” webb-tv-inslagen på webbsidor, och när nu de värsta buggarna är fixade, så provar jag att visa nyhetsinslagen direkt på Frisims startsida.


playfrisim

Förhoppningsvis innebär det inte att sidan blir allt för trögladdad.

Det är inte bara infogandet av nyhetsfilmerna som justerats, utan numera är det bara innehållet i den vänstra spalten som ”byts ut” genom klick på flikarna. (Anledningen till att detta gjordes om är mestadels att det var [för] lurigt att få till dynamiskt laddade data, som laddar dynamiska data. Jag är helt enkelt riktigt överens med Internet Explorer om hur ID-referenser uppdateras i HTML när man laddar innehållet dynamiskt med Ajax.) Jag använder, som tidigare, jQuery för Javascript-programmerandet, och webb-tv-inslagen visas med hjälp av en jQuery plug-in med namnet FancyBox.