Frisim


Frisim20 Jul 2008 11:25 am

Nu har Frisim feedCache implementerats på Nyhetsrubriker och Nyhetsfilter. På Nyhetsrubriker.com har det tillkommit en sida som försöker beskriva hur du kan visa och anpassa intressefokuserade nyheter till din hemsida.


nyhetsrubriker feedcache

Sajten Nyhetsrubriker.com skapade jag år 2001 så det är lite nostalgi att uppdatera den såhär nästan precis 7 år senare.

Frisim18 Jul 2008 09:48 pm

Efter att ha tittat runt lite på hur “moderna” widgets ser ut (t.ex. på Knuff.se, Twingly.com och några till) så har jag knåpat ihop en widget i form av en enkel “nyhetsruta” till Frisim feedCache. Den är inte så avancerad, men förhoppningsvis så kan enkelhet vara tilltalande.

En kort beskrivning av hur den konfigureras finns på Frisim feedCache och det finns också en exempelsida där jag provat att inkludera nyhetsrutan.


frisim feedcache nyhetsruta

Frisim17 Jul 2008 12:41 pm

En av mina semesterdagar har jag sysselsatt mig med ett nytt Frisim-projekt som jag kallar Frisim feedCache.

Vad är Frisim feedCache?

Frisim feedCache kan enklast jämföras med Feedburner, som är en plattform för att distribuera RSS-feeds. Skillnaden är att Frisim feedCache, åtminstone till en början, är begränsad till feeds för just Frisim.com, men också att feedCache inte bara distribuerar RSS, utan bland annat data i Javascript, JSON, hela “widgets” och andra format.

Hur ser Frisim feedCache ut?

Frisim feedCache har egentligen inget utseende, men det finns i alla fall en preliminär webbsida som visar hur feedCache kan användas. Den sidan ser just nu ut såhär:


Frisim feedChange Screenshot

Varför har jag gjort detta?

Frisim har relativt begränsade server-resurser. Frisim kör idag på en endaste server (co-located hos Netcamp.se här i Linköping). Även om det finns ett system som kan ta över om denna server skulle krascha fullständigt så görs alla sökningar och alla anrop mot denna server. Servern får idag utstå relativt många anrop per sekund, och även om den inte har några som helst problem med det idag, så skulle jag gärna vilja att många fler använder våra nyhets- och blogg-data. Många av anropen mot servern är automatiserade och ställer samma “sökfråga” gång på gång. Detta gör att jag gärna vill mellanlagra sådana sökningar så att själva letandet i sökindexet inte behöver upprepas allt för ofta. Frisim feedCache gör denna mellanlagring och tanken är att det ska avlasta Frisim-servern i framtiden. Frisim feedCache kommer också att kunna användas för mina “undertjänster” Nyhetsrubriker och Nyhetsfilter.

Hur är det byggt?

Eftersom tanken är att avlasta vår Frisim-server, och kunna skala för massvis av användare, så använder feedCache Google App Engine. Frisim feedCache är programmerat i programspråket Python och är c:a 300 kod-rader. Scriptet använder Googles Datastore för att lagra data.

När är det klart så att även andra kan prova?

I sann “Summer of Code [Twingly video]“-anda så är det inte så noga med deadlines ;-) Frisim feedCache är “klar” i den mening att den går att använda, men det återstår lite testning, och lite slipande på Javascript-widgets. Det går att besöka Frisim feedCache, och en RSS-feed med en ren bloggsökning på ordet [google] kan redan nu ses på länken:

http://feedcache.frisim.se/?q=kategori:bloggar%20google&o=rss

Vill du beta-testa, utforma en widget, eller har något annat förslag, så lyssnar jag gärna.

Uppdatering: Nu har feedCache fått en subdomän under Frisim.se, kopplad till Google Apps. Det har också kommit upp lite mer instruktioner på webbsidan.

Frisim08 Jul 2008 09:00 pm

Lite inspirerad av Twingly och lite av Bloggz så har jag, i utvecklings-versionen av Frisim, lagt till språkidentifiering. Jag har 18 “europeiska” språk som jag försöker identifiera. Identifieringen görs genom att jämföra frekvensen av n-gram mellan texter på olika språk. Jag har använt texter från Wikipedia på de 18 språken, genererat de 1000 mest förekommande n-gram:en från varje, och använder detta för att jämföra insamlade data mot. Jämförelsen resulterar i en “rangordning” av de 18 språken, och det med “minst avstånd” till n-gram:en för den insamlade texten väljs. I det fall som rangordningen inte blir så tydlig (avståndet mellan första och andra språket är litet) så väljer jag svenska som någon form av “default-språk”.

Data som indexeras märks nu upp, på samma sätt som t.ex. källan anges, med ett språk. Det gör att det går att t.ex. begränsa sökningen till blogginlägg på svenska (eller engelska, eller bara de två, osv.).

Jag har ännu inte riktigt bestämt vad jag ska göra med språk-kategoriseringen. Mycket av det som idag kommer in i indexet men som inte är på svenska är (i någon mening) att betrakta som SPAM. Rimligen borde jag kasta ut allt som inte är på svenska, men det beslutet har jag inte tagit ännu. Kanske ska jag istället aktivt börja samla in (bra) material på andra språk.

Förhoppningsvis kommer jag att kunna flytta över språkidentifieringen till produktions-versionen av Frisim innan semestern är över.

Jag måste också ge lite cred till Kevin Burton (han med Tailrank och Spinn3r) för hans Java-kod som jag delvis har byggt min kod på. Artikeln som beskriver metoden finns hos CiteseerX.

Uppdatering: Nu har jag “provkört” språkkategoriseringen på lite mer data, och det verkar fungera ungefär som väntat. Den är lite kass på att skilja på svenska, norska och danska, det måste åtgärdas genom att skapa lite bättre “corpus” för de språken, och det blir problem med blogginlägg som är skrivna på flera språk. Blogginlägg som t.ex. detta klassas som skrivet på engelska, även om det innehåller lite text på svenska. Tveksam hur man vill klassa ett sådant inlägg. Twingly har kategoriserat det som bara svenska men Bloggz verkar inte ha det inlägget i sitt index (vilket antyder att det är bortsållat för att det inte är på svenska).

Frisim09 Jun 2008 11:05 pm

För första gången i Frisims historia har jag noterat att det har blivit “rundgång” i nyhetsinsamlandet. Jag noterade att domänan Frisim.com plötsligt flaggades som en av de domäner som betraktas som nyhetskälla till Frisim (inte bara blogg-källa alltså). Det verkade konstigt… Anledningen till att det kan hända är att någon blogg har länkat till en nyhetsartikel genom att klippa och klistra in ett par nyhetslänkar som leder via Frisims klickräknings-script. Eftersom Frisim tyckte sig “förstå” att länken går till en nyhet, och då URL:en inte finns indexerad så indexeras den (igen) och Frisim står som ägare och adderas därför bland källorna.


rundgång

Det resulterar bl.a. i att en sökning begränsad till domänen frisim.com (som i bilden ovan) visar att det finns två nyheter från nyhetskällan Frisim. Klick på dessa nyheter kommer dessutom att passera klickräknings-scriptet två gånger. Buggen kommer förhoppningsvis inte att dyka upp så ofta, men den visar i alla fall att konstigheter kan inträffa är man programmerar sökmotorer, som om jag inte redan visste det ;-)

Frisim02 Maj 2008 08:55 am

I slutet på mars så blev mitt “utkast” till lista med kategoriserade nyhter och bloggar redo för uppstart. Den kategoriserade listan fick det norskklingande(?) namnet Nettopp och jag snodde designen rakt av från “internetkändisen” Guy Kawasakis listsajt Alltop.com.

Nettopp.se såg vid uppstarten ut såhär:


gamla nyhetskatalogen

Alltop.com, som lanserade i början av mars, verkar ha nått viss framgång. Framgången för min “kopia” är, inte helt oväntat, betydligt blygsammare. Utseeendet med “remsan” över texten verkar inte rikitgt tilltala någon större massa.

Istället för att bara kasta bort hela idéen så har jag nu tagit konceptet och flyttat över det till Frisim/kategori. Domännamnet lägger jag på hyllan. Samma listor med kategoriserade nyheter och bloggar har nu fått ett “Frisim-utseende” och ser nu ut såhär:


new nyhetskatalogen

Anledningen till att jag byggde mig en Alltop-kopia från början var inte i första hand för att jag tyckte det verkade vara så roligt att samla ihop en massa källor och försöka kategorisera dem, utan tanken var att kunna utnyttja en kategorisering i ett framtida förbättrat sök på Frisim.com.

Tittar man på vad som skrivits om Alltop på Twitter så kommer Alltop säkert att göras sökbar inom kort. En annan indikation på att kategoriserat sök bör “funka” är det svar jag fick från Guy när jag berättade om min svenska Alltop-version:

Hi Guy,

I have studied your new site Alltop.com. I got so impressed that I made my own, Swedish-only, version. You can see it at nettopp.se. The design of my version is really similar to yours, but I hope that this is okey with you?

Currently, my version does not include nearly as many blogs and news sites as Alltop, but I am working on that. For American news categories (those who interest me) I have linked diretly to your Alltop.com instead of constructing similar pages myself. I have some plans for my version of the site. I also run a search engine for Swedish-only blogs and news. My idea is to use the manual categorisation I make for nettopp.se to construct small vertical search interfaces - so that it will be possible to search, for example, only sources about “social media”. What do you think about that?

Good luck with Alltop.

Regards
Clas

Hans svar är kort:

Clas,

Thanks for your message. I’m glad that you like Alltop so much, and I appreciate the links. I think your vertical search engines is a good idea.

All the best to you.
Guy

Exakt hur jag ska utnyttja kategoriseringen vid sökningar återstår fortfaranade att fundera på…

Bloggar som skrivit om Nettopp-tjänsten är: Disruptive.nu om action speaks louder then(sic!) words!, SvDs Per Åström om linkr.se (RSS, KIS och konsten att utföra) och ClaJoh om Nettopp, Alltop fast på svenska.

Du hittar de kategoriserade nyheterna på Frisim.com/kategori. Fortsätt gärna att föreslå bloggar som du tycker borde vara med på listan. Vill du föreslå många bloggar till en ny, egen, kategori så går det också bra :-)

Frisim01 Maj 2008 03:11 pm

När nu SVT skapat en fantastisk nyhetswebbplats på PlayRapport så är det ju synd att inte utnyttja möjligherna fullt ut. Så efter att ha provat lite lite med att “bädda in” webb-tv-inslagen på webbsidor, och när nu de värsta buggarna är fixade, så provar jag att visa nyhetsinslagen direkt på Frisims startsida.


playfrisim

Förhoppningsvis innebär det inte att sidan blir allt för trögladdad.

Det är inte bara infogandet av nyhetsfilmerna som justerats, utan numera är det bara innehållet i den vänstra spalten som “byts ut” genom klick på flikarna. (Anledningen till att detta gjordes om är mestadels att det var [för] lurigt att få till dynamiskt laddade data, som laddar dynamiska data. Jag är helt enkelt riktigt överens med Internet Explorer om hur ID-referenser uppdateras i HTML när man laddar innehållet dynamiskt med Ajax.) Jag använder, som tidigare, jQuery för Javascript-programmerandet, och webb-tv-inslagen visas med hjälp av en jQuery plug-in med namnet FancyBox.

Frisim27 Apr 2008 09:35 am

Frisim har fått en färggrannare sökresultatsida i och med att länkar till nyheter, bloggar och pressmeddelanden nu visas i olika färger.


frisim i färg

Idén om färgningen kommer från DagensPS kommande nyhetsbevakare PSSpy.se som gör en liknande färgning för nyheter och bloggar. Kullin.net “avslöjar” PSSpy i detta inlägg. Kanske skriver jag mer om PSSpy när den lanseras.

Frisim25 Apr 2008 09:40 pm

Detta inlägg skulle också kunnat få titeln “Ibland är det bra med en hemsida som inte så många besöker” eller kanske “Clas betalar TV-licens”.

Frisims startsida har uppdaterats med bilder från SVTs alldeles fantastiska sajt PlayRapport. På PlayRapport finns de senaste nyhetsinslagen från SVTs Rapport. Helt klart ett steg i rätt riktning när det gäller nyhetsmaterial på nätet, i alla fall för material i TV-format. Så här ser den “kontaktkartan” med nyhetsinslagsbilder på startsidan ut.


playrapport

Varje bild är en länk som leder direkt till PlayRapport; ett klick och du kommer till PlayRapport som startar med att visa det inlägg bilden handlar om.

Tyvärr så saknar PlayRapport en publik RSS-feed vilket gör att jag blev tvungen att “hacka” lite för att kunna ladda data från PlayRapport för att visa på Frisim. Bilderna laddas dessutom direkt från SVTs server. Men, eftersom 1) inte sååååå många besöker Frisims startsida, 2) Clas betalar TV-licens, och 3) SVT är så snälla, så kommer SVT att tycka att detta var en jättebra idé och istället för att maila och be mig ta bort länkarna så kommer de att kommentera här i bloggen och tacka, och dessutom länka RSS-feeden på sin hemsida - kanske…

Till SVT.se: Er möjlighet för att kunna visa nyhetsinslag på den egna hemsidan (link/embed) verkar inte fungera. Den ger “Det här klippet är inte längre tillgängligt”-fel vid varje försök utom för “demoklippet”.

Frisim30 Mar 2008 02:13 pm

Nu finns det en publik alfa-version av Nettopp. Som jag skrev i mitt inlägg om Alltop så är sajten en nyhetskatalog i form av en lista med kategoriserade bloggar och nyheter. Just nu finns bara c:a 150 bloggar inlagda, men tanken är att det ska bli fler, förhoppningsvis med lite hjälp. Det är bara bloggar som skrivs på svenska som är inlagda. Såhär ser huvudsidan ut:


Nettopp1

och varje kategorisida ser ut såhär:

Nettopp2

Förhoppningen är att det blir stor bredd på kategorierna, men att urvalet av källor till varje kategori ska göras så att de upplevs relevanta och med med hög kvalitet. Antalet kategorier, och vilka, får jag justera vartefter jag ser hur svårt det är att hitta bra källor inom kategorierna. Redan nu kan jag konstatera att det (faktiskt) finns en rätt stor brist på “rikitga” kattbloggare.

I sann “web 2.0″-anda så bryr jag mig inte om att lägga till det enorma utbud av amerikanska bloggar som finns för varje kategori, utan jag har helt enkelt länkat till de jag tyckte var mest intressanta hos Guy Kawasakis Alltop. De finns samlade under “Hos Alltop”.

Alfa-version av Nettopp är ungefär lika spännande som Alltop.com är, men med betydligt färre källor inlagda. Finessen med Nettopp är att jag drar all nyhets- och bloggdata genom sökindexet i Frisim. Det gör att all data som visas på Nettopp, och de fullständiga blogginläggen och nyhetsartiklarna är “analyserade” och blir sökbara. Tanken är att det ska gå att göra något bra av det. Hur bra det blir återstår att se, men gissningsvis beror det lite på hur mycket tid jag lägger ner ;-) En sak är dock säker: eftersom bloggarna läggs in manuellt så blir resultatet bättre om du tipsar mig om din blogg, eller ännu hellre, tipsar mig om alla bra ämnesfokuserade bloggar som du brukar läsa. Det finns ett fint Ajax-baserat formulär (bygger på MooTools) för att bidra. Vill du bidra med många bloggar eller med en helt ny kategori funkar nog mail bättre. Självklart får du som bidrar med bloggtips “cred” på sajten. Så, prova nu Nettopp.se.

Next Page »