Archive for september, 2008

Frisims mobila version uppdaterad

Posted in Frisim on september 20th, 2008 by Clas – 1 Comment

Frisims mobila version har justerats något. Utseende har anpassats för att fungera något lite bättre på en iPhone. Förändringen är att text och navigeringsknappar har gjorts större, och att sökrutan finns med.


frisim mobil iphone

Precis som tidigare så länkas nyheterna till en mobilt anpassad version av artiklarna. För de källor som har en liknande länkstruktur på den normala- och mobilsidan länkas till mobilsidan (just nu bara hos Aftonbladet och Expressen) och andra nyhetssajter länkas till genom Googles ”mobil-gateway”, som ser till att texten blir lagom stor och att reklam och bilder inte behöver laddas.

Sökningarna leder till den normala söksidan, som i sig funkar ”okej” i mobilen, men som då visar länkar till nyhetssajternas ”riktigt”, oftast ej mobilanpassade sidor. iPhone-surfare som går till Frisim.com skickas nu vidare till mobilversionen.

Meddelande från yttre rymden?

Posted in Osorterad on september 17th, 2008 by Clas – Kommentering avstängd

Det finns mycket konstigt på internet. Efter c:a 15 års forskande tror jag att jag i alla fall hittat det konstigaste som skrivits om denna blogg:




Tyvärr är orginalinlägget försvunnet, men Google cache har det. Men bloggaren har faktiskt helt rätt, varken Frisim nyhetssök eller denna blogg tror på UFO:n ;-)

PS. Vill någon förklara vad det handlar om så är jag tacksam :-) Kanske rör det sig om något så jordnära som en blogg som vi inte lyckas indexera, eller så. DS

Saplo – Go go go (ogle)

Posted in Osorterad on september 14th, 2008 by Clas – Kommentering avstängd

Nya Lunda-företaget Saplo ser intressant ut. Företaget var ett av flera svenska företag som var med på SeedCamp i London, i början av september. Saplo var ett av de företag (den enda svenska?) som gick vidare till steg 2 i ”tävlingen”.

Problemet som Saplo förväntas lösa är lite oklart, men det handlar om automatisk textanalys. Det verkar som om investerare gärna ser internetreklam som ett lönsamt användningsområde (dvs att men kan skapa en konkurrent till Google Adsense). Saplo sägs stå för ”semantiska applikationer” så kanske har man även tänkt sig fler, mindre lukrativa(?), tillämpningar. Tanken är att utveckla dagens ”ordbaserade” analyser av texter till att omfatta ”förståelse”, för att t.ex. kunna avgöra om ett företagsnamn omnämns i ett positivt eller negativt sammanhang. Andra svenska företag som pysslar med liknande tekniker är AItellU, Apptus och några till lite mer anonyma. Saplo verkar baserat på erfarenheter från Sverker Silkströms forskning och ett exjobb av Industriell ekonomi-studenten Mattias Tyrberg. Saplo sägs bygga på ”artificell intelligens”, vilket i sammanhanget brukar betyda neurala nätverk i en eller annan form.

Frisim har inte riktigt samma approach som t.ex. Saplo. Jag kör ”programmera fört, beskriv sen”-approachen, men jag önskar verkligen att Saplo lyckas lansera något som vi alla får prova. Lycka till, Saplo!

Uppdatering: Enligt Allabolag.se så är verksamhetsbeskrivningen för Saplo AB:

Bolagets verksamhet ska vara att idka försäljning av internet produkter och tjänster företrädelsevis skapande av hemsidor och portaler som kommer att drivas i egen regi, försäljning av produkter, försäljning av tjänster inom språkanalys, omvärldsbevakning, skapande av nyhetsportal, drift av sökmotor. aktiebolaget har även verksamhet inom it produkter företrädelsevis mot språk och artificiell intelligens samt konsultverksamhet företrädelsevis utbildningar och utveckling av språkanalys.

Innehållsbaserade nyhetsrekommendationer

Posted in Frisim on september 14th, 2008 by Clas – 1 Comment

Jag skrev under sommaren på en kort text om att skapa listor med relaterade nyheter till nyhetsartikar på nätet. Inledningen finns nedan, resten i denna PDF.

Automatiskt genererade rekommendationer kan användas för att sålla i det informationsflöde som finns på Internet idag. Rekommendationssystem på Internet brukar klassificeras som innehållsbaserade (content-based) eller användarfiltrerade (collaborative filtering). De innehållsbaserade bygger på textanalys, medan de användarfiltrerade bygger på insamlade surfbeteenden hos nuvarande och tidigare besökare och besök. Dessa surfbeteenden kan vara insamlade från den egna sajten och/eller från andra sajter, som t.ex. socialmedia-sajter.

Den typ av rekommendationer som verkar vara vanligast förekommande på Internet idag rekommenderar produkter att köpa. Givet att du har lagt t.ex. en bok i e-handelssajtens virtuella varukorg så får du förslag på andra böcker som du kanske också skulle vara intresserade av att köpa. Denna typ av rekommendationer kan ha ett kommersiellt värde om de ökar försäljningen, eller ökar besöksintensiteten på webbsajten. För en specifik webbtjänst är det också relativt enkelt att utvärdera effekten av denna typ av rekommendationer, t.ex. genom före-/efter-studier.

Rekommendationen kan endera vara generell eller personligt anpassad. För att göra personliga anpassningar tittar man vanligen på vad besökaren tidigare besökt för sidor på webbsajten, vilka länkar besökaren klickat på, och vad personen köpt eller klickat på vid tidigare besök. För att implementera denna typ av automatiska system för rekommendationer ställs stora krav på informationhantering. Information om hur olika sidor eller produkter hänger ihop behöver skapas, och ska rekommendationen vara personlig så krävs också snabbt tillgänglig besöksstatistik. Både besöksstatistiken och informationen om hur sidorna eller produkterna hänger ihop måste kunna uppdateras snabbt när det tillkommer nya sidor eller produkter.

Att rekommendera ytterligare läsvärda nyhetsartiklar till en läsare av en nyhetsartikel kan även det ha ett kommersiellt intresse. Det är inte, på kort sikt, uppenbart att en nyhetssajt ”gör mer pengar” om du läser en artikel till, jämfört med att t.ex. klicka sig vidare på en annons, men på lång sikt så leder rimligen ett väl fungerande rekommendationssystem till fler sidvisningar och fler nöjda besökare.

Många nyhetssajter har redan idag en lista med länkar till andra nyhetsartiklar på sina start- och artikelsidor. Ofta är det en topplista med artiklar med flest besökare, eller liknande. Dessa länkar är oftast inte anpassade för en aktuell nyhetsartikel, och är heller inte personligt anpassade mot den specifika besökaren. Även om det tidigare skapats försök mer personligt anpassade nyhetsrekommendationer (t.ex. på den numera nedlagda Findory.com, http://www.findory.com), så, beroende på informationstillgången, är det generella, opersonliga rekommendationer, som känns aktuellt att implementera på befintliga nyhetssajter idag. Dagens nyhetssajter har relativt få besökare som är inloggade, och nyhetssajterna har oftast inte något system där besökaren kan visa sina nyhetspreferenser på andra sätt än att klicka runt och läsa nyhetsartiklar. Rekommendationssystem för nyhetsartiklar är därför oftast innehållsbaserade (content-based).

Denna text fortsätter med att beskriva ett antal tidigare publicerade metoder och system för gruppering och rekommendation av nyheter baserat på artikelinnehåll. Sedan följer en sektion som innehåller ett tänkt upplägg för innehållsbaserade rekommendationer för nyhetsartiklar. Upplägget syftar till att ta fram ett system för rekommendatione som kan visas på befintliga artikelsidor, rekommendationer som bygger på att besökaren besökt en artikelsida, funnit den intressant, och vill läsa flera relaterade artiklar.

Resten av texten kan du läsa i denna PDF.

Jag har gjort en del tester av de metoder som förslås i texten, men som vanligt så kan jag (eller rättare sagt, är jag inte så sugen) på att lägga massvis med ”fritid” på detta. Projektet har delvis ”hängt upp sig på” att ett Open Source program som jag tänkt använda inte fungerar riktigt som jag hoppades. Förhoppsningsvis så hittar jag något sätt att komma runt det.

Google nyheter, nya som gamla

Posted in Osorterad on september 9th, 2008 by Clas – Kommentering avstängd

Google News utmärker sig i dagarna med ”gamla nyheter” i dubbel bemärkelse.

Google har ”utvidgat” sitt Google Books-koncept till dagstidningar och har börjat scanna dagstidningar för att kunna erbjuda sökningar i den via Google News. Som vanligt så startar de i liten skala och med en version som är begränsad till engelskspråkigt material.

Google News har också råkat ut för ett mindre missöde då de lyckades ”omindexera” en nyhet från 2002 och visat upp den som om den publicerades igår. Google skriver om det på sin blog. Artikeln som dök upp som ny handlar om en gammal rekonstruktion av företaget United Airlines. Artikeln hamnade i Google News index, plockades via Google Alert upp och hamnade i ett aktie-nyhetsbrev. United Airlines aktiven gjorde en rejäl dykning, 75% enligt di.se. Google News kan ha ett grymt genomslag ibland.

Frisim har inte riktigt samma genomslag även om vi råkat ut för liknande händelser.

Ursäkta, men i dagens nyhetsbrev från Aktiebladet har ni som nyhet en artikel om Effnet från 3 juni, 2005! Vaddå nyhet. Vill ni säga nåt genom att ta in en sån ”nyhet”? Klickar man inte vidare kan man ju gå på en sån grej! Hälsningar I.J.

Jag inbillar mig inte att det var någon aktie som påverkades ett uns av missen, men jag fick i alla fall tillfälle att fundera ut en lösning för att försöka lösa denna typ av problem. Men kanske beror det på att vi har mer uppmärksamma läsare. :-)

Onödiga saker

Posted in Osorterad on september 7th, 2008 by Clas – Kommentering avstängd

Efter att ha läst Jonas bloggpost om vilka blogginlägg som varit poulärast (dragit med sökmotortrafik?) kan jag kontra med en dyster lista för denna min Frisim utvecklingsblogg. Jag har inte fullständig koll på min besöksstatistik här, men listan över de mest lästa inläggen ser ut ungefär såhär:

Det dystra med listan är att dessa blogginlägg är otroligt gamla, samt naturligtvis att ingen av blogginläggen har så mycket med utvecklingen av min nyhetssökmotor att göra. Ja ja, bloggen är mest för ”självdokumentation” i all fall :-)

Appropå meningslösa blogginlägg så har jag skapat mig en webbsida med smileys att klistra in från när man skriver inlägg. Inspirationen kommer från en Jaiku-tråd. Funkar dock bara i ”utvalda” webbläsarkonfigurationer, andra ser bara rutor med siffror i.

För övrigt har jag slipat lite på mitt system för att generera ”relaterade nyheter”, men jag har inte gjort något ”genombrott” ännu. Det mesta handlar fortfarande om att indexera den svenska delen av Wikipedia i hopp om att kunna göra sökningar i den för att hitta ”viktiga ord” (taggar) för att avgränsa kategoriseringen med.

DagensPS lanserar PSSpy

Posted in Sökmotorer on september 1st, 2008 by Clas – Kommentering avstängd

Idag lanserade DagensPS en uppdaterad version av sin sajt, men framförallt en nyhetssöktjänst med namnet PSSpy. Jag har tidigare hintat om PSSpy i samband med att jag ”lånade” idén om att färga sökresultaten i olika färger barerat på kategori. PSSpy är främst tänkt att användas att skapa ”nyhetsbevakningar” vilka skickas med epost. Hos DagensMedia kan man läsa att de jobbat ett år med tjänsten och att den ”kostat en hel del”. Jag var hos DagensPS i mitten på februari i år och diskuterade utvecklingen av deras tjänst. Jag kan därför komplettera med att tjänsten är skapat av ett programmerar-team i Ungern, lett av den före detta Agent25 chefen Robert. Robert driver också Updatum som åtminstone på ytan ser ut att vara ett bolag för att kunna utnyttja denna sökplatform för andra sajter. PSSpy bygger, som en hel del andra ”vertikala” söktjänser, på open source indexet Lucene.

Jag har tittat till PSSpy då och då under tiden den varit under utveckling, och jag är lite imponerad över den relativt stora mängd nyhetssajter som de bevakar. När det gäller antalet bloggar som bevakas så misstänker jag att de inte lagt ner så mycket krut på dem ännu. (Not: Det är lätt och snabbt att samla in bloggdata jämfört med att samla in nyhetstexter.) Insamlingsfrekvensen verkar tyvärr vara ganska låg för många källor (kanske en gång per dag, eller så) vilket gör att tidsstämpeln i sökresultatlistorna ibland blir lite missvisande.

Kullin tycker att tjänsten ska ”back to the lab again”, och verkar inte imponeras – kanske speceillt på grund av saknad RSS-möjlihet. Själv tycker jag att favvo-ikonen på adressraden (en jordgubbe!) är cool, men mest är jag imponerad av DagensPS förmåga att sälja in annonser, och tjäna pengar, på sin sajt.