Archive for januari, 2005

Ny Teknik testar skrivbordssökverktyg

Posted in Sökmotorer on januari 28th, 2005 by Clas – Kommentering avstängd

Ny Teknik kollar in fyra gratisprogram från Copernic, Google, Yahoo och MSN för skrivbordssökning (Desktop search) i sin artikel Sök effektivt på hårddisken.

Lite Nyhetsrubriker.com-statistik

Posted in Frisim on januari 27th, 2005 by Clas – Kommentering avstängd

Vår gratisnyhetstjänst Nyhetsrubriker.com lever vidare. Vi startade sajten i början av juli 2000, den 7:e juli för att vara exakt. Nu, fyra och ett halvt år senare, lever den fortfarande! Grundideén, att erbjuda nyhetsrubriker via Javascript-feeds för att visa på andra hemsidor, har i princip inte utvecklats alls. Trots det finns fortfarande intresse att använda den. Något år efter starten hade vi c:a 500 aktiva användare, nu har vi c:a 800. Aktiva användare räknas som antalet olika webbsajter som har laddat en uppsättning rubriker från oss under en dag. Antalet nyregistreringar är c:a 2 om dagen.

Det som tillkommit på sajten sedan starten är att man kan välja att hämta nyhetsrubrikerna i RSS-format som komplemet till Javascript-feed:en. Denna del av sajten har vi i framtiden tänkt fasa över till frisim.se där vi just nu provar med att leverera nyhetslänkar som är sökordsgenererade i form av RSS-feeds.

Från de nyhetslänkar som visas på andras hemsidor skapar vi staistik på antalet nedladdningar av rubriker, vilket just nu är c:a 75.000 per dygn, och antalet klick som görs på nyhetslänkarna. Topplistan över de mest klickade rubrikerna från vår gratistjänst under de senaste 24 timmarna ser ut så här:

Polisen befarar: Kidnapparna kan vara falska 135 Expressen
Madeleine, 21: Man kokar inifrån 114 Expressen
Sju enkla sätt att stoppa klådan 90 Expressen
Medieavgift för dator med tv-mottagare 45 IDG.se
Kaspersky har fått rapporter om virusinfekterade bilar 44 IDG.se
Bonnier lanserar ip-tv 41 IDG.se
Hotell vill inte betala till romer 28 DN/inrikes
Victoria deltar i dag i Auschwitz 26 Expressen
Studios bilder från NAMM 2005 24 IDG.se
Sydkraft gräver ner kablar 21 DN/inrikes
Ny lag dubblar priset på inspelbara skivor 19 Ny Teknik
Tjörns fiskare hjälper thailändskt båtfolk 17 DN/inrikes
Smart men väntat drag från Telia Sonera 17 Ny Teknik
100 dagar sedan Linköpingsmorden 17 DN/inrikes
Polisen kommenterar inte Siba-larm 16 DN/inrikes

Topix.net intervju

Posted in Sökmotorer on januari 24th, 2005 by Clas – Kommentering avstängd

En intervju med Topix Rich Skrenta.
[Via Greg]

Eh, hmm, Robinson VIP

Posted in Osorterad on januari 23rd, 2005 by Clas – Kommentering avstängd

Appropå ingenting, eller möjligen nyhetssökning: Aftonbladet har idag en artikel om att Danska TV3 redan visat finalen i Robinson VIP som uppenbarligen började visas igår på svenska TV3, och kommer att fortsätta en massa veckor framåt. TV3 tycker dock inte att det är något probem och

… Camilla Clarke tror inte att svenska tv-tittare ska tjuvtitta på en dansk kanal eller läsa i danska tidningar för att få reda på vem som vunnit.

Hmm, en enkel nyhetssökning visar dock att ……….. vinner Robinson VIP. Det går att läsa här, men det gör du ju inte, eftersom du tänkt följa ”äventyret” på TV3 ;-)

MSNs webbsök som RSS-feed

Posted in Sökmotorer on januari 10th, 2005 by Clas – Kommentering avstängd

MSN har ”betat” sin nya webbsökning beta.search.msn.com ett bra tag nu. De har redan börja testa den som ordinarie sökmotor på search.msn.com under vissa tidsperioder. msnsearch’s WebLog beskriver hur det går till. Nu rapporterar Search engine watch att MSN/beta låter användarna få sina sökresultat i form av en RSS-feed. Greg visar hur länken ser ut. Att returnera sökresultat i form av ”maskinläsbart” format är i sig inte nytt, det används alltid när sökresultat exporteras till externa sajter. Det som är lite intressant är att MSN erbjuder detta publikt. Google motverkar aktivt att man ”maskinläser” deras material. Det är i sig inte så konstigt eftersom det innebär att de då inte får visa sin reklam på sökresultatsidan. Google erbjuder dock via sitt Google API 1000 sökningar per dag, men de får bara användas för personligt bruk, vilket man också måste ”intyga” när man ansöker om en API-nyckel/licens. Uppstickaren Gigblast erbjuder också detta, men där behövs ingen licens, och du kan använda resultaten ”kommersiellt”.

MSN meddelar inte om de har någon bergänsning på antal sökningar som kan göras, men det framgår tydligt av texten i RSS-feeden att det inte är tillåtet att visa upp sökresultaten på egen webbsida. De skriver i beskrivningen av sin feed:

”These XML results may not be used, reproduced or transmitted in any manner or for any purpose other than rendering MSN Search results within an RSS aggregator for your personal, non-commercial use. Any other use of these results requires express written permission from Microsoft Corporation. By accessing this web page or using these results in any manner whatsoever, you agree to be bound by the foregoing restrictions.”

RSS brukar i vanliga fall förknippas med ”nästan open content”, och många väljer att återpublicera RSS-feeds på egen webbsida. De flesta sajtägare tycker att detta är okej, eftersom RSS-feeden skapar länkar, och därmed besökare, till ursprungssajten. Det är dock inte alldeles självklart att det alltid är tillåtet.

Indentering av identiska resultat

Posted in Frisim on januari 2nd, 2005 by Clas – Kommentering avstängd

Många nyhetssökningar resulterar i träffar på artiklar som producerats av Tidningarnas telegrambyrå (TT). Dessa artiklar finns i mer eller mindre identiska kopior på de flesta av de de svenska nyhetssajterna. För våra anpassade nyhets-feeds så försöker vi identifiera nyheter som härrör från samma TT-källa genom att beräkna en ”Levenshtein distance” mellan de senaste presenterade nyheterna för att på så sätt identifiera nyheter som är exakt lika eller liknande.

Man kunde önska att det gick att göra en liknande lösning för sökningar i det publika sökgränssnittet. Där går det dock inte att använda samma teknik, eftersom den är för beräkningskrävande.

I väntan på att vi ska hitta på något bättre har vi nu modifierat presentationen av resultaten så att när fler artiklar efter varanade på en sökresultatsida har samma titel så kommer dessa att markeras som lika genom att de indenteras (skrivs ut som en ”HTML-blockquote”). Jag vet inte hur mycket bättre tydligare sökresultaten blir av detta, men resultatsidorna ser i alla fall lite mer ut som Googles, och det måste ju vara bra ;-)