Archive for oktober, 2004

Google News en hit i Japan

Posted in Sökmotorer on oktober 29th, 2004 by Clas – Kommentering avstängd

IDG.se citerar lite siffror på användandet av Google News i Google News en hit i Japan.

Kommentera nyheter!

Posted in Frisim on oktober 18th, 2004 by Clas – Kommentering avstängd

Eftersom Haloscan erbjuder kommentarsmöjlighet till bl.a. bloggar, gratis och enkelt, så passar jag på att prova nyhetskommentering på vår nyhetsida under utveckling: Frisim/nyheter.

Nyheterna uppdateras och försvinner relativt snabbt från sidan, och antagligen har sidan inte så många besökare, men du får gärna prova i alla fall :-)

Frisim klarar av att läsa RSS

Posted in Frisim on oktober 10th, 2004 by Clas – Kommentering avstängd

Jag har nu adderat kod för att Frisim ska kunna använda RSS-data för att hitta länkar till nyhetsartiklar. Tidigare har Frisim bara använt nyhetssidors ”framsidor”, som DN.se, eller ”temasidor” för att hitta länkar till nyhetsartiklar. Nu kan även en RSS-fil användas för att ”mata” sökmotorn med nyhetslänkar. Det kan dock skapas ”onödiga” sidläsningar om det är så att vi läser både RSS och framsidor för att hitta artiklar till en och samma nyhetskälla. Det beror på att flertalet RSS-feeds från nyhetssajter inte innehåller länkar direkt till nyhetssidan, utan de länkar via klickräkningsskript som leder oss vidare genom att skicka en ”302 Temporarily moved”-status. Det innebär att vi, innan vi analyserat själva nyhetsartikeln, har svårare att se att det rör sig om en länk vi redan har i vårt index. Det problemet uppstår ej om vi bara använder RSS, ingen ”framsida”, från en specifik källa. Dessa extra sidläsningar vill vi gärna undvika då de tar upp serverkapacitet och skapar skräptrafik, men vi står ut med det under en testperiod.

För övrigt verkar det som om DN börjat skriva ”100m fritt istället för ”100m frisim” när det handlar om crawl. Kanske dags att byta namn ;-)

Uppdatering av Frisims HTTP-klient

Posted in Frisim on oktober 10th, 2004 by Clas – Kommentering avstängd

Frisims klient för att hämta in webbsidor har uppdaterats. Anledningen till uppdateringar var problemen med t.ex Di.se:s komprimerade HTML.

Från att tidigare ha använt HTTPClient 0.3-3 så har istället Jakarta-versionen av koden installerats. Jakarta-versionen av koden kräver två stycken Jakarta commons-paket för att fungera, dels Logging för att kunna sköta felhantering, dels Codec för att klara komprimerad HTML.

Det är alltid lite kritiskt att göra uppdateringar i produktionsversionen av koden när det gäller så vitala delar som sidnedladdning då det är en hel del som kan gå fel. Jag kan bara hoppas att den nya modulen inte ska ställa till några problem i fortsättningen.

Länkbyte med Spray/Lycos sök

Posted in Frisim on oktober 5th, 2004 by Clas – Kommentering avstängd

Idag startade vi ett länkbyte med Spray/Lycos sök. Vi har sedan några dagar tillbaka en länk direkt till motsvarande Spray/Lycos sök:s sökresultatsida från våra sökresultatsidor. I utbyte visar Spray/Lycos sök en länk till ”Frisim nyhetssök” på deras sökresultatsidor. Resultatet kan ses längst ner söksidan. Förhoppningen är att denna direktlänkning (tillsammans med länkningen till Susning.nu) ger visst mervärde, speciellt vid dåliga sökresultat hos oss, samtidigt som det ger oss lite fler besökare och lite mer uppmärksamhet.

Komprimering av HTML med gzip

Posted in Frisim on oktober 5th, 2004 by Clas – Kommentering avstängd

För dem som funderat över varför inte Di.se ser ut att dyka upp bland nyheterna så beror det på att de har gått över till att skicka komprimerad HTML. Komprimering med gzip borde dock inte skapa problem då den HTTP-client som vi använder för Frisim ska klara detta, men tydligen inte den version som Di.se använder. Enklast är det kanske att byta ut vår något föråldrade komponent mot något nyare, som förhoppningsvis fungerar bättre. Vi provar nog med Jakarta Commons-version får vi se. Fram tills dess att den är implementerad kommer dock inte Di:s feed att uppdatera.

Ecoresearch bevakar medias bevakning av valet i USA

Posted in Sökmotorer on oktober 3rd, 2004 by Clas – Kommentering avstängd

Blind höna länkar till Ecoresearch som analyserar medias rapportering av valet i USA. Ecoresearch anlyserar nyheter på nätet för att göra en bedömning av vem av kandidaterna som får mest uppmärksamhet. De mått de använder baseras bland annat på ordfrekvenser. Deras tekniska beskrivning ger mer detaljer.

Demosajt

Posted in Frisim on oktober 3rd, 2004 by Clas – Kommentering avstängd

Jag har satt upp en demo på omvärldsbevakningslänkar av universitet och högskolor på Nyhetsbrus.com/uni.