Google News en hit i Japan
Posted in Sökmotorer on oktober 29th, 2004 by Clas – Kommentering avstängdIDG.se citerar lite siffror på användandet av Google News i Google News en hit i Japan.
IDG.se citerar lite siffror på användandet av Google News i Google News en hit i Japan.
Eftersom Haloscan erbjuder kommentarsmöjlighet till bl.a. bloggar, gratis och enkelt, så passar jag på att prova nyhetskommentering på vår nyhetsida under utveckling: Frisim/nyheter.
Nyheterna uppdateras och försvinner relativt snabbt från sidan, och antagligen har sidan inte så många besökare, men du får gärna prova i alla fall :-)
Jag har nu adderat kod för att Frisim ska kunna använda RSS-data för att hitta länkar till nyhetsartiklar. Tidigare har Frisim bara använt nyhetssidors ”framsidor”, som DN.se, eller ”temasidor” för att hitta länkar till nyhetsartiklar. Nu kan även en RSS-fil användas för att ”mata” sökmotorn med nyhetslänkar. Det kan dock skapas ”onödiga” sidläsningar om det är så att vi läser både RSS och framsidor för att hitta artiklar till en och samma nyhetskälla. Det beror på att flertalet RSS-feeds från nyhetssajter inte innehåller länkar direkt till nyhetssidan, utan de länkar via klickräkningsskript som leder oss vidare genom att skicka en ”302 Temporarily moved”-status. Det innebär att vi, innan vi analyserat själva nyhetsartikeln, har svårare att se att det rör sig om en länk vi redan har i vårt index. Det problemet uppstår ej om vi bara använder RSS, ingen ”framsida”, från en specifik källa. Dessa extra sidläsningar vill vi gärna undvika då de tar upp serverkapacitet och skapar skräptrafik, men vi står ut med det under en testperiod.
För övrigt verkar det som om DN börjat skriva ”100m fritt istället för ”100m frisim” när det handlar om crawl. Kanske dags att byta namn ;-)
Frisims klient för att hämta in webbsidor har uppdaterats. Anledningen till uppdateringar var problemen med t.ex Di.se:s komprimerade HTML.
Från att tidigare ha använt HTTPClient 0.3-3 så har istället Jakarta-versionen av koden installerats. Jakarta-versionen av koden kräver två stycken Jakarta commons-paket för att fungera, dels Logging för att kunna sköta felhantering, dels Codec för att klara komprimerad HTML.
Det är alltid lite kritiskt att göra uppdateringar i produktionsversionen av koden när det gäller så vitala delar som sidnedladdning då det är en hel del som kan gå fel. Jag kan bara hoppas att den nya modulen inte ska ställa till några problem i fortsättningen.
![]() |
Idag startade vi ett länkbyte med Spray/Lycos sök. Vi har sedan några dagar tillbaka en länk direkt till motsvarande Spray/Lycos sök:s sökresultatsida från våra sökresultatsidor. I utbyte visar Spray/Lycos sök en länk till ”Frisim nyhetssök” på deras sökresultatsidor. Resultatet kan ses längst ner söksidan. Förhoppningen är att denna direktlänkning (tillsammans med länkningen till Susning.nu) ger visst mervärde, speciellt vid dåliga sökresultat hos oss, samtidigt som det ger oss lite fler besökare och lite mer uppmärksamhet.
För dem som funderat över varför inte Di.se ser ut att dyka upp bland nyheterna så beror det på att de har gått över till att skicka komprimerad HTML. Komprimering med gzip borde dock inte skapa problem då den HTTP-client som vi använder för Frisim ska klara detta, men tydligen inte den version som Di.se använder. Enklast är det kanske att byta ut vår något föråldrade komponent mot något nyare, som förhoppningsvis fungerar bättre. Vi provar nog med Jakarta Commons-version får vi se. Fram tills dess att den är implementerad kommer dock inte Di:s feed att uppdatera.
Blind höna länkar till Ecoresearch som analyserar medias rapportering av valet i USA. Ecoresearch anlyserar nyheter på nätet för att göra en bedömning av vem av kandidaterna som får mest uppmärksamhet. De mått de använder baseras bland annat på ordfrekvenser. Deras tekniska beskrivning ger mer detaljer.
Jag har satt upp en demo på omvärldsbevakningslänkar av universitet och högskolor på Nyhetsbrus.com/uni.