Archive for juli, 2003

Sökspindel-trådning och ny bok

Posted in Frisim on juli 24th, 2003 by Clas – Kommentering avstängd

Vi provar just nu trådningsfunktionen i vår sökspindel. Tidigare har vi kört ”crawler:n” med bara en tråd, då jag inte har full koll på vilka delar som är ”thread-safe”. Nu provkör vi i alla fall med tre trådar för att göra inhämtning av artiklar. Än så länge fungerar det bra, och antagligen en hel del snabbare.

Jag har införskaffat boken Mining the web: discovering knowledge from hypertext data. Den är spännande även om den, åtminstone i början, handlar om att bygga storskaliga sökmotorer för ”hela webben”. När man läser boken framgår tydligt att det finns grymt med problem att fastna i när man bygger en sökmotor. Dock undgår man de flesta när man bygger en sökmotor som bara indexerar utvalda sajter.

Nyheter.se sköter Expressen.se:s arkiv

Posted in Sökmotorer on juli 18th, 2003 by Clas – Kommentering avstängd

Jag noterade att om man använder sökrutan till vänster på Expressen.se så kommer man direkt till en ”Expressen-version” av Nyheter.se:s sajt. Med en sökning hittas bara nyheter som publicerats på Expressen.se, och det finns en länk tillbaka till expressen. Tyvärr finns ingen möjlighet till filtrering eller alternativ sortering.

Mer om Google:s lokala kopior

Posted in Sökmotorer on juli 14th, 2003 by Clas – Kommentering avstängd

Slashdot har idag ett inlägg om Google:s lokala kopior av NyTimes.com artiklar.

Några intressanta länkar sedan sist

Posted in Sökmotorer on juli 11th, 2003 by Clas – Kommentering avstängd

Internetbrus hittar jag en länk till del två av intervjun med DayPop:s Dan Chan. Där kan man bl.a. läsa om hur Daypop försöker förbättra sökresultaten vid sökningar med flera sökord genom att ta hänsyn till avståndet mellan sökorden på resultatsidan. Denna möjlighet har även Frisim, men den nyttjas inte just nu. Kanske är det värt ett försök att prova att ta med den i relevansberäkningen. Närheten mellan sökord är av intervjun att döma inte med i Google:s relevansberäkning (PageRank).

Jag noterar också att Internetbrus hänger på den ”trend” som sprider sig om att klaga på hur Google:s PageRank-system för att rangordna sökresultat fungerar sämre och sämre(?).

mymarkup hittar jag en länk till en artikel om hur nyhetskällor i framtiden kommer att behöva vara prenumerations/betal-tjänster även på webben. Jag har dock lite svårt att förstå resonemanget: En dagstidning kostar väl c:a 7-8kr att få hem i brevlådan. Det kan omöjligt blir något kvar av dessa kronor om man räknar bort kostnader för papper, tryck och distribution. Det måste vara så att den betydande intäkten kommer från annonser, vilka borde fungera väl så bra på webben som på papper.

På mymarkup hittar jag också en länk till en artikel om Google:s kopior av nyhetsartiklar, något som inte uppskattas av alla. NYTimes.com har begärt att Google inte skall lagra lokala kopior, och det verkar dessutom som om samarbetet mellan dem (som bl.a. gjort det möjligt att addera ”&partner=GOOGLE” i slutet på länken för att slippa registreringen) har avslutats.

Jag har också gjort en egen observation: Google har lanserat sin tyska version av Google news på news.google.de. Där finns länkar och ingresser till nyhetsartiklar på tyska. De påstår sig indexera 700 tyska källor.