Sökspindel-trådning och ny bok

Vi provar just nu trådningsfunktionen i vår sökspindel. Tidigare har vi kört ”crawler:n” med bara en tråd, då jag inte har full koll på vilka delar som är ”thread-safe”. Nu provkör vi i alla fall med tre trådar för att göra inhämtning av artiklar. Än så länge fungerar det bra, och antagligen en hel del snabbare.

Jag har införskaffat boken Mining the web: discovering knowledge from hypertext data. Den är spännande även om den, åtminstone i början, handlar om att bygga storskaliga sökmotorer för ”hela webben”. När man läser boken framgår tydligt att det finns grymt med problem att fastna i när man bygger en sökmotor. Dock undgår man de flesta när man bygger en sökmotor som bara indexerar utvalda sajter.

Comments are closed.