Archive for oktober, 2003

Trafik på Frisim – version blå

Posted in Frisim on oktober 19th, 2003 by Clas – Kommentering avstängd

Vi har nu provkört Frisim (version blå) på den nya servern under snart tre månader. Det har varit en del problem, de flesta relaterade till serverinstallationen. Störst problem har det varit med installation av Java-servlet-motorn och Apache 2, något jag inte installerat tidigare. När man kör på ”egen” server är det ju också ett antal saker till som man måste tänka på ;-)

Den publika delen (den på www.frisim.se) har under den senaste månaden körts från den nya servern. Vi börjar nu även använda vår ”backend” för att skapa anpassade feeds från den nya servern. Hittills har vi kört dessa från ett webbhotell.

Nu har i alla fall servern kört under några månader utan större problem, och jag har börjat lära mig vad som kan gå fel, och hur det brukar se ut när det blivit fel. Servern var lite trög i början då det verkade som om 128MB minne inte riktigt verkade räcka till för att köra både servlet-motorn och ett antal Java-applikationer samtidigt. Vi har nu installerat 256MB minne, och efter det svarar servlet-motorn mycket snabbare, troligen beroende på att den inte ”swappats ut” av Java-applikationerna (d.v.s. sökspindeln).

Att servern står i London verkar inte innebära några större problem. Kopplingen mot Telehouse, Docklands är hyffsat snabb och trafiken Stockholm-London verkar gå via Level 3s nät.

Just nu laddar vi ner (inkommande trafik!) c:a 25kb/s i snitt, dygnet runt:

Recension av boken Informationssökning på Internet

Posted in Sökmotorer on oktober 13th, 2003 by Clas – Kommentering avstängd

Om du är intresserad av att hitta information på nätet så är du troligen en van användare av nätets sökmotorer. Själv använder jag Google, Scirus och Researchindex väldigt ofta. Boken ”Informationssökning på Internet” av Lars Våge, Hercules Dalianis och Lars Iselid sägs vända sig till ”alla intresserade användare av söktjänster på Internet, oavsett kunskapsnivå”. Boken har nio kapitel, de första fyra presenterar ett antal söktjänster och webbkataloger, kapitel fem och sex innehåller tips om hur man användar sökmotorer och några vanliga sökmöjligheter – detta utan att gå in djupt i specifika tjänsters möjligheter och söksyntax. Kapitel sju beskriver hur sökmotorer sorterar sökresulten och tar upp fenomenet sponsrade länkar bland resultaten. Kapitel åtta har som mål att på djupet beskriva tekniken och matematiken för hur en sökmotor fungerar. Boken avslutas i kapitel nio med en beskrivning över ett antal av de större sökmotorerna i ett historiskt perspektiv. Boken har 227 sidor och c:a 45 av dem är referenslistor och listor med webbadresser. Den är utgiven på Studentlitteratur och kostar c:a 180kr.

Informationssökning på Internet behandlar inte bara sökmotorer utan åtminstone de inledande kapitlen behandlar även s.k. webbkataloger – manuellt kategoriserade listor med webbadresser. Detta gör det lite okart om tanken är att täcka allt inom informationssökning på Internet eller bara sökmotorer. Webbkataloger är ju som bekant inte det ända sättet att hitta information på förutom sökmotorer, även uppslagsverk på nätet och Wiki:s, något som inte tas upp alls, skulle kunna ges plats. Det är inte uttalat att kapitlen skall stå för sig själva, men samma information återfinns delvis i flera av kapitlen.

De första kapitlen presenterar ett antal webbkataloger (Yahoo, ODP osv.) och söktjänster. Olika typer av faktasöktjänster gås igenom för t.ex. text, bilder och ljud. Dessutom förklaras vad som brukar kallas ”den osynliga webben” – information på nätet som kan vara svårt för en sökmotor att hitta.

Kapitel sex presenterar praktiska söktips för informationssökning i allmänhet och specifika söktips för några sökmotorer, framförallt Google, Alltheweb och Internet Archive samt mycket kort om Really Simple Syndication (RSS). Tipsen presenteras i flytande text, vilket tyvärr gör att kapitlet inte lämpar sig som uppslagsverk när jag gör mina webbsökningar.

I flertalet av de inledande kapitlen hänvisas till kapitel åtta för en mera grundlig genomgång av de tekniska funktionerna hos en sökmotor. Kapitel åtta beskriver relativt kort de grundläggande tekniska begreppen i sökmotorsammanhang. Här separeras beskrivningen för insamling av webbsidor, indexering av data och sökning. Tekniker som vektorrymdsmodellen och termviktning beskrivs kort. Här är presentationen aningen bristfällig och momenten indexering och sökning hålls inte isär tillräckligt noggrant. Relativt stor plats ägnas åt s.k. stoppord (eng. stopwords), vilket är en teknik för att spara plats vid indexeringen, men detta är något som ingen nu stor sökmotor använder sig av (bl.a. på grund av att stoppord är problematiskt om man indexerar dokument med olika språk, eller om man vill möjliggöra frassökning). Tyvärr känns det som om indexering och sökning i nyhetsartiklar får oproportionerligt stor plats i detta kapitel. Delen om det nedlagda demo-projektet Nyhetsguiden känns både inaktuell och ointressant, även om tekniker för att hitta grundformer för ord och tekniker för textsammanfattningar är intressant. Här skulle författarna istället kunna presentera mer detaljer om textbehandling eller kunna hämta inspiration från de inledande kapitlen i Soumen Chakrabartis Mining the web, som har en mycket bra beskrivning av de problem som förknippas med sökmotorer på Internet i och med de stora datamängder som behöver hämtas in, behandlas och lagras. Kapitlet behandlar också sökmotorer för intranet, vilket känns lite malplacerat.

Kapitel nio är en trevlig presenation och beskrivning av alla de större sökmotorerna och bakomliggande företag. Här hade jag gärna sett en lite djupare beskrivning av de nordiska lösningarna, ännu mer om FAST, som fått relativt mycekt utrymme redan nu, något om eniro/nyhetssök eller retriever.se och framför allt, mer om svenskstartade men avsomnade Euroseek vilken jag dessutom tror att en av författarna har varit inblandad i.

Boken håller generellt god kvalitet, speciellt om man jämför med andra förstaupplagor som finns utgivna på Studentlitteratur. Några syftningsfel har smygit sig in, och lite skiljetecken saknas här och var, och hur var det nu, hur stavas aluminium egentligen? Generellt har boken en trevlig och lagom personlig ton.

Största bristen med boken? Att Frisim inte nämns! Men vi får väl vara med i nästa upplaga, eller hur? ;-)

Alla länkar ompekade till Frisim version blå

Posted in Frisim on oktober 7th, 2003 by Clas – Kommentering avstängd

Nu har vi pekat om de flesta (alla?) länkar till nya versionen av Frisim och till den nya servern.

En Google-inspirerad sökresultat-sid-bläddrare är inlagd som komplement till ”resultatsidor”-texten som fanns tidigare. Google har Goooooogle och Frisim har Friiiiiisim ;-)

Jag har kastat ett antal av de regler som byggts upp för att identifiera artiklar, men jag hoppas att det inte kommer att märkas. Märks det så kommer att börja bli en massa junk som indexeras under en tid…

Frisim version blå på plats

Posted in Frisim on oktober 1st, 2003 by Clas – Kommentering avstängd

Nu finns den uppdaterade versionen av Frisim, Frisim version blå, under domänen frisim.se. Den ”gamla” versionen kommer att ligga kvar på nic-sys.se ett tag till, men sedan kommer alla länkar att ledas om till den nya sajten och den nya servern. Tjänsten Nyhetsrubriker.com kommer dock att ligga kvar på samma plats som tidigare.

Den nya versionen av Frisim ligger på en ”egen” server hos Bytemark.
Med denna flytt finns stora möjligheter till expansion av tjänsten =)