Archive for februari, 2004

Frisim är tillbaka igen – tillbaka från ruta ett

Posted in Frisim on februari 14th, 2004 by Clas – Kommentering avstängd

Nu är äntligen sökmotorn uppe igen. Det är uppenbarligen aldrig för sent att läsa sig att ha en backup som är någorlunda ny. Jag har fortfarande lite svårt att förstå hur servern som Frisim kör på kunde köra sönder båda diskarna i RAID:en, men säger de att det är så, ja då är det väl sant. Turligt nog hade jag den 17:e januari lekt lite med den backup-area på 3GB som vi har. Dock hade jag bara sparat undan användarkatalogerna, inte databasinnehåll eller serverkonfiguration. Vi har nu startat om med en ren RedHat 9 installation, och förmiddagen har ägnats åt att få apache, php, mysql, och tomcat att fungera. Nu har vi dessutum en liten virtuell server (User Mode Linux) som kör Debian 3 som skall, någon dag, sättas upp som ”fallover” server. Tyvärr hade vi ingen backup på de 100.000 artiklar som vi indexerat. Så nu är databasen ganska liten ett tagigen.

För övrigt börjar denna ”utvecklingswebblogg” urarta till en anslagstavla över när servern går ner. Det måste bli bättring på det…

Mer info…

Posted in Frisim on februari 12th, 2004 by Clas – Kommentering avstängd

Frisim kommer att vara nere ett tag. Vi är ledsna, och vår ISP också… Men vad kan vi göra, mer än att gråta lite…

”We appreciate this will be deal-breaker announcement from any ISP and
will be the first to admit that we have screwed up. It is absolutely
the worst service we could have provided, and we apologise for putting
you all through this.”

Vi försöker upprätthålla våra prenumerationer via nic-sys.se-domännen som kör på ett delat webbhotell.

THEY KILLED FRISIM

Posted in Frisim on februari 12th, 2004 by Clas – Kommentering avstängd

”We’re very sorry to report that all data has been lost from greendome; both drives showed mechanically faults after transfer into a new chassis, and we have not been able to salvage any filesystem from it despite a long day of trying :-/ A full explanation and compensatory offer will be forthcoming tomorrow morning.” – citat från vår mycket hatade datoradministratör! frisim.se körde på datorn greendome, men nu är det över ;-)

Förhoppningsvis lyckas vi på upp allt igen på annan server om inte allt för lång tid…

LIS 598 U/TU Google – en Googlekurs

Posted in Sökmotorer on februari 8th, 2004 by Clas – Kommentering avstängd

University of Washington ger en ”Googlekurs” som finns omnämnd i SeattleTimes. Den skulle vara kul att gå (eller att ge!?). Kursbeskrivning och föreläsningsbilder finns på kurshemsidan. Kursen handlar om hur Google kan användas, lite om tekniken, affärsplaner och kulturell och social påverkan.

Lite mer nertid

Posted in Frisim on februari 8th, 2004 by Clas – Kommentering avstängd

Frisim har råkat ut för ytterliagre en serverkrash. Igår vid sjutiden gick processorfläkten (tydligen) sönder. Det verkar dock som om servern var uppe igen vid tvåtiden (på natten alltså, undrar vem som vill fixa CPU-fläktar så dags?) Som om inte det vore nog så kraschade den igen idag, nertiden blev c:a 20 minuter. Felet denna gång påstås vara att disken som jag skrev mot var full, varför det nu skulle krascha systemet. Man är ju tacksam att man inte sköter servern själv om det nu skall vara så här mycket problem med hårdvaran. I alla fall så får jag login till min avlastningsserver på onsdag – återstår naturligtvis att fixa till så att frisim.se överlämnar till den automatiskt, något som jag inte har en aning om hur jag skall lösa.

Precis innan det kraschade idag bytte jag ut koden för att göra sökningar i tidsordning. (Det ”orsakade” också kraschen då jag blev tvungen att skapa två versioner av indexet över alla nyhetsartiklar, c:a 120MB.) Tidigare har tidsordningen gjorts med en enkel sortering, nu görs den med indexering på datum av artiklarna redan då de läggs in i ”databasen”. Dessutom har jag snabbat upp metoden för att markera var i artikeln som sökorden förekommer. Tyvärr så hann jag inte riktigt klart innan servern kraschade…

Agent25 demar ny arkivsöktjänst

Posted in Sökmotorer on februari 3rd, 2004 by Clas – Kommentering avstängd

Agent25 har öppnat ett sökbart nyhetsarkiv som komplement till sin digitala artikelbevakning. Söktjänsten kostar 4900kr per år, men det finns just nu en ”demo” som man kan prova. Prestandan verkar vara ganska lik nyheter.se:s arkiv som finns på eniro.se plus ett antal nordiska och engelska nyhetskällor.

De presenterar också en lista på de mest bevakade företagen, personerna och händelserna vilken de har använt sin sökmotor för att ta fram. Listan rangordnar helt enkelt ett antal ord baserat på hur många träffar man får i deras nyhetsarkiv.

Sökordsmarkering

Posted in Frisim on februari 1st, 2004 by Clas – Kommentering avstängd

Jag har kollat lite på hur man skulle kunna skapa markeringar i nyhetsartikeln där orden man söker på finns med, och också presentera ett litet utdrag av artikeln runt sökorden. Detta är inget enkelt problem, i alla fall inte om det skall göras fullständigt. För det första kräver det naturligtvis att hela artikeln finns lagrad – det gör den, så det är inget stort problem. Nästa problem är vad man gör med lite mer avancerade sökningar som innehåller ”wildcards” som ? och/eller *. Skall det fungera korrekt med dessa så blir det lite mer problem, men även det gick att lösa. (Lösningen använder samma metod som DipBox/Korsord använder för ge tips på ord som passar in i korsord.) Sista problemet är att det måste vara snabbt! Den experimentversion som jag har just nu fungerar hjälpligt, men den baseras till stor del på (sunkiga) ”regular expressions”, och de är lite kasst implementerade, vilket gör koden alldeles för långsam. Söker man t.ex. på vägavgift* så hittar och markerar den både vägavgiftsystem och vägavgifter i artikelsammanfattningen, men det tar flera sekunder, vilket inte är acceptabelt.

Jag fick tips om en nyhetssöksajt, topix.net som jag inte noterat tidigare. Den är mycket like Google news, och i alla fall inte sämre. Topix hittar nyckelord och klumpar ihop nyheter efter dessa. Jag har dock inte hunnnit kolla hur bra, eller användbart, det är. Det jag först fastnade för var de nyhetssidor som de genererar. Till exempel genereras en sida om Google som hittas under /com/google. Snyggt! Topix samla också bilder, precis som Google news, det gör att nyheterna kan presenteras lite mer lättsamt; synd att svenska nyheter så sällan har bilder…