Archive for juli, 2004

Nyhetssajter börjar aggregera nyheter

Posted in Sökmotorer on juli 30th, 2004 by Clas – Kommentering avstängd

Att Microsoft visar upp sin NewsBot hos MSNBC är ju inte så konstigt eftersom det är en del av MSN/Microsoft. Det som är lite mer spännande är att MSNBC även producerar ”egna” nyheter som vilken nyhetssajt som helst. Nu väljer de alltså att inte bara visa sitt eget material utan ser också till att länka till andra nyhetssajter. Samma sak ser nu ut att hända hos Associated Press. (AP: serving thousands of daily newspaper, radio, television and online customers with coverage in all media and news in all formats.) AP har tänkt att ”to offer a search engine with more participating news organizations and more content than is currently available today, said Tom Curley, AP’s president and CEO”. Svenska nyhetssajter skulle kunna göra samma sak! Den drivande kraften för svenska nyheter borde bli TT. Dock är det mycket ovanligt idag att svenska nyhetssajter länkar till varandra, eller att det länkas till relaterade nyheter på andra sater. Det enda som pekar i denna riktning är Svd.se som faktiskt länkar sin sökruta till Eniro nyhetssök till vänster om alla sina nyheter. Sökningen är inte begränsad till att visa nyheter från SvD. Ändå snyggare hade varit om de presenterat några länkade sökresultat, t.ex. med hjälp av Eniro, till relaterade nyheter – men nyhetssökningen är i alla fall ett steg i rätt riktning.

Microsoft lanserar en Google News rival hos MSNBC

Posted in Sökmotorer on juli 27th, 2004 by Clas – Kommentering avstängd

Som jag tigidare skrivit om så bygger Microsoft vidare på sin Newsbot. I dagarna har Microsoft lanserat en MSNBC-version av nyhetssidorna som bygger på personlig anpassning av vilka nyheter som visas.

Update: Greg Linden, snubben bakom nyhetssajten Findory, kommenterar resultatet av den personliga anpassningen på nya MSN Newsbot. If it is true that MSN Newsbot is merely using subject classifications for its personalization, Findory’s personalization technology is considerably more advanced.

FeedsFarm – RSS in/ut

Posted in Sökmotorer on juli 26th, 2004 by Clas – Kommentering avstängd

Feedsfarm är en Google News-liknande nyhetssida. Till skillnad(?) från Google så skrapar den inte nyheter från webbsidor utan använder bara RSS-feeds (just nu 1931 st feeds!). De exporterar även de kategoriserade länkarna i RSS-format, precis som topix.net.
Designen är ganska lik vår Frisim nyheter och Google News (förstås).

Vilka svenska företag använder sökmotorn Lucene

Posted in Sökmotorer on juli 25th, 2004 by Clas – Kommentering avstängd

Jag är med på sändlistan för Luceneanvändare. Anledningen att jag är ”med”, eller i alla fall brukar titta på vad folk frågar om, är dels för att följa med i sökmotorutvecklingen, dels för att se vilka som verkar använda just Lucene i sina lösningar. Idag noterar jag t.ex. att Claes Holmerson från svenska portalföretaget Polopoly frågar om hur man går till väga för att detektera kraschade processer som skrivit en lås-fil. Jag tolkar det som om Polopoly har tänkt att börja använda Lucene till någon av sina produkter. Spännande!

MSN Newsbot bygger vidare

Posted in Sökmotorer on juli 23rd, 2004 by Clas – Kommentering avstängd

MSN Newsbot adderar sex stycken nya ”länder” för sin nyhetstjänst: Belgien, Irland, Schweiz, USA (på spanska), Indonesien och Filipinerna. [Via ResourceShelf]

Mer RSS

Posted in Osorterad on juli 17th, 2004 by Clas – Kommentering avstängd

New York Times har börjat med RSS-feeds. Länkarna i feeden har dessutom en tag som gör att du inte behöver registrera dig som läsare.

Navigeringspilar, äntligen

Posted in Frisim on juli 13th, 2004 by Clas – Kommentering avstängd

Äntligen har de så eftertraktade navigeringspilarna kommit på plats:




Så nödvändiga är de ju inte, men har Google sådana så måste det vara bra ;-)

Hitta liknande artister med Musicplasma

Posted in Sökmotorer on juli 12th, 2004 by Clas – Kommentering avstängd

Musicplasma är en snygg tjänst för att hitta (music-) grupper/artister som liknar varandra. Jag skulle inte kalla det en sökmotor, men hittar saker med den gör man =). Hur artisterna är grupperade (och varför) har jag lite svårt att se, men antagligen bygger det på någon form av manuell inmatning, tror jag. Synd att den kräver en Flash-plugin för att fungera.

Hur mycket resurser kräver en sökmotor?

Posted in Sökmotorer on juli 12th, 2004 by Clas – Kommentering avstängd

En sökmotor behöver datorresurser dels för att leta upp svar på de sökfrågor som användarna ställer, dels för att samla in webbsidor och verifiera att de fortfarande finns kvar på nätet. Hur mycket datorkraft används då av olika sökmotorer till detta? Det beror naturligtvis på hur många webbsidor sökmotorns index är tänkt att innehålla, och hur många som kommer att söka med sökmotorn. De stora sökmotorerna vill oftast inte berätta hur många sökningar som görs hos dem, och vill heller inte berätta hur mycket hårdvara de använder. Många sökmotorer ”skryter” dock med hur många webbsidor de har samlat in och som är sökbara. Det är dock svårt att verifiera att siffran på antalet sidor man kan söka i är korrekt angivet. Mindre sökmotorer, speciellt open source-projekt, är det lättare att hitta information om.

Open source-sökmotorn Nutch finns beskriven i denna artikel. Där framgår att om man använder Nutch mjukvara så kräver 100 miljoner sidor runt fyra front-end servrar och en back-end server för att klara c:a två sökningar per sekund, givet att servrarna inte har så mycket internminne att hela indexet kan hållas där. Front-end servrarna används för att svara på sökfrågor från användarna och back-end servern till att samla in/uppdatera indexet över webbsidorna.

Appropå det imponerande resultat som Yahoo! Labs visar på på sitt mer än 100 miljoner sidor stora Nutch-index så skriver Doug Cutting (blog) i en maillista som jag är med på att:

This demo [the one at Yahoo! Labs] runs on a handful of boxes. It was originally running on three dual-processor boxes, but I think Yahoo! subsequently moved it to six or eight single-processor boxes. Queries are broadcast to all servers, and the top-scoring matches overall are presented.

In Nutch-based benchmarks, we found that a single-processor box with 4GB of memory and a 2M page Nutch index (i.e., the entire index fits in RAM) could handle over 20 Nutch searches/second. A box with 1GB of memory and a 20M page Nutch index (i.e., the entire index does not fit in memory) could only handle around 1 or 2 Nutch searches/second. Performance will obviously vary with processor speed, disk speed, average document size, average number terms per query, etc.

Appropå resurser så är det naturligtvis inte bara datorer som krävs, någon måste sköta dem också. Nutch söker en person på 1/3-dels tjänst för att driva de servrar som skall skapa ett nytt stort index över webbsidor. Lite mer info om vilken hårdvara som krävs för att köra en Nutch-baserad söktjänst beskrivs hos ObjectSearch som bygger på just Nutch:s index.

Från en gammal intervju med Matt Wells framgår det att Gigablast, när de indexerade 100 miljoner webbsidor, använde 8 servrar. Detta var någon gång 2002. Mer info om detta och spekulationer om hur många servrar Microsoft kommer att använda till sitt nya index finns att läsa i en artikel hos Netcraft.

Fybersearch är en liten hemutvecklad sökmotor som har c:a 4000 webbsidor i sitt index. FyberSearch använder sig av en MySql-databas för att webbsidorna i, och för att genomföra sökningar. Indexet är inte stort, men det är enda relativt segt att få svar på sin sökningar, speciellt längre fram bland sökresultaten. FyberSearch körs på en server. En intervju med den 19-åriga programmeraren av FyberSearch finns hos Hoverscore. Samma teknik som används hos FyberSearch används hos nyhetssökmotorn Gooliat. Gooliat klarar c:a en sökning var 10:e sekund på ett index av c:a 500 000 artiklar. Även Senaste.info använder en server och MySql för sökning bland c:a 13 000 artiklar. Senaste.info ser ut att klarar c:a 2-5 sökningar per sekund. Notera att ”artiklar” typiskt är mindre än hela webbsidor.

Det spekuleras om att Google körs på 100 000 servrar. Google har hela, eller i alla fall alla delar av sitt index som används, i servrarnas internminne. Detta löser man kanske enklast med så kallade solid-state-diskar (SDD). (Artikel om SDD hos IDG, dock endast för prenumeranter.) Från Googles information om hårdvara för intranetsökningar ser det ut som om en server (naturligtvis utan SDD) med Googles mjukvara klarar av att söka bland 1.5 miljoner dokument (av okänd storlek) med 300 sökningar per minut, fem söksvar i sekunden.

FAST, det norska företag som tidigare drev AllTheWeb påstår att deras system klarar att söka bland 300 miljoner sidor på mindre än en sekund, men det framgår inte med vilken hårdvara.

För övrigt har IDG idag en arikel om distribuerade sökmotorer. Syftet är att sprida ut arbetet med att samla in webbsidorna på flera datorer i ett peer-to-peer-linkande nätverk. Själva sökningen måste, med dagens höga krav på hur fort sökresultaten skall dyka upp, dock samlas på ett och samma ställe. Denna idé är inte ny, den har sedan tidigare utvecklats i GRUB-projektet (som drivs av sökmotorföretaget LookSmart).

frisim.se kör på en server med 256MB minne och returnerar oftast sina, idag, c:a 54 000 artiklar på mindre än 0.5 sekunder.

Intresseklubben noterar: Vår ISP uppdaterar sin hemsida

Posted in Osorterad on juli 1st, 2004 by Clas – Kommentering avstängd

Vår server ISP, Bytemark Hosting, har uppdaterat sin hemsida. Innehållet är dock det samma plus att de adderat ett RSS-flöde för supportinformation. Tack för det! Tyvärr ligger RSS-filen på samma nät som vår server, så om (när?) anslutningen krashar uppströms Bytemark så saknas supportinformation i alla fall. Men det händer ju inte ;-) RSS-informationen är dock enkel att läsa i min mobiltelefon (och är schyst som komplement till SMS-Watchdog:en).