maj 2004


Sökmotorer17 Maj 2004 10:33 pm

Danskarna verkar inte ha löst sina problem med s.k. djuplänkning. “Poulsen points out that almost all Danish newspapers carry a legal statement saying that one may link to the “front page,” but that systematic deep linking is illegal and will be met with claims for financial compensation.”

Sökmotorer11 Maj 2004 11:03 pm

Ah, jag har fått ett svar på mitt mail till Google om att det inte går att söka med svenska tecken från “externa” sökformulär. Svaret är dock bara:
“Thank you for bringing this information to our attention. We have passed
your note on to our engineers for further investigation. We appreciate
your taking the time to write to us. Regards,
The Google Team”

Sökmotorer11 Maj 2004 10:36 pm

FeedBurner verkar vara ett schyst sätt att distribuera RSS-data på utan att det kostar “bandbredd”. Undrar hur ofta de läser feed:en från min server? Kanske ett bra sätt att distribuera några Frisim-standard-feeds på, någon dag…

En SvD.se test-feed:

Sökmotorer11 Maj 2004 09:28 pm

En lite lustig artikel om att bygga sin egen sökmotor Big or small, proprietary or open source, Web or intranet, it’s a tough job. “Don’t get a Ph.D.; just index on words. Words are what people search for; they don’t search for N-Grams or letters or PTrees or locations in streams, so any other method other than the simplest will make you seem clever”. Från mymarkup/links.

Frisim10 Maj 2004 11:04 pm

Nu finns en portalliknande sida upplagd. Sidan har inspirerats “en del” av Google news. I princip är det de gamla vanliga nyhetsklustren som lagts på en och samma sida. Det enda nya är att den så kallade dubblett-reduceringen används - rubriker/ingress med stora likheter med varandra skriv under varann. Likhetsberäkningen är baserade på den “edit distance” som jag beskrev igår. Sidan genereras “on the fly” så ibland kanske den kan vara lite segladdad. Prova, och kommentera, gärna!

Sökmotorer09 Maj 2004 10:58 pm

Building a Vector Space Search Engine in Perl är en kort beskrivning av hur man bygger ett sökmotorindex baserat på vector-space modellen. Inget nytt, men en schyst “hands-on” presentation inklusive lite kod.

Sökmotorer09 Maj 2004 11:14 am

Google har tyvärr lyckats strula till sina sökresultat från externa sökrutor med svenska tecken. Sökrutan som finns på “Infoga en Google-sökruta på din hemsida“, där också HTML-koden finns för kopiering fungerar inte för svenska tecken. De svenska tecknen ersätts med ?-tecken på sökresultatsidan. Problemet kan kommas runt genom att lägga till
<input type=hidden name=oe value=”latin1″>
<input type=hidden name=ie value=”latin1″>
i form:en.

Baserat på en fråga på webForum.

Frisim09 Maj 2004 10:59 am

När vi distribuerar rubriklänkar till andra sajter har vi sedan tidigare sållat bort dubletter. Behovet finns eftersom samma artikel, oftast distribuerad från TT, dyker upp hos flera källor i princip samtidigt. Dock verkar TT, eller om det är nyhetssajterna själva - det vet jag inte, göra små anpassningar av rubrik och ingress för varje nyhetssajt. Detta gör att de har slunkit igenom vårt dublett-filter då de inte är identiska. Nu har vi istället implementerat en beräkning av en så kallad “edit distance” mellan nyheternas rubrik och ingress för att sålla bort (eller klumpa ihop) dessa nästan-dubletter. Beräkningen av “edit distance”, eller “Levenshtein distance” baseras på denna kod. (Länktipset till koden är från HakanK.) Just nu är beräkningen implementerad “nära presentationsskiktet” hos Frisim, och bara i en test-version. Förhoppningen är att kunna göra denna typ av “shingling” redan när nyheten samlas in, eftersom det skulle möjliggöra ihopklumpning även av sökresultat på vår webbsida.

Update: Så här ser det ut


något Google-news inspirerat, jag vet ;)

Sökmotorer09 Maj 2004 10:59 am

Proogle är ett skal till Google (baserat på Googles API?) som presenterar Googlesökningar på ungefär samma form som Google plus att för varje sökträff syns Googles Pagerank-värde. Hur användbart det är vet jag inte, men det gör det i alla fall lite enklare att se hur liten korrelationen är mellan PageRank-värdet och sorteringen av sökresultaten. PageRank har tyvärr börjat mista sin betydelse. Från Searchblog

Sökmotorer09 Maj 2004 10:58 am

Building a Search engine, om sökmotorn mozDex, baserad på Jakartaprojektet Lucene och Nutch. Även om mozDex inte fungerar speciellt bra så är det imponerande med små projekt som föksöker bygga stora index av webbsidor. mozDev:s index är fortfarande litet i förhållande till Google, men stort om man kör allt på en eller två datorer. Sorteringen av sökträffar behöver dock förbättras betydligt innan den kommer i närheten av andra sökmotorer på nätet.

Next Page »