Archive for maj, 2004

Dansk djuplänkning

Posted in Sökmotorer on maj 17th, 2004 by Clas – Kommentering avstängd

Danskarna verkar inte ha löst sina problem med s.k. djuplänkning. ”Poulsen points out that almost all Danish newspapers carry a legal statement saying that one may link to the ”front page,” but that systematic deep linking is illegal and will be met with claims for financial compensation.”

Ah, ett mail från Google ;)

Posted in Sökmotorer on maj 11th, 2004 by Clas – Kommentering avstängd

Ah, jag har fått ett svar på mitt mail till Google om att det inte går att söka med svenska tecken från ”externa” sökformulär. Svaret är dock bara:
”Thank you for bringing this information to our attention. We have passed
your note on to our engineers for further investigation. We appreciate
your taking the time to write to us. Regards,
The Google Team”

Gratis bandbredd hos FeedBurner

Posted in Sökmotorer on maj 11th, 2004 by Clas – Kommentering avstängd

FeedBurner verkar vara ett schyst sätt att distribuera RSS-data på utan att det kostar ”bandbredd”. Undrar hur ofta de läser feed:en från min server? Kanske ett bra sätt att distribuera några Frisim-standard-feeds på, någon dag…

En SvD.se test-feed:

Don’t get a Ph.D.; just index on words

Posted in Sökmotorer on maj 11th, 2004 by Clas – Kommentering avstängd

En lite lustig artikel om att bygga sin egen sökmotor Big or small, proprietary or open source, Web or intranet, it’s a tough job. ”Don’t get a Ph.D.; just index on words. Words are what people search for; they don’t search for N-Grams or letters or PTrees or locations in streams, so any other method other than the simplest will make you seem clever”. Från mymarkup/links.

Frisim portalsida

Posted in Frisim on maj 10th, 2004 by Clas – Kommentering avstängd

Nu finns en portalliknande sida upplagd. Sidan har inspirerats ”en del” av Google news. I princip är det de gamla vanliga nyhetsklustren som lagts på en och samma sida. Det enda nya är att den så kallade dubblett-reduceringen används – rubriker/ingress med stora likheter med varandra skriv under varann. Likhetsberäkningen är baserade på den ”edit distance” som jag beskrev igår. Sidan genereras ”on the fly” så ibland kanske den kan vara lite segladdad. Prova, och kommentera, gärna!

Att bygga en sökmotor i Perl baserad på vektor-rumsmodellen

Posted in Sökmotorer on maj 9th, 2004 by Clas – Kommentering avstängd

Building a Vector Space Search Engine in Perl är en kort beskrivning av hur man bygger ett sökmotorindex baserat på vector-space modellen. Inget nytt, men en schyst ”hands-on” presentation inklusive lite kod.

Googles externa-sökrutor och svenska tecken

Posted in Sökmotorer on maj 9th, 2004 by Clas – Kommentering avstängd

Google har tyvärr lyckats strula till sina sökresultat från externa sökrutor med svenska tecken. Sökrutan som finns på ”Infoga en Google-sökruta på din hemsida”, där också HTML-koden finns för kopiering fungerar inte för svenska tecken. De svenska tecknen ersätts med ?-tecken på sökresultatsidan. Problemet kan kommas runt genom att lägga till
<input type=hidden name=oe value=”latin1″>
<input type=hidden name=ie value=”latin1″>
i form:en.

Baserat på en fråga på webForum.

Shingling baserad på Levenshtein distance

Posted in Frisim on maj 9th, 2004 by Clas – Kommentering avstängd

När vi distribuerar rubriklänkar till andra sajter har vi sedan tidigare sållat bort dubletter. Behovet finns eftersom samma artikel, oftast distribuerad från TT, dyker upp hos flera källor i princip samtidigt. Dock verkar TT, eller om det är nyhetssajterna själva – det vet jag inte, göra små anpassningar av rubrik och ingress för varje nyhetssajt. Detta gör att de har slunkit igenom vårt dublett-filter då de inte är identiska. Nu har vi istället implementerat en beräkning av en så kallad ”edit distance” mellan nyheternas rubrik och ingress för att sålla bort (eller klumpa ihop) dessa nästan-dubletter. Beräkningen av ”edit distance”, eller ”Levenshtein distance” baseras på denna kod. (Länktipset till koden är från HakanK.) Just nu är beräkningen implementerad ”nära presentationsskiktet” hos Frisim, och bara i en test-version. Förhoppningen är att kunna göra denna typ av ”shingling” redan när nyheten samlas in, eftersom det skulle möjliggöra ihopklumpning även av sökresultat på vår webbsida.

Update: Så här ser det ut


något Google-news inspirerat, jag vet ;)

Prooge, Googlesökningar med PageRank

Posted in Sökmotorer on maj 9th, 2004 by Clas – Kommentering avstängd

Proogle är ett skal till Google (baserat på Googles API?) som presenterar Googlesökningar på ungefär samma form som Google plus att för varje sökträff syns Googles Pagerank-värde. Hur användbart det är vet jag inte, men det gör det i alla fall lite enklare att se hur liten korrelationen är mellan PageRank-värdet och sorteringen av sökresultaten. PageRank har tyvärr börjat mista sin betydelse. Från Searchblog

MozDex-artikel i Kuro5hin

Posted in Sökmotorer on maj 9th, 2004 by Clas – Kommentering avstängd

Building a Search engine, om sökmotorn mozDex, baserad på Jakartaprojektet Lucene och Nutch. Även om mozDex inte fungerar speciellt bra så är det imponerande med små projekt som föksöker bygga stora index av webbsidor. mozDev:s index är fortfarande litet i förhållande till Google, men stort om man kör allt på en eller två datorer. Sorteringen av sökträffar behöver dock förbättras betydligt innan den kommer i närheten av andra sökmotorer på nätet.