Solr hos Digg.com

Lyssna på Sammy Yu från Digg.com om hur deras Solr-setup fungerar. Grant Ingersoll Talks with Sammy Yu.

  1. Ola Henriksson skriver:

    Intressant. I intervjun pratas om Solr:s More like this-funktion. Är det något som du utforskat?

  2. Clas skriver:

    Ja, jag har provat Solr:s ”more like this” (MLT). Du kan se den på nyhetr.se för att visa relaterade nyheter, t ex: http://nyhetr.se/mlt.php?tick=1250706092008 Jag har justerat en del i original-koden; jag använder den normala beräkningen av ”term frequency–inverse document frequency” för att hitta ”viktiga” ord i nyheterna, men har justerat så att den söker i alla ”fields”, dessutom begränsar jag letandet efter relaterade nyheter till nyheter som publicerats nära i tiden.

    MLT fungerar mycket bättre om man använder ”stemming” på den text som indexeras. Jag provar därför att indexera två versioner av texterna, en med och en utan stemming.

    Det som är implementerat för att visa relatede nyheter på nyhetr.se är i det närmaste exakt det som jag har beskrivit i http://www.frisim.com/Relaterade_nyhetsartiklar.pdf

  1. There are no trackbacks for this post yet.