This entry was posted
on måndag, augusti 17th, 2009 at 22:49 and is filed under Osorterad.
You can follow any responses to this entry through the RSS 2.0 feed.
Both comments and pings are currently closed.
Ja, jag har provat Solr:s ”more like this” (MLT). Du kan se den på nyhetr.se för att visa relaterade nyheter, t ex: http://nyhetr.se/mlt.php?tick=1250706092008 Jag har justerat en del i original-koden; jag använder den normala beräkningen av ”term frequency–inverse document frequency” för att hitta ”viktiga” ord i nyheterna, men har justerat så att den söker i alla ”fields”, dessutom begränsar jag letandet efter relaterade nyheter till nyheter som publicerats nära i tiden.
MLT fungerar mycket bättre om man använder ”stemming” på den text som indexeras. Jag provar därför att indexera två versioner av texterna, en med och en utan stemming.
Intressant. I intervjun pratas om Solr:s More like this-funktion. Är det något som du utforskat?
Ja, jag har provat Solr:s ”more like this” (MLT). Du kan se den på nyhetr.se för att visa relaterade nyheter, t ex: http://nyhetr.se/mlt.php?tick=1250706092008 Jag har justerat en del i original-koden; jag använder den normala beräkningen av ”term frequency–inverse document frequency” för att hitta ”viktiga” ord i nyheterna, men har justerat så att den söker i alla ”fields”, dessutom begränsar jag letandet efter relaterade nyheter till nyheter som publicerats nära i tiden.
MLT fungerar mycket bättre om man använder ”stemming” på den text som indexeras. Jag provar därför att indexera två versioner av texterna, en med och en utan stemming.
Det som är implementerat för att visa relatede nyheter på nyhetr.se är i det närmaste exakt det som jag har beskrivit i http://www.frisim.com/Relaterade_nyhetsartiklar.pdf