Klustring av Frisims nyheter med Carrot2

Efter att Internetbrus.com skrivit om Carrot2 så blev nyfiken att prova. Carrot2 är ett ”open source”-ramverk för klustring av texter. Indata till Carrot2 är ett antal olika textsnuttar, och från dessa texter försöker Carrot2 att hitta gemensamma faktorer, för att sedan dela in texterna i teman. Jag har provat Carrat2 på sökresultat från Frisim nyhetssök. Sökningen görs på vanligt sätt, men innan reultaten skrivs ut så matas titel och ingress in i Carrot2 som försöker ordna nyheterna.

En sökning på ”london” resulterar i att bland andra klustren ”London eller Paris får OS”, ”London får arrangera”, ”Blair lämnar G8-mötet”, ”Efter terrorattacken”, ”Tre tysta minuter i hela”, ”Tunnelbanestationer”, ”Flygtrafiken mellan Stockholm och London påverkas” och ”Terrordåd” skapas. Jag är lite imponerad av dessa resultat. För vissa andra sökord fungerar det sämre. Nu borde jag nog inte uttala mig alls om Carrot2s kvalitet eftersom jag varken har försökt anpassa det till svenska (med t.ex stemming) eller sållat bort dubletter innan data matas in. Den enda slutsaten jag kan dra är att Carrot2 är mycket enkelt att implementera i en Java-applikation – det tar i stort sätt inte mer än ett par timmar från nedladdning till färdigt exempel. Gissningsvis är det dock en del jobb om man vill anpassa det mer. Eftersom Carrot2 är ”open source” så går det alldeles utmärkt att modifiera koden precis som det passar. Att sätta sig in i Carrot2s kod och den algoritm som används kräver dock mycket mer tid än en eftermiddag.

Mitt gränssnitt för denna Frisim modifierad med Carrot2-klustring finns på Frisim med Carrot2. Där kan du själv bedöma kvaliteten på klustren via olika sökningar.

  1. Dawid Weiss skriver:

    Hi. I’m one of the creators of Carrot2; I wish I could understand anything from your post — any feedback is welcome, but I don’t understand a word from the article ;))

    If you need any help with tuning the algorithm, let me/us know!

    Dawid

  1. There are no trackbacks for this post yet.