Sökordsmarkering

Jag har kollat lite på hur man skulle kunna skapa markeringar i nyhetsartikeln där orden man söker på finns med, och också presentera ett litet utdrag av artikeln runt sökorden. Detta är inget enkelt problem, i alla fall inte om det skall göras fullständigt. För det första kräver det naturligtvis att hela artikeln finns lagrad – det gör den, så det är inget stort problem. Nästa problem är vad man gör med lite mer avancerade sökningar som innehåller ”wildcards” som ? och/eller *. Skall det fungera korrekt med dessa så blir det lite mer problem, men även det gick att lösa. (Lösningen använder samma metod som DipBox/Korsord använder för ge tips på ord som passar in i korsord.) Sista problemet är att det måste vara snabbt! Den experimentversion som jag har just nu fungerar hjälpligt, men den baseras till stor del på (sunkiga) ”regular expressions”, och de är lite kasst implementerade, vilket gör koden alldeles för långsam. Söker man t.ex. på vägavgift* så hittar och markerar den både vägavgiftsystem och vägavgifter i artikelsammanfattningen, men det tar flera sekunder, vilket inte är acceptabelt.

Jag fick tips om en nyhetssöksajt, topix.net som jag inte noterat tidigare. Den är mycket like Google news, och i alla fall inte sämre. Topix hittar nyckelord och klumpar ihop nyheter efter dessa. Jag har dock inte hunnnit kolla hur bra, eller användbart, det är. Det jag först fastnade för var de nyhetssidor som de genererar. Till exempel genereras en sida om Google som hittas under /com/google. Snyggt! Topix samla också bilder, precis som Google news, det gör att nyheterna kan presenteras lite mer lättsamt; synd att svenska nyheter så sällan har bilder…

Comments are closed.