Buggar i Word Bursts-matematiken

På sidan www.frisim.se/burst.php finns en så kallad ”word burst”-analys, eller ordutbrott som vi kallat det. Vi går igenom alla rubriker och ingresser för att registrera vilka ord som förekommer. Baserat på statistik över hur vanliga ord brukar vara (ett löpande medelvärde som finns beräknad för varje ord) så ser vi om ett visst ord dyker upp med högre frekvens en vanligt, och då hoppas vi att man har identifierat ett område, eller en grupp nyheter, där något har hänt och som många nyhetssajter rapporterar om.

www.frisim.se/burst.php finns just nu tre tal (x,y,z) tillhörande varje ord av de tio som listas på sidan. Talet y är det löpande medelvärdet av ordfrekvensen för ett givet ord (per timme) under de senaste 48 timmarna. Talet z anger ordfrekvensen per timme för de senaste 48 timmarna, och x är i princip z-y, men här har vi även viktat in hur många gånger ordet brukar dyka upp (dvs, y) för att inte få med ord som är allt för ovanliga.

Den bugg som rättats idag var en felaktig beräkning av y för de ord som inte hittades vid den senaste genomsökningen av alla artiklar.

Word burst-analyser är fortfarande under utveckling i den mening att det fortarande tillkommer ord som vi tidigare inte har någon statistik för. Hur lång tid det tar för att bygga upp en tillräcklig lista av ord har vi ingen aning om, men det borde fungera bättre inom en vecka, eller så.

Comments are closed.