Archive for april, 2003

Daypop startar om sin word burst

Posted in Sökmotorer on april 29th, 2003 by Clas – Kommentering avstängd

Just nu verkar daypop ha ”startat om” sin Word Burst-analys. Just nu finns på burstlistan: ” ”, the, of, s, in, for, on , news, and, us, a, more, about, new, business, with, up, world. Det är spännande med en inblick i hur andras kod/ideer fungerar =)

Just nu sållar vi bort ord med färre än 5 bokstäver och har dessutom en ”stoplista” på 327 ord.

Försök till ihopklumpning av ordutbrott

Posted in Frisim on april 26th, 2003 by Clas – Kommentering avstängd

Nu finns ett enkelt försök till ihopklumpning, två-och-två, av ordutbrottsord för utprovning på ordutbrottssidan. Det ser inte ut att fungera jättebra, men redan tidigare finns det problem med att allt för få sajter har frekvent uppdatering under helgerna, så vi får vänta och se.

En New Scientist artikel som spekulerar om Google/Word Bursts

Posted in Sökmotorer on april 26th, 2003 by Clas – Kommentering avstängd

Jag hittade en gammal artikel om ”word bursts” (ordutbrott). Där står ”The algorithms that run Google’s automated news aggregation service remain secret, but it is not difficult to imagine that word bursts could, or do, have a useful role.”

Nästa steg i utveckling av vår ordutbrottsidentifiering är att göra en (enkel) rutin för att försöka para ihop vissa ord så att inte samma huvudnyhet identifieras flera gånger, vilket brukar hända nu.

En artikel från Google om nyhetssökningar

Posted in Sökmotorer on april 23rd, 2003 by Clas – Kommentering avstängd

Denna artikel handlar om hur man kan hitta en relevant nyhetsartikel baserat indata från textremsan från t.ex. en TV-nyhetssändning. Samma teknik borde gå bra att använda på våra ”ordutbrott” (word bursts). Artikeln är skriven av folk på Google.com. Artikeln innehåller intressanta fakta vad gäller fattigmans-”stemming” (genom att titta på de första fem bokstäverna i orden) och relevansen av att göra nyhetssökningar med två ord, och inte bara med ett (och heller inte med tre).

Buggar i Word Bursts-matematiken

Posted in Frisim on april 20th, 2003 by Clas – Kommentering avstängd

På sidan www.frisim.se/burst.php finns en så kallad ”word burst”-analys, eller ordutbrott som vi kallat det. Vi går igenom alla rubriker och ingresser för att registrera vilka ord som förekommer. Baserat på statistik över hur vanliga ord brukar vara (ett löpande medelvärde som finns beräknad för varje ord) så ser vi om ett visst ord dyker upp med högre frekvens en vanligt, och då hoppas vi att man har identifierat ett område, eller en grupp nyheter, där något har hänt och som många nyhetssajter rapporterar om.

www.frisim.se/burst.php finns just nu tre tal (x,y,z) tillhörande varje ord av de tio som listas på sidan. Talet y är det löpande medelvärdet av ordfrekvensen för ett givet ord (per timme) under de senaste 48 timmarna. Talet z anger ordfrekvensen per timme för de senaste 48 timmarna, och x är i princip z-y, men här har vi även viktat in hur många gånger ordet brukar dyka upp (dvs, y) för att inte få med ord som är allt för ovanliga.

Den bugg som rättats idag var en felaktig beräkning av y för de ord som inte hittades vid den senaste genomsökningen av alla artiklar.

Word burst-analyser är fortfarande under utveckling i den mening att det fortarande tillkommer ord som vi tidigare inte har någon statistik för. Hur lång tid det tar för att bygga upp en tillräcklig lista av ord har vi ingen aning om, men det borde fungera bättre inom en vecka, eller så.

Intervjuad av Ny Teknik

Posted in Frisim on april 10th, 2003 by Clas – Kommentering avstängd

Idag har jag gjort en telefonintervju med Ny Teknik. Anledningen var att de tänkt göra en artikel om nyhetssökmotorer. Av frågorna att döma så skulle det bli en kort artikel om nyhetssökmotorer i allmänhet, och en jämförelsetabell där ett antal nyhetssökmotorer skulle kunna jämföras vad gäller om de är gratis eller inte, hur många källor som indexeras, hur länge indexet sparas, och om det är möjligt att minska ner antalet träffar i sökningen genom att tex. använda datum-filter.

Intervjuaren verkade hyggligt insatt i hur en sökmotor fungerar och listade ett antal nyhetssökmotorer som nyheter.se och moreover.com som antagligen också kommer att vara med vid jämförelsen. Jag misstänker att artikeln inte har fokus på svenska nyheter, utan sökmotorer för nyheter på engelska kommer att finnas med.

Förutom de rent tekniska frågor som jag fick diskuterade vi även rättigheter och skyldigheter vad gäller nyhetsartiklar. Som vanligt har jag ganska lite att tillföra en sådan diskussion, förutom ett antal exempel på mejl jag fått från nyhetskällor där de är mer eller mindre lyckliga över att de får gratistrafik från vår sajt.

Det skall bli spännande att se om det blir någon artikel, och i så fall vad som står att läsa om frisim.se.