Archive for augusti, 2009

Google använder Solr

Posted in Sökmotorer on augusti 29th, 2009 by Clas – Kommentering avstängd

Google låter sina anställda jobba med volontärjobb på en liten del av sin arbetstid. De använder en sida vid namn AllForGood, som drivs av och hos Google för detta. De beskriver på Google public sector-bloggen att de bytt sökmotor från det tidigare Google-indexet, till att göra att eget index bara för sina volontär-projekt. För det indexet har de valt att inte använda sitt ”normala” system, utan istället Apache Lucene baserade Solr. Jag tycker att det är intressant att de väljer ett open source system, istället för sitt egna. Och än mer intressant att de använder samma som min utvecklingssajt Nyhetr.se.

(Via Cominvent)

Solr hos Digg.com

Posted in Osorterad on augusti 17th, 2009 by Clas – 2 Comments

Lyssna på Sammy Yu från Digg.com om hur deras Solr-setup fungerar. Grant Ingersoll Talks with Sammy Yu.

Bloggping-statistik

Posted in Frisim on augusti 15th, 2009 by Clas – 2 Comments

Av de 63549 bloggar som Frisim/ping har pingats med, så har 44685 både passerat SPAM-filtret och har en RSS-feed. Mycket av det SPAM som pingas in är profil eller medlemssidor på forum. Mycket av detta ser ut at komma från servrar i USA och Kina. Ofta är det samma sidor (domäner) som pingas in från många olika IP-nummer. Forums-adresserna som pingas in är ofta ”hackade” visar endera upp en lång lista med länkar, eller också skickar forumsidan iväg besökaren till någon skräpsida med hjälp av Javascript.

Blogghotellet blogghotell.se är den som pingar in överlägset mest ”SPAM” av svenska IP:n. Blogghotellet verkar pinga ut från en server hos Oderland.

Av de 44685 bloggar som passerat SPAM-filtret, och som Frisim också hittat en RSS-feed till, är det bara 2591 bloggar som är ”aktiva” och som har uppdaterat och pingat in igen inom de senaste 14 dagarna.

Skillnaden mellan SPAM och normala bloggar är tyvärr ibland hårfin. Somliga bloggar verkar fyllas med lite random texter, andra innehåller texter som ingen männsika rimligen kan stå för. Även om Frisim indexerar bloggar och gör dem sökbara, så är jag mest intresserad av att analysera vad bloggare länkar till, och i första hand vilka nyhetsartiklar som det länkas till just nu.

Nytt bloggtema

Posted in Osorterad on augusti 13th, 2009 by Clas – Kommentering avstängd

Bloggen har fått ett nytt utseendetema. Bloggen använder nu SimpleX. Med nya temat så heter det ”comments” istället för ”kommentarer”, men det spelar inte så stor roll. Lite ”modernare” ser det ju ut i alla fall :-)

Frisim får tillbaka bloggar

Posted in Frisim on augusti 3rd, 2009 by Clas – Kommentering avstängd

Nu visar en sökning på Frisim även träffar bland bloggar igen. Anledningen till att jag tog bort dem för ett tag sedan var för att allt för mycket SPAM kommit med bland bloggarna. Nu filtreras blogg-pingar något hårdare.

Det är lite meningslöst att indexera en massa blogginlägg som i princip aldrig visas upp, så nu syns de alltså vid ”normala” sökningar igen. Vill du söka bland endast nyheter så går det bra att lägga till söktermen [kategori:nyheter] så syns inte bloggar eller pressmeddelanden.

Nyhetr Suggest, nyhetssök med ”autocomplete”

Posted in Frisim on augusti 1st, 2009 by Clas – Kommentering avstängd

För ungefär ett år sedan så lanserade Google en version som ger förslag på sökord, ”Google Suggest”. Förslagen kommer upp samtidigt som du gör din sökning i den vanliga Google-sökrutan. I Googles version så får du också en uppskattning på hur många sökresultat du kommer att få se om du genomför sökningen.

Denna typ av ”suggests” eller ”autocomplete” är en av mycket få innovationer som gjorts på den så traditionella sökrutan bland världens alla sökmotorer och sökfunktioner. Oftast är det förslag på sökningar som sökmotorn vet är vanliga, eller som ger sökträffar; när det handlar om att visa upp data användaren skrivit tidigare brukar det kallas ”autofill” istället, något som alla webbläsare erbjuder sina användare för bl.a. användarnamn och lösenord.

Nyhetr har nu fått en ”autocomplete”-funktion. Den är något enklare än Googles i och med att den bara föreslår enstaka ord och inte visar förväntat antal sökresultat. Så här ser det ut om du skriver in ”tw” i sökrutan:




Nyhetr föreslår bl.a. sökorden ”twitter”, ”twittergrundaren”, ”twitter” och ”twittra”, helt enkelt för att det är ord som förekommit i nyhetsartiklar de senaste dagarna.

Nyhetrs version av autocomplete är implementerad genom att använda jQuerys Autocomplete-plugin – otroligt enkelt. Det enda som behövde skapas är, givet ett eller flera tecken från sökrutan, en lista med ord som startar med dessa tecken. Detta måste dock gå väldigt fort. I min version så används Nyhetrs artikelindex för att hitta ord (”terms”) i indexet som matchar. Som det är implementerat just nu så används ord direkt från nyhetsartiklarna, men det skulle också fungera att använda listor med namn och platser, eller andra ”entities”, som finns lagrade separerat i sökindexet.