Archive for juni, 2004

Googles PageRank-checksumme-algorim publik

Posted in Sökmotorer on juni 27th, 2004 by Clas – Kommentering avstängd

Googles rangordningssystem ”PageRank” har fashinerat oss som är intresserade av sökmotorer. PageRank, som utåt visas som ett värde mellan 0 och 10 som Google sätter på alla sina indexerade webbsidor har också fungerat som ett mått på hur populär, eller bra, en webbsida är. För att få reda på en sidas PageRank kan man t.ex. installera Google Toolbar. Detta har blivit en stor succe för Google.

Googles toolbar har alltså en funktion för att ta reda på en sidas PageRank, vilket görs genom att göra en förfrågning mot Googles server. Som svar returneras PageRank-värdet, som sedan visas upp i Googles toolbar. Många hur sedan introduktionen av denna toolbar visat stort intresse för hur man kan hämta hem sidors PageRank-värde utan att använda denna toolbar. Problemet har legat i att man måste skicka med en cheksumma, som Google valt att inte avslöja hur den är beräknad.

Ett fåtal ”hackers” dekomplierade redan för några år sedan Googles toolbar för att ta reda på hur checksumman kan beräknas. Sedan dess har det dykt upp ett antal sajter som visar en sidas PageRank, och vissa har till och med försökt sälja koden för att beräkna checksumman.

Nu har dock koden sluppit ut publikt och finns att ladda hem gratis för den intresserade. Algoritmen som används är en känd procedur för att konvertera en text till ett tal (en så kallad hash-funktion).

En PHP-version av koden för denna hashning, som alltså kan användas för att beräkna den checksumma som används för att hämta Googles PageRank-värde, finns att ladda hem på MobileRead.

Internetbrus skriver om Frisims Nyhetssida (beta)

Posted in Frisim on juni 23rd, 2004 by Clas – Kommentering avstängd

Internetbrus skriver som vår Nyhetssida.

(Ledsen att jag visar Google Adsense reklam på Nyhetssidan, men jag är bara tvungen att se hur det fungerar; hittills ser det ut att fungera relativt dåligt – de visar till och med annonser på engelska!?)

RSS-feeds av Nyhetsrubriker.com:s rubriker

Posted in Frisim on juni 21st, 2004 by Clas – Kommentering avstängd

Vi inför möjligheten att hämta de nyhetsrubriker som vi har på Nyhetsrubriker.com i RSS-format. Feeden innehåller titel, länk och en ingress om c:a 130 tecken. Just ingressen är (möjligen!?) det som motiverar dig att använda data via Nyhetsrubriker.com, och inte direkt från de källor som har en egen RSS-feed. De flesta (endast DN undantaget) som har egna RSS-feeds saknar artikelingress. FPGroup:s feed saknar tyvärr ingress. Data kommer från den version av Frisim (vår sökmotor) som används på Nyhetsrubriker.com.

RSS-filerna hittas på:

Ladda helst inte filerna oftare än var 30:e minut. RSS-filen har en time-to-live-tagg (ttl) satt till 30 minuter. Jag tror inte att vi kommer att drabbas av några problem på grund av för mycket RSS-trafik, utan tror att dessa feeds inte belastar vårt webbhotell för hårt. (Nyhetsrubriker.com använder inte samma server som frisim.se, utan använder ett ”vanligt” webbhotell.)

Filerna är testade i Bloglines, men inte i andra nyhetsaggregatorer. Prova gärna och säg vad du tycker!

Nytt försök med Frisim Nyhetssida

Posted in Frisim on juni 6th, 2004 by Clas – Kommentering avstängd

Nu gör vi ett nytt försök med en portalliknande nyhetssida – Frisim Nyhetssida. Naturligtvis är alltihop en BETA-version, och då menar jag inte en beta-version av Google-klass utan att rätt som det är så fungerar det inte alls ;-) Allt ihop är ett snabbhack – precis som tidigare försök.

Nyheterna på sidan är automatgenererade eller som Google skriver ”The selection and placement of stories on this page were determined automatically by a computer program.”

De fyra kategorierna ”inrikes/utrikes”, ”teknik”, ”ekonomi” och ”sport” genereras baserat på ord-vektor vinklar. Vinklarna beräknas som skalärprodukten mellan en fördefinierad ”kategori-vektor” som innehåller kategoridefinerande sökord, och ord-vektorn för varje insamlad nyhet. Artiklar med en ”vinkel” lägre än ett fördefinierat tröskelvärde tas med i kategorin. Enkelt, och fungerar ofta okej, men inte alltid. Nyheterna under ”toppnyheter” baseras på så kallade ”Word bursts” – analys av orden i titlar och ingresser hos nyhetsartiklarna för att hitta ord som under en begränsad tidsperiod förekommer oftare än andra. Dessa ord används sedan för att generera sökningar i artikeldatabasen. Resultat av sökningarna hamnar under ”toppnyheter”.

Nyhetssidan bygger inte på någon form av ”personalisering” och sättet som nyheterna genereras på är heller inte anpassat för att genereras baserat på vilka nyheter som klickats på tidiagre. Inte heller använder vi någon statistik från de drygt 1000 klick som vi dagligen leder via vår sajt. Att använda statistik från dessa ”anonyma” klick för att generera populära nyheter vore en tänkbar väg att gå vidare med detta. (Å andra sidan så vet jag att de rubriker som får många klick på sig i Nyhetsrubriker.com:s statistik framför allt är Expressens sensations-journalistiks-rubriker.)

Sidan är som vanligt(!?) inspirerad av Google News, men denna gång också av TodaysPapers som länkades från MyMarkup/blog.