Det är inte svårt att skriva en egen sökmotor. Bygger man på verktyg som t.ex. MySQL så går det väldigt enkelt – i princip det enda som behöver programmeras är den del som sparar ner själva webbsidan i databasen.
Eftersom det nu är enkelt att skapa sig en egen ”sökmotor” så görs det många försök som sedan läggs ut på internet. Vad dessa sökmotorer ska användas till varierar. Tyvärr är förekommer det att det skapas sökmotorliknande sajter som används för att bygga en så kallad ”scraper site”. En scraper site bygger på en databas med textmaterial som är insamlat från andra webbsidor. Utifrån dessa texter så återskapas en massa ”nya” webbsidor. Syftet är ofta att ”lura” andra sökmotorer (vanligen Google) att skicka besökare till scraper-sidan. När sedan Google börjar skicka besökare till sidan så utnyttjar skaparen av scraper site:n det. Endera genom att lägga till reklam på sidan, eller skicka en besökare vidare till en annan sajt som skaparen vill ha besökare till. Ofta visar dessa automatgenererade sidor Google Adsense-reklam.
Google, och andra sökmotorer, är redan ganska bra på att detektera denna typ av scraper sites, och kan oftast undvika att skicka allt för många besökare till dem. Dock är Google, och andra sökmotorer, lite sämre på identifiera denna typ av skräp om sidorna är på svenska – och det utnyttjas.
Till exempel på skrivs det på Intressants.se:s utvecklingsblogg om svenska Dabloid.se som har skapat en scraper site baserad på bloggmaterial från svenska bloggar. Det Dabloid gjort är helt enkelt att man samlat in RSS-feeds från ett antal svenska bloggar, och lagt upp texterna på sin sajt – troligen (jag kan bara gissa) för att få sökmotorer att skicka besökare till Dabloid.se istället för direkt till den blogg där materialet publicerats från början. Dabloid verkar skapa sidor av denna typ. Det fiins många fler exempel på denna typ av scraper site, men det kan räcka med detta.
Jag tycker inte att detta är ”fair use” av RSS-data. Det är uppenbart att materialet inte används för att hjälpa en besökare att hitta till källan, som trots allt lagt ner tid och engagemang att skapa texterna. Samtidigt tycker jag att det är svårt att se var gränsen går för vad som är ”fair use”, och vad som inte är det.
Ta t.ex. sajten Intressant som också använder sig av blogginnehåll för att skapa, vad de kallar lite mer Google-karma till sajten. Det är dock en tydlig skillnad mellan Intressant.se och Dabloid – dels i hur texterna presenteras, dels i frivilligheten att låta sina texter vara med. På Intressant.se är det frivilligt att vara med eftersom sajten bygger på att man medddelar att man uppdaterat sin blogg med nya inlägg. Vill man inte att t.ex.en Google-sökning på det ämne man kommenterat på sin blogg eventuellt ska leda Google-sökare till Intressant.se, utan direkt till sin egen blogg, ja då är det enkelt att bara inte ”pinga” Intressant.se. Detta tillsammans med att data från bloggarna används på Intressant.se för att skapa länkar till ”liknande bloggar”, och annat, gör att användandet av RSS-data känns ”fair”, även om det är samma typ av data som nyttjas t.ex. av Dabloid.
Det finns fler exempel på vad jag tycker känns som ”fair use” och inte. Intressant.se:s(?) nya blog-sök-tjänst, som finns på Knuff.se ser ut att använda RSS-data på vad jag tycker är ett sökmotormässigt sätt när det gäller blogg-sökningar. Till exempel så leder länkar som ”ser ut” att vara länkar direkt till källan också direkt till källan. Det känns schysst. (När det gäller nyhetslänkarna på knuff.se, som inte leder direkt till källan, så är jag lite mer tveksam.) Som jämförelse kan vi ta en annan bloggsöktjänst – feeder.se. På feeder.se så kan du söka på bland annat bloggmaterial. Efter en sökning så får du en lista på rubriker på blogginlägg som matchar din sökning, precis som på vilken sökmotor som helst. Varje rubrik är en länkad text. Länken leder dig dock inte direkt till källan, utan den leder till en ny sida, där rubriken ges ännu en gång, samt att ”ingressen” presenteras. Denna ”undersida” är dessutom optimerad för sökmotorer, bland annat genom utformingnen av själva URL:en. På denna undersida visas reklam, och naturligvis, om än något undangömd, länken till källan. Detta sätt att länka tycker jag inte är ”fair use” av RSS-data.
Ok, vad har jag dragit för slutsats av detta? Ingen, men jag har i alla fall funderat igenom vad jag tycker är ”fair use” av RSS-data. Generellt blir min åsikt är att det inte är ”fair use” av RSS-data, vare sig från bloggar eller nyhetssajter, om huvudsyftet är använda materialet för att dra trafik till den sajten. Vad syftet är, det vet naturligtvis bara den som skapar sajten, men det är ju var och en fritt att göra sin egen tolkning.