Sökmotor eller ”scraper site” – var går gränsen?

Det är inte svårt att skriva en egen sökmotor. Bygger man på verktyg som t.ex. MySQL så går det väldigt enkelt – i princip det enda som behöver programmeras är den del som sparar ner själva webbsidan i databasen.

Eftersom det nu är enkelt att skapa sig en egen ”sökmotor” så görs det många försök som sedan läggs ut på internet. Vad dessa sökmotorer ska användas till varierar. Tyvärr är förekommer det att det skapas sökmotorliknande sajter som används för att bygga en så kallad ”scraper site”. En scraper site bygger på en databas med textmaterial som är insamlat från andra webbsidor. Utifrån dessa texter så återskapas en massa ”nya” webbsidor. Syftet är ofta att ”lura” andra sökmotorer (vanligen Google) att skicka besökare till scraper-sidan. När sedan Google börjar skicka besökare till sidan så utnyttjar skaparen av scraper site:n det. Endera genom att lägga till reklam på sidan, eller skicka en besökare vidare till en annan sajt som skaparen vill ha besökare till. Ofta visar dessa automatgenererade sidor Google Adsense-reklam.

Google, och andra sökmotorer, är redan ganska bra på att detektera denna typ av scraper sites, och kan oftast undvika att skicka allt för många besökare till dem. Dock är Google, och andra sökmotorer, lite sämre på identifiera denna typ av skräp om sidorna är på svenska – och det utnyttjas.

Till exempel på skrivs det på Intressants.se:s utvecklingsblogg om svenska Dabloid.se som har skapat en scraper site baserad på bloggmaterial från svenska bloggar. Det Dabloid gjort är helt enkelt att man samlat in RSS-feeds från ett antal svenska bloggar, och lagt upp texterna på sin sajt – troligen (jag kan bara gissa) för att få sökmotorer att skicka besökare till Dabloid.se istället för direkt till den blogg där materialet publicerats från början. Dabloid verkar skapa sidor av denna typ. Det fiins många fler exempel på denna typ av scraper site, men det kan räcka med detta.

Jag tycker inte att detta är ”fair use” av RSS-data. Det är uppenbart att materialet inte används för att hjälpa en besökare att hitta till källan, som trots allt lagt ner tid och engagemang att skapa texterna. Samtidigt tycker jag att det är svårt att se var gränsen går för vad som är ”fair use”, och vad som inte är det.

Ta t.ex. sajten Intressant som också använder sig av blogginnehåll för att skapa, vad de kallar lite mer Google-karma till sajten. Det är dock en tydlig skillnad mellan Intressant.se och Dabloid – dels i hur texterna presenteras, dels i frivilligheten att låta sina texter vara med. På Intressant.se är det frivilligt att vara med eftersom sajten bygger på att man medddelar att man uppdaterat sin blogg med nya inlägg. Vill man inte att t.ex.en Google-sökning på det ämne man kommenterat på sin blogg eventuellt ska leda Google-sökare till Intressant.se, utan direkt till sin egen blogg, ja då är det enkelt att bara inte ”pinga” Intressant.se. Detta tillsammans med att data från bloggarna används på Intressant.se för att skapa länkar till ”liknande bloggar”, och annat, gör att användandet av RSS-data känns ”fair”, även om det är samma typ av data som nyttjas t.ex. av Dabloid.

Det finns fler exempel på vad jag tycker känns som ”fair use” och inte. Intressant.se:s(?) nya blog-sök-tjänst, som finns på Knuff.se ser ut att använda RSS-data på vad jag tycker är ett sökmotormässigt sätt när det gäller blogg-sökningar. Till exempel så leder länkar som ”ser ut” att vara länkar direkt till källan också direkt till källan. Det känns schysst. (När det gäller nyhetslänkarna på knuff.se, som inte leder direkt till källan, så är jag lite mer tveksam.) Som jämförelse kan vi ta en annan bloggsöktjänst – feeder.se. På feeder.se så kan du söka på bland annat bloggmaterial. Efter en sökning så får du en lista på rubriker på blogginlägg som matchar din sökning, precis som på vilken sökmotor som helst. Varje rubrik är en länkad text. Länken leder dig dock inte direkt till källan, utan den leder till en ny sida, där rubriken ges ännu en gång, samt att ”ingressen” presenteras. Denna ”undersida” är dessutom optimerad för sökmotorer, bland annat genom utformingnen av själva URL:en. På denna undersida visas reklam, och naturligvis, om än något undangömd, länken till källan. Detta sätt att länka tycker jag inte är ”fair use” av RSS-data.

Ok, vad har jag dragit för slutsats av detta? Ingen, men jag har i alla fall funderat igenom vad jag tycker är ”fair use” av RSS-data. Generellt blir min åsikt är att det inte är ”fair use” av RSS-data, vare sig från bloggar eller nyhetssajter, om huvudsyftet är använda materialet för att dra trafik till den sajten. Vad syftet är, det vet naturligtvis bara den som skapar sajten, men det är ju var och en fritt att göra sin egen tolkning.

  1. Christian Davén skriver:

    Ytterligare en bloggtjänst som kan tyckas vara ett gränsfall är min egen Blogwalk. Klickar du på rubriker kommer du till en mellansida. MEN, två saker tycker jag talar för denna lösning:

    1. Det finns också en länk direkt till den ursprungliga källan, så det går att undvika mellansidan.
    2. På mellansidan finns annan relevant metainformation (ex. inläggets etiketter) samt andra, relaterade inlägg.

    Därför tycker jag min mellansida är motiverad. Hela poängen med Blogwalk är att man ska kunna upptäcka nya inlägg och så att säga vandra planlöst mellan dem — inte bara använda den som en löpsedel eller sökmotor.

  2. Rasmus skriver:

    Ännu ett gränsfall är min Podradio.nu. Klickar man på en kanal i en lista, t ex ett sökresultat eller kanaler med en viss etikett, så hamnar man på kanalens ”egen sida”, där en länk till källan såklart finns.

    Min ambition har hela tiden varit att göra det så öppet det är möjligt, men ändå kunna hämta in statistiken på lyssningar och prenumerationer etc. Dessa är en central del av sajten eftersom de genererar rekommendationer (”de som prenumererar på den här kanalen prenumererar också på” – något som saknas i iTunes så att det blir skvatt omöjligt att hitta schysta kanaler där) och topplistor med mera.

    Så kontentan är att det ibland är motiverat att ha en ”mellansida”…och att det går att göra den icke-evil.

  3. Clas skriver:

    Precis som andra sajter som har en ”extrasida” med reklam mellan ”sökresultat” och källan, så tycker jag att Blogwalk utnyttjar andra blogg-material för hårt. Direktlänken, som Blogwalk har, tycker jag visserligen är något ”förmildrande”, men det är ändå uppenbart att extrasidorna är till för att 1) dra sökmotortrafik från Google och 2) visa egen reklam. Dels är extrasidorna sådana att länken (URL:en) till dem är sökmotoroptimerad mot titeln på blogginlägget, dels visas Adsense-reklam som är placerad så att det visas reklam som är relaterad till källans text. Som Blogwalk ser ut nu så skulle jag klassa den som en scraper site. Jag tycker det ser ut som om huvudsyftet med dessa extrasidor endast är att visa reklam.

    Podcast liknar inte en scraper site, i mina ögon – trots extrasida – främst för att den inte visar reklam, men också på grund av att det ännu inte går att locka Google-besökare med hjälp av ljudfiler. Drev jag Podcast så skulle jag ta bort funktionen att ”förhandslyssna”, framförallt för SR:s podcasts, eftersom de uttryckligen inte tillåter användning för annat än ”privat bruk”, vilket publicering på internet inte är. Även om cast:en inte är återpublicerad, utan fortfarande ligger hos SR.se, så är länkningen (hotlinking) gjord så att det ser ut som om Podcast.nu äger rättigheterna till podcasten.

    När det gäller feeder.se så finns det uppenbarligen fler som har åsikter om den sajten.

  4. Björn Andersson skriver:

    Onekligen ett intressant ämne.

    Om det är en scraper eller seriös site ligger väldigt mycket i betraktarens ögon, men om det är en scrapersite om man har en ”mellansida” som innehåller någorlunda relevant information samt annonser som feeder/blogwalk/intressant/ är det inte det om man har en länk till ett sökreslutet och annonser? som t.ex
    frisim.com & nyhetsportalen.se.

    Se dom här sökningarna på google för att förstå vad jag menar.

    http://www.google.se/search?q=site%3Anyhetsportalen.se&sourceid=mozilla-search&start=0&start=0&ie=utf-8&oe=utf-8&client=firefox-a&rls=org.mozilla:en-US:official

    http://www.google.se/search?hs=oUM&hl=sv&c2coff=1&client=firefox-a&rls=org.mozilla%3Aen-US%3Aofficial&q=site%3Afrisim.com&btnG=S%C3%B6k&meta=

    Nyhetsportalen som är en riktigt bra tjänst borde då klassas som en ”scrapersite” eftersom den har enormt mycket modrewritade länkar till sökresultat/mellansidor/osv.

    Jag har i vilket fall lyssnat på kritiken och lagt till direktlänkar redan i sökresultatet på feeder.se men som det kanske märks är det mycket som är kvar att göra sökmässigt som t.ex möjlighet att sortera på datum/relevans men det och mycket annat kommer tids nog.

    Den mesta responsen jag har fått är positiv med folk som vill lägga till sina bloggar / komma med tips, men om någon känner att jag inte använder deras RSS-strömmar enligt ”Fair Use” så är det bara att skicka ett mail så blir man bortplockad, eller så spärrar men helt enkelt user_agenten som är ”Feeder.se/0.1b (+http://www.feeder.se/)”

    //Björn – feeder.se

  5. Clas skriver:

    Anledningen till att jag (frisim.com) har mycket ”skräp” i Google är att det finns några sajter som länkar direkt mot sökningar hos mig. Bland annat så har varje sida på Susning.nu en länk till en sökning till frisim.com.

    Även nyehtsportalen har sök-länkar bl.a. från Susning. Nyhetsportalen har även en del nyhetslänkar på andra sajter. Detta länkar utnyttjas maximalt av nyhetsportalen.se. I de lägen (alltid?) nyhetsportalen ”cloakar” sidor av typen: nyhetsportalen.se/v1125016.html, då tycker jag det gått lite långt, och sajten liknar en ”scraper site”, i mina [inte helt objektiva ;-)] ögon.

    Å andra sidan, har man skapat en sajt som lockar besökare på samma sätt som en scraper site, men bara har nöjda besökare (och nöjda källor) då kanske det är synd att lägga ner? Förhoppningsvis kommer någon form av konkurrens (eller länkningsstrukturer) att se till att sånt som inte förtjänar att få besökare försvinner.

  6. Björn Andersson skriver:

    Håller med till 100%

    Men om man nu vill slippa ”skräp” hos google (vilket genererar besökare och indirekt pengar även om det är småsummor) så kan man ju faktiskt blocka sökningarna via robots.txt, men det är nog inget som jag tror nyhetsportalen är särskilt intresserad av då säkert minst 90% av besökarna kommer via ngn av ladningssidorna.

    Framtiden får visa vilka sidor som självdör pga att ingen länkar, att dom blir ”straffade” av google/msn (händer oftare än man tror) eller att ingen helt enkelt tycker det är bra tjänster och slutar att besöka sidorna.

    //Björn

  7. Rasmus skriver:

    Angående SR så var de enligt loggarna inne och kikade på Podradio.nu precis efter releasen. Och jag har ännu inte hört något från dem.

    Jag misstänker att de är nöjda så länge jag inte tar bort möjligheten för dem att mäta antalet nerladdningar på MP3-filen. Alltså, deras resonemang kan vara att copyrighten sträcker sig till ljudfilen, men inte till länken till ljudfilen. Eller så är de kanske bara nöjda och glada för att jag inte kör några annonser alls… :-)

    Apropå kommersiella podcasts så lade Forskning och Framsteg själva till sin kanal på Podradio.nu igår. Så jag misstänker att de flesta förstår att man bör finnas med på portaler/i kataloger etc om man vill hitta nya lyssnare. Som publicist får man väga det positiva mot det negativa när det gäller aggretgatorer.

  8. Hjalmar skriver:

    Tjenixen Clas & Björn,

    Vari ligger cloakingen? Det är samma sida som visas för google som visas för besökaren med undantaget om man är inloggad eller kommer direkt via nyhetsportalen.se ..

    Googlebot skickar inte med någon referer == ingen clokaing. Dvs det görs ingen matchning på useragent eller liknande. Förklara gärna hur det är cloaking Niclas.

    Sen kan jag förstå att du inte gillar konkurrens, men vem gör det…

  9. Hjalmar skriver:

    Björn, jag kan meddela att trafiken som kommer från sökmotorer minskar förhållandevis, det är en övertygande del återvändande besökare och rena användare som använder Nyhetsportalen.

    Det finns över 2400 registrerade användare i dagsläget.

  10. Clas skriver:

    Hej Hjalmar! Jag har har inte kollat definitionen
    på ”cloaking” så noga. De ”extrasidor” som jag gav URL:en till verkar vara sidor som inte visas för besökare på din sida, men som uppenbarligen har visas för och
    lagras av Google i samband med att Google uppdaterat sitt index med länkdata från din sajt.

    ”…med undantaget om man är inloggad eller kommer direkt via nyhetsportalen.se”

    Sidor (extrasidorna) som besökaren av en sajt undanhålls, t.ex.genom cookies, sessions eller IP-kontroller, men som visas för sökmotorer kallar jag för ”cloakade”. Eftersom sidorna verkar visas för klickare på de RSS-feeds som du sprider så gör möjligen att det inte är lika uppenbart att de kallas ”cloakade” av andra än mig.

    När det gäller konkurrens så ser jag inte bara nackdelar med sådan. Ju fler som tänker, skapar, och utvecklar söktekniker, tagg-möjligheter, och klassificering av nyheter, desto fler influenser kan jag få. Det finns naturligvis en hel del att ta till sig från amerikanska och tyska nyhetsaggregeringssajter, men det är mer spännande med svenska. För mig är sajten en hobby, och jag räknar inte med någon intäkt på vår publika del, utan på betal-tjänster. Den publika delen av frisim.com är, tillsammans med nyhetsrubriker.com, endast för att attrahera potentiella betalkunder.

  11. Hjalmar skriver:

    Hej,

    Clas! (ursäkta mig). Nu är jag inte helt säker på vad du menar. Alla RSS-feeds som ligger på Nyhetsportalen har en parameter &u=1 eller i vissa fall ett annat nummer (userid), som gör att användaren hamnar direkt på respektive tidnings sida.

    Om du har ytterligare funderingar kring våran tjänst så vore jag tacksam om du kontaktade mig innan du publicerar uppgifter som är uppenbart felaktiga kring tjänsten.

    /Hjalmar (grazzy)

  12. Clas skriver:

    Grazzy:

    Det jag skriver här är bara mina personlig uppfattningar – vad jag tycker. Det jag skriver här är inte uppenbart felaktigt för mig.

    Jag ska försöka förklara lite tydligare: Låt säga att jag har en sökmotor. Min sökmotor indexerar din ”startsida” på nyhetsportalen. Där hittar sökspindeln en massa nyhetsrubriker som är länkade. När min sökmotor (säg att den baseras på ”wget”), till exempel, följer länken v1133363.html vidare från din sajt, då kommer sökmotorn till webbsida som innebåller dels ingressen från källan, dels länkar till ”relaterade nyheter” (som du verkar söka fram med en MySQL-FULLTEXT-Soundex-sökning), dels reklam. Denna sida kommer min sökmotor att indexera och lagra.

    När jag som besökare av din sajt klickar på länken v1133363.html så skickas jag direkt till artikeln om att ”Kaparna åkte ur elitserien” på Aftonbladet/sport.

    När det inte är samma sida som visas för en suftare som för en sökmotor kallar jag det för ”cloaking”.

    Men som sagt, jag har personligen inga problem med att du gör så – och, precis som jag skrev till Björn ovan – har du nöjda besökare och källorna är nöjda så ser jag absolut inga problem.

  13. Christian Davén skriver:

    Clas: Jag har funderat över din kritik mot Blogwalk. Jag har inte tänkt på att den kan uppfattas som en ”scraper site”. Nu har jag gjort om länkarna och besvarar din kritik ytterligare på Blogwalk-dev.

  1. There are no trackbacks for this post yet.