Testar lite CouchDB och lite Twitter

Frisim bygger sedan åtminstone fem år på Solr. Solr är ett väldigt flexibelt i hur du använder det, och jag har valt att lagra även lagra artikeltexterna i Solr. Fördelen med det är att det är enkelt att använda Solr för att visa var i sökträffarna som sökordet återfinns, så kallad highlighting. Nackdelen är att filerna som Solr hanterar blir väldigt stora, och behovet av att dela upp data på flera datorer/index kommer tidigare än om man bara använder Solr för att skapa indexet. Alternativet är att spara data i en annan databas och bara använda Solr för själva sökningen. Så gör t.ex. TV4, men de har inte highligting. Jag gissar att SvD (fin länk va?) gör. TV4 lagrar själv artikeltexterna i Polopoly, och vid en sökning så ger Solr information i vilka artiklar, som sedan hämtas upp ur Polopoly-systemet. Jag funderar också på att separera sökmotorn från grunddata. Jag har tagit ett första steg genom att installera en databas som är enkel och flexibel och som jag hoppas bör passa för detta. Jag har installerat CouchDB. Jag är inte säker på att CouchDB är den databas som passar absolut bäst av alla NoSQL-databaser som finns, men det är en av den som verkar göra uppdelning på flera servrar enkelt, och som bygger på Map Reduce-idén som jag länge varit sugen på att försöka förstå och prova. CouchDB interagerar med omvärlden direkt med JSON, och det gör att jag har förhoppning om att det ska vara enkelt att använda från både Java och PHP.

Twitter presenterade i slutet på veckan en kommande funktion kallad Annotations, som, om jag förstått det rätt, gör det möjligt att lagra extrainformation ihop med varje tweet i samband med att tweet:en skapas. Det får mig att tänka på den Twitter lists extended som jag programmerade härom månaden. Twitter Annotations verkar dock inte göra det möjligt att addera extrainformation till profiler i en Twitter-lista, vilket Twitter lists extended gör. Med Twitters namnval så skulle jag ha döpt den till Twitter list annotations stället. Nu blev inte Twitter lists extended något större succé tyvärr, 15 personer har provat den, ingen använder tjänsten. Tyvärr rimmar det ganska väl med hur jag uppskattade potentialen från början. Potentialen med Twitter Annotations bedömer jag som liiiite större ;-)

  1. Henrik Lundgren skriver:

    Det ska bli intressant att höra hur det går.
    Om man vill ha ett Java API för CouchDb kan man titta på Ektorp: http://code.google.com/p/ektorp/

  2. Clas skriver:

    Ah, tack. Jag ska tittat på den. I första hand är det lagring från ”sökspindeln”, vilken är skriven i Java, som jag behöver Java-kopplingen för. Den gissar jag att jag relativt enkel att göra direkt med HttpClient, eventuellt. Men kanske kan Ektorp vara till lite hjälp för t.ex. att formatera data i JSON-format. Alla sökningar (query views) kommer troligen att göras från min PHP-front end.

    Vad är det du har byggt där ut skapat ”Ektorp”?

  3. Henrik Lundgren skriver:

    Det är klart att man kan använda HttpClient, men har man mer än ett par usecase där man vill interagera med databasen är det trevligt med ett API som tar hand om detaljerna.

    Ektorp används i ett projekt som fortfarande är under utveckling,

  1. There are no trackbacks for this post yet.