OnCrawl : A Data Driven SEO Monitoring Application (FR)

OnCrawl est une application pour faciliter la vie des SEO, pilotée par les données. L'application s'appuie sur Apache Hadoop et Apache Nutch pour crawler les sites web de ses clients. Les données collectées sont ensuite traitées, analysées et indexées dans Elasticsearch grâce à la bibliothèque hadoop-elasticsearch. Les données ainsi produites sont rendues disponibles au travers d'une application web légère (EmberJS) qui s'appuie sur une API (Python/Flask). C'est cette API qui sert d'interface avec Elasticsearch, les données servies s'appuient en grande partie sur les puissantes Aggregations disponibles dans Elasticsearch. 

Tanguy Moal