Les trésors cachés de Google

11 juil. 2013
Dans son entreprise de collecte de donnée, Google a offert un cadeau inaperçu à ceux qui sont intéressés par l'invention, la création, l'innovation. En effet, Google, en partenariat avec l'office américain des brevets, a mis à disposition en téléchargement gratuit d'énormes fichiers bruts contenant des informations sur les brevets américains. Un vrai trésor, mais en fait, Google propose un accès à la mine mais à nous d'extraire les pépites. En effets, les fichiers proposés sont plutôt disparates, organisés de manière parfois antique, de l'époque d'avant le XML. Impossible d'y faire des recherches ou des analyses sémantiques. Dans le cadre d'un projet plus global, je vous propose  une extraction des brevets US qui sont dans le domaine public ou bien qui y seront bientôt. En parcourant la base, j'ai trouvé, et j'espère que vous y trouverez également, des idées fort intéressantes qui n'ont sans doute pas été exploitées à l'époque dans la mesure où la technologie d'alors ne le permettait pas.

Voici le processus que j'ai choisi: Les données ont été parsées par un script php puis insérée dans trois bases de données SQL installées sur trois serveurs différents. L'ensemble fait un peu plus de deux millions de brevets (titre, auteurs et résumé) indexés. Vous pouvez afficher trois pages sans vous logger à la plateforme de management R&D. Ensuite, le login vous sera proposé pour éviter de surcharger mon serveur.



Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.