Désor-données Trésor-donné : Retrouver ses données perdues

27 févr. 2014
On estime, selon les sources, que plus de la moitié des données des entreprises est sous forme non structurée. Pendant des années, dans le foisonnement des logiciels, des bases de données, des GED chacun a entré ses mesures, ses bibliographies, ses résultats de la façon la plus directe et immédiate. Seulement voilà, exploiter ces données non formatées, ces désor-données, est devenu quasi impossible tant leur forme est variée et soumise au goût des utilisateurs d'alors. Or, il y a des trésors dans ces données hétéroclytes. 

Pour illuster des travaux de recherches appliquées dans le domaine des données non structurées, R&D mediation vous propose une expérience utile. Depuis sa création, Wikipedia utilise des données non structurées, les références sont entrées par les rédacteurs à l'intérieur du texte, seulement formatées par un wiki markup.
Un algogithme spécialement développé a transformé ces références en base de données structurée (nom de l'auteur, année, journal, isbn, url, DOI, ...) par un scan des archives publiques de wikipedia en anglais (environ 44 Go) pour en tirer environ 2 millions de références bibliographiques structurées.

Malgré quelques coquilles, une telle expérience montre que les moyens actuels de parsing permettent de traiter les données non structurées massives. 

Applicable à de multiples données en vrac, cette méthode augure des découvertes intéressantes: de quoi alimenter les réflexions nécessaires à l'innovation qui, comme chacun le sait, ne nait pas ailleurs que sur le terreau de nos biens immatériels.

La base est disponible pour les livres et les journaux sur la plateforme R&D (Module WikCite). 


Aucun commentaire:

Enregistrer un commentaire

Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.