Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter








télécharger 17.96 Kb.
titreComment la Bibliothèque du Congrès est en train de construire l’archives de Twitter
date de publication23.03.2018
taille17.96 Kb.
typeDocumentos
ar.21-bal.com > documents > Documentos


Audrey Watters – O’Reilly-Radar

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter


Comment la Bibliothèque du Congrès
est en train de construire l'archive de Twitter


Point de situation de l’archive de Twitter à la Bibliothèque du Congrès, un an plus tard.

par Audrey Watters | @audreywatters | 2 Juin 2011

Traduction du billet original :

How the Library of Congress is building the Twitter archive

Checking in on the Library of Congress'Twitter archive, one year later.

En avril 2010, Twitter a annoncé qu'il faisait don de ses archives de tweets public à la Bibliothèque du Congrès. Chaque tweet depuis la création de Twitter en 2006 serait préservé. Le don de l'archive à la Bibliothèque du Congrès a pu être en partie compris comme un acte symbolique, une reconnaissance de l'importance culturelle de Twitter. Bien que plusieurs moments historiques importants avaient déjà été capturés sur Twitter lorsque l'annonce a été faite l'année dernière (par exemple, le premier tweet depuis l'espace, le premier tweet de Barack Obama à la présidence, ou les nouvelles de la mort de Michael Jackson), depuis notre prise de conscience de l'importance de ce canal de communication a certainement augmenté.

Cela a conduit à un afflux de demandes de renseignements à la Bibliothèque du Congrès à propos de comment et quand les chercheurs seront en mesure d'accéder à l'archive de Twitter. Ces demandes de recherche ont été peut-être aggravées par certains des changements que Twitter a fait à ses API et à l'accès au Firehose (= possibilité d’accès à l’ensemble des tweets).

Mais la création d'une archive de Twitter est un enjeu majeur pour la Bibliothèque du Congrès, et le processus n'est pas aussi simple que juste ouvrir un fichier pour les chercheurs qui veulent en prendre connaissance. J'ai parlé avec Martha Anderson, la directrice du programme national d’infrastructure et de conservation de l’information numérique de la bibliothèque (National Digital Information Infrastructure and Preservation Program (NDIIP)), et Leslie Johnston, la directrice des initiatives d'architecture technique du NDIIP, à propos des défis et les possibilités d'archivage des données numériques de ce genre.

Il est important de noter que la Bibliothèque du Congrès est très habile dans la conservation des documents numériques, car elle a été active dans la manipulation de ces types de projets depuis plus d'une décennie. La bibliothèque a par exemple archivé les sites de campagne de l’élection au Congrès et à la présidence depuis 2000, et elle compte actuellement plus de 200 téraoctets d'archives web. Il a aussi des centaines de téraoctets de journaux numérisés, et des pétaoctets de données provenant d'autres sources, telles que les archives de film du Folklife Center. Ainsi, des fichiers Twitter relèvent de la compétence de ces sortes d'efforts de conservation numérique, et en termes de taille elles ne sont en fait pas trop lourdes.

Même avec une longue expérience avec l'archivage du contenu «né numérique», Anderson dit que la Bibliothèque du Congrès "s’est sentie assez courageuse de prendre en charge Twitter."

Ce qui rend l'entreprise difficile, ce n'est pas tant la taille de l'archive, mais sa composition : des milliards et des milliards et des milliards de tweets. Lorsque le don a été annoncé l'année dernière, les utilisateurs créaient environ 50 millions de tweets par jour. Au cinquième anniversaire de Twitter il ya quelques mois, ce nombre a augmenté vers environ 140 millions de tweets par jour. Les données ne cessent de croître, et la Bibliothèque du Congrès a accès au flux Twitter via Gnip aussi bien pour les données en temps réel que pour les tweets historiques.

Chaque tweet est un fichier JSON, contenant une immense quantité de métadonnées en plus du contenu du tweet lui-même : date et l'heure, nombre de suiveurs, date de création de compte, géodonnées, et ainsi de suite. Pour ajouter une autre couche de complexité, de nombreux tweets contiennent des raccourcis d'URL, et la Bibliothèque du Congrès est en discussions avec plusieurs de leurs fournisseurs, ainsi qu'avec l'Internet Archive et son projet 301works pour aider à résoudre et à cartographier ces liens.

A ce stade, Anderson et Johnston disent qu'elles ne vont pas moissonner tous ces sites externes jusqu’au bout, même si Anderson explique que dans sa "grande vision de l'avenir" toutes ces données - et pas seulement celles de la Bibliothèque du Congrès, mais de tous les différents établissements du patrimoine technologique et culturel - seront reliées. Dans l'intervalle, la Bibliothèque du Congrès ne créera pas un catalogue de tous ces tweets et de toutes ces données, mais elle veut juste être en mesure d'indexer les matériaux que les chercheurs puissent effectivement rechercher.

Cela nécessite un engagement technologique important de la part de la bibliothèque afin de construire l'infrastructure nécessaire pour traiter les demandes, et spécifiquement pour gérer les types de demandes de renseignements que les chercheurs réclament. Anderson et Johnston disent qu'une équipe interdépartementale a été rassemblée à la bibliothèque, et qu’elle recueille activement la contribution des chercheurs pour identifier exactement ce que peut être leurs besoins en la matière. Les attentes doivent également apporter exactement ce que seront les paramètres de recherche - il s'agit d'une bande passante élevée, une entreprise informatique de forte puissance, après tout.

Le projet est encore très « en construction », et l'équipe est en train d’évaluer un certain nombre de différentes technologies open source pour construire le stockage, la gestion et l'interrogation de l'archive de Twitter. Bien que la décision n'a pas encore été prise sur les outils à utiliser, la bibliothèque met à l'essai les éléments suivants dans différentes combinaisons : Hive, ElasticSearch, Pig, Elephant-bird, Hbase, et Hadoop.

Un atelier pilote est prévu cet été pour travailler avec des chercheurs qui peuvent aider à orienter la Bibliothèque du Congrès dans la construction de l'archive et son accessibilité. Anderson et Johnson disent qu'ils s'attendent à ce qu’une première offre puisse être disponible dans quatre ou cinq mois. Mais même alors, l'accès aux archives de Twitter sera réservé aux "chercheurs connus" qui auront besoin de passer par le processus d'habilitation de la Bibliothèque du Congrès pour pouvoir avoir accès aux données. Si l’on se base sur le nombre élevé de demandes de recherche, il va y avoir beaucoup de chercheurs qui feront la queue pour un examen plus approfondi de cette importante archive culturelles et technologique.
Source:

http://radar.oreilly.com/2011/06/library-of-congress-twitter-archive.htm

Traduction française : J.-D. Zeller


/

2011-06-02


similaire:

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter icon«Sur les pas de Roger Martin du Gard»
«Les Thibault»,son œuvre majeure, dans le manoir normand «Le Verger» qu’il avait fait construire, manoir aujourd’hui détruit. Mais...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconUne campagne de communication qui a du chien
«Lyon Welcome Attitude», dispositif d’accueil unique en Europe, pour les grands congrès, comme cette année ifla (Congrès mondial...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconRecherche documentaire en ligne : Comment les élèves et les étudiants associent un document à un
«traditionnels» de l’écrit et le repérage de lieux-ressources potentiels, tels que la bibliothèque, la libraire ou le centre de documentation...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconQu’est-ce qu’une bibliothèque ?
«livre», et thêkê, «coffre» a donné son appellation à la bibliothèque : du coffre, on est passé par extension au lieu où les livres...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconHttps://twitter com/LeParisienInfog

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconSpa Tobelbad. Alma mahler et dr. Joseph fraenkel sont en train de disputer
C'est ça, la reponse? C'est une consolation? Pour quoi? Je sais que je suis pauvre. En tout sens

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconA flat, fat, growing urban experiment
«mouvement en train de se faire». C’est un paysage adaptatif, un biotropisme basé sur des processus de croissance locale, eux-mêmes...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconLes «Sept merveilles» de Dakar
«Sept merveilles» architecturales qui vont former le Parc culturel de Dakar sont notamment le Grand Théâtre national, l’Ecole des...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconComment nous connaissons-nous les uns les autres comment percevons-nous...
«l’être avec lequel je parle est-il d'une façon ou d'une autre conscient ou intelligent ?», n’est plus une question rhétorique posée...

Comment la Bibliothèque du Congrès est en train de construire l’archives de Twitter iconLe problème ontologique
«substance»); comment c'est ? (qualité); combien c'est? (quantité); où c'est ? (lieu), etc. 7








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com