TOOLinux

Le journal du Libre

Mon logiciel (rêvé) pour analyser les données issues des réseaux sociaux

jeudi 5 juillet 2012

Le constat

Dans mes lectures du jour, l’article de LordPhoenix a attiré mon attention. Il se posait <a
title="Interrogations sur l’utilisation du microbloging " href="http://lordphoenix.tuxfamily.org/1073/interrogations-sur-lutilisation-du-microbloging">la question des pratiques autour des outils de microblogging comme Identi.ca ou encore Twitter. <a
href="https://twitter.com/pscoffoni/status/219419306952376321">Quelques échanges avec Christophe sur Twitter ont suivis. Je lui faisais part de mon regret de n’avoir pas trouvé à ce jour d’outils qui permettent efficacement et de façon personnalisée d’analyser les données issues des utilisateurs que je peux suivre.

<a
title="Comment je pratique le microblogging, Philippe" href="http://philippe.scoffoni.net/comment-je-pratique-le-microblogging-philippe/">Dans ma pratique actuelle du micro-blogging, j’utilise les fonctions de filtre de <a
href="http://www.kde.org/applications/internet/choqok/">Choqok et à ce jour, je ne connais pas d’autres logiciels comme ce dernier qui en soit doté. Je ne m’en sers que <a
title="Identi.ca, Twitter, n’en garder que l’essentiel" href="http://philippe.scoffoni.net/identi-ca-twitter-nen-garder-que-lessentiel/">pour garder l’essentiel, du moins de mon point de vue, c’est-à-dire les liens. Ainsi je filtre les conversations qui ne sont pas ce que je recherche en priorité sur les réseaux sociaux.

Mon rêve serait de remplacer la fastidieuse lecture et maintenance de mes flux RSS par les liens issus des réseaux sociaux. Les flux RSS ayant de plus tendance à disparaître sur les sites web, il faudra bien un jour passer à autre chose.

L’outil que j’imagine n’est pas loin d’exister, sauf qu’il faut pour cela passer par un service web “gratuit”. Ce que j’ai trouvé de plus proche ce sont des services comme <a
href="http://paper.li/">paper.li qui réalisent une sorte de journal à partir des données de votre compte Twitter. Voici par exemple <a
href="http://paper.li/pscoffoni/logiciel-libre">la page paper.li générée à partir des données de <a
href="https://twitter.com/#!/pscoffoni/logiciel-libre">ma liste Twitter “Logiciel Libre” ou encore <a
href="http://paper.li/pscoffoni">la page générée à partir de l’ensemble de ma timeline Twitter.

Pour celle concernant le logiciel libre, vous constaterez qu’il n’y est pas uniquement question de logiciel libre, ce qui est normal compte-tenu que les personnes qui font partie de cette liste ne diffusent pas que des liens sur ce sujet. Il faudrait donc encore affiner le filtre, mais le travail réalisé est déjà intéressant et j’avoue m’y reporter à nouveau depuis quelques temps pour avoir une synthèse rapide de ce qui a pu se dire sur Twitter.

L’inconvénient, c’est que paper.li est un service fermé et que je n’ai donc pas d’idée sur la façon dont les données sont traitées et si elles sont réellement représentatives de ce que les gens publient. Mais je verse ici du côté de la thèse du complot il est vrai, l’objectif de paper.li étant d’afficher de la publicité que les lecteurs potentiels de ces “journaux” pourront voir. N’oublions pas que les services web peuvent être gratuit, car c’est nous (nos données, nos comportements, etc…) qui sommes à vendre.

Un logiciel libre ?

Donc coté logiciel libre, je ne connais pas de solution équivalente qui possède ce niveau d’automatisation. Les principales fonctionnalités pourraient être :

  • Lire les données en provenance de réseaux sociaux comme identi.ca, statusNet, Diaspora, Twitter, Google+ et autres ;
  • Pouvoir analyser les données par “contexte” : logiciel libre, économie, éducation, etc…
  • Les données publiées sur ces réseaux sont associées à des utilisateurs, qu’il pourrait être intéressant de pouvoir tagger (associer des mots-clés) et affecter un “poids” ( de un à cinq par exemple), voire ignorer selon le contexte dans lequel on se situe, mais là ça devient complexe à gérer … On se rapproche de l’usine à gaz ;
  • Associer des listes de mots-clés aux contextes avec un poids éventuellement ;
  • Avoir un algorithme qui pour chaque contexte et à l’aide des mots-clés construit une liste de liens vers des articles avec un classement ;
  • Pouvoir depuis les résultats de contextes, modifier ou enrichir les mots-clés des contextes ;
  • Disposer d’une sorte de filtre bayesien qui apprenne, en fonction des articles que je lis, mes centres d’intérêts et affine ainsi le résultat des contextes.

Bref, ce ne sont que des fonctionnalités en vrac qui mériteraient d’être affinées et je me doute bien que la mise en oeuvre d’un tel outil n’est pas simple. Si de votre coté vous avez croisé quelque chose qui s’en rapproche sous forme de logiciel libre, les commentaires vous sont ouverts tout comme à ceux qui voudraient compléter ou améliorer ma liste de fonctionnalités.

Crédit image <a
title="Attribution License" href="http://creativecommons.org/licenses/by/2.0/">Certains droits réservés par <a
href="http://www.flickr.com/photos/gavinjllewellyn/">Gavin Llewellyn

- Philippe SCOFFONI