L’une des dispositions les plus critiquées du projet de loi sur le renseignement, adopté en première lecture par les députés mardi 5 mai, est celle des « boîtes noires ». Des appareils ou logiciels seront installés chez les fournisseurs d’accès à Internet et collecteront de grandes quantités de données. Un algorithme détectera ensuite de potentiels comportements terroristes sur Internet.
Daniel Le Métayer et Claude Castelluccia, directeurs de recherche à l’Institut national de recherche en informatique et en automatique (Inria), sont spécialistes en protection de la vie privée. Interrogés par Le Monde, ils jugent peu plausibles les déclarations du gouvernement à propos de cette loi.
Anonymat des données, identité révélée
“D’un point de vue technique, l’anonymat des données signifie qu’on ne peut pas retrouver l’identité de la personne. Or, ici, tout est prévu pour la retrouver si elle est suspecte. Ce ne sont pas des données anonymes”, contrairement à ce que prévoit la loi, déclare Daniel Le Métayer.
Des innocents terroristes potentiels
Même avec le plus précis des algorithmes, il existe une marge de dispersion. “Comme le nombre d’individus qu’on cherche à détecter est marginal, parce que heureusement il y a très peu de terroristes par rapport à la taille de la population, on va identifier de nombreuses personnes innocentes”, estime Claude Castelluccia. Cette dispersion s’explique aussi par le fait qu’il n’existe pas un profil précis et unique pour tous les terroristes.
Une logistique de taille
Pour repérer d’éventuels terroristes, il faudrait surveiller des dizaines ou des centaines de milliers de personnes, “ce qui n’est pas tenable et pas très rationnel”, selon Daniel Le Métayer.
Pour gérer l’algorithme, “les techniques et les compétences à posséder (réseaux, bases de données, statistique, cryptographie, sécurité…) sont tellement complexes et nombreuses qu’il faut toute une équipe”, ajoute Claude Castelluccia.
Le gouvernement s’est défendu à plusieurs reprises de stocker massivement des données, mais, selon M. Castellucia, il est peu plausible qu’on puisse obtenir des résultats acceptables sans stocker aucune métadonnée : “Imaginez un algorithme fictif très simple qui identifie un suspect s’il visite, par exemple, au moins 5 sites différents parmi une liste 1 000 sites « suspects ». Dans ce cas, comment savoir si un individu a visité au moins 5 sites différents, si on n’a pas sauvegardé les 4 sites suspects qu’il a visités préalablement ?”