Éthique et algorithmes - Gilles Dowek

Submitted by mmorandi on 25 avril, 2018 - 13:53

Titre : Éthique et algorithmes
Intervenant : Gilles Dowek
Lieu : Académie des sciences - Paris
Date : mai 2017
Durée : 30 min
Visualiser la conférence
Licence de la transcription : Verbatim
Illustration : Gilles Dowek par Sébastien Dolidon - Wikipédia. Licence Creative Commons CC BY-SA 4.0
NB : transcription réalisée par nos soins. Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas forcément celles de l'April.

Transcription

Avant de commencer mon exposé, la première question dont je voudrais discuter, peut-être une question que vous vous posez, c’est pourquoi cet exposé a lieu un mardi et pas un lundi puisque, après tout, il y a une Académie des sciences morales et politiques et donc pourquoi parler d’éthique à l’Académie des Sciences. Cette question peut se reformuler : quel est le rapport entre les sciences et l’éthique ?

Une réponse traditionnelle est celle de l’éthique de la recherche, c’est-à-dire de dire que la recherche dans ses finalités, dans ses modalités, dans son organisation, pose un certain nombre de questions éthiques qu’on peut formuler ainsi : dois-je fabriquer une bombe atomique ? Puis-je faire des essais cliniques sans informer les patients du fait qu’ils participent à un essai ? Dois-je plagier mes petits camarades ? Ça ce sont des questions d’éthique de la recherche et mon exposé, et une partie des exposés de cet après-midi, sont plutôt centrés autour d’une autre question qui est ce que j’appellerai la recherche de l’éthique et qui part de ce constat que bien faire, comment bien faire, est une source féconde de questions scientifiques et techniques.

Je vais illustrer ce point par quatre exemples et donc c’est le plan de mon exposé : I, II, III, IV.

Anonymisation

Le premier exemple est celui de l’anonymisation des données. Donc vous savez, tous les chercheurs savent que la recherche aujourd’hui est très friande de données, par exemple la recherche médicale progresse beaucoup du fait que nous pouvons avoir des données statistiques sur un grand nombre de patients, sur un grand nombre de personnes en bonne santé également. Donc dans des domaines comme la santé publique ou l’épidémiologie, le traitement statistique des données est devenu un moyen, une manière essentielle de faire de la recherche. Mais il n’y a pas que les chercheurs qui s’intéressent aux données : par exemple l’administration des hôpitaux s’intéresse également à avoir des statistiques sur les patients qui ont été soignés dans ses hôpitaux.

Bien entendu, comme ces informations sont des données sensibles — ce sont des informations médicales, les dossiers médicaux des patients —, on souhaite que ces informations soient utilisées sans que cela mette en péril la vie privée des patients. Donc la valeur qui est associée ici est celle de respect de la vie privée. Et ça nous amène à nous demander comment anonymiser ces données.

Si on prend le mot anonymiser au sens propre, ça veut dire supprimer le nom des personnes des données collectées, en général le nom de famille. Mais l’exemple que je donne ici vous montre que si on vous parle d’un compositeur qui s’appelle Wolfgang Amadeus, qui est né à Salzbourg le 27 janvier 1756, qui est mort à Vienne le 5 décembre 1791, sa vie privée n’est pas tout à fait protégée, parce qu’il est assez facile de ré-identifier, de désanonymiser ces données.

Vous pourriez me dire tout le monde n’a pas composé un Don Juan et un Cosi fan tutte ; ce problème s’applique à un petit nombre de personnes. En fait, ce n’est pas tout à fait le cas, parce que si vous multipliez 2 par 30 000, par 100 000, vous obtenez 6 milliards ; ça veut dire qu’il y a 6 milliards de combinaisons de trois informations qui sont le genre d’une personne, sa date de naissance et son code postal. Et comme nous sommes 60 millions de personnes vivant en France, nous sommes 100 fois moins de personnes que de combinaisons. Donc la plupart d’entre nous sont identifiés exactement par ces trois informations, leur genre, leur date de naissance et leur code postal. Sauf, par exemple, pour les baby-boomers qui vivent dans un arrondissement très peuplé de Paris, il se peut qu’il y en ait deux. Mais en général, 87 %, par exemple, des personnes qui vivent aux États-Unis sont identifiables par ces trois informations. Donc même si on supprime le prénom, même si on supprime beaucoup d’informations, on s’aperçoit qu’on peut toujours désanonymiser les données.

Donc ça, ça a mené à l’émergence d’un champ entier en informatique, c’est un sous-domaine de l’informatique, qui étudie des algorithmes qui permettent de brouiller les données. Et ici les mots-clefs sont la notion de « privauté différentielle », differential privacy, qui est la notion de k-anonymat1. La notion de k-anonymat est relativement facile à comprendre. Une personne est k-anonyme quand, à partir des informations dont on dispose sur elle, on peut identifier qu’elle appartient à un groupe de personnes formé d’au moins k personnes. C’est-à-dire quand on est un anonyme on n’est pas anonyme du tout ; quand on est deux anonymes on est presque anonyme. Quand on est 100 anonymes, les gens peuvent déduire qu’une information qui nous concerne, concerne peut-être l’une des 100 personnes d’un groupe auquel nous appartenons et donc là nous pouvons dire que notre vie privée est protégée.

Ce qui est important c’est que ces algorithmes sont loin d’être faciles et c’est pour ça qu’il y a plusieurs équipes, plusieurs laboratoires dans le monde, d’ailleurs plusieurs équipes en France, qui travaillent uniquement sur ce sujet.

Les outils qui sont à l’œuvre derrière, sont des outils d’algorithmique, bien sûr, mais aussi de théorie de l’information, de théorie quantitative de l’information.

Une deuxième question est celle du vote électronique.

Vous savez que les urnes et les bulletins de vote en papier coûtent extrêmement cher et que c’est une des raisons pour lesquelles on consulte très peu ses concitoyens sur les choix politiques. Essentiellement, nous votons une fois tous les cinq ans ou quelque chose comme ça. Donc organiser une élection, par exemple tous les jours, serait difficile si on avait uniquement des bulletins de vote en papier.

Ici il y a une proposition qui est de remplacer le vote papier, le vote à l’urne, par le vote électronique. Donc ici il y a un certain nombre de valeurs que nous souhaitons défendre, par exemple une valeur qui se formule par le slogan « une personne, une voix » : il est important qu’une personne ne puisse pas voter deux fois.

Quand on étudie ces algorithmes de vote électronique, il y a deux objectifs qui sont la vérifiabilité du décompte des voix — c’est-à-dire tout le monde doit pouvoir vérifier qu’il n’y a pas eu de triche, que le résultat des élections est conforme —, mais il y a aussi la question du secret du vote, c’est-à-dire il faut que l’algorithme garantisse qu’une personne ne peut pas savoir ce qu’une autre personne a voté.

En fait, un théorème de 2006 montre que ces deux propriétés, si on les prend dans leur forme la plus absolue, sont incompatibles. Donc ça, ça condamne un petit peu le vote électronique en disant que finalement le vote papier, le vote à l’urne, sera toujours meilleur que le vote électronique.

Cela dit, comme tous les résultats scientifiques, il faut relativiser ce résultat parce que la vérifiabilité du décompte des voix et le secret du vote deviennent compatibles sous certaines hypothèses. Par exemple, une hypothèse relativement raisonnable, est qu’il n’y a pas de coalition de tricheurs, de coalition de personnes qui voudraient influencer le vote, qui regroupe plus de la moitié des votants. Donc s’il n’y a pas coalition de 15 millions de votants en France, eh bien, sur une élection où il y a 30 millions de votants, on peut concevoir des algorithmes de vote qui garantissent à la fois la vérifiabilité du décompte des voix et le secret du vote.

D’ailleurs ça, ça pose un mystère. Comment est-ce que le vote à l’urne fonctionne parce que le théorème qu’on démontre d’incompatibilité de vérifiabilité du décompte des voix et du secret du vote à priori s’applique à toutes les formes de vote qu’elles soient électroniques ou non. Bien sûr, quand on modélise ces algorithmes, eh bien les votants, les urnes, les bulletins eux-mêmes, sont vus comme des machines de Turing, c’est-à-dire des ordinateurs idéalisés. Et quand on vote à l’urne, eh bien il y a une propriété des machines de Turing qui n’est pas vérifiée par les bulletins de papier, qui est leur « duplicabilité ». C’est-à-dire qu’on ne peut pas, avec un bulletin en papier, en fabriquer deux en identiques et pourtant c’est ce qu’on fait,en général, avec de l’information électronique.

Donc il semble que ça soit la « non-duplicabilité » du papier qui garantisse la vérifiabilité et le secret du vote dans le cas du vote à l’urne.

Bien entendu, ces notions de vérifiabilité et de secret du vote, je vous ai expliqué qu’il y avait besoin d’un modèle du vote où on modélise les différents acteurs par des machines de Turing ou par des algorithmes polynomiaux, etc. Ici, la vraie difficulté dans ce domaine de recherche qui est également extrêmement vivace aussi bien en France que dans d’autres pays c’est, bien sûr, de définir ces concepts. On est dans un domaine de la science où c’est la définition qui est plus difficile. Les théorèmes sont difficiles, mais les définitions sont plus difficiles encore.

Équité

Troisième exemple : comment garantir l’équité d’une plateforme telle la plateforme Admission Post-Bac, c’est-à-dire d’un algorithme qui attribue des ressources à des personnes. En l’occurrence, ce sont des places à l’université à des étudiants, mais il y a de nombreux algorithmes qui font ça avec d’autres ressources et d’autres personnes.

Un algorithme possible serait de commencer par sélectionner dans la liste des lycéens ceux dont le prénom est Gilles et de leur donner leur premier choix ; et ensuite, on donne leur second choix aux autres. Mais nous avons tous l’idée intuitive, même si elle est difficile à formuler, qu’un tel algorithme serait inéquitable. Donc ici, la valeur que nous cherchons à défendre est celle de l’équité.

Une solution à ce défi, c’est de publier les sources du programme qui implémente l’algorithme Admission Post-Bac. Mais c’est très insuffisant de publier les sources parce que, certes, ça permet aux lycéens malheureux, aux lycéens mécontents, d’étudier les sources du programme et d’y rechercher d’éventuelles iniquités, mais, en fait, c’est donner la charge de la preuve aux lycéens. En fait, on aimerait bien que la charge de la preuve soit inversée, c’est-à-dire que ça soit au ministère de nous démontrer que les algorithmes qu’il utilise sont équitables.

Ici on utilise le mot « démontrer » exactement dans le même sens que quand on dit qu’on est capable de démontrer qu’un programme d’ascenseur n’ouvre pas les portes entre deux étages et ça c’est un problème de sûreté de fonctionnement. Et c’est le seul point, comme l’a rappelé Milad [Douheihi], sur lequel je suis un tout petit peu compétent dans ces histoires.

Bien entendu, avant ça, il faut définir la notion d’équité. Toute une tradition philosophique nous dit que l’équité est une forme d’invariance par permutation, c’est-à-dire, ce qui s’applique, c’est l’image de la justice aux yeux bandés, mais ce n’est pas si évident, par exemple, de savoir si on parle d’invariance en fait ou d’invariance en espérance. Par exemple, il y a une seule place dans une université avec deux candidats, est-ce que s’ils ont les mêmes chances d’entrer à l’université c’est un processus équitable ou non, sachant que ex-post il y aura un seul des deux qui aura eu la place, donc l’autre pourrait se juger lésé ?

Donc ce sont des questions, ici encore, des questions de définitions qui sont en jeu et également des questions de vérification et de démonstration de propriétés des programmes.

Explication

Mon quatrième et dernier exemple, sur lequel je vais être un tout petit peu plus long est celui de l’explication.

C’est une idée qui, en fait, est apparue d’abord en théorie de la démonstration, en logique, avant d’être un petit peu partout aujourd’hui en informatique. On s’est aperçu, en théorie de la démonstration, qu’il y a une différence entre savoir que quelque chose est vrai et savoir pourquoi quelque chose est vrai. Et mon exemple préféré est celui-ci : si vous multipliez le nombre, je n’arrive jamais à le lire, c’est 12 345 679 par 36, vous obtenez 444 444 444. Donc ici, vous savez que le résultat de cette multiplication n’est formé que de 4.

En revanche, vous ne savez pas pourquoi il est formé uniquement de 4, mais il y a une autre démonstration qui explique pourquoi il n’y a que des 4 dans le résultat. Et je vais vous laisser ça en exercice. Si vous voulez le corrigé de l’exercice, j’ai donné une conférence d’une heure et demie uniquement sur cette multiplication et la vidéo est sur ma page web, donc vous pourrez avoir toutes les explications sur la raison pour laquelle il n’y a que des 4 dans le résultat de cette multiplication. Si vous voulez chercher, réfléchissez à 36 et 4 ; il y a une propriété en commun avec ces deux nombres.

En informatique, nous sommes habitués à savoir dire que quelque chose est vrai sans savoir pourquoi il est vrai. Voici une carte qui a été produite par Météo-France, qui prévoyait le temps qu’il allait faire le lendemain, il y a quinze jours. Vous voyez qu’il y a quinze jours on prévoyait que le lendemain il ferait 12 degrés à Paris et donc là on sait que – vraisemblablement bien sûr, c’est statistique – il va faire 12 degrés à Paris, mais on ne sait pas pourquoi il va faire 12 degrés à Paris.

D’ailleurs on s’est posé la question, on s’est arraché les cheveux en se disant mais pourquoi est-ce qu’il va faire 12 degrés et pas 11 et pas 13 ? Une question qui nous paraît saugrenue parce que nous savons comment ces prévisions sont faites : il n’y a pas une raison qui fait qu’il va faire 12 degrés à Paris ; il y a des milliards de capteurs qui ont mesuré la température, la pression, que sais-je, et ensuite des ordinateurs qui, pendant des heures, ont résolu des équations par des méthodes d’éléments finis, etc., et puis, à la fin, le résultat est 12 ; mais ça serait bizarre de dire oui c’est forcément un nombre pair et forcément un nombre qui doit être divisible par 6. Non, ce n’est pas du tout ce type d’argument qui permet d’arriver au fait la température est de 12 degrés.

Là nous sommes, du simple fait de la grande quantité de données et de la complexité des calculs, dans un cadre que nous savons qu’une proposition est vraie mais nous ne savons pas expliquer, nous ne savons pas pourquoi elle est vraie.

Comme Gérard Berry l’a évoqué tout à l’heure, cette question de l’explication qui était une question un petit peu académique, réservée aux logiciens, eh bien aujourd’hui devient essentielle par le développement des algorithmes d’apprentissage.

Les algorithmes d’apprentissage sont des algorithmes qui servent à repérer des corrélations mais sans nécessairement expliquer ces corrélations. Donc face à l’expérience célèbre de Pasteur et des poules et du choléra des poules, eh bien un algorithme d’apprentissage sait remarquer, est capable de remarquer, remarque qu’il y a une corrélation entre l’injection de bactéries provenant d’une vieille culture et la résistance à l’injection de bactéries provenant d’une culture fraîche. En revanche, l’algorithme ne donne pas d’explication et, en particulier dans ce cas-là, l’explication demande de faire intervenir un concept qui n’est pas du tout dans les données, qui est le concept de système immunitaire et de stimulation du système immunitaire. Donc on ne voit pas comment cet algorithme d’apprentissage inventerait la notion de système immunitaire pour nous expliquer, comme Pasteur l’a fait, la raison pour laquelle les poules qui avaient été en contact avec des bactéries provenant d’une vieille culture étaient résistantes à celles provenant d’une culture fraîche.

L’apprentissage est là, pour le coup, une branche énorme de l’informatique dans le monde, mais il y a une petite partie de l’apprentissage, de la recherche en apprentissage, qui est consacrée à la construction d’explications. Et c’est dommage que Stéphane Mallat ne soit pas là aujourd’hui puisque c’est un des experts sur cette question.

Pourquoi est-ce que ces explications importent du point de vue éthique ?

J’ai pris deux exemples ici. Le premier est que des algorithmes d’apprentissage sont capables de nous dire qu’à partir d’un symptôme un traitement permet la suppression du symptôme. Mais ils ne sont pas capables de nous dire ni quelle est la maladie, ni pourquoi on a attrapé cette maladie, ni pourquoi le traitement est efficace contre cette maladie.

Il s’avère que les patients, en général, sont assez réticents, quand ils vont voir un médecin, que le médecin leur prescrive un médicament sans leur donner ne serait-ce que le nom de la maladie dont ils souffrent et de leur expliquer, un petit peu, le mécanisme par lequel cette maladie est arrivée, par lequel elle peut être guérie. Là il y a des travaux de sociologues qui ont interrogé des patients et, apparemment, les seuls patients qui sont prêts à prendre un médicament sans comprendre comment ça marche, ce sont les informaticiens !

[Rires]

Il y a aussi une autre raison pour laquelle l’explication est importante, c’est qu’il y a une tension en apprentissage entre le fait que les algorithmes qu’on construit par apprentissage doivent avoir un comportement éthique et le fait qu’on veut qu’ils apprennent à partir de données qui décrivent des comportements des humains, donc des comportements qui ne sont pas forcément éthiques.

Par exemple, si on utilise un algorithme d’apprentissage pour apprendre quels sont les critères qui permettent d’accorder ou de refuser un prêt à un client dans une banque, eh bien si on se base sur les prêts qui ont été donnés par le passé, disons dans certains pays ou dans certains États des États-Unis plutôt situés au sud, on s’aperçoit qu’il y une corrélation entre l’albédo de la peau du client et le fait qu’on lui accorde un prêt ou non. On accorde un prêt plus ou moins facilement en fonction de certaines caractéristiques prétendument ethniques des personnes en question.

Donc si on entraîne un algorithme avec ces données, eh bien l’algorithme va reproduire exactement le même biais. Donc l’algorithme ne va pas avoir un comportement éthique et là il y a une tension : on veut qu’il apprenne, mais on veut aussi qu’il ait un comportement éthique.

Donc une manière de résoudre cette tension, c’est de demander à l’algorithme une explication, par exemple une explication de la raison pour laquelle le prêt est refusé. Et si l’algorithme dit : « Le prêt vous a été refusé parce que vous avez la peau blanche », eh bien on sait, à ce moment-là, que c’est une raison qui n’est pas acceptable et donc on peut, comme ça, forcer un comportement éthique de l’algorithme simplement en lui demandant de fabriquer une explication et un certain type d’explication.

Et ici on retrouve les valeurs de l’équité, de respect de la personne, qu’on avait vues dans les transparents précédents.

Sur ces deux points, je vous renvoie aux exposés de Laurence [Devillers] et de Serge [Abiteboul] qui vont suivre et qui vont développer ce point plus avant, mais je vous renvoie également au rapport de la CERNA2, au livre de Laurence [Des robots et des hommes] et au livre [Le temps des algorithmes] que j’ai écrit avec Serge qui discutent ces questions de manière plus approfondie.

Un précédent : la sécurité

Est-ce que cette situation est nouvelle le fait qu’un problème qui vient de l’extérieur de la science, un problème qui vient un peu de questions morales, pose des problèmes en sciences ? Eh bien ce n’est pas une nouveauté. Il y a plein d’exemples, mais là j’en ai pris un qui est relativement proche. Il y a 30 ans, il y a 40 ans, quand on parlait de sécurité informatique, on disait : « Il faut que les systèmes d’information soient résistants aux attaques ». Qu’est-ce que ça voulait dire ? On n’en savait rien. Avec le temps, eh bien se sont développés divers domaines de l’informatique : le chiffrement qui est le domaine le plus ancien, puisqu’il est antérieur à l’informatique et on a quasiment inventé l’informatique pour faire du chiffrement et du déchiffrement, mais également de la vérification de protocoles, de l’analyse de traces, de la virologie au sens que les informaticiens donnent à ce mot. Donc on s’aperçoit que la question de la sécurité des systèmes d’information a mené un énorme champ de recherche. À Inria, par exemple, ça représente à peu près entre 15 et 20 % : des équipes de recherche travaillent sur des questions qui sont reliées à la sécurité de près ou de loin. Donc c’est un énorme champ de recherche et on peut penser que ça sera la même chose avec l’éthique.

Conclusion

Juste un petit mot de conclusion. Je vous ai montré qu’il y a de nouveaux domaines de recherche qui émergent en informatique du fait de cette préoccupation éthique, mais je voudrais aussi conclure sur le fait que cette contribution apporte aussi quelque chose à l’éthique elle-même. Il y a une tradition en éthique, qui n’est pas dominante mais qui existe, qui était de formaliser les valeurs, les principes et les comportements en utilisant des logiques, principalement des logiques modales, et on s’aperçoit ici qu’il y a une manière alternative de formaliser les questions éthiques à l’aide d’algorithmes. Donc il faut à la fois voir les progrès pour la science mais également les progrès du côté de l’éthique si on veut avoir une vision complète. Merci.

[Applaudissements]

Questions du public

Animateur : Merci beaucoup. Donc une question là-bas. Présentez-vous.

Public : Jacques Bourdet un ancien du CNRS. Quand on faisait le rapport sur l’informatique et éthique au CNRS, au COMETS [Comité d’éthique du CNRS], sous la houlette de Joseph Mariani qui est là, sur les rapports justement entre éthique et recherche, c’est-à-dire qu’est-ce que l’éthique pose comme nouveaux problèmes à la recherche, qu’est-ce que la recherche pose comme nouveaux problèmes à l’éthique, donc ce dialogue fructueux, moi j’avais posé la question : finalement est-ce qu’il y a l’équivalent dans le domaine de l’informatique du clonage reproductif humain ? En biologie, on avait décidé de ne pas savoir faire quelque chose parce que c’était trop risqué pour les problèmes éthiques que ça poserait pour vivre ensemble avec cette découverte. Je me souviens, j’avais posé cette question-là et j’avais eu comme réponse à l’époque — c’était il y a dix ans — « oui par exemple la reconnaissance de l’image, la reconnaissance automatique de l’image, ça revient à violer la vie privée. Vous regardez un écran ou une publicité et on peut vous identifier à ce moment-là. » Il y a dix ans, on m’avait répondu ça. Je pense qu’on fait des progrès quand même sur la reconnaissance automatique de l’image et que ce verrou-là a peut-être sauté. Est-ce que vous pourriez nous dire si, à votre avis, d’abord est-ce qu’il y a d’autres exemples en informatique qui seraient comparables au clonage reproductif humain de la biologie qu’on ne veut pas savoir faire ?

Gilles Dowek : Ça c’est une question d’éthique de la recherche. C’est la partie dont je n’ai pas parlé dans cet exposé, mais effectivement, je crois qu’on répondrait à peu près la même chose qu’il y a dix ans, c’est-à-dire une des limites infranchissables pour les informaticiens c’est l’intrusion dans la vie privée des personnes. Donc le fait, par exemple, de tout enregistrer, de tout écouter, de tout surveiller, est une espèce de ligne rouge que les informaticiens franchissent régulièrement, mais toujours avec réticence.

[Rires]

Animateur : Nicholas Ayache aussi de ce côté-ci, à gauche.

Nicholas Ayache : D’abord je veux faire la publicité du livre Le temps des algorithmes que j’ai lu récemment et qui est vraiment très intéressant ; on apprend plein de choses. Il y a un domaine, également, sur lequel on veut s’assurer de l’équité vis-à-vis du client, c’est le domaine des achats sur Internet. Et il peut y avoir un certain nombre d’algorithmes qui identifient le profil et qui proposent, par exemple, des tarifs plus ou moins intéressants selon qui on est, d’où on vient, où on habite. Est-ce que tu peux en dire un mot ?

Gilles Dowek : La main invisible du marché nous amène à augmenter les prix quand nous nous adressons à des personnes qui ont moins d’alternatives, parce que la concurrence jouant moins, eh bien ces personnes sont davantage enclines à acheter un objet même s’il est cher. Donc l’exemple que je dois à Serge, à vrai dire, qui est dans notre livre mais je l’ai appris de Serge, c’est celui de la vente d’agrafeuses qui n’a pas l’air d’être un problème éthique en soi mais, en fait, on va s’apercevoir que si. Les papeteries sont inégalement réparties sur les territoires et donc certains magasins en ligne, naturellement, à partir de l’adresse, identifient la distance à la papeterie la plus proche et ajoutent au prix de l’agrafeuse le prix d’un aller-retour à la papeterie au coût de l’essence ou je ne sais quoi. Bon ! Et c’est une vraie question : est-ce que c’est bien ? Est-ce que c’est mal ? C’est une vraie question. Les gens sont contents, ils ont des agrafeuses, on leur envoie, ils sont prêts à payer ce prix de toutes façons ; c’est la libre loi du marché. Et d’un autre côté il y a une petite voix qui nous dit, malgré tout, ce n’est pas quelque chose qu’on devrait faire. Voilà ! Ce type de questions ce sont des questions nouvelles. On ne peut pas dire aujourd’hui on a une réponse totalement définitive à ce type de questions.

Animateur : Une question de ce côté-ci, à gauche, présentez-vous.

Public : Merci monsieur le président. Monique Pateloup, je ne suis pas scientifique, mais je participe beaucoup à tout ce qui est éthique, déontologie, respect des données. Je tenais à vous remercier pour la pertinence de vos propos et la richesse des intervenants comme des participants. Je souhaitais avoir un éclaircissement et votre avis concernant le vote électronique puisque, à l’époque, le vote électronique avait été suspendu du fait que la machine et les programmes pouvaient être captés de l’extérieur pendant le déroulement du vote à cause que la machine n’avait pas été contrôlée, que la pulsion des touches, lorsque vous aviez trois députés à choisir, n’était pas la même et pouvait être captée de l’extérieur et renvoyée sur des smartphones et tout, pour modifier le vote au cours de la journée. Je souhaitais avoir votre avis si, grâce à des experts judiciaires avec l’Inria et monsieur Laborit, et monsieur Steve Jobs, malheureusement, qui nous a quittés, la véracité de cette information. Et deuxièmement, je rappelle que le mois dernier nous avons eu des informations qui ont été publiées dans des journaux spéciaux sur le juridique comme quoi avec la Défense, la Marine, les organismes bancaires, différents industriels, il y avait eu, au cours de l’année 2016, 738 000 intrusions dans les données.

Gilles Dowek : Ça me paraît peu ça !

Public : 40 % de plus que l’année 2015, une toutes les 40 secondes et, pour les particuliers, une toutes les 10 secondes. Je vous remercie de donner votre avis. Merci monsieur.

Animateur : Merci pour cette question un peu longue.

Gilles Dowek : Je vais d’abord répondre à la seconde des questions. Des tentatives d’intrusion sur des systèmes d’information il y en a énormément. Il y a une manière de les mesurer, c’est qu’on crée un faux système d’information qui a comme unique but de compter les tentatives d’intrusion sur lui. Il n’y a même pas besoin de diffuser son adresse IP puisque les systèmes d’intrusion essaient les adresses IP les unes après les autres. On s’aperçoit que dès qu’on met en ligne un tel site, eh bien les attaques commencent à peu près à la minute suivante.

Donc la question n’est pas comment vivre dans un monde dans lequel il n’y a pas d’attaques et il n’y a pas de pirates et il n’y a pas de gens malintentionnées ; la question est comment se protéger contre ce type d’attaques ? On peut dire qu’il est très facile de faire des systèmes qui se protègent très mal et qui se protègent très peu, comme l’actualité récente nous l’a montré. Mais il est aussi possible… Disons il y a une question technique qui est : quelle est la qualité des systèmes qu’on a aujourd’hui ? Et il y a une question un peu plus théorique qui est : est-ce qu’il est possible de se protéger ?

Sur la question du vote électronique, la question est un peu la même. Il y a des systèmes de vote électronique qui sont aujourd’hui sur le marché, qui sont très loin de ce qu’on pourrait faire de mieux et qui présentent des failles de sécurité assez nombreuses, à la fois parce qu’ils sont en ligne, à la fois parce qu’ils ne sont pas en ligne, etc. Donc la recommandation aujourd’hui ça serait plutôt de ne pas les utiliser, mais, malgré tout, il faut nuancer un peu cette question. Il ne faut pas poser la question en disant « prenons les institutions du XXe siècle, avec leurs élections présidentielles, leurs élections législatives et tentons juste de remplacer le vote à l’urne par le vote électronique tout en gardant la structure des institutions du XXe siècle ». Ça c’est la manière paresseuse de réfléchir, où on se dit le XXIe siècle ça va être comme le XXe siècle, sauf qu’on va remplacer deux-trois trucs par des algorithmes, des ordinateurs, des réseaux.

Une question pourrait être gardons les institutions républicaines telles qu’elles fonctionnent et posons-nous la question qu’est-ce que le vote électronique peut nous apporter de plus ? Je vais vous donner un exemple : la mairie de Paris est en train de refaire ma rue, la rue où j’habite, et on ne m’a pas consulté. Avec un système de vote électronique, avec un système qui utiliserait des ordinateurs et des algorithmes pour faire davantage de démocratie, et en l’occurrence plus de démocratie locale, j’aurais pu donner mon avis. Là, un vote à l’urne de tout l’arrondissement pour la largeur du trottoir devant chez moi, serait inapproprié ; ça serait exagéré, ça serait beaucoup trop cher. En revanche, avec un algorithme, un processus de vote électronique, ça aurait permis aux citoyens qui habitent là de s’exprimer. Et là, si le décompte des voix n’est pas tout à fait parfait et si le secret du vote n’est pas tout à fait parfait, comme on décide de la largeur du trottoir et la largeur de la rue, ce n’est pas très grave et, de toutes façons, avant on ne nous demandait pas du tout notre avis. Donc là on a une possibilité d’amélioration grâce au vote électronique et il faut penser le vote électronique comme ça et non pas comme un moyen de remplacer les institutions du XXe siècle.

Public : Oui, je suis tout à fait d’accord avec vous mais encore faut-il que l’on puisse avoir les moyens financiers et techniques d’améliorer pour les grandes institutions et notamment les banques et les données du public.

Gilles Dowek : Ce qui est important c’est d’éduquer les citoyens, c’est d’abord ça.

Animateur : Stop. On va s’arrêter là. Merci beaucoup. On va passer à l’orateur suivant.

[Applaudissements]