Problème de boîte #2

Les députés et ministres ont parlé d'algorithmes. En les écoutant, on sentait bien que pour certains, cela ressemblait à une baguette magique.

Un algorithme pour quoi faire ?

Avant de concevoir un algorithme, il y a en général quelqu'un qui a exprimé une demande, comme par exemple :

Comprendre la demande d'un utilisateur n'est pas toujours facile. Les développeurs informatiques utilisent soit un cahier des charges dans lequel on aura tout décrit et qui sera signé par les deux parties, soit des méthodes dites "Agile", où on livre rapidement un algorithme très simple et incomplet répondant à la principale demande. Le client valide ou jette le produit livré (dans ce cas, le développeur n'aura perdu que quelques jours de travail) puis précise sa demande. De version en version, on aura un programme répondant de mieux en mieux au souhait initial.

Analysons la demande :

Si quelqu'un a envie de faire un montage des réponses agressives du ministre de l'intérieur durant le #PJLRenseignement, welcome ;) FT

On recherche des réponses agressives du ministre de l'intérieur.
On ne veut que celles durant le #PJLRenseignement

Comme première approche pour notre algorithme, prenons le compte-rendu de la deuxième séance d'hier. Il faut donc trouver la recette de cuisine qui nous permette de répondre à la question...
Pour l'instant, on va la faire "à la main".

Etape 1 : Créer le fichier 15avril.odt

On copie le compte-rendu sous forme texte dans un fichier openoffice (ou word).

Cela fait 50 pages.

Etape 2 : Ne garder que les interventions du ministre

La demande concerne "les réponses du ministre de l'intérieur".

J'ai donc choisi de supprimer toutes les interventions qui ne correspondait pas à :

"M. Bernard Cazeneuve, ministre de l’intérieur."

"M. Bernard Cazeneuve, ministre."

En une dizaine de minutes, j'ai pu effacer (à la main) ce qui était inutile dans le fichier 15avril.odt et créer ensuite le fichier "15avril_cazeneuve.odt"

Celui-ci fait 8 pages.

Etape 3 : Définir "réponse agressive"

Qu'est-ce qu'une réponse agressive ? Je suis humaine, donc j'ai un "filtre", qui n'est sans doute pas le même que celui de Mme Attard. C'est exactement le même problème que de définir un comportement terroriste.

Une première solution pourrait être de souligner les "mots" que je vais considérer comme agressifs et souligner les phrases qui les contiennent. Par exemple dans la première intervention.
- hypocrisie (1 fois)
- M. Facebook (2 fois)

Le problème est qu'une phrase peut être agressive sans contenir aucun mot injurieux, ni négatif. Par exemple :

Vous n’êtes pas le seul à le maîtriser, monsieur Tardy, ne vous inquiétez pas !

Vous pouvez secouer la tête, madame Attard, forte de votre compétence et de votre assurance,

Dans les deux cas, les phrases commencent par "Vous". S'adresser directement à un député, est-ce un signe d'agression par rapport à des propos qui ne seraient qu'à la troisième personne ou commenceraient par "L'argument de M Tardi ou MMe Attard est faux... " ?

C'est typiquement le cas, où un développeur a besoin d'une confirmation du client. Comment peut-on définir l'agressivité ?

Dans l'algorithme, on pourra alors introduire une variable, ou un tableau :

Critères d'agressivités :

Phrases commençant par "Vous"
Phrases contenant "vous"

Etape 4 : Recopier les phrases

Vous n’êtes pas le seul à le maîtriser, monsieur Tardy, ne vous inquiétez pas !

Vous pouvez secouer la tête, madame Attard, forte de votre compétence et de votre assurance

Les faits que vous rapportez figurent peut-être dansL’Obs, ou dans le Petit Bessin illustré ; mais par nature, et par essence, je n’y crois pas.

Enfin, monsieur Tardy, vous répétez sans cesse qu’il y aura une surveillance de masse, que nous allons entrer dans les données et dans les conversations, que ce sera Big Brother. Eh bien moi, je vais créer un hashtag : #NiBigNiBrother !

Nous avons expliqué le fonctionnement des deux techniques que vous mettez en cause et leur finalité.

Et vous, monsieur Tardy, vous niez de la tête avant même que l’on vous réponde. Vous prenez la parole pour expliquer que le sujet est suffisamment technique pour justifier d’une réponse du Gouvernement, et quand on vous la donne, avec précision et sincérité, vous regardez tout cela avec un incommensurable mépris. Ce comportement est injustifiable !

Elles sont selon vous extraordinairement intrusives et permettent de prélever en masse des données. C’est faux.

Selon vous, le fait de procéder, par des mesures de police administrative portant sur une liste bien définie de personnes, à la prévention de la commission d’un acte terroriste relève-t-il d’une surveillance de masse ?

Madame de La Raudière, nous avons déjà échangé sur cette question, je ne sais pas si vous vous en souvenez.

Lorsque nous discutions de la loi du 13 novembre 2014 et que nous évoquions la question du blocage administratif des sites, vous m’aviez déjà demandé si nous utilisions la technique du DPI.

Je vous confirme ce que j’ai dit de façon inlassable depuis des jours et des semaines – mais à peine la réponse est-elle donnée qu’elle est oubliée, et il faut y revenir ; ce n’est pas vous que je vise en l’occurrence, madame de La Raudière, mais plutôt le brouhaha ambiant et le vacarme médiatique

Madame Attard, je suis désolé, mais il semble que vous ne soyez guère au courant des débats sur le budget du ministère de l’intérieur – peut-être n’était-ce pas dans Le Nouvel Observateur ? Si vous y aviez participé, vous sauriez ce qui a été voté. Il est exaspérant de vous entendre dire des choses qui, une fois de plus, ne correspondent pas à la réalité.

Je vais vous apporter la démonstration que ce que vous dites est très loin de la réalité.

Alors quand vous vous avancez sur des sujets que visiblement vous ne connaissez pas, comme je viens d’en apporter la démonstration, faites-le au moins sans arrogance. Cela a l’air de vous amuser, mais ça ne fait pas rire les policiers, pas davantage que lorsqu’ils vous entendent théoriser à longueur de temps les violences policières. Croyez-moi, compte tenu des violences dont ils sont eux-mêmes victimes, ça les indigne. Alors permettez-moi de vous dire que ce discours et cette démagogie sont inacceptables sur des sujets aussi sérieux. (Applaudissements sur plusieurs bancs des groupes SRC et UMP.)

Par conséquent, vous avez aussi toutes les raisons de penser qu’il n’y a pas, d’un côté, des parlementaires soucieux des droits de l’homme et de l’autre, un Gouvernement et des services de renseignement qui voudraient tous les jours les remettre en cause. Vous avez aussi raison de considérer que la politique est un art de la pédagogie.

Le Gouvernement, vous le savez, est particulièrement attaché à soutenir la compétitivité d’un secteur en croissance, qui crée des emplois dans notre pays.

Vous vous souvenez qu’il y a eu une discussion sur ce sujet avec le rapporteur, qui proposait de ne prévoir qu’un seul dispositif d’urgence en fusionnant l’urgence absolue et l’urgence opérationnelle.

Puisque vous disiez que tout se ferait dans le dos du Premier ministre, sachez que celui-ci peut à tout moment demander l’interruption de l’usage de cette technique

Tester l'algorithme

Dans les phrases ci-dessous, il y a des "faux-positifs", c'est-à-dire des phrases qui ne sont pas agressives, de la même manière qu'une boîte noire peut repérer des "comportements terroristes" qui n'en sont pas.
Il y a sans doute aussi des phrases agressives qui ne contiennent pas de "Vous". Cette phase de test est bien connue des joueurs qui peuvent télécharger une version "Béta" et donner leurs commentaires et critiques afin d'améliorer l'algorithme.

Il faudrait aussi tester l'idée de choisir le "Vous" comme critère sur d'autres séances. 8 pages, c'est finalement assez peu.

Améliorer l'algorithme

Si on résume notre recette de cuisine, pour l'instant c'est une succession de tâches :

Copier le compte-rendu dans un fichier (.odt, .doc)
Supprimer toutes les réponses qui ne sont pas de M. Cazeneuve
Rechercher "Vous" dans le texte
Recopier toutes les phrases qui contiennent "Vous"

Cet algorithme peut et doit être discuté. Par exemple, le point "2" n'est pas pertinent. Avoir la question de Mme Attard, M Tardy ou Mme de La Raudière aiderait à mieux cibler l'agressivité de la réponse.

Il existe aussi des vidéos, des photos de cette séance, où l'agressivité est plus facilement décelable que dans du texte.

Et pour la boîte noire ?

Jean-Yves Le Drian a déclaré :

Quatrièmement, la méthode utilisée pour la détection ainsi que le périmètre de la recherche sur les réseaux seront définis et soumis au préalable à la Commission. Toute opération de recueil et toute modification de l’algorithme devront faire l’objet d’une autorisation au cas par cas.

Dans ce billet, j'ai décrit un algorithme relativement simple, que tous les membres d'une commission peuvent comprendre. L'étape suivante serait de coder cela afin de pouvoir détecter automatiquement tout propos agressif lors des séances de l'assemblée.
Je vois mal des députés et sénateurs d'une commission se plonger dans le code que j'aurais écrit pour valider mes modifications. Pour beaucoup de développeurs, reprendre les lignes écrites par un stagiaire demande plus de travail que de concevoir un nouveau programme. Ils seront donc obligés de me faire confiance si je leur dit que je recherche juste le mot "vous".

La vie, l'univers et le reste...

Rechercher dans ce blog