Ce texte est la transcription de la conf donnée à Paris Web. Le texte contient donc des tics de langages et du mauvais français. Vous êtes prévenu-e-s.

Vous pouvez retrouver un article reprenant les mêmes informations.

Intro

Ici se trouvait une introduction à l'humour plutôt douteux…

Qui exploite nos données ? Comment sont-elles exploitées ? Quelle est notre responsabilité là dedans ? Et quelles sont les mesures à prendre pour protéger la vie privée de « nos » internautes.

L'âge de la donnée

Tableau. 4 hommes autour d'une
table. – Et bien Lucien, l'historique de ton navigateur, c'est pas joli joli. —
Arrête, rends moi mon iPhone

La donnée, c'est le pétrole du Web. Si vous avez accès aux gisements, vous êtes le roi du monde.

Nous laissons quotidiennement des sommes de données personnelles colossales sur le Web. À vrai dire, dans la première version de cette conf, je faisais une liste de tous les types de données qu'on pouvait laisser traîner, et rien que cette énumération prenait 45', soit le temps de la conf. Je pense que vous êtes déjà sensibles à cette problématique : entre les données que nous laissons, les données qui sont collectées dans notre dos plus ou moins légalement, les données que d'autres publient à notre place et les données qu'on peut extrapoler à partir de toutes les autres, et bien, ceux qui ont accès à toutes ces données vous connaissent mieux que votre propre mère.

Qui exploite nos données ?

Tableau. Deux hommes dans
une boucherie. — Bonjour, il me faudrait 50go de données. — Yen a un peu plus,
je vous le laisse ?

Concrètement, qui exploite nos données ? Pour faire simple, on va dire qu'il y a deux grandes catégories d'acteurs.

La première catégorie, que tout le monde connait, ce sont bien évidemment les Gafas : Google, Apple, Facebook, Amazon, Twitter, Microsoft, Yahoo, LinkedIn, Snapchat, etc. Ces entreprise ont les moyens de collecter elles-même de grosses quantités d'informations, et elles les exploitent pour leur propre compte.

La deuxième catégorie, qui est moins connue du grand public, c'est celle des data-brokers, ou courtiers en données. Un courtier en données, c'est une entreprise dont le métier est de collecter, qualifier, traiter et revendre des données. On en trouve des centaines, mais parmi les leaders, on va retrouver des noms comme Acxiom, Experian, CoreLogic, Datalogix, et, en France, Mediapost, une filiale du groupe La Poste.

Ces entreprises vont collecter des données en les aspirant sur le Web, mais elles vont aussi obtenir des fichiers par plein d'autres moyens : les s'échangeant des fichiers les uns les autres, en achetant les fichiers clients des grandes enseignes, en récupérant les données des administrations publiques, le tout évidemment sans votre consentement.

Une société comme Acxiom, c'est 1500 points de données par individu pour 500 millions de personnes dans le monde. Ce qui permet à ce genre de boites de vendre des fichiers extrêmement précis : vous voulez un fichier avec une liste de gens qui aiment les chiens ? Pas de problèmes ! Vous voulez cibler les amateurs de sports d'hiver ? Des retraités qui habitent à la campagne ? Des jeunes couples qui ont du mal à finir le mois ? Des trentenaires sans enfants ? Des amateurs de moto ? Des ingénieurs qui travaillent dans le numérique et qui pratiquent les arts martiaux ? Il n'y a qu'à demander !

Vous voulez entendre une blague ? Je sais que vous aimez les blagues. Regardez la première phrase de la page « déontologie » sur le site d'Acxiom France.

« Acxiom met la protection de vos données et la politique du respect de la vie privée au centre de toutes ses démarches de traitement des données. »

C'est un peu comme si Dassault prétendait mettre la protection des vies au centre de toutes ses démarches de vente d'armes. On atteint des summums dans l'hypocrisie et la langue de bois.

Comment sont exploitées nos données ?

Toutes ces données représentent une mine d'or. Personnellement, si je devais choisir un super-pouvoir, entre être invisible, toujours savoir ou j'ai posé mes clés, ou tout savoir sur tout le monde, y pas photo, je prendrai le dernier.

Que peut-on faire avec une masse de données aussi considérable ? Et bien, tout un tas de trucs. Des trucs biens, et des trucs moins biens.

Par exemple, la première chose qu'on peut faire, avec ces données, c'est les explorer. Farfouiller et voir ce qu'on peut en sortir. Qu'est-ce que nos données révèlent sur nous ? Il y a un terrain formidable pour les sociologues du monde entier. Si le sujet je vous intéresse, je vous conseille le livre de Christian Rudder, Dataclysm, dans lequel vous pourrez apprendre pourquoi la structure du graphe de votre réseau sur Facebook est révélateur de la santé de votre couple, ou ce que l'analyse des échanges entre les membres d'un site de rencontre révèle sur les mécanismes de l'attirance et de l'amour.

L'urbanisme ! L'écologie ! La démocratie participative ! Le social ! imaginez tout ce qu'on peut faire avec autant de données !

Le médical ! Le projet sur lequel je travaille actuellement est une application de suivi qui permet de prévenir les rechutes pour les patients en rémission du cancer du poumon. Une étude clinique a montré que, plutôt que de faire passer un scanner au patient tous les mois ou tous les deux mois, ce qui est très lourd, il était plus efficace de lui faire remplir un questionnaire hebdomadaire en ligne ou il pouvait lui même renseigner quelques symptômes. En traitant ces données, on est capable de détecter les risques de rechutes et de lever des alertes pour prévenir l'oncologue traitant. En faisant ça, on augmente l'espérance de vie du patient de plus de 20%.

Après, il y a aussi les trucs moins cool. L'exploitation sécuritaire, par exemple. Si je vous dis « dispositif d'analyse prédictive de la délinquance », normalement ça doit vous faire un peu tiquer. Il y a un article là dessus dans le dernier numéro du point. Je vous dit ça uniquement pour que vous compreniez à quel point je me suis sacrifié pour préparer cette conférence. Je vous confirme qu'on n'y apprends pas grand chose. C'est rigolo, Le Point, la pub sur la première page est pour une Mercedes Benz, sur la dernière page c'est pour une porte blindée. Si j'avais voulu l'inventer je n'aurais pas osé.

Et puis il y a les trucs franchement glauques, par exemple l'exploitation politique. L'équipe de campagne de Sarkozy a pondu une application qui espionne les gens qui « pourraient avoir un intérêt pour Sarkozy » (e.g si vous retweetez un tweet ou likez un article sur Facebook). L'appli va aggréger sans votre consentement différentes données nominatives et vous géolocaliser sur une carte, pour permettre aux militants de venir faire du porte à porte chez vous. Notez que, avant que les journaux n'en parlent, dans la première version de l'appli, la carte était publique, vous pouviez donc voir tous les noms et adresses de vos voisins de droite, c'était cool. Tous les autres candidats, de droite ou de gauche, utilisent des applications similaires pour « mener des campagnes plus efficaces ».

Exploitation marketing

Tableau. Un homme apporte
une assiette. — Bonjour, voici votre sandwich. — Mais, je n'ai rien commandé ?
— C'est du marketing prédictif. Ça fera 12€.

Mais sur le Web, nos données sont principalement exploitées dans un but marketing. Puisque la gratuité est un peu devenue la norme, on va se rémunérer en affichant des pubs.

La pub est un marché très concurrentiel et afficher une pub, ça coûte très cher. Pour que ce soit rentable, on va donc essayer de vous montrer les annonces les plus pertinentes possibles et pour faire ça, et bien les grandes régies du Web vont utiliser les techniques avec des noms compliqués : profilage et analyse comportementale. Les Gafas vont utiliser les masses de données à leur disposition pour dresser de vous le portrait le plus fidèle possible et obtenir une liste de vos centres d'intérêt.

Alors, cette exploitation a quelques effets pervers. Le premier effet, c'est que les Gafas vont personnaliser leurs services à outrance. On sait que votre flux Facebook, par exemple, va être filtré grâce à un algorithme opaque dont le but est de vous montrer les contenus sur lesquels vous êtes les plus susceptibles de cliquer. Google, c'est pareil, ils vont adapter leurs résultats en fonction du profil qu'ils ont de vous.

Le problème, c'est que Facebook et Google sont les deux principales source de trafic pour les journaux en ligne. Aujourd'hui, pour une majeure partie des gens, ce que vous savez de l'actualité, c'est ce que vous avez lu sur Facebook. Si on personnalise à outrance ces services, ça signifie que vous serez de moins en moins amenés à être mis en contact avec des points de vues contraires aux vôtres, et ça signifie que des contenus « sérieux et importants » deviendront de moins en moins visibles aux détriments de la « junk news ». C'est ce qu'Eli Pariser appelle la Filter Bubble, je vous conseille son livre, il est très bien.

Le deuxième effet pervers, c'est que les Gafas vont rentrer dans une course à la donnée. Plus on en a, mieux c'est. Et l'une des données les plus importantes, les plus déterminantes, c'est la liste des pages que vous visitez. Ce qui nous amène au sujet suivant : le problème du tracking.

Le tracking

Ici se trouvait une démo sur le tracking.

Données sensibles

Tableau. Un couple, une
troisième femme derrière. — Bonjour, votre crème intime habituelle est à -50%
aujourd'hui. — Vous ne voyez pas que ce n'est pas le moment ?

En tant que professionnel·le·s du Web, nous avons une énorme responsabilité dans la protection de la vie privée de nos utilisateurs. Avant d'aborder les mesures techniques à prendre, j'aimerais qu'on se mette d'accord sur un grand principe global : une donnée privée doit toujours être considérée comme sensible.

Pourquoi ? Je vais vous donner un exemple personnel.

Ma femme travaille en prison, elle passe la journée en entretiens avec des délinquants ou des criminels. Quand vous travaillez avec ce genre de public, vous n'avez pas envie de laisser traîner vos coordonnées en libre service. Quand elle a pris ce job, elle a nettoyé tout ce qui trainait sur le Web.

Moi, indépendant, je suis développeur freelance. J'ai besoin que mes clients potentiels me trouvent le plus facilement possible. Mon adresse est très facile à trouver.

De cette situation, on peut tirer plusieurs leçons. D'abord, une information anodine pour quelqu'un peut être sensible pour quelqu'un d'autre. Et ça dépend du contexte.

Ensuite, une information qui n'est pas sensible peut le devenir si le contexte évolue. Ce contexte peut être personnel, peut-être que les photos de moi bourré publiées sur Facebook pour faire rire mes amis, aujourd'hui je les trouve embarrassantes parce que je dois passer des entretiens d'embauche. Mais ça peut être un contexte social, économique, politique. On peut imaginer que si le FN gagne les prochaines élections, ça va représenter un gros changement de contexte pour tout le monde.

Et le dernier truc, c'est qu'une information peut être indirectement sensible. Par exemple, le fait que ma femme et moi habitions ensemble, ce n'est pas en soi une information sensible, mais ça permet de déterminer son adresse facilement.

Par conséquent, puisque vous ne connaissez pas le contexte de vos utilisateurs, vous devez par défaut considérer toutes leurs données comme sensibles. Et parce que le contexte peut évoluer, vous devez leur offrir un droit à l'oubli, le droit de supprimer d'anciennes données. De toutes façons, c'est une obligation légale.

Supprimer les trackers

Tableau. Un peintre,
observé par plusieurs hommes. — Mais enfin, vous allez arrêter de me suivre
partout ?

Comme je l'ai dit, nous avons la responsabilité de protéger la vie privée de nos internautes. Et pour ça, il y a deux choses : d'abord, on va éviter de donner leurs données aux gafas, ensuite, on va s'assurer que nous mêmes, nous ne représentons pas un danger pour nos utilisateurs.

Pour empêcher les Gafas de tracker les internautes chez nous, il faut supprimer tous les trackers de nos sites. Si vous en laissez un seul, ça ne sert à rien. Je vous propose de les passer en revue.

D'abord, tous les scripts de mesure d'audience. En plus, comme c'est du javascript, vous allez envoyer encore plus d'informations. La question à se poser c'est : « est-ce que j'en ai vraiment besoin ? ». Si vous avez un blog, ou un site perso, très honnêtement, on en a rien à battre du nombre de visiteurs par mois. Si vous avez des besoins concret de mesure d'audience, il y a des solutions alternatives. Si vous avez simplement besoin de mesures basiques, il est peut-être possible d'analyser les logs du serveur avec des solutions type Logstash + Kibana. Vous pouvez aussi utiliser une solution open-source auto-hébergée type Piwik.

Ensuite on va avoir les boutons de partage. La plupart du temps ça ne sert à rien. Vous pouvez mettre un bouton « partager sur Facebook », mais vous n'avez pas besoin pour ça d'inclure script de 50ko hébergé sur le serveur de Facebook.

Ensuite on va trouver les fonts. Google fonts, par exemple, rend très difficile le téléchargement des typos proposées. C'est très certainement fait exprès. Je vous encourage à faire quelques recherches et à récupérer les fonts pour les auto-héberger.

Les maps. Aujourd'hui, c'est très facile d'utiliser Google maps. Si vous avez vraiment besoin d'une carte, vous pouvez faire une capture et l'auto-héberger. Vous pouvez aussi utiliser des services libres comme OpenStreetMap, il y a des services qui vous permettent d'auto-héberger vos cartes. Et dans le pire des cas, peut-être que vous n'avez pas besoin d'inclure directement la carte sur votre site, peut-être qu'un simple lien vers Google Maps suffit.

Les CDNs, Content Delivery Network, qui vous permettent entre autre de servir vos ressources statiques efficacement en fonction de l'emplacement de vos utilisateurs, au prix d'une nouvelle brèche dans leur vie privée. Si vous avez un très gros site avec une audience internationale et de très fortes charges, ça peut se justifier. Mais la plupart du temps, c'est par pure paresse qu'on laisse traîner les lignes comme celles-ci (je le sais, je l'ai fait). Aujourd'hui, c'est quand même très facile de configurer un serveur pour servir efficacement des fichiers css ou js.

Les autres mesures à prendre

Une fois qu'on a dératisés nos sites, c'est déjà un gros progrès, mais ça ne suffit pas. Il y a d'autres mesures qui sont importantes à mettre en œuvre.

Dans la conception de vos services, il est important d'adopter le « privacy by design ». Les options par défaut doivent être celles qui permettent la plus grande protection de la vie privée, et c'est à l'internaute qui doit être à l'initiative de changer d'options.

La première mesure, qui est évidente en 2016, c'est de mettre en place https. Https est nécessaire pour plusieurs raisons, mais ce qui nous intéresse ici, c'est que la connection est chiffrée et donc il est plus difficile pour un tiers d'intercepter la communication entre vous et vos utilisateurs. De toutes façons, en 2016, ce n'est pas concevable d'avoir un site qui n'est pas accessible en https. D'ailleurs, non seulement on va activer https, mais on va forcer https. Même si votre site est un bête site statique, ou un journal en ligne, vous devez mettre en place une connexion chiffrée.

La mesure suivante, ça va être la désexternalisation de fonctionnalités. Typiquement, les commentaires. Aujourd'hui, quand on n'a pas envie de s'embêter à coder soi-même les commentaires, on utilise un truc comme Disqus. Si vous ne connaissez pas Disqus, en gros c'est juste un script que vous insérer dans votre page Web et bam, vous avez automatiquement une section de commentaires qui apparait. Ça c'est une vraie saloperie parce que d'abord c'est un tracker, en plus les commentaires de vos utilisateurs partent directement sur les serveurs d'une entreprise tierce. Sachant que le businesse model de Disqus, c'est la pub et la revente de données. Donc la question qu'il faut se poser, c'est « est-ce que cette fonctionnalité est importante pour mes utilisateurs ». Si non, peut-être qu'on peut simplement la supprimer. Si oui, peut-être que ce n'est pas une stratégie très pertinente de la confier à un tiers ? Je vous laisse juger. Un autre exemple de fonctionnalité déportée, c'est le login.

Autre mesure importante : n'empêchez pas les internautes d'utiliser des solutions de protection de l'anonymat. Par exemple, aujourd'hui, quand vous utilisez Tor pour surfer sur le Web, vous allez de plus en plus souvent tomber sur des trucs comme ça… Pourquoi, parce que le site en question utilise cloudflare qui propose par défaut une mesure de protection basée sur de la réputation d'ip. Et comme Tor consiste à mélanger des connexions pour les anonymiser, et bien cloudflare vous demande de remplir un captcha. Quand on vous redemande pour la quarantième fois de la journée de repérer les engins de chantier dans une bouillie de pixels minuscule, et bien je vous jure que ça nuit à la qualité de votre navigation. Pourtant, il y a des gens qui ont légitimement besoin d'utiliser Tor, surtout à notre époque ou des gouvernements s'amusent à créer des délits de consultation de l'information.

Ensuite, on va trouver les bonnes pratiques de conception de systèmes d'informations. Par exemple, si vous gérez un site de rencontre, peut-être que c'est une bonne idée de ne pas stocker les préférences sexuelles des gens au même endroit que leurs données civiles et leurs coordonnées ? Je vous rappelle qu'il reste plus de 70 pays dans le monde dans lesquels il existe des lois pour punir l'homosexualité.

Ne recueillez pas plus d'information que ce qui est nécessaire. Et recueillez les données le plus tard possible. Ne recueillez pas de données « au cas où », en partant du principe que le coût est nul. Protéger des données a un coût, moins vous en savez, moins vous représentez un risque.

Demandez des données moins précises. Par exemple, au lieu de demander la date de naissance de vos utilisateurs, peut-être qu'une tranche d'âge peut être suffisante ?

Stockez correctement les mots de passe de vos utilisateurs. Je rappelle que l'utilisateur a tendance a réutiliser les mêmes mots de passe. Si votre base de donnée est compromise et que les mots de passe ne sont pas suffisamment protégés, et bien vous créez un danger énorme pour la vie privée des utilisateurs. Pour bien stocker un mot de passe, on ajoute un grain de sel, et on utilise un algorithme approprié.

Ne récupérez pas de données sans le consentement de vos utilisateurs. Et quand je parle de consentement, ça ne veut pas dire une petite phrase cachée dans les conditions d'utilisation. D'ailleurs, en règle générale, ne faites rien sans le consentement de l'utilisateur.

Si votre utilisateur veut supprimer son compte, et bien, supprimez son compte, ne vous contentez pas de le désactiver.

Et puis il y a des mesures tellement évidentes que je ne comprends même pas pourquoi je suis obligé de le dire. Si vous voulez protéger la vie privée de vos clients… ne revendez pas leurs données ! Hein la Poste !?

Au final, protéger la vie privée de vos utilisateurs demande du travail, mais plutôt que de voir ça comme une contrainte, pourquoi ne pas en faire un avantage compétitif ?

La pub

Nous n'avons pas encore abordé l'éléphant dans la pièce.

Il y a eu une conférence de Renaud Forestié, en 2015 à Sud Web, au cours de laquelle il nous expliquait pourquoi les sites de presse se ressemblaient tous. La raison, c'est que les régies publicitaires font signer une charte uniformisante qui leur permet de ne pas décliner leurs pubs en des millions de formats différents.

La question, c'est, comment peut-on afficher des publicités sur son site tout en respectant la vie privée des utilisateurs ?

Et bien pour moi, ça revient un peu à demander comment on peut maigrir en se nourrissant exclusivement de kouign amann. On ne peut pas ! Vous ne pouvez pas inclure sur votre site des trackers, des mouchards et des iframes, inclure des éléments sur lesquels vous n'avez absolument pas la main, tout en garantissant le respect de la vie privée de vos internautes. La seule façon, éventuellement, ça serait d'être votre propre régie et d'auto-héberger toutes les pubs. On peut imaginer que, sans la possibilité de profiler les utilisateurs, vous seriez moins compétitif qu'une régie classique. Je n'ai pas de solution à ce problème, mais on peut en discuter à une informelle si vous voulez.

Aujourd'hui, je sais que la presse en ligne se détourne de la pub et cherche des solutions alternatives, et je pense que c'est une bonne chose. En tout cas, je pense que vous ne pouvez pas être un bon citoyen du Web si votre principale source de revenus est la pub.

Conclusion

Tableau. Un visage caché
derrière une pomme. — Bof, moi je m'en fous, j'utilise un bloqueur de pub.

Alors voilà, aujourd'hui on est est là… Qu'est-ce qu'on fait ?

Les sociétés comme Acxiom, qui violent notre vie privée en volant nos données, et qui se font de la thune sur notre dos en les revendant à d'autres sociétés qui vont se faire encore plus de thune en nous empoisonnant la vie, ces sociétés sont des parasites et l'humanité se porterait bien mieux si elles disparaissaient.

Pour des boites comme Google ou Facebook, le problème est plus compliqué. Si nous étions dans un film, on aurait un méchant avec un super costume qui aurait construit un empire numérique diabolique et qui serait capable d'influencer les votes et les opinions de la population mondiale en quelques clics. Mais nous ne sommes pas dans un film. Au lieu de ça, on a simplement quelques personnes un peu plus intelligentes que la moyenne avec des tee-shirts pourris et des idées dangereuses. Et une fois qu'ils ont accidentellement construit un empire du mal capable d'influencer les votes et les opininions de la population mondiale en quelques clics, ils se disent « bon, ben maintenant qu'il est là, autant faire un peu de thune avec ».

C'est un casse-tête, parce que je ne pense pas qu'il faille empêcher Google ou Facebook de faire de la thune. Mais d'un autre côté, le fait qu'il existe des entités avec un pouvoir aussi total sans aucun contrôle démocratique, je trouve ça très risqué pour nos démocraties.

Si vous êtes travaillez chez Facebook ou Google, vous avez une énorme responsabilité. Si vous mettez en place une personnalisation à outrance des services qui sont devenus des portes d'entrées sur le Web, éthiquement, vous devez en informer clairement les utilisateurs, et vous devez laisser la possibilité de la désactiver facilement.

Quand à nous, péquenauds du Web, nous avons aussi notre responsabilité, qui n'est pas négligeable. Dans cette salle, nous sommes tous des amoureux du Web. L'amour du Web, ça passe par le respect de ses utilisateurs. C'est à chacun de nous de prendre les mesures qui s'imposent pour respecter la vie privée de nos internautes.

Merci de votre attention.