Anatomie d'une désintoxication au Web sous surveillance

Lorsque nous naviguons sur le Web, nous générons de l'information. Et que ce soit pour des raisons économiques, politiques ou d'autres bien moins avouables, il existes de nombreuses parties qui ont un intérêt direct à exploiter ces données. Et elles ne s'en privent pas, le plus souvent à notre insu et en dehors de tout contrôle légal.

En tant que bâtisseuses et bâtisseurs du Web, nous contribuons souvent à fragiliser la vie privée de nos utilisateurs en nous rendant complice de cette exploitation, moins souvent par malice que par ignorance, insouciance ou paresse.

Ce billet est la transcription de la conférence éponyme que j'aurais dû donner aux RMLL 2015 à Beauvais.

Data mon amour

Le simple fait de naviguer sur le Web génère de l'information. Ces informations sont récupérées par différents acteurs, et elles peuvent être exploitées de différentes manières.

Lorsque nous sommes conscient·e·s de ce genre de problématiques, nous avons souvent tendance à sombrer dans une paranoïa concernant nos vie privée, et à considérer nos données avec l'œil d'une mère poule sur ses œufs.

Il ne faudrait pas oublier que ces données représentent une richesse, et qu'utilisées à bon escient, le résultat peut être bénéfique.

Voici quelques exemples.

Lorsque j'achète un appareil sur Amazon, le site m'informe que la plupart des autres internautes achètent également les piles qui vont avec, ce qui m'évite un aller-retour au supermarché.

Des moteurs de recommandation sur Youtube, Spotify ou Netflix me permettent de découvrir de nouveaux films, clips ou artistes et d'enrichir ainsi ma culture musicale et cinématographique.

Lorsque je recherche « suicide » sur Google, je suis redirigé vers le numéro de téléphone de S.O.S Amitié.

Ces exemples me semblent positifs. Les données sont exploitées de manière directe et explicite. Dans la plupart des cas, cette exploitation vise à augmenter le chiffre d'affaire du site, mais en me fournissant un service supplémentaire.

L'exploitation plus globale de nos données peut également avoir un impact positif. Mentionnons Google Flu, qui permet de suivre les épidémies de grippe et incidemment d'aider à les prévenir / contenir.

Et puis, ces données représentent une chance de réaliser des études sociologiques d'une ampleur sans précédent, là ou il y a quelques années l'échantillon représentatif se limitait souvent à quelques dizaines d'étudiants.

Dans son livre Dataclysm, Christian Rudder utilise des données tirées de nombreux services en ligne (OKCupid, Twitter, Google, Facebook etc.) et montre comment une étude pertinente de ces données peut nous amener à mieux nous comprendre nous même (je le recommande, c'est un des livres les plus fascinants que j'ai pu lire ces dernières années).

Le côté obscur de l'iceberg

Mais nos données ne sont pas nécessairement exploitées dans notre meilleur intérêt. Voici quelques exemples qui vont du légèrement dérangeant au carrément flippant.

Pas plus tard que cette semaine, on apprend que de nombreux états sont clients d'Hacking Team, société vendant des technologies de surveillance.

En 2015, la base de données du site AdultFriendFinder est compromise. Des données très personnelles — email, adresse, orientation sexuelle, volonté de tromper son ou sa partenaires — de plusieurs millions de personnes ont été volées. Y compris des utilisateurs qui avaient supprimé leurs comptes.

En 2014, Brendan Eich, nouvellement promu CEO de Mozilla, est contraint de démissionner à cause d'une controverse sur un don à une campagne de lobbying contre le mariage gay. La liste des donateurs était simplement accessible publiquement sur le Web.

En 2014, Google dénonce à la justice un utilisateur de GMail qui utilisait le service pour échanger des images pédophiles, prouvant ainsi que des logiciels scannent en permanence le contenu des utilisateurs à la recherche de contenus illégaux.

En 2013, Mozilla publie Lightbeam, une extension Firefox qui permet de visualiser tous les sites tiers recevant des informations via des trackers sur les sites que nous visitons.

En 2012, une équipe de recherche montre qu'il est possible de déterminer avec une confondante précision un certain nombre d'attributs personnels (dont le QI) uniquement à partir de la liste des « Like » d'un utilisateur de Facebook.

En 2012, la publication de l'appli « Girls around me » défraye la chronique. Il s'agit d'une application mixant données issues de Facebook et Foursquare permettant de localiser des femmes géographiquement proches et de consulter leurs photos, données personnelles, etc.

En 2011, publication du livre The Filter Bubble de Eli Pariser. De nombreux sites et moteurs de recherche adaptent leurs résultats à chaque utilisateur, avec pour résultat de les « emprisonner » dans une bulle idéologique.

En 2011, une compagnie spécialisée dans le data-mining montre qu'en recoupant plusieurs sources de données, elle est capable d'extrapoler des informations sur les habitudes alimentaires sur les employés de Google et Microsoft (ce qui est quelque peu ironique puisque pour une fois, Google passe du côté des espionnés).

En 2010, Michael Learmonth publie un article "The Pants That Stalked Me on the Web" ou « Le pantalon qui m'a harcelé sur le Web ». Cet article illustre le principe du remarketing : qui consiste à vous abreuver de pubs pour vous pousser à retourner sur un site terminer une action interrompue, e.g passer une commande.

En 2008, votre serviteur donne un cours sur le logiciel libre à l'IUT de Béziers. Dans le fond de la salle, des rires : les étudiants s'échangent des photos de lui trouvées sur le Web prises au cours d'une soirée récente ou il a été surpris en état d'ébriété avéré et portant une chemise à fleurs de mauvais goût.

Ce ne sont que quelques exemples concrets destinés à illustrer les mille et une façons dont nos données peuvent être exploitées. Quelques points sont à noter.

D'abord, nous laissons sur le Web beaucoup plus d'information que ce qu'on pourrait naïvement penser. Ensuite, il existe énormément d'acteurs qui ont un intérêt personnel, politique ou économique à exploiter ces données. Et ce ne sont pas nécessairement des entités abstraites qui traitent les données de manière anonyme. Enfin, cette exploitation se fait la plupart du temps à notre insu et en dehors de tout contrôle légal.

Quelles données laissons nous trainer ?

« Oui mais moi, je n'ai pas de compte Facebook, alors je ne laisse pas d'informations privées ». Oh, vraiment ?

Jetons donc un coup d'œil aux données que nous laissons tous en surfant sur le Web.

D'abord, il y a les données que vous soumettez directement et consciemment, dans le cadre de l'utilisation d'applications ou de services sur « le cloud » (Facebook, Google+, Linkedin, Dropbox, Google drive, Gmail, Twitter, etc.) :

vos infos d'identification (nom, prénom, email, date de naissance, etc.) ;
le nom de votre employeur actuel, votre cv complet ;
vos documents privés ;
votre agenda ;
vos contacts ;
le contenu de vos emails et conversations privées ;
vos habitudes d'achat ;
vos commentaires (Disqus, Twitter, etc.) ;
toutes les infos liées à des applications spécifiques ou des objets connectés : infos de santé, rythme cardiaque, poids, date de vos prochaines règles, etc.

Je suis certain d'en oublier un paquet, mais c'est déjà pas mal.

Ensuite, il y a les infos que vous soumettez directement, sans forcément en avoir conscience, ou sans avoir conscience que ce sont des données exploitables.

la liste des produits que vous avez consulté ;
l'historique de vos déplacements géographiques (localisation de l'adresse IP, Foursquare, gps du smartphone, etc. ;
vos recherches et centres d'intérêt ;
le graphe de votre réseau social (Facebook) ;
les mots de passe de vos réseaux wifi (téléphone Android, iPhone) ;
la signature de votre visage (Facebook) ;
la marque et le numéro de série de votre appareil photo (Flickr, 500px) ;
le lieu de vos dernières vacances (Flickr, Twitter) ;
le lieu de vos prochaines vacances ;
la configuration de votre machine, le navigateur que vous utilisez, etc.

Ensuite viennent les données que publient d'autres personnes sans votre consentement.

vos « amis » qui publient des photos de vous en chemise à fleur sur Facebook ;
quand vous échangez des mails avec un utilisateur de Gmail ;
historique de votre navigation via les trackers publicitaires, boutons de partage, etc. utilisés par des sites tiers.

Ensuite, il y a les données qu'on peut déduire, soit grâce aux méta-données, soit en recoupant plusieurs jeux de données. Et là, ça peut aller très, très loin.

votre personnalité et votre profil psychologique ;
votre orientation politique ;
votre orientation sexuelle ;
votre statut marital ;
l'état de santé de votre couple ;
la couleur de votre peau ;
votre QI ;
si vous consommez de la drogue ;
si vous aimez votre travail ;
etc.

Et puis évidemment, il y a les données qu'on peut obtenir par d'autres moyens, e.g le vol ou l'espionnage (et on sait maintenant que les plus paranos étaient encore loin de la réalité).

enregistrements des méta-données de vos appels téléphoniques par la NSA ;
localisation géographique de vos réseaux wifis via la Google car ;

On voit bien que le vrai danger ne réside pas tant dans la quantité de données que nous générons plus ou moins consciemment, mais dans la quantité d'informations que l'on peut déduire en recoupant plusieurs sources de données entre elles.

Qui exploite nos données ?

Les quelques exemples donnés plus haut illustrent assez bien de quelles manières sont exploitées nos données.

Il y a d'abord l'exploitation ponctuelle et marginale. On peut imaginer des prédateurs sexuels qui utilisent des données publiques pour draguer plus « efficacement », ou des employeurs qui réalisent des enquêtes illégales sur les futures candidats. C'est pernicieux et difficile à combattre.

Ensuite vient l'exploitation politique, moins visible, moins présente au quotidien, mais franchement plus grave et plus flippante à mon avis.

L'exploitation la plus visible, la plus présente dans nos vie de tous les jours est marketing. Vendre de la publicité est le modèle économique dominant sur le Web où la gratuité est quasiment de mise. Et plus on en sait sur vous, plus ou va vous soumettre à des stimulus publicitaires pertinents pour maximiser les taux de clics.

Remarketing et Behavioral Tracking

À l'internaute qui effectue une recherche sur Google, on affiche des pubs que l'on espère pertinente. Mais si la recherche en question est « java », comment peut-on savoir si l'utilisateur est intéressé par la danse ou par un voyage sur l'île ? Se baser sur la simple requête n'est pas suffisant, loin de là.

Pour augmenter la pertinence de leurs annonces, les grandes régies publicitaires utilisent des techniques regroupées sous le terme de « behavioral tracking », ou « analyse comportementale ».

Le principe est simple : on va dresser de vous un profil le plus complet possible à partir de toutes les données que l'on va pouvoir collecter : votre historique de navigation, les liens que vous cliquez, le temps passé sur chaque page, etc.

Avez-vous passé le week-end à regarder des vidéos de danseurs ou à consulter des blogs de voyages ? Grâce à cette information, on saura s'il vaut mieux vous proposer des annonces pour des écoles de danse ou des agences de tourisme.

Oui, mais attendez, une minute ! Comment Google peut-il connaître mon historique de navigation ? Et bien, parce que le Web est un monde de mouchards !

Le Web de Vichy

Pour comprendre comment le fait de naviguer sur un site communique de l'information à des tierces parties, rentrons un peu dans la technique.

Lorsque vous vous connectez sur une page Web, votre navigateur (Firefox, Chrome, IE, Safari, Opera, etc.) envoie une requête au serveur à l'adresse correspondante.

À titre d'exemple, voici le texte que mon navigateur envoie quand je clique sur un lien vers Miximum.fr depuis Positon.org :

Host: www.miximum.fr
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
DNT: 1
Connection: keep-alive
If-Modified-Since: Mon, 29 Jun 2015 13:21:29 GMT
Cache-Control: max-age=0
Referer: http://positon.org/

Dans ce gros pâté de texte, notez la ligne qui commence par « Referer » : ce champ indique au serveur sur quelle page je me trouvais juste avant.

À cette requête, le serveur renvoie un autre gros pâté de texte (le document HTML) qui correspond au contenu de ma page.

Mais une page Web est constituée de nombreux autres éléments :

les images ;
les styles css ;
les scripts javascript ;
les polices (fonts) ;
etc.

Ainsi, pour chaque ressource mentionnée dans le document html, le navigateur va effectuer une nouvelle requête vers le serveur correspondant. Certaines ressources sont hébergées sur le même serveur que le document html d'origine, mais d'autres peuvent être hébergées ailleurs. Voici par exemple la requête envoyée pour télécharger l'image d'entête de l'article :

User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0
Referer: https://www.miximum.fr/
If-Modified-Since: Mon, 29 Jun 2015 09:51:24 GMT
Host: www.miximum.fr
DNT: 1
Cookie: csrftoken=Zox90Vlp4W3bzvaLDjpM3vzis539aiSk
Connection: keep-alive
Cache-Control: max-age=0
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate
Accept: image/png,image/*;q=0.8,*/*;q=0.5

Ce pâté de texte est bel et bien envoyé au serveur hébergeant le site miximum.fr qui est le site sur lequel j'héberge mes photos. Notez que cette requête contient :

toutes les informations permettant d'identifier mon navigateur ;
le champ Referer, c'est à dire l'information de la provenance de la requête ;
le champ Cookie.

Ce dernier est intéressant. Il montre que la situation suivante devient possible :

vous vous connectez sur miximum.fr pour admirer mes photos de vacances ;
le site dépose un cookie sur votre navigateur pour vous identifier de manière unique ;
vous naviguez ensuite sur un autre de vos sites préférés, e.g naziporn.com ;
or, par le plus grand des hasards, l'image sur la page d'accueil du site est hébergée sur Tripodocus ;
votre navigateur envoie la requête sur mon serveur avec le referer et le cookie d'identification ;
bim ! je sais que vous aimez le porno nazi !
libre à moi d'utiliser cette information comme je le souhaite.

C'est un exemple tiré par les cheveux parce que d'abord, Tripodocus n'est pas une régie publicitaire ayant vocation à espionner ses usagers, ensuite il y a peu de chances que mes photos se retrouvent sur un grand nombre de sites, à fortiori des sites aussi douteux.

En revanche, si vous vous appelez Google, et que votre solution d'analytics est hébergée sur un site sur deux, vous devenez effectivement capable de suivre à la trace la majorité des usagers du Web. Le cauchemar de George Orwell devenu réalité.

Pris dans la toile

L'utilisation de Lightbeam permet de constater à quel point ce problème a pris des proportions inquiétantes. J'ai fait une petite expérience : j'ai commencé par désactiver mes applications de blocages de mouchards. Ensuite, j'ai remis à zéro les informations de Ligthbeam. Enfin, j'ai navigué tranquillou pendant deux ou trois minutes. Voici le résultat de l'expérience :

Les cercles correspondent aux sites que j'ai directement visité (Le Monde, Le Figaro, Ted.com, etc.). Les triangles correspondent aux sites tiers qui ont été informés de ma navigation.

Lightbeam m'indique que j'ai visité 12 sites, mais ce ne sont pas moins de 176 sites avec qui j'ai été connecté !

Allez, juste pour rigoler, voici la liste des sites qui ont été informés de mes visites sur LeMonde.fr :

viamichelin.com
visualrevenue.com
smartadserver.com
kameleoon.com
google-analytics.com
outbrain.com
po.st
netmng.com
sascdn.com
xiti.com
adnxs.com
doubleclick.net
facebook.net
alephd.com
facebook.com
mediaplex.com
eulerian.net
mmtro.com
nuggad.net
chartbeat.com
scorecardresearch.com
cedexis.com
yandex.ru
dailymotion.com
tradelab.fr
adsafeprotected.com
iasds01.com
adserver.pm
orangepublicite.fr
theadex.com
2mdn.net
googlesyndication.com
piximedia.com
yahoo.com
rubiconproject.com
bing.com
openx.net
mookie1.com
exelator.com
mythings.com
mathtag.com
spotxchange.com
quantserve.com
pubmatic.com
stickyadstv.com
turn.com
criteo.com
liverail.com
rfihub.com
jumptap.com
advertising.com
load.s3.amazonaws.com
adleadevent.com
ezakus.net
chartbeat.net
cedexis-radar.net
kxcdn.com
swiftserve.com
cedexis-test.com
msedge.net

Si ça vous fait bondir, c'est normal. Disons que j'ai réactivé mes extensions de protection dare-dare.

Oui mais moi, je surfe en mode privé

Les navigateurs récents fournissent une fonctionnalité intitulée « navigation privée ». La navigation privée consiste à fournir une session de navigation temporaire dans laquelle tous les cookies sont désactivés et pendant laquelle l'historique de navigation n'est pas enregistré.

Cette fonctionnalité peut vous donner l'impression de surfer de manière anonyme : il n'en est rien. En effet, les cookies ne sont qu'un des multiples moyens permettant de vous identifier sur le Web. Même en mode privé, les sites que vous visitez sont capables de vous rattacher à votre profil grâce à la technique dite du fingerprinting.

Cette technique consiste à recenser l'ensemble des informations disponibles à partir de votre navigateur. Il s'avère que ces options sont tellement nombreuses que chaque navigateur dispose d'une combinaison très souvent unique, un peu comme une empreinte digitale.

Vous pouvez faire le test pour voir à quel point votre navigateur est identifiable grâce à cette technique. Pour vous marrer, faites aussi le test en mode privé, et vous verrez qu'il n'y aura pas une grande différence.

Le mode privé vous aidera certes à… ahem… acheter un cadeau surprise… ahem… sans que votre conjoint·e ne découvre le pot aux roses. Mais ne laissez pas cette fausse impression d'anonymat vous tromper : les régies du Web continuent de vous tracker sans aucun problème.

Comment se protéger

Il y aurait beaucoup de choses à dire là dessus. Mais comme ce n'est pas le sujet initial de la conférence, je laisse ça de côté pour l'instant. On y reviendra si vous êtes sages.

Salut les collabos

En tant que développeuses et développeurs Web, nous collaborons pour la plupart à la fragilisation de la vie privée de nos utilisateurs (moi le premier). Nous le faisons la plupart du temps sans malice, plutôt par ignorance, insouciance ou paresse.

Voici comment êtres de bon·ne·s citoyen·e·s du Web et apporter à la vie privée de nos utilisateurs l'attention qu'elle mérite.

Note sur la paille et la poutre. J'ai entrepris de nettoyer mes propres sites des différents mouchards qui les infestent, mais c'est encore un travail en cours au moment de la publication du billet.

Forcer https

Sur le Web, tout passe en clair. La moindre des choses que vous puissiez faire, c'est d'offrir à vos internautes un minimum d'intimité en activant la possibilité de se connecter en https.

Virer les scripts de mesure d'audience

Que celui qui n'a jamais installé Google Analytics sur son site perso me jette la première pierre. L'utilisation de scripts de mesure d'audience est l'un des pires moyens de moucharder, parce que le script en question récupère bien plus d'informations (adresse ip, résolution de l'écran, etc.) qu'avec une simple requête http.

Dans certains cas, l'utilisation de ce genre de scripts réponds à un besoin précis et clairement identifié : analyse du tunnel d'achat, mesures de conversions, A/B testing, etc. Mais il faut être honnête, la plupart du temps, nous installons ce type d'outils pour nous complaire dans la contemplation narcissique de notre nombre de pages vues.

Plusieurs solutions pour virer ce vilain Google Analytics ou ses concurrents :

Le virer purement et simplement. À la question « avez-vous vraiment besoin d'un script de mesure d'audience », la réponse est le plus souvent « non ». Qu'est-ce que j'ai besoin de savoir si j'ai 50 ou 50000 visiteurs par jour sur Miximum ? Dans ce cas là, un script de mesure d'audience est parfaitement inutile et peut être supprimé.
Analyser les logs côté serveur. Si vous avez besoin de connaître votre audience, il existe des outils qui utilisent les logs de votre serveur Web pour générer des rapports, comme le combo Logstash + Kibana.
Utiliser une alternative auto-hébergée. Il existe des outils de mesure d'audience open-source et auto-hébergés, comme Piwik. Ils demandent un peu plus de travail à mettre en place et à maintenir, mais vous aurez la satisfaction de ne plus moucharder vos utilisateurs.

Virer les boutons de partage

« Vous aimez cet article ? Cliquez pour le publier sur Facebook / Twitter / Google+ / JenPasseEtDesMeillers. »

La plupart (tous ?) les réseaux sociaux proposent des boutons de partage qui permettent de « liker » / « twitter » le contenu directement depuis votre site.

Ces boutons à l'allure innocente sont devenus incroyablement populaires grâce à leur promesse marketing : permettre à vos internautes de diffuser votre contenu au plus grand nombre beaucoup plus facilement.

Mais la médaille a son revers. Le problème de ces boutons est qu'il sont souvent inclus sous forme de script appelé directement sur le serveur du site en question. Cela signifie que :

vous ralentissez le chargement de vos pages ;
une erreur dans le javascript sur lequel vous n'avez pas la main peut faire planter votre site ;
vous mouchardez vos utilisateurs.

Pour pallier à ce problème, deux solutions.

La plus simple, c'est de supprimer ces boutons purement et simplement. Leur efficacité est toute relative, ils alourdissent la charte graphique et ralentissent le chargement de vos pages. Bon débarras.

L'autre solution, c'est d'inclure des boutons sous forme de simple liens. Par exemple, vous pouvez partager cet article sur twitter simplement en cliquant sur ce lien. La même chose pour Facebook.

Les CDNs

Les CDNs (Content Delivery Network) sont des hébergeurs spécialisés dans… l'hébergement… de ressources statiques. Plutôt que de servir vous même vos images, scripts, css, etc. vous pouvez passer par un cdn pour accéler le chargement de vos pages… au prix d'une nouvelle brèche dans la vie privée de vos utilisateurs.

Pour les sites avec de très gros trafics et une vraie problématique de performance, ça peut se justifier. Mais la plupart du temps, c'est simplement la paresse qui fait qu'on préfère copier / coller une ligne dans son code html plutôt que de prendre le temps de télécharger la ressource, configurer la gestion des assets, configurer son serveur web, etc.

Devinez qui offre gracieusement sa bande passante aux principales librairies Javascript ?

<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.3/jquery.min.js"></script>

Aujourd'hui, il est relativement simple de configurer un Nginx pour servir des fichiers statiques efficacement. Vous n'avez donc pas d'excuses si vous laissez traîner des trucs comme la ligne ci-dessus dans votre code.

Les Maps

Besoin d'une carte interactive ? Deux-trois lignes de Javascript et hop ! Google Maps. Avec les effets qu'on connait maintenant.

Pourquoi ne pas utiliser les alternatives libres et communautaires, comme OpenStreetMap ? Voici un poil plus d'infos sur ce qu'il faut mettre en place pour héberger ses propres cartes.

Les fonts

Le service Fonts de Google permet de très facilement embarquer des polices sympa sur votre site.

Pourtant, alors que les fonts en question pourraient très bien être hébergées sur votre propre serveur, cette fonctionnalité n'est tout simplement pas proposée par Google (tu m'étonnes), faisant des polices un mouchard particulièrement pernicieux.

À ceux qui me disent que vraiment, je sombre dans la paranoïa, laissez moi citer les ToS :

By using our APIs, you agree that Google can use submitted information in accordance with our privacy policies, such as http://www.google.com/privacypolicy.html.

La première solution, c'est de récupérer et de servir vous même les fonts depuis les serveurs de Google, mais j'aime mieux vous prévenir, ça n'est pas une partie de plaisir.

L'autre solution est d'utiliser des services alternatifs, comme FontSquirrel.com, qui permettent de télécharger des polices utilisables commercialement.

Réinternaliser les fonctionalités

La tendance est à l'externalisation de services à des tiers. Vous n'avez pas envie de vous embêter avec votre gestion des commentaires ? Installez Disqus et on n'en parle plus.

Sauf que rappelez-vous, si vous n'êtes pas le client, vous êtes le produit. En l'occurrence, vos utilisateurs le sont.

Chaque fois que vous déportez une des fonctionnalités de votre application / site vers un prestataire tiers, vous faites fuiter de l'information. Certes, vous gagnez du temps et de l'énergie, mais vous manquez de respect à vos internautes. Le jeu en vaut-il la chandelle ?

Attention au stockage de mot de passe

Imaginez votre pire cauchemar : la sécurité de votre système d'information est compromise, et votre base de données se retrouve dans la nature. Cela signifie que les données de vos utilisateurs risquent d'être exploitées à des fins malveillantes.

Un des éléments critiques de ces données, c'est le mot de passe.

L'utilisateur, on le sait, est prompt à réutiliser le même mot de passe d'un site à l'autre. Si vous n'avez pas pris la précaution de stocker les passwords de vos utilisateurs avec une sécurité suffisante, vous venez d'ouvrir aux attaquants un grand nombre de portes. Vous voulez être la personne chargée de contacter toute votre base d'utilisateurs pour leur recommander de changer tous leurs mots de passe ?

On peut difficilement en vouloir aux utilisateurs de ne pas être éduqués en matière de cyber-sécurité. En revanche, c'est à vous de savoir stocker des mots de passe correctement.

Anonymiser les données

Si vous hébergez des données sensibles, e.g vous êtes un site de rencontre, vous devriez prendre soin de séparer les données en question des informations d'identification.

Les noms, prénoms, adresses, emails et préférences sexuelles de vos utilisateurs sont stockées dans la même base ? Imaginez si cette base est compromise ! Vous méritez un sérieux coup de règle sur les doigts.

En tout honnêteté, il s'agit d'une problématique technique difficile. Mais vous devriez au moins faire votre possible pour complexifier la tâche d'éventuels attaquants.

Le cas de la publicité

Abordons maintenant le cas de la publicité. Sujet sulfureux s'il en est !

Lors de l'édition 2015 de Sud Web, Renaud Forestié nous avait expliqué pourquoi les sites de journaux en ligne se ressemblent tous. La faute à la charte de publicité imposée par les régies pour ne pas avoir à décliner les pubs dans des millions de formats différents. Le fait est que la publicité est le modèle économique dominant de la presse en ligne.

Passons outre le fait que cette charte impose des règles de design obsolètes et uniformisantes ; ignorons également le fait que la plupart du temps, les éditeurs de contenu n'ont qu'un contrôle extrêmement limité sur ce qu'affichent les régies publicitaires ; mettons également de côté le fait que la navigation sur un site bourré de pub soit simplement lente, bugguée, affreuse, insupportable. Les sites qui vivent de la publicité sont des catastrophes en ce qui concerne la protection de la vie privée.

Si vous n'en êtes pas encore convaincu·e, installez Lightbeam et surfez sur tous les sites de journaux en ligne. C'est à pleurer.

Lors d'un atelier qui a eu lieu le lendemain, la question a été abordée : « comment rendre les pubs moins intrusives, moins pénibles, plus respectueuses ?

La réponse est simple : on ne peut pas. Par définition, il n'existe aucun moyen de rendre la publicité non-intrusive. Vous ne pouvez pas inclure des scripts, des mouchards, des iframe sur lesquelles vous n'avez aucun contrôle sur votre site sans remettre en question la vie privée de vos internautes. Il n'existe pas d'alternative qui vous permettrait à la fois de vivre de la pub et à la fois d'être un·e bon·ne citoyen·e du Web.

Peut-on imaginer des journaux en ligne sans pub ? Peut-être. Je sais que c'est un problème difficile. Je sais que les journaux aimeraient trouver de nouveaux modèles économiques. Je sais que les journalistes préféreraient faire de la recherche de terrain plutôt que d'être de simples pigistes sans rien de mieux à faire que reformuler les dépêches de l'AFP. Je sais que les designers préféreraient innover et fournir des sites utiles et ergonomiques plutôt que des trucs préformatés. Je sais qu'il faut bien vivre, ma brave dame.

Tout le monde est d'accord pour dire que la pub est une belle saloperie. C'est malheureusement un modèle imposé par notre organisation économique, politique et sociale. Le remettre en cause nécessite donc d'innover dans ces domaines, par exemple avec le revenu de base ?