[Qwant] Faut-il (encore) se voiler la face ?

Tags: Analyse Vie privée Informatique


Bonjour à tous,

Il y a 2 ans et demi, je vous partageais que j'avais essayé Qwant et ma conclusion était en partie la suivante:

Qwant n’est pas si mauvais, ses intentions sont bonnes (mais qu’en est-il de la réalité, ce n’est pas parce qu’ils disent qu’ils ne font rien de nos données que c’est la réalité) mais une multitude de détails font que je suis repassé sur Google.

Depuis, j'ai également essayé Searx, un projet qui m'avait vraiment intéressé mais qui à l'heure actuelle ne retourne plus vraiment des résultats pertinents. Je rejoins totalement l'avis de Framasoft qui considère que Searx ne fonctionne quasiment plus. Au final, j'avais configuré Searx comme moteur de recherche par défaut mais à la fin, j'allais systématiquement sur Google. J'ai donc arrêté (la veille de l'annonce de Framasoft pour la blague) d'utiliser Searx pour passer à nouveau sur Google dont la pertinence est toujours au rendez-vous. Bref, là n'est pas la question aujourd'hui, revenons au sujet !

Les ambitions de Qwant

Les services offerts par Qwant

Logo de Qwant
Logo de Qwant

À sa création en 2013, Qwant avait pour ambition de s'installer comme une alternative européenne à Google. Depuis, les recherches sont disponibles dans 28 langues différentes, et même depuis une application sous iOS et Android. L'ambition est également du côté de la vie privée: Qwant se veut plus respectueux (que Google), en promettant de n'enregistrer aucune donnée personnelle sur le dos de ses utilisateurs. Comme Google, Qwant se finance grâce à la publicité mais une publicité non ciblée contrairement à Google.

Eric Léandri, fondateur de Qwant, relevait même:

[…] nos utilisateurs comprennent parfaitement la différence. Ils savent désormais que les données personnelles, cela permet de vous faire payer plus cher le prix d’une nuit d’hôtel ou de tenter de vous influencer au moment d’une élection …

Mais c'est en effet grâce à la publicité que Qwant peut nous offrir ses services, et non nous les vendre.

Dans le même temps, il affirmait que l'amende prononcée par la CNIL (Commission Nationale de l'Informatique et des Libertés) contre Google à propos des données personnelles des utilisateurs “donne raison à tous ceux qui, comme Qwant, prennent le contre-pied des géants de l'Internet que sont les GAFA en misant sur le développement de services éthiques, qui ne font pas la course aux données personnelles."

Les ambitions de Qwant ne s'arrêtent pas là, ils ont aussi créé un moteur de recherche dédié aux jeunes (Qwant Junior) pour filtrer les contenus violents ou pornographiques mais aussi un moteur (Qwant music) dédié à la musique, un moteur (Qwant Causes) où l'on retrouve plus de publicité mais leurs revenus servent à financer des associations.

Les moteurs de recherche ne sont pas leurs seuls objectifs, ils veulent aussi être un pionnier de l'intelligence artificielle (terme qui m'irrite au plus au point, j'en ferai un jour un article). Ils vantent le fait qu'il soit possible de développer et nourrir leurs algorithmes d'intelligence artificielle sans pour autant utiliser les données personnelles de leurs utilisateurs.

Qwant soutient également la SACEM (Société Auteurs Compositeurs et Éditeurs de Musique). Qwant veut également son service de cartes (déjà disponible en version Beta). Qwant dispose d'une version Lite sans Javascript ni CSS3 (un aveu montrant que la version classique est une usine à gaz ?). Qwant veut son moteur de recherches d'images. Qwant veut mettre en place un système de stockage des données personnelles (Masq by Qwant). Qwant veut faire du mail. Qwant veut son Qwant Pay. Qwant veut son Qwant Home à la Google Home. Qwant veut son Qwant News à la Google News (en se vantant de vouloir rémunérer les médias).

Une entreprise ambitieuse

Bref, je voulais faire un paragraphe propre et clair sur les ambitions de Qwant, mais au final le paragraphe ressemble à l'offre de Qwant, c'est brouillon et ça part dans tous les sens. Mais on peut résumer leurs ambitions en disant que tout ce que Google fait, Qwant veut le faire également.

Plus sérieusement, une entreprise française pleine d'ambition à une échelle nationale voire européenne, c'est quelque-chose qui fait plaisir à voir. En revanche, comme on va le voir dans la suite de cet article, tout n'est pas si rose et tout ne fonctionne pas si bien.

Qwant, le proxy de Microsoft ?

Je vais commencer cette partie en citant un passage pertinent sur le lien entre Qwant et Microsoft sur un article de Developpez.com:

le moteur de recherche Bing créé par Microsoft permet à n’importe qui de créer un « métamoteur », c’est-à-dire un moteur de recherche qui s’appuie sur sa technologie moyennant un coût d’utilisation à chaque requête. C’est ainsi que fonctionne DuckDuckGo, un autre métamoteur qui rajoute comme Qwant une surcouche logicielle pour protéger la vie privée des internautes …

Maintenant, je vais citer le président de Qwant, à savoir Eric Léandri:

Trahir ma promesse n’aurait aucun intérêt! Microsoft n’est pas Google, et nous restons un acteur souverain.

Aie, Microsoft n'est pas Google, mais sur les points où Google est critiqué (le respect de la vie privée), Microsoft peut recevoir les mêmes critiques. Il suffit d'installer Windows pour s'en apercevoir, combien de cases sont cochées par défaut pour activer la télémétrie ?

D'ailleurs, un petit point que j'ai noté dans mes recherches, c'est que quand Eric Léandri parle des GAFAM, il ne rajoute jamais le M mais parle toujours seulement de GAFA. Pourquoi ? Parce que Qwant a besoin de Microsoft. Nous allons voir, dans cette section, différents points sur lesquels Qwant repose sur Microsoft.

Les recherches

Pour un moteur de recherche, la partie recherche est effectivement le nerf de la guerre. Au démarrage (et encore à l'heure actuelle dans une moindre mesure), Qwant complétait son travail d'indexation avec celui de Microsoft. De plus, la recherche d'image a toujours reposé sur Bing, le moteur de recherche de Microsoft.

Pour ceux qui ne me croient pas sur le fait que Qwant utilise les résultats de Microsoft, je vous renvoie vers leur propre page d'aide: Comment Qwant indexe le web ? Je cite:

Nous poursuivons nos efforts pour indexer toute la diversité du web. Nos crawlers visitent sans relâche le web du monde entier pour affiner la qualité de nos résultats. Cependant, cela demande à la fois des ressources et du temps ; certaines parties du Web ne sont pas encore parfaitement indexées. Dans l’attente, notre partenariat avec Microsoft Bing nous permet de compléter nos résultats avec ceux de Microsoft Bing pour offrir les meilleurs résultats provenant du Web tout entier.

Si l'on compare les résultats de Qwant, Bing et Google pour la même recherche, on voit très clairement l'inspiration de Bing dans les résultats de Qwant, là où les résultats de Google sont sensiblement différents.

Recherche de dromadaire sur Qwant
Recherche de dromadaire sur Qwant
Recherche de dromadaire sur Bing
Recherche de dromadaire sur Bing
Recherche de dromadaire sur Google
Recherche de dromadaire sur Google

Je précise que les recherches ont été effectuées dans un environnement identique, sur une nouvelle machine et sans bloqueur de publicité.

Si on rentre plus dans le détail, l'appel de Qwant vers Microsoft se fait encore à l'heure actuelle pour la partie d'indexation très gourmande en ressources. Je laisse Tristan Nitot, le nouveau directeur général de Qwant, en parler sur son compte Twitter.

En 2013 déjà, mais les faits sont toujours là, Guillaume Champeau (journaliste chez Numerama à l'époque), disait:

Qwant n'est pas un moteur de recherche, mais une interface.

Fin 2019, c'est donc toujours en partie le cas.

La publicité (et donc une partie de leurs revenus)

Pour une entreprise telle que Qwant, la publicité représente une part non négligeable de revenus. Je vous renvoie également sur la page d'aide de Qwant: Comment Qwant gagne-t-il de l'argent ?:

Qwant ne vous traque pas et cela ne changera jamais ! … Nous pensons que certaines publicités peuvent être intéressantes pour vous, lorsqu’elles sont directement en rapport avec ce que vous cherchez. … Nous croyons maintenant avoir conçu une offre simple et efficace en travaillant avec le système de publicité de Microsoft Bing.

Et dans une interview, Qwant admet que Microsoft a bien accès aux données personnelles:

Il n’y a pas la moindre donnée personnelle sur les serveurs de Microsoft. Bien évidemment, ce n’est pas le cas si vous cliquez sur les publicités de Microsoft, mais cela ne dépend pas de nous.

On a de la chance car Qwant se permet de penser pour nous … De penser que des publicités peuvent nous intéresser. Je ne vais pas m'étaler sur le sujet, mais si je paraphrase, ils trouvent ça cool de nous laver le cerveau dans cette société de (sur)consommation.

Toujours sans bloqueur de publicité, je vous laisse regarder la quantité de publicité pour une simple recherche sur Qwant. On se croirait sur le site de L'Equipe comme dans cet article datant de fin 2016.

Le lavage de cerveau .. selon Qwant
Le lavage de cerveau .. selon Qwant

Les serveurs

Qui dit beaucoup d'utilisateurs, dit beaucoup de charge et beaucoup de serveurs pour pouvoir répondre rapidement à tout le monde. Dans un article des Echos, on retrouve:

la start-up française compte se reposer sur les technologies d'informatique en ligne de Microsoft pour absorber sa croissance

Toujours dans cet article, Eric Léandri affirme:

la solution pour passer à l'échelle est de confier le travail d'indexation à Microsoft qui connaît déjà ce métier avec son service Bing

Mais d'un autre côté, il affirme:

Nous continuerons d'indexer avec nos serveurs les pages web les plus sensibles, celles issues des sites internes de nos clients professionnels

Personnellement, j'ai un peu du mal à comprendre. Ils utilisent les serveurs de Microsoft (Azure) pour avoir une puissance de calcul importante mais en même temps, les sujets sensibles seront traités en interne. Ça veut dire quoi ? À quel moment et comment un sujet est considéré comme sensible ?

Ma question est la suivante: pourquoi se tourner à tout prix vers les États-Unis pour obtenir de la puissance de calcul ? Quand on parle d'OVH à Eric Léandri, sa réponse est toujours la suivante:

OVH n'a pas la puissance pour un moteur de recherche

J'ai quand même du mal à entendre ce genre d'arguments. OVHcloud (ils ont récemment changé de nom !) est tout de même une entreprise qui vise 1 milliard d'euros de chiffre d'affaires en 2020. Ce ne sont pas les péquenauds du coin qui font tourner 10 serveurs virtualisés sur un Raspberry Pi (sans offense à qui que ce soit, j'en fais moi-même partie :)). Si une entreprise contacte OVHcloud avec un projet sérieux pour lui demander de gérer la partie serveurs d'un moteur de recherche, je vois mal comment ça pourrait ne pas aboutir, ou au moins voir si la solution est envisageable ou non.

D'un autre côté, Qwant se vante d'utiliser ses propres serveurs, mais glisse ce genre de phrases:

Il reste quelques serveurs Huawei dans l’infra, nous n’allons pas les jeter, ils nous ont couté une fortune ! Dans tous les cas, si des données fuitaient des serveurs, on le saurait.

Donc leur sécurité repose sur quoi ? Sur le fait de ne pas faire la une des journaux spécialisés pour une fuite de données ? Je sais que ce n'est pas le cas, mais ce genre de phrase n'est pas sérieux et n'a pas lieu d'être.

En vrac

J'ai nommé cette partie ainsi pour reprendre la série d'articles que l'on peut retrouver sur le site personnel de Tristan Nitot.

Mensonges et confiance

Si l'on fait la simple recherche suivante: whatsmyuseragent. On tombe sur ce résultat:

Bing fait bien son travail
Bing fait bien son travail

On voit quand même qu'ils utilisent Bing pour les résultats, mais également qu'ils se permettent de trafiquer l'adresse IP pour afficher x.x.x.x, c'est triste …

Dans un autre registre, on a aussi le problème d'index. En 2019, les résultats remontés dataient de 2017. Il s'avère que c'était une erreur technique, car le mauvais index avait été mis en production.

Le problème levé par ces 2 points est la confiance. Si notre moteur de recherche se trompe ou nous trompe volontairement, la confiance que l'on peut avoir en lui est forcément amoindrie …

Les réseaux sociaux et Qwant ?

Certes Qwant affirme (et réaffirme sans cesse) respecter la vie privée des utilisateurs et ne pas les pister, mais il y a quand même un point qui n'est pas si rose (de mon point de vue subjectif).

lorsqu’un internaute publie de son plein gré sur un réseau social, l’avis est réutilisé par Qwant pour le vendre à des clients qui ont besoin de ces données

Ils ont donc développé un crawler pour 2 choses:

  • Fournir des résultats aux utilisateurs de son moteur de recherche (jusqu'ici, tout est normal).
  • Fouiller les réseaux sociaux pour revendre les avis des gens aux entreprises qui le désirent.

Ça veut dire quoi ? Si je publie sur Twitter que j'adore la dernière paire d'Adidas, je vais recevoir une réduction sur cette paire de chaussure parce que Qwant a vendu l'information à une entreprise intéressée ?

La CNIL en 2015

Selon Qwant, Microsoft ne serait pas capable de remonter jusqu'à l'utilisateur final afin de dresser son profil. Dans un article du Figaro, au conditionnel, on parle du fait que la CNIL et l’ANSSI (Agence Nationale de la Sécurité et des Systèmes d'Information) “auraient ainsi été consultées pour vérifier la conformité du dispositif, par ailleurs utilisé par un nombre croissant d’administrations. Contactées, les deux agences n’ont pas encore confirmé cette information." Le Figaro est-il dans le vrai ? Nous n'avons pas encore de preuves malheureusement.

Ce que l'on sait, c'est qu'en 2015, lors d'un contrôle, la CNIL avait signalé à Qwant que ses mesures d'anonymisation n'étaient pas suffisantes.

Le respect de la vie privée, vraiment ?

Restons sur ce sujet, puisqu'une enquête du Virus Informatique affirmait que Qwant transmet à Microsoft les adresses IPv4/24 (une IP dont le dernier octet est masqué, ex: 91.121.163.x pour mon serveur actuel) et les user agents de leurs utilisateurs. Par croisement d'information, Microsoft serait en mesure d'identifier 5% des utilisateurs. Assez contraire au respect de la vie privée. Et assez contraire aux affirmations de Tristan Nitot qui affirme que les IP sont hashées et salées.

Qwant se justifie de cette façon:

Qwant ne conserve pas les adresses IP de ses utilisateurs et ne les transmet pas à son partenaire publicitaire. Toutes les adresses IP sont anonymisées en retirant le dernier octet. Le User Agent du navigateur de l'utilisateur est transmis avec la requête, mais dans l'énorme majorité des cas il s'agit du même User Agent pour de très nombreux utilisateurs différents qui utilisent le même type de navigateur. Le User Agent est nécessaire pour afficher sur Qwant des résultats et des publicités cohérentes avec l'équipement de l'utilisateur ; par exemple proposer plutôt des liens vers des applications iOS qu'Android sur Safari. Faute de pouvoir croiser les données avec d'autres, les possibilités de désanonymisation sont quasi nulles même en cas de User Agent très rare.

Donc ils sont satisfaits du fait que les données de la majorité des gens soit anonymisées, les autres n'ont apparemment qu'à suivre la norme … En revanche, on peut souligner le fait que Qwant ne dépose aucuns cookies durant les recherches de leurs utilisateurs, c'est un bon point.

Concurrencer Google ?

Google qui peut investir des milliards dans son moteur de recherche pourrait être concurrencé par une boîte avec 50 millions d'euros en poche ? Ce scoop paraît un peu trop gros, et les chiffres le confirment. En octobre 2019, en France, Google représentait 93,34% des parts de marché des moteurs de recherche contre 3,03% pour Bing et 0,77% pour Qwant. Ces chiffres proviennent de la société Statcounter, et vous pouvez retrouver tous ces chiffres sur cette page.

Les chiffres de statcounter en octobre 2019
Les chiffres de statcounter en octobre 2019

De son côté, Qwant conteste ces chiffres et affirme représenter 4% du marché français. Bien sûr, ils ne disent pas d'où ils sortent ce 4%. Ils arrivent même à sortir cette excuse mot pour mot:

pardonnez-nous de ne pas encore être parfait avec nos quelques millions d’euros

On vous pardonne en effet de ne pas être parfait, mais pas de mentir au quotidien pour défendre votre bout de gras.

La mauvaise foi, un peu, beaucoup, passionnément

En 2013, un blogueur anonyme relatait que “Qwant ne fait que récupérer le résumé (celui de la colonne de droite) de Wikipédia et l’intégrer dans sa page mais sans le préciser”. C'était contraire à la licence de Wikipédia et cette faute a été corrigée. En revanche, à leurs débuts, pour admettre qu'ils dépendaient de Microsoft c'était compliqué …

Après que le Figaro se soit étonné que Qwant utilise massivement les résultats de Bing moyennant finances, Qwant a reconnu à demi-mot que c'était une erreur. Bien sûr, ils n'allaient pas avouer que leur moteur d'indexation n'était pas encore prêt (et ne l'est toujours pas à l'heure actuelle d'ailleurs).

D'ailleurs, quand des personnes prouvent que l'indexation est vraiment à la traîne, Qwant répond par des attaques en justice. Alors certes, le contexte est plus compliqué et on ne peut pas résumer l'affaire comme cela, mais pourquoi ne jamais reconnaître ses torts ?

Le fameux cahier de doléance

En mai dernier, les employés de Qwant étaient invités, anonymement, à remonter leurs observations, leurs craintes et leurs souhaits. Dans une entreprise, c'est une action vraiment courageuse que je salue. Par contre, et elles auraient dû rester au sein de l'entreprise, certaines doléances ont fuité. On peut citer entre autres que 14 employés déplorent “l'absence d'index” ou encore une contribution plus virulente contre Qwant:

Qwant Med, Qwant Art, Qwant Pay, Qwant Sports… c'est bien beau, mais n'oublions pas que nous sommes avant tout un moteur de recherche. Actuellement, la partie search est loin d'être à la hauteur et ne semble pas être la priorité première. (ex: l'absence d'index et le manque d'effort mis sur Qwant.com est simplement inacceptable)

D'autres se plaignent de la direction, à savoir Eric Léandri qui est le seul à pouvoir prendre des décisions, d'autres se plaignent du manque de communication. Sur ce point, certains employés ont d'ailleurs honte que Qwant se permette de mentir à la presse:

On apprend tout dans la presse et on y ment sur les chiffres (nombres d'employés, croissance, dates de sorties annoncées pour maps, mail, masq, etc).

Conclusion

Sur le partenariat entre Qwant et Microsoft, on peut relever de nombreux points négatifs tels que le fait que les Américains (une fois de plus) ont la main mise sur nos données personnelles (bien qu'on nous dise le contraire, ne soyons pas dupes). Mais le plus triste selon moi est que les Européens ne soient pas capables de monter un moteur de recherche sans l'aide des Américains. Si ceux-ci décident (enfin si Trump décide sur un coup de tête) de couper les ponts avec la France (ou l'Europe), eh bien on n'aura plus de moteur de recherche (ah si, les moteurs russes et chinois, mais on aura du mal à comprendre les résultats recherchés).

La communication. Un point sur lequel je donne à Qwant un 0 pointé. Cela dit, ils ne peuvent faire que mieux tant ils partent de loin. Il faudrait déjà que Eric Léandri ne fasse plus d'interview ni communication, il n'est pas fait pour cela.

Pour finir, il faut donc saluer l'initiative de vouloir faire un moteur de recherche en France, Qwant possède tout de même plus de 500 serveurs en région parisienne. Cependant, il y a deux points négatifs à souligner:

  • Qwant est pour l'instant plus une interface qui utilise d'autres moteurs de recherche. Je pense qu'il serait honnête de parler d’agrégateur de recherches (ils agrègent leurs quelques résultats avec ceux de Bing), et ce terme n'est pas péjoratif. A titre de comparaison, Qwant agrège mieux à l'heure actuelle que Searx par exemple.
  • Il est bien dommage, pour une entreprise qui prône le respect de la vie privée, de ne pas avoir (et de ne toujours pas le faire entièrement) avoué sa dépendance à un GAFAM tel que Microsoft pour exposer clairement ce qui transite via leurs serveurs et comment le découpage est réalisé (dire que les données sensibles restent chez Qwant est du pipeau marketing).

Je pense que c'est entre autres pour ces raisons (mais aussi la mauvaise qualité des résultats techniques) que l'image de Qwant est si controversée.

Pour aller plus loin, je vous propose de lire cet article de Next INpact dans lequel on peut voir leur transparence mais également celui-ci dans lequel on retrouve la face plus sombre de Qwant.

Post-Scriptum

C'est la première fois que je me livre à ce genre d'analyse, n'hésitez pas à critiquer (constructivement) cet article pour que je puisse m'améliorer ! Merci :)

Sources

J'ai parfois directement mis le lien des articles que je citais, mais voici toutes les sources que j'ai utilisées lors de la rédaction de cet article. Si toutefois un lien pourrait être mort, je vous invite à me le signaler (vous pouvez en trouver des copies ici).

Commentaires




Ailleurs sur le Web


(2) laydgeur sur Twitter : "Au milieu de cette image, la centrale nucléaire de #Fessenheim. Tout autour, 850 éoliennes. Ça fait beaucoup ? Et pourtant, c’est juste le quart de ce qu’il faudrait pour produire autant d’électricité que la centrale. Explications en #thread ⬇️⬇️ https://t.co/Fu8povk6cg" / Twitter

A ressortir aux "écolos" qui n'ont pas encore compris que le nucléaire est l'une des solutions les plus propres.

via Shaarli le 09 décembre 2019

BMFTV sur Twitter : "Marine Lepen : « Pourquoi ne pas renommer le Black Friday en White Friday ? Nous sommes en France, pas en Afrique. » https://t.co/7CMj6jGgLj" / Twitter

Les commentaires sont tops: Pourquoi ne pas renommer patinoire en patiblanche? Pourquoi ne pas renommer Marine Lepen en Marine Lestylo ? On est pas en Angleterre ici En revanche, "broyer du noir", on garde. On parle de BMF hein, pas BFM ! ^^ — Permalin…

via Shaarli le 01 décembre 2019

Black Fuckday | Grise Bouille

Autant des gens vont beaucoup trop loin, autant les réductions peuvent être intéressantes. Pour des revenus modestes, bien que moralement contestable, le Black Friday permets d'acheter ce qui ne serait pas possible en temps normal.

via Shaarli le 30 novembre 2019

Généré avec openring