Les tests de Turing ensemble contre le spam…

Le spam. Le fléau du moment. Le spam touche les e-mails, naturellement, mais depuis quelques temps, également, les blogs. En effet, la posibilité offerte aux visiteurs, de laisser des commentaires, est très souvent détournée de son utilisation principale et fait de plus en plus souvent l’objet de spam publicitaires…

Des robots « intelligents » naviguent, et au gré de leurs découvertes, innondent les blogs de commentaires « publicitaires » au hasard, aveuglément, sans rapport avec les posts concernés, récoltent les adresses électroniques sur les moteurs de recherche et les sites web… Il en résulte : e-mails non désirés, commentaires déplacés, pollution malsaine, … Ce blog a eu, un jour, la visite d’un tel robot qui a laissé une cinquantaine de commentaires sur une quarantaine de posts… chapeau! :-/

La lutte semble inégale et perdue d’avance…

Pour lutter contre ce fléau plusieurs solutions existent… chacune avec leurs avantages et leurs inconvénients. Certaines de ces solutions sont déjà utilisées par certains blogs, forums de discussions et services de messagerie pour limiter les nuisances.

  • Les Blacklists.

Pour être efficaces, leur mise à jour régulière est impérative. C’est réalisable, avec plus ou moins de facilité, il faut en effet s’adapter sans cesse aux spammeurs, connaître leur provenance (adresse IP), ce qui est très difficile tant ils sont nombreux et renouvellent leurs adresses IP d’émission.

  • Les white-lists

Peu efficaces face à un public anonyme, les whitelists sont efficaces en messagerie électronique lorsque les interlocuteurs sont connus à l’avance. Les systèmes de messagerie rejettent alors systématiquement les e-mails provenant d’adresses (adresses e-mails ou adresses IP de provenance) autres que celles autorisées. Très peu adaptable à un environnement public (totalement inapplicable en environnement « blog public »).

  • Les listes de mots clé, associée aux filtres Bayesiens

Là encore, il faut sans cesse s’adapter aux robots, qui rivalisent d’imagination pour écrire des mots avec des caractères semblables aux lettres qu’ils contiennent (exemple : s3x au lieu de sex, vi@gra au lieu de viagra, l00ser au lieu de looser …).

Ces listes ont aussi comme désavantage de bloquer éventuellement des posts ou e-mails légitimes.

Pour limiter ces erreurs, des analyseurs statistiques (filtres bayesiens) prennent alors le relais, décortiquent le mail ou le post, définissent un scoring (exemple : mot-clé sex = 1 point, mot-clé viagra = 2 points) et en déduisent le niveau de probabilité que les données analysées soient ou non du spam. Taux d’erreur assez faible selon les systèmes employés.

  • Le test de Turing

Le test de Turing, est une question posée, à laquelle aujourd’hui, seul un être humain peut répondre… en théorie. Le principe reste simple, on va tout simplement poser une question à l’individu… s’il donne la bonne réponse, nous sommes – à peu près sûrs – d’être face à un être humain et non face à un robot spammeur.

Les questions du test de Turing peuvent revêtir plusieurs aspects :

  • Question mathématique simple (combien font deux fois trois ?)
  • Question culture générale simple (quelle est la capitale de la France ?)
  • Captcha : le captcha est une image comprenant un motif (texte, numéro, figure…), que l’individu ou le robot supposé doit identifier dans un champ prévu à cet effet. Vous en avez certainement déjà vu :

authimage46 Looic . Com (reloaded)

Looic . Com (reloaded)

On trouve également des captchas-images :

cwazymail06 Looic . Com (reloaded)

Principal inconvénient de cette méthode : en plus d’être parfois illisibles par même les êtres humains, elle est inacessible aux déficients visuels. Par ailleurs, une initiative est en cours, pour programmer un outil capable de reconnaître automatique les captchas…

On le voit, il n’y a pas de solution miracle… même les recours légaux sont inefficaces, tant il est difficile de mettre la main sur des spammeurs, parfois disséminés dans des pays peu regardants des lois et usages en vigueur. Le blocage du spam passe par une combinaison raisonnée de ces trois méthodes… les e-mails publicitaires pour le viagra ont encore d’assez beaux jours devant eux :-/

7 comments

  1. jme disé aussi c’était tro facile…

    mmm c’est ce qu’il y a sur les MP de auf ? en fait c pour trier un peu ….

    d’ailleurs parfois sur hotmail ils font ca aussi quand ca bugue ..

  2. purée, on est vraiment sur un site d’ingénieur informaticien :-/

    t’as vu le TCPIP du hardware XB2 ???
    t’as rien compris :-/ moi non plus 😀

Laisser un commentaire