Exercice : contourner le paywall des sites de journaux

Quelques astuces pour accéder aux contenus des journaux protégés par un bloqueur.

Ne vous méprenez pas, celles-ci ne concernent que les sites web qui le font exprès (ou alors il faut demander de modifier l’implémentation au développeur).

Faille 1 : afficher le contenu complet aux moteurs de recherche

Les sites de « media » sont en concurrence pour attirer des lecteurs. Et un des moyens d’attraction est d’être recommandé sur Google.

Google classant en premier les sites par pertinence par rapport à la recherche demandée (sauf si on paie pour être dans les liens sponsorisés), les médias doivent faire en sorte que Google indexe leur contenu, et pas seulement le titre ou l’extrait de l’article.

Pour cela, les médias laissent une porte d’entrée à Google, il suffit d’emprunter la même. Souvent ça consiste à remplacer le referrer par « google » (ex: https://www.lecho.be/ ) ou le user-agent par « GoogleBot » (ex: https://www.linforme.com/ )

Faille 2 : afficher le contenu complet pendant un court instant

Pour vous inciter à souscrire, les sites ont parfois recours à un affichage de l’article au complet pendant quelques secondes. Puis, si vous déroulez le contenu ou attendez quelques secondes, le contenu modifié/masqué et seul un extrait reste disponible.

C’est aussi un moyen de laisser le robot des moteurs de recherche voir le contenu complet.

Pour cela, le site web peut utiliser un script. Vous le voyez par l’apparition d’un popup visuel qui masque la visibilité du contenu. Il suffit alors de supprimer l’appel à ce script inline (ex: https://trends.levif.be/ ) ou externe (ex: https://www.alternatives-economiques.fr/ )

A vos claviers

Passer outre ces barrières est un bon exercice de hacking ludique autour de HTTP/HTML/JS. C’est en étudiant l’oeuvre des autres qu’on apprend… ce qui ne marche pas.

Quelles autres implémentations sont possibles pour améliorer la sécurité de ces sites web ? Perso j’ai plusieurs solutions, dont certaines permettent l’indexation par les moteurs de recherche.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.