MySearch est un programme qui va récupérer les résultats de recherches sur Google, GoogleImage, Wikipedia, Openstreetmap, ou Yacy et les afficher en enlevant tout ce qui utilisé pour vous tracer : cookies personnels, liens personnalisés, javascript traceur, images traceuses, etc…
Par exemple, voici mon instance perso : http://search.jesuislibre.net
Vous allez me dire, ca ressemble à DuckDuckGo, mais sans les bangs. Mais DuckDuckGo n’a pas la pertinence de Google. MySearch, oui.
Et comment être sûr que DuckDuckGo ou Mysearch ne m’espionnent pas aussi? Avec Mysearch, vous avez accès au code source, et surtout vous pouvez l’installer facilement sur votre machine grâce au paquet Debian (nécessite Debian Jessie).
Une fois installé, vous pouvez y accéder par http://localhost:60061
Il restait un problème, si j’installe Mysearch sur ma machine, alors Google aura connaissance de mon IP et pourra toujours lier mes mots clés à mon IP. C’est là qu’intervient le mode relai entre installations Mysearch !
C’est encore en beta/alpha mais l’idée est que votre recherche soit transmise par l’intermédiaire d’une autre installation Mysearch plutôt qu’en direct. Rassurez-vous, cet intermédiaire ne pourra pas connaître les mots clés que vous cherchez ni connaître ou altérer les résultats car le flux est chiffré par SSL de bout en bout.
Pour activer le mode « relai »:
Modifiez le fichier de config /etc/mysearch/mysearch.conf mettez la valeur relay = true
Pour prendre en compte le changement, relancez le service : #service mysearch restart
Le port 60062 est utilisé pour le relai et doit donc être ouvert.
En activant le mode relai :
– Toutes les requêtes que vous lancerez devront passer par un intermédiaire sinon elles échoueront. Pour l’instant, l’intermédiaire est forcé à search.jesuislibre.net. Si les requetes ne marchent plus vérifier que mon serveur est toujours en ligne ;-) Si le service est utilisé, j’organiserai une pool.
– Vous autorisez automatiquement les autres à pouvoir utiliser votre relai pour leurs requêtes. Vous pouvez vérifier si votre relai est utilisé par d’autres en regardant sur la première page. Normalement vous ne devrez pas voir de connexions étant donné que le pooling n’est pas actif pour l’instant.
Super idée, je le mets en place à l’instant !
http://search.sheldon.fr
Par contre avec le mode « relay » activé,
quelque soit la recherche, je me tappe un « Response never received No matching results »
que soit en local, ou à travers mon reverse proxy !
j’ai loupé quelque chose ?
J’aime beaucoup l’idée d’un relai, mais quid d’un utilisateur qui ferait des requêtes malveillante ?
Qu’est ce que tu entends par malveillant?
La requête est transmise uniquement si la destination fait partie des moteurs de recherche de Mysearch. Il n’y pas bcp de traitement de données à part le routage de la reqête vers la destination. Ce que je vois de possible est un flood.
Si c’est le contenu de la recherche qui t’inquiète, je pense que tu ne devrais pas. On devrait avoir le droit de s’informer sur tout, et pas uniquement sur ce que Cazeneuve considère comme juste. Ensuite, si tu te fais emmerder par la police, tu peux facilement prouver que ce n’était pas toi mais Mysearch qui a effectué la requête.
Je n’ai pas de problème. Tu peux m’aider à voir le problème ?
Arrête le service :
# service mysearch stop
Lance Mysearch manuellement :
$ python /usr/lib/python2.7/dist-packages/mysearch/mysearch.py
Le fichier de conf se trouve dans ce cas ici : ~/.config/mysearch/mysearch.conf
Dis moi ce que tu vois dans la console quand tu fais une requête.
Reste du coup le problème des bangs qui sont devenu le seul frein restant à n’importe quel migration vers un autre moteur que ddg. Ça me donne envie de regarder si je ne peux pas implémenter ce genre de joujoux dans mysearch du coup… C’est ça qui est bien avec le libre ^^
Salut,
on ne peut pas voir le README sur ton serveur: http://codingteam.net/project/mysearch/browse/README.txt
»
Une erreur est survenue.
unlink(/home/xbright/codingteam.net/public/cache/xhtml/-project-buyote-browse-trunk-crutches-data-traits.data-?rev=88) [function.unlink]: Aucun fichier ou dossier de ce type (2 – E_WARNING)
Dans : /home/xbright/codingteam.net/inc/classes/template.php à la ligne 561
«
Re,
C’est très intéressant !
Un avantage de duckduckgo cependant est que c’est une alternative à google (il utilise un peu son propre crawler).
J’ai 2 suggestions de fonctionnalités:
– les bangs,
– le support des résultats en json
On peut certainement s’inspirer de ce qui est fait pour searx: https://github.com/asciimoo/searx
Searx aussi veut éviter d’être tracké, mais sais-tu quelles sont les différences avec mysearch ?
Super travail, merci pour cette amélioration dont on n’avait discuté lors de la sortie de la v1.0. Je vais me pencher dessus dès que j’aurai un peu de temps. :-)
@groov : ca a l’air de marcher : http://codingteam.net/project/mysearch/browse/README.txt
Concernant les bangs, c’est pas bien compliqué à implémenter. Mais il faut garder à l’esprit que la sécurité du code est primordiale. Donc si les bangs servent juste de redirection (ex: !wfr linux -> redirection vers https://fr.wikipedia.org/wiki/Linux ) je ne vois pas d’inconvénient. Par contre si il faut faire du traitement coté serveur (ex calculatrice, etc…) je suis plus sceptique.
Plus généralement, je ne comprends pas pourquoi les bangs ne sont pas implémenté dans le navigateur plutôt que sur un site web.
Concernant JSON, c’est possible mais attention, il est interdit de diffuser les résultats d’une requête Google en JSON. Donc ce serait uniquement dispo pour les autres moteurs de recherche, ce qui doit moins t’intéresser car ils fournissent déja du JSON.
Concernant DuckDuckGo, je vais me répéter : DuckDuckGo n’a pas de vrai crawler(il faudrait un budget de malade), il achète ses résultats à Bing et Yandex ! Source : https://duck.co/help/results/sources
Il y a une grande différence entre Mysearch et Searx. Searx ne permet absolument pas d’éviter le tracking.
Je donne les raisons ci dessous :
Lors d’une recherche d’images, toutes les images sont chargées depuis le site d’origine des images, et sans SSL alors que Searx est hébergé en SSL. Ex: https://searx.laquadrature.net/?q=linux&pageno=1&category_images
Ce qui fait que les sites qui procurent les images de recherche peuvent traquer vos recherches, que quelqu’un qui regarde votre flux le peut aussi et peut même modifier les résultats.
Lorsque vous utilisez Mysearch, tout est étudié pour qu’aucune requête vers un site externe ne soit effectuée (pas de lien vers Google Font, vers un depot Jquery, etc..). Ainsi personne d’autre que le serveur Mysearch ne sait que vous effectuez une recherche.
Lorsque vous cliquez sur un lien d’un résultat texte, vous êtes envoyé sur le site de destination sans nettoyer le referer (par exemple en utilisant une redirection comme le fait Mysearch et DuckDuckGo). Le site de destination sait donc quel mots clés vous avez tapé et que vous venez de Searx. Ces infos sont directement enregistrées par les traqueurs style GoogleAnalytics qui seraient sur la page de destination. Ce qui tue tout la démarche d’anonymisation que vous auriez pu faire avant.
Bref, Searx a été pensé comme métamoteur mais pas comme un anonymiseur. Mysearch a été pensé pour anonymiser vos recheches en premier lieu.
Merci pour toutes les réponses !
Du coup je suis trop déçu par searx :(
Note:
par contre ddg dit qu’ils utilisent AUSSI leur propre crawler:
«
DuckDuckGo gets its results from over one hundred sources, including DuckDuckBot (our own crawler)
»
Salut,
Super travail… mais je viens d’essayer après avoir installer le paquet deb (je suis sous Jessie) et paradoxe ça marche avec Chromium !!! mais pas avec Iceweasel qui tente de me connecter sur l’adresse http://www.localhost.com:60061 au lieu de http://localhost:60061.
As-tu une idée pourquoi ?
Merci
Genre tu cliques sur http://localhost:60061 et ca ne marche pas?
J’aime bien ton programme , mais , pourquoi l’a tu appeler mysearch
souvent mysearch est connu pour etre des site maveillant (force le changement du moteur par défaut , vous des pub etc
Je me rappeler plus de l’url de ce blog , et comme je voulais tester mysearch , j’ai taper ça dans google ,et 1 résultat c’est une question pour vifé mysearchdial
2 2 mysearch.com (pas terrible)
3 un article sur ton projet par korben,
Pour le relai, vu que l’objet est d’anonymiser, pourquoi ne pas passer par Tor ?
J’entends juste faire transiter les recherches par Tor. Ensuite, l’utilisateur est libre de cliquer sur les résultats sans traverser Tor (si c’est son choix).
@wilfried : Je n’avais pas trop fait de recherche sur le nom avant de commencer mon projet. Je vais voir comment l’appeler autrement pour qu’il n’y ait pas d’amalgame avec des sites bizarres…
@Guyou : Avec Tor tu ne maitrises pas le flux que tu rediriges. Tu peux utiliser Tor et Mysearch en mode relay désactivé et tu as ce que tu ce que tu veux.
Dsl pour le double commentaire j’ai appuyer sur enter sans faire exprès ><
Donc je disais super comme truc mais ce ne serais pas possible de faire ça en PHP pour que je puisse l'installer facilement sur mon mutualisé OVH ?
Ce sera sûrement possible. Mais je préfère Python, donc voila :-)
[mysearch]
bind_port = 60061
relay = true
bind_interface = localhost
Dans le fichier conf, il faut laisser à 60061 ? et pas le mettre à 60062
Et ouvrir le pare-feu du PC et de la box à 60062
et pour l’instant les requêtes passe par jesuislibre.net.
Ai-je bien compris ?
Oui c’est ça.
Bonjour,
Je viens enfin d’installer tout cela, et je me pose une question: comment faire pour que ce soit le localhost qui soit utilisé dans les moteurs de recherche et pas l’instance extérieure? Moi ça me retourne une erreur d’xml…
C’est pas trop grave mais ça me travaille ^^
C’est à dire?
Si tu as relay = false dans ta config alors toutes les requetes passent par ton serveur uniquement.
Aaaaah mais oui! C’est parce que j’ai activé le relai! J’avais zappé ça…
Merci!
very nice