BigGrizzly

Groumpf

  • Nous continuons de rencontrer des surcharges sur les sites que nous hébergeons. Rien de comparable à des DDOS, mais tout de même, de quoi provoquer par exemple des emails d’OVH pour suggérer de passer sur l’offre supérieure, quand il s’agit d’un hébergement web OVH.

    Cette semaine, les IP sources appartiennent manifestement à Microsoft.

    Êtes-vous au courant d’échanges techniques sur les Internets, où une réponse technique serait discutée, afin de lutter contre ces engeances que sont ces IA zombies ?

    Anecdote : je voulais publier ce message sur Mastodon, en anglais... et j’ai abandonné en cours de route. Appréhension de parler dans l’agora...

    • De mon côté j’ai un client qui se tape apparemment régulièrement des « 429 Too Many Requests » sur son site chez Infomaniak. Ils·elles sont trois à travailler sur leur site dans le même bureau, et je me demande si ce n’est pas justement une mesure mise en place pour limiter l’impact de ces bots. Sauf qu’eux·elles ne sont pas des bots, et qu’ils se retrouvent bloqués plusieurs longues minutes quand ça arrive (quand ils m’ont contacté pendant un tel blocage, moi de mon côté j’ai pu accéder à leur site sans souci, ce qui suggère bien que c’est un blocage selon l’IP jugée trop gourmande).

    • C’est une partie des difficultés que nous avons en réfléchissant à des solutions. Le robots.txt est futile. La détermination de quotas par IP est potentiellement contre-productive. Les bots n’arrivent pas depuis une seule IP évidemment. Ils se comportent comme une DDOS, mais sans pour autant en arriver à provoquer des dénis de service (quoi que, un 429, c’est un petit peu ce qu’on appelle un déni de service...).

      Là, on voit des IP multiples identifiées comme appartenant aux GAFAM, avec des user-agent multiples, sans identification de bots particuliers, et qui visitent des dizaines de sites différents, sans rapports entre eux. En gros, ils visitent les sites en se faisant passer pour des utilisateurs standards. Ou alors, ce sont des milliers de travailleurs qui vérifient ce que les IA ont vu...

    • Nous avons apparemment compris pourquoi un site particulier doit gérer un trafic 6 à 10 fois supérieur à la normale depuis une semaine, de la part d’adresses IP appartenant à Microsoft, et dont les user-agents paraissent normaux (pas des bots).

      Ce site, d’une entreprise dynamique, envoie deux fois par semaine une newsletter à 10000 adresses emails professionnelles. 30 à 50% de ces adresses sont, évidemment, hébergées chez Microsoft.

      Nous faisons l’hypothèse que les infras emails de Microsoft sont défaillantes depuis quelques jours, dans la mesure où elles semblent scanner toutes les URL présentent dans les emails reçus, à la recherche de virus ou de phishing, et ce pour chaque email reçu, même si un autre email équivalent a déjà été scanné 10 secondes avant... une affaire de mise en cache défaillante.

      J’espère qu’ils vont améliorer leurs systèmes dans les jours-semaines à venir, parce que là, c’est proche d’être insupportable.

    • Personnellement j’ai bloqué le bot amazon dans le robot.txt ça a largement amélioré les choses mais il passe encore (de 523k à 134k requêtes/mois).

    • Confirmation ce jour de ma théorie sur les infras emails qui visitent les liens contenus dans les emails reçus, générant des DDOS quand tu envoies une campagne à des milliers d’adresses.

      Aujourd’hui, 14h19, campagne envoyée à 7000 utilisateurs. Dans la minute qui suit, plusieurs milliers de requêtes sur le site. En gros, 3 requêtes pour chaque email envoyé. Et les IP sources sont en majorité issues de blocs IP appartenant à Microsoft, et se faisant passer pour des visiteurs normaux.