À propos du battage médiatique autour de XBOW

Introduction#

Vous avez tous vu le battage médiatique autour de XBOW : «l'IA qui s'est hissée à la première place du classement de HackerOne».

Classement HackerOne

Comme souvent, lorsque quelque chose de nouveau apparaît ou qu'une nouvelle vulnérabilité critique est découverte, tout le monde est excité et les journalistes spécialisés (ou les influenceurs) exagèrent pour créer un engouement médiatique.

Afin de clarifier les choses, XBOW est l'IA qui est devenue la première au classement des EUA (États-Unis d'Amérique) sur HackerOne selon le gain de réputation MAIS uniquement si l'on considère la période d'avril à juin 2025.

Les accomplissements de XBOW sont impressionnants, mais pas autant que les réseaux sociaux le laissent penser.

La réputation sur HackerOne#

XBOW n'est PAS :

  • 1er au classement du Plus haut niveau de réputation (ni des 3 derniers mois / 90 jours, ni de tous les temps)
    • Le classement est calculé en fonction de la réputation gagnée.
  • 1er au classement de la Réputation critique la plus élevée
    • Basé sur le gain de réputation pour les soumissions élevées et critiques qui sont triées ou résolues.
  • 1er sur la base du signal
  • 1er sur la base de l'impact
  • 1er du classement du plus voté
    • Hackers avec le plus grand nombre de rapports ayant reçu des votes positifs sur Hacktivity.
  • 1er du classement EUA de tous les temps
    • Basé sur le gain de réputation.
  • Etc.

Comme dit auparavant, XBOW est la première au classement des EUA sur HackerOne selon le gain de réputation MAIS uniquement si l'on considère la période d'avril à juin 2025.

Mais qu'est-ce que la réputation sur HackerOne ?

En théorie :

La réputation mesure la probabilité que votre résultat soit immédiatement pertinent et exploitable.

En pratique, pour faire court, la réputation est un indice qui est mis à jour lorsque votre rapport est clos. Si votre rapport est valide, vous gagnez des points, si votre rapport est inutile, à la con, que vous n'avez pas suivi les règles, du pourriel automatisé, ou que ce n'est même pas une vulnérabilité parce que vous êtes trop naze, vous perdez des points.

Ce qui n'est pas impressionnant dans XBOW, c'est l'indice de réputation. Ce qui est impressionnant dans XBOW, c'est aussi l'indice de réputation.

En effet, comme la réputation est quantitative, il est évident qu'un agent IA ou un outil automatisé travaillant 24/24h et 7/7j dans un centre de données gagnera plus de points parce qu'il soumettra plus de rapports. Les chasseurs humains ont besoin de dormir, de manger, d'avoir une vie et tout le reste. Il n'y a donc rien d'étonnant à ce qu'une IA batte un humain de ce point de vue.

Cependant, la réputation n'est pas seulement quantitative, car on perd des points pour les rapports Non Applicable ou Pourriel. Dans ce cas, le défi des logiciels automatisés est donc de limiter les faux positifs, afin que la réputation ne diminue pas trop. Les logiciels automatisés traditionnels tels que les sonde de vulnérabilités, les plateformes de tests applicatifs dynamiques et autres, auront souvent 90% de leurs rapports qui sont soit des faux positifs (perte de points) soit inutiles/informatifs (0 point) alors que dans le même temps, ils ont 90% de faux négatifs (ne trouvent pas les vulnérabilités qui se sont juste sous leur nez).

Donc ce qui semble impressionnant en premier lieu avec XBOW, c'est le très faible volume de faux positifs, grâce à « l'entraînement de l'IA » qui lui permet de gagner rapidement un indice de réputation élevé.

100% automatisé / autonome ?#

Mais dans leur post, ils précisent rapidement que HackerOne interdit les rapports automatisés, de sorte que les humains derrière XBOW examinent 100 % des rapports.

Tous les résultats ont été entièrement automatisés, bien que notre équipe de sécurité les ait examinés avant leur soumission afin de se conformer à la politique de HackerOne en matière d'outils automatisés.

Il y a beaucoup d'obscurité là-dedans. Comme tous les rapports sont revus par les équipes humaines de XBOW, ils ne disent pas ce qu'ils font sur les rapports. Les modifient-ils ? Les améliorent-ils ? Suppriment-ils les faux positifs ?

Je parie que c'est le cas. Je parie qu'ils suppriment les rapports qui sont des faux positifs. Donc peut-être qu'en interne, l'IA génère de nombreux rapports qui sont des faux positifs que l'équipe humaine de XBOW filtre activement. Le seul chiffre qu'ils fournissent concerne les rapports clos et les soumissions non encore triées, ce qui signifie que seuls les rapports qui ont passé l'examen de l'équipe humaine de XBOW sont considérés. Qu'en est-il des rapports qui n'ont pas été examinés ? Quel est le taux de triage interne ? Personne ne le sait…

Ils affirment également que :

XBOW est un testeur d'intrusion entièrement autonome, piloté par l'IA. Il ne nécessite aucune intervention humaine, fonctionne comme un testeur humain, mais peut évoluer rapidement, réalisant des tests d'intrusion complets en quelques heures seulement.

Pour moi, c'est le discours promotionnel que vous tenez aux investisseurs pour obtenir des millions de dollars (ou francs). Mais est-il « entièrement autonome » ? Bien sûr que non, il a été entraîné pendant des années, ajusté, affiné, il exécute des tests de référence faits maison, le modèle est constamment renforcé, le tout par des humains. Une équipe d'au moins 25 chercheurs en sécurité, en ingénierie et en IA est derrière lui. À cela s'ajoute le triage manuel interne dont nous avons parlé plus haut.

À propos de l'IA#

En général, je suis fatiguée d'entendre les testeurs et les chasseurs commenter sur Discord ou Twitter :

  • Alice : Que pensez-vous des gens qui arrivent à la conclusion que les chasseurs de bogues sont « remplacés » ?
  • Bob : Il semble que nous allions dans cette direction. L'IA peut trouver des bogues et même coder ses propres scripts d'exploitations.

😱 Sommes-nous tous (les chasseurs) remplacés par l'IA ? 😱 La peur récurrente de l'humain remplacé par sa nouvelle machine (comme dans Terminator ou d'innombrables autres films). Je pense que non.

Pour ne prendre qu'un exemple. Les IA sont formées sur des corpus de données produites par des humains, de sorte que l'innovation et l'adaptation aux nouvelles technologies et techniques semblent limitées. Nous avons toujours besoin d'humains qui font de la recherche, qui publient leurs découvertes, d'ingénieurs en données qui rendent ces informations ingérables par les ordinateurs, et d'experts en IA qui entraînent leur modèle sur ces données. Du moins jusqu'à ce que nous créions des agents d'IA auto-apprenants qui effectuent leurs propres recherches.

Mais pour l'instant, il semble que l'IA sera toujours à la traîne par rapport aux meilleurs chasseurs. Cependant, l'IA peut traiter un nombre considérable d'informations par rapport aux humains. En fait, l'IA n'est qu'une meilleure couche d'automatisation dans ce domaine (sécurité et chasse aux bogues). Elle permet de réduire les faux positifs des logiciels existants et d'automatiser l'écriture de nouveaux modules. Toute sonde traditionnelle comme Nessus ou Nuclei nécessite un humain pour écrire un nouveau module pour chaque nouvelle vulnérabilité. Avec l'IA, vous créez un algorithme auquel vous donnez des données aléatoires sur les nouvelles vulnérabilités et à qui vous dites « faites quelque chose avec ça », et l'algorithme fait la magie de « l'apprendre » automatiquement.

L'IA tend-elle à produire de meilleurs logiciels automatisés ? Oui. L'IA nous remplacera-t-elle totalement ? Je pense que ce n'est pas pour demain.

Je pense plutôt que l'IA se chargera de la partie quantitative consistant à trouver des vulnérabilités communes en masse, tandis que les chasseurs humains devront se concentrer sur la qualité, les cas limites, la découverte de nouveaux vecteurs d'attaque, s'ils veulent rivaliser avec les logiciels automatisés (s'il y a vraiment une concurrence, et que nous ne comparons pas une équipe de 25 personnes plus un centre de données à un chasseur humain). Les chasseurs devront être des chercheurs, tandis que l'IA sera le besogneux.

Décharge de responsabilité#

Ce billet de blogue est basé sur des réflexions succinctes que j'ai eues en lisant les nouvelles et en écoutant mes collègues au cours de la semaine écoulée. Il ne s'agit en aucun cas d'une étude scientifique ou d'une analyse approfondie du modèle d'IA qui sous-tend XBOW. Je peux me tromper, ce n'est qu'une opinion honnête engendrée par l'irritation suscitée par le battage médiatique autour de l'IA.

Partager