Comment l'IA peut-elle aider à détecter les attaques par injection vidéo ?

Les procédures de Know Your Customer (KYC), ou connaissance de son client, sont une série de mesures mises en place pour vérifier l'identité, la fiabilité et les activités commerciales d'un client potentiel avant d'établir une relation d'affaires. En France, cette procédure est une obligation légale pour les entreprises devant se conformer aux réglementations en vigueur contre le blanchiment d'argent (AML) et de lutte contre le financement du terrorisme (CFT).

Les procédures modernes de KYC utilisent les avancées technologiques pour vérifier l'identité des clients à travers une vidéo à distance, sans l'envoi préalable de documents. Les principales activités lors d'une vérification d’identité à distance concernent l'acquisition des données d'identification de la personne, puis leurs vérifications. Pour cela, le client potentiel présente un titre officiel d'identité, puis suit les instructions de détection du vivant demandées, comme un mouvement de la tête, du visage, une diction, etc.

Cette approche a simplifié le parcours d'entrée, permettant aux entreprises d'intégrer des clients à distance sans sacrifier les contrôles anti-fraude. Néanmoins, malgré ces avantages, l'utilisation de la vidéo permet de nouveaux types d'attaques.

Les attaques par présentation

Les attaques par présentation sont un moyen utilisé par les fraudeurs pour manipuler les contrôles opérés lors des procédures de KYC. Ces attaques, appelées communément « deepfake », consistent à présenter un objet ou un support contrefait ou falsifié à un capteur biométrique. Dans le cas des systèmes de KYC à distance, il peut s'agir de manipuler numériquement les données du titre d'identité présenté, de modifier numériquement le visage pour ressembler à la photo du titre, d'utiliser un masque, etc. Le développement et l’accessibilité des ressources pour faire ce type de fraude ont conduit à l'élaboration de nouvelles normes comme l'ISO/IEC 30107 sortie en 2017 et mise à jour en 2023. Cette norme fournit des méthodes pour tester la capacité d'une solution à résister aux attaques par présentation.

Les attaques par injection vidéo

Malgré les mesures de sécurité pour détecter les attaques par présentation, les acteurs de l'identité numérique sont également confrontés aux attaques par injection. Dans ce type d'attaque, une image ou une vidéo n'est pas présentée à la caméra, mais est injectée à l'aide d'une caméra virtuelle, d'un proxy ou même d'un programme qui détourne le flux vidéo de la caméra du téléphone. L'image suivante montre l'utilisation d'un logiciel de caméra virtuel pour l'injection.

Image d'une injection vidéo avec le logiciel OBS

Source

Comment détecter et prévenir ce type d'injection ?

Malgré la résolution élevée des vidéos, l'injection vidéo peut provoquer l'apparition d'artefacts dus à la recompression lorsque le flux est transmis via un capteur USB. Ces artefacts sont générés par les algorithmes de compression qui tentent de réduire la taille des données vidéo ou de les convertir d'un format à un autre, entraînant souvent une perte de détails dans l'image. Ces altérations peuvent se manifester sous forme d'images floues, de blocs, de bandes de couleur ou de maculage.

Image d'altérations des pixels d'une vidéo après compression

Ces artefacts sont généralement imperceptibles à l'œil nu, mais peuvent être détectés par des algorithmes d'intelligence artificielle spécialement entraînés à cet effet. Tout comme un réseau neuronal peut être entraîné à reconnaître des objets, des visages et des attaques par présentation, il peut également faire la distinction entre les images provenant d'une caméra réelle et celles injectées par l'intermédiaire d'un dispositif USB ou d'une caméra virtuelle. Ces méthodes d'injection impliquent généralement des processus plus complexes, entraînant davantage de pertes lors de la transmission du signal vidéo, ce qui les rend détectables.

L'entraînement d'un réseau neuronal artificiel pour cette tâche nécessite un volume important d'échantillons. Les données publiques des éditeurs indiquent qu'un minimum de 10 000 à 100 000 échantillons peut être nécessaire pour former un produit minimum viable d'un réseau neuronal basé sur des couches convolutives. Pour obtenir une détection plus précise et plus robuste, entre 100 000 et 1 million d'échantillons peuvent être nécessaires. Pour les applications commerciales exigeant une grande précision, un million d'échantillons peuvent être nécessaires.

L'investissement dans des solutions d'IA peut donc, en partie, contribuer à aider les processus de vérification d'identité à distance et ainsi mieux lutter contre la menace croissante des attaques par injection, améliorant ainsi la sécurité globale de l'entrée en relation et des autres processus d'identification numérique.