top of page

Aprendizaje automático para la ciberseguridad

Asegurando y atacando datos con Aprendizaje Automático

Existen diferentes tipos de ataques que pueden dirigirse a modelos de aprendizaje automático:

1. Evasión (Evasion Attack): El atacante manipula los datos de entrada con el objetivo de engañar al modelo y obtener predicciones incorrectas. Un ejemplo común son los ataques adversariales en sistemas de reconocimiento de imágenes.

2. Envenenamiento (Poisoning Attack): Se introducen datos maliciosos durante la fase de entrenamiento para degradar el rendimiento del modelo. Por ejemplo, modificar datos de correos spam para que los mensajes maliciosos no sean detectados.

3. Extracción de Modelo (Model Extraction Attack): Consiste en intentar reconstruir un modelo de aprendizaje automático mediante el envío de múltiples consultas para inferir sus parámetros y arquitectura.

​4. Inversión de Modelo (Model Inversion Attack): Busca recuperar información sensible contenida en los datos de entrenamiento a partir de las predicciones que realiza el modelo. Un caso ilustrativo es la reconstrucción de imágenes utilizadas durante el entrenamiento.

5. Fugas de Privacidad (Membership Inference Attack): Pretende determinar si un dato específico estuvo presente en el conjunto de entrenamiento del modelo.

 

Técnicas para prevenir o detectar estos ataques

    • Entrenamiento adversarial: Incorporación de ejemplos perturbados durante el proceso de entrenamiento para mejorar la                     robustez del modelo.

    • Métodos de detección y filtrado: Identificación y eliminación de ejemplos adversariales durante la fase de evaluación.

    • Verificación de integridad de datos: Control y validación del conjunto de datos para evitar la inserción de datos maliciosos.

    • Aprendizaje federado y descentralizado: Minimización del impacto de datos maliciosos mediante la distribución del                              entrenamiento entre múltiples dispositivos o nodos.

    • Limitación de consultas: Restringir la cantidad de consultas que se pueden realizar a un modelo para dificultar ataques de                   extracción.

    • Privacidad diferencial: Aplicación de técnicas que protegen contra la recuperación de datos sensibles, garantizando que la                salida del modelo no revele información individual.

    • Cifrado homomórfico y aprendizaje seguro: Uso de técnicas criptográficas para proteger el modelo y los datos durante el                     entrenamiento y la inferencia, evitando la exposición directa del modelo.

bottom of page