top of page

Aprendizaje automático para la ciberseguridad

Bloqueo de anuncios

El bloqueo de anuncios mediante aprendizaje automático (ML) representa una evolución respecto a los métodos tradicionales, permitiendo una detección más dinámica y adaptativa de contenido publicitario no deseado en sitios web y aplicaciones. A diferencia de los bloqueadores convencionales que dependen de listas estáticas de reglas, los enfoques basados en ML pueden aprender patrones nuevos y responder a estrategias evasivas por parte de los anunciantes.

 

1. Métodos Tradicionales

Los bloqueadores clásicos, como AdBlock o uBlock Origin, funcionan sobre la base de listas negras y reglas predeterminadas:

    • Utilizan filtros basados en dominios, URLs y patrones comunes de anuncios.

    • Emplean reglas en CSS y JavaScript para ocultar visualmente los elementos identificados como publicidad.

    • Su principal limitación radica en la necesidad de actualizaciones manuales constantes para adaptarse a nuevas técnicas de                       inserción publicitaria.

​

2. Enfoques con Aprendizaje Automático

Los modelos de aprendizaje automático permiten una detección más flexible, mediante el análisis de distintos tipos de señales en sitios web:

a) Detección Basada en Imágenes

Los anuncios gráficos (banners, pop-ups, videos) pueden ser identificados a través de redes neuronales convolucionales (CNNs). Algunos aspectos clave incluyen:

    • Entrenamiento de modelos con conjuntos de datos que contienen imágenes publicitarias típicas.

    • Aplicación de arquitecturas como YOLO (You Only Look Once) o MobileNet para detección en tiempo real.

    • Utilización en aplicaciones móviles o navegadores para bloquear anuncios visualmente antes de que se carguen completamente.

b) Análisis de Código HTML y CSS

La estructura de los sitios web suele seguir ciertos patrones en la inclusión de anuncios. Algunas técnicas utilizadas son:

    • Aplicación de modelos de Procesamiento de Lenguaje Natural (NLP) para analizar el contenido semántico del código HTML.

    • Uso de algoritmos de clasificación como Árboles de Decisión, Random Forest o modelos más complejos basados en Transformers           para distinguir entre contenido publicitario y contenido legítimo.

    • Enfoques no supervisados (como clustering) que permiten descubrir automáticamente nuevas estructuras asociadas a                                anuncios no previamente catalogados.

 

Desafíos del Enfoque Basado en ML

Aunque ofrece ventajas significativas, la detección de anuncios mediante ML enfrenta varios retos:

    • Evasión activa por parte de anunciantes: Se utilizan técnicas como la ofuscación de código, inserción dinámica de HTML y carga               diferida para evitar la detección.

    • Falsos positivos: Una clasificación errónea puede llevar al bloqueo de contenido legítimo, afectando negativamente la experiencia           del usuario.

    • Requisitos computacionales elevados: Los modelos de ML suelen demandar más recursos de procesamiento que los filtros basados         en reglas.

   • Publicidad nativa: Este tipo de publicidad, integrada directamente en el contenido del sitio (por ejemplo, artículos patrocinados),                resulta más difícil de identificar, ya que imita visualmente el contenido genuino.

Google colab:

bottom of page