Ad-Blocking using Machine Learning

Aprendizaje automático para la ciberseguridad

Bloqueo de anuncios

El bloqueo de anuncios mediante aprendizaje automático (ML) representa una evolución respecto a los métodos tradicionales, permitiendo una detección más dinámica y adaptativa de contenido publicitario no deseado en sitios web y aplicaciones. A diferencia de los bloqueadores convencionales que dependen de listas estáticas de reglas, los enfoques basados en ML pueden aprender patrones nuevos y responder a estrategias evasivas por parte de los anunciantes.

1. Métodos Tradicionales

Los bloqueadores clásicos, como AdBlock o uBlock Origin, funcionan sobre la base de listas negras y reglas predeterminadas:

• Utilizan filtros basados en dominios, URLs y patrones comunes de anuncios.

• Emplean reglas en CSS y JavaScript para ocultar visualmente los elementos identificados como publicidad.

• Su principal limitación radica en la necesidad de actualizaciones manuales constantes para adaptarse a nuevas técnicas de inserción publicitaria.

2. Enfoques con Aprendizaje Automático

Los modelos de aprendizaje automático permiten una detección más flexible, mediante el análisis de distintos tipos de señales en sitios web:

a) Detección Basada en Imágenes

Los anuncios gráficos (banners, pop-ups, videos) pueden ser identificados a través de redes neuronales convolucionales (CNNs). Algunos aspectos clave incluyen:

• Entrenamiento de modelos con conjuntos de datos que contienen imágenes publicitarias típicas.

• Aplicación de arquitecturas como YOLO (You Only Look Once) o MobileNet para detección en tiempo real.

• Utilización en aplicaciones móviles o navegadores para bloquear anuncios visualmente antes de que se carguen completamente.

b) Análisis de Código HTML y CSS

La estructura de los sitios web suele seguir ciertos patrones en la inclusión de anuncios. Algunas técnicas utilizadas son:

• Aplicación de modelos de Procesamiento de Lenguaje Natural (NLP) para analizar el contenido semántico del código HTML.

• Uso de algoritmos de clasificación como Árboles de Decisión, Random Forest o modelos más complejos basados en Transformers para distinguir entre contenido publicitario y contenido legítimo.

• Enfoques no supervisados (como clustering) que permiten descubrir automáticamente nuevas estructuras asociadas a anuncios no previamente catalogados.

Desafíos del Enfoque Basado en ML

Aunque ofrece ventajas significativas, la detección de anuncios mediante ML enfrenta varios retos:

• Evasión activa por parte de anunciantes: Se utilizan técnicas como la ofuscación de código, inserción dinámica de HTML y carga diferida para evitar la detección.

• Falsos positivos: Una clasificación errónea puede llevar al bloqueo de contenido legítimo, afectando negativamente la experiencia del usuario.

• Requisitos computacionales elevados: Los modelos de ML suelen demandar más recursos de procesamiento que los filtros basados en reglas.

• Publicidad nativa: Este tipo de publicidad, integrada directamente en el contenido del sitio (por ejemplo, artículos patrocinados), resulta más difícil de identificar, ya que imita visualmente el contenido genuino.

Aprendizaje automático para la ciberseguridad

Aprendizaje automático para la ciberseguridad

Bloqueo de anuncios

Google colab: