top of page

Aprendizaje automático en la ciberseguridad.

Filtrado de spam utilizando aprendizaje automático

El correo no deseado (spam) representa aproximadamente el 60 % del tráfico global de correo electrónico, lo que lo convierte en un problema persistente, costoso y que consume recursos significativos, a pesar de los avances en los sistemas de detección desde el primer mensaje de spam registrado en 1978.

 

En este contexto, se presenta una solución basada en aprendizaje automático (Machine Learning) para la clasificación de mensajes como spam o ham (no spam). La implementación hace uso de la clase Pipeline de la biblioteca Scikit-learn (sklearn), que permite encadenar múltiples etapas de procesamiento sobre un mismo conjunto de datos.

​

Estructura de la pipeline

La pipeline utilizado en este ejemplo consta de tres pasos secuenciales:

    1. Vectorización del texto: Se convierte el contenido textual de los correos electrónicos en vectores numéricos de características,                 utilizando técnicas como CountVectorizer.

    2. Transformación TF-IDF: Se aplica la técnica de Term Frequency-Inverse Document Frequency (TF-IDF) para ponderar los términos            en función de su frecuencia relativa en los documentos del conjunto de datos, reduciendo así la importancia de palabras comunes          y aumentando la de aquellas que son más representativas.

    3. Clasificación mediante Árboles de Decisión: Se entrena un modelo de clasificación basado en árboles de decisión, el cual analiza            las características extraídas y determina si el correo electrónico debe ser etiquetado como spam o ham. Este enfoque permite                   automatizar la detección de spam mediante un flujo de procesamiento claro, eficiente y fácilmente integrable en sistemas de                     filtrado de correo electrónico. Además, el uso de Pipeline mejora la reproducibilidad del modelo y facilita su despliegue en                         entornos de producción.

Google colab:

bottom of page