top of page

Aprendizaje automático para la ciberseguridad

Estandarizar los datos.

En numerosos algoritmos de aprendizaje automático, el rendimiento es altamente sensible a la escala de las características. Por este motivo, resulta fundamental estandarizar las variables del conjunto de datos.

​

La estandarización en el aprendizaje automático consiste en transformar las características de un conjunto de datos para que cada una tenga una media de 0 y una desviación estándar de 1. La desviación estándar mide la dispersión de los valores respecto a la media; a mayor desviación, mayor variabilidad presentan los datos.

​

Este procedimiento asegura que todas las variables estén en la misma escala, lo cual es fundamental para el desempeño adecuado de numerosos algoritmos de aprendizaje automático. La estandarización es importante por las siguientes razones:

    1. Igualar la importancia de las características: En algunos algoritmos, las variables con valores numéricos mayores pueden dominar el         proceso de aprendizaje, generando modelos sesgados. Estandarizar las características evita que la magnitud de los valores influya           desproporcionadamente en los resultados.

    2. Mejorar la convergencia: En algoritmos que se basan en métodos iterativos para alcanzar una solución óptima, la estandarización            puede acelerar el proceso de convergencia, ya que impide que variables con escalas muy diferentes distorsionen la dirección de            los pasos de actualización.

    3. Facilitar la interpretación: En ciertos modelos, contar con características en una escala común puede facilitar su análisis e                          interpretación.    

 

Un caso en el que la estandarización resulta especialmente útil es al trabajar con el encabezado PE (Portable Executable) de un archivo, una estructura presente al inicio de los archivos ejecutables en sistemas Windows que define cómo se debe cargar y ejecutar el archivo en memoria. Este encabezado incluye valores de magnitudes muy dispares, como el campo ‘SizeOfInitializedData’, que puede contener valores extremadamente grandes, y el número de secciones, que puede ser relativamente pequeño. Para algoritmos sensibles a la escala, como las redes neuronales, esta disparidad puede afectar negativamente al rendimiento, por lo que la estandarización contribuye a mejorar la eficacia del modelo.

​

Google colab:

bottom of page