top of page

Aprendizaje automático para la ciberseguridad

Resumir grandes conjuntos de datos

El uso de un elevado número de características presenta diversos inconvenientes. En primer lugar, se incrementa la cantidad de datos necesarios, lo que conlleva mayores costos de almacenamiento y un aumento en el tiempo computacional requerido por el algoritmo. En segundo lugar, al trabajar con un espacio de características amplio, es imprescindible disponer de una gran cantidad de datos para lograr un modelo preciso, ya que resulta más complejo distinguir la señal del ruido. Por estas razones, al tratar con datos de alta dimensionalidad, es común recurrir a técnicas de reducción de dimensionalidad, como el Análisis de Componentes Principales (ACP), conocido en inglés como Principal Component Analysis (PCA) .

 

El ACP permite reducir grandes conjuntos de datos a un subconjunto menor de variables no correlacionadas, llamadas componentes principales. Estas componentes son combinaciones lineales de las variables originales y buscan capturar la máxima cantidad de información posible del conjunto de datos.

 

Esta técnica estadística se fundamenta en principios de álgebra lineal y operaciones matriciales. El número de componentes principales que se conservan tras aplicar ACP facilita la interpretación de los datos transformados. El primer componente principal es el que explica la mayor proporción de la varianza presente en los datos originales, y cada componente posterior captura una porción decreciente de dicha varianza. Para determinar el número óptimo de componentes a retener, es habitual utilizar un gráfico de sedimentación (scree plot) o analizar la varianza explicada acumulada, siendo esta última la técnica utilizada en el presente ejemplo.

 

La varianza explicada indica cuánta información (o dispersión) de los datos originales es retenida por cada componente principal después de aplicar ACP.

Google colab:

bottom of page