
Aprendizaje automático para la ciberseguridad
División de los datos en entrenamiento y prueba.
En el aprendizaje automático, nuestro objetivo es crear un programa que sean capaces de realizar tareas para las cuales nunca se le hayan enseñado explícitamente a realizar. La forma en que hacemos esto es utilizando datos que hemos recopilado para entrenar o ajustar un modelo matemático o estadístico. Los datos utilizados para ajustar el modelo se denominan datos de entrenamiento. El modelo entrenado se utiliza para predecir datos futuros, previamente no vistos.
De esta manera, el programa es capaz de manejar nuevas situaciones sin intervención humana.
Uno de los principales desafíos del aprendizaje automático es el sobreajuste. Para combatir esto, se reserva una porción de los datos, llamada datos de prueba, y se utiliza únicamente para evaluar el rendimiento del modelo entrenado, en lugar de incluirla como parte del conjunto de datos de entrenamiento.
La forma más común de separar los datos es en tres subconjuntos:
1. Conjunto de entrenamiento: Es el subconjunto más grande y se utiliza para entrenar el modelo. El modelo aprende patrones y ajusta sus parámetros basándose en estos datos.
2. Conjunto de validación: Se utiliza para ajustar los hiperparámetros del modelo y evitar el sobreajuste (overfitting). Este conjunto permite evaluar el rendimiento del modelo durante el entrenamiento, pero no se utiliza para ajustar los parámetros directamente.
3. Conjunto de prueba: Se usa para evaluar el rendimiento final del modelo después de haber sido entrenado y validado. Este conjunto proporciona una medida objetiva de cómo se comporta el modelo con datos nuevos no vistos.
Existen otras maneras de validar el rendimiento del modelo, como la validación cruzada que consiste en hacer la división de los datos en múltiples subconjuntos. El modelo se entrena y evalúa repetidamente en diferentes combinaciones de estos conjuntos, lo que proporciona una evaluación más robusta y confiable del rendimiento del modelo. La evaluación final del modelo consiste en la media aritmética de todos los entrenamientos. aquí se muestra una imagen para que se entienda mejor.
​
​
​
​
​
​
​
​
​
​
​​
​
La validación cruzada es un buen método para evitar el sobreajuste y proporciona una estimación más robusta y precisa.
​
