contacto@datasam.tech

Generador de código Python para clasificadores de machine learning: Programando el camino hacia tu primer proyecto de machine learning

La popularidad de machine learning ha aumentado significativamente en los últimos dos años en todo el mundo. Cada vez más personas de múltiples orígenes han dado el paso de hacer un cambio de carrera y/o explorar este campo prometedor. Los campamentos de entrenamiento de programación están ganando popularidad continuamente, se ofrecen nuevos programas académicos en universidades y colegios, y la comunidad de investigadores interesados en este campo está en constante crecimiento, generando así más conocimiento y algoritmos para abordar los problemas actuales.

Si bien machine learning es un campo fascinante, puede ser intimidante al principio para alguien sin una sólida formación en matemáticas, probabilidad, estadística, o álgebra lineal. Además de esto, se requieren fuertes habilidades de programación y de codificación para construir modelos de machine learning confiables capaces de predecir resultados futuros. Para alguien interesado en comenzar su viaje hacia machine learning, lo anterior puede sonar desafiante y abrumador, sin embargo, no es necesario que sea así.

Por esa razón, y en un esfuerzo por alentar a las personas interesadas en buscar un camino hacia machine learning, data science, o artificial intelligence, he creado una aplicación simple pero efectiva que genera automáticamente códigos Python para crear y probar clasificadores de machine learning basados en criterios de entrada. Para usar esta aplicación, el usuario no necesita tener una comprensión extensa y profunda de las matemáticas detrás del campo de machine learning, sino una idea básica o buena de un flujo de trabajo de machine learning (es decir, carga de datos, limpieza de datos, preprocesamiento de datos, remuestreo de datos, creación de modelos, pruebas de modelos, y evaluación de modelos) y las diferencias entre los múltiples clasificadores y algoritmos.

Siéntete libre de echar un vistazo a la aplicación en el siguiente enlace: https://share.streamlit.io/rsalaza4/machine-learning-code-generator/main/app.py

INTERFAZ DE APLICACIÓN DE PYTHON

La interfaz de la aplicación se divide en dos secciones principales: la pantalla principal, donde se genera el código de salida, y la barra del lado izquierdo, donde el usuario especifica los parámetros de entrada deseados.

Las instrucciones son bastante simples y directas:

1. Especifica las variables en la barra lateral (haga clic en > si está cerrado). Las opciones entre las que el usuario puede elegir para cada parámetro son:

  • Fuente de datos: archivo .csv ó .xlsx.
  • Ruta de entrada del archivo de datos: cuadro de texto vacío.
  • Algoritmo clasificador: Balanced Random Forest, Decision Tree, Easy Ensemble, Gaussian Naïve Bayes, Gradient Boosting, K-Nearest Neighbors, Logistic Regression, Random Forest, Stochastic Gradient Descent, y Support Vector.
  • Razón de división de los datos de entrenamiento y de prueba: del 1% al 99%.
  • Técnica de escalamiento: Max Abs Scaler, Min Max Scaler, Min Max Scale, Normalizer, Power Transformer, Quantile Transformer, Robust Scaler, y Standard Scaler.

Técnica de remuestreo: Oversampling (ADASYN, Borderline SMOTE, Random Over Sampler, SMOTE, SMOTEN y SMOTENC), Undersampling (All KNN, Cluster Centroids, Condensed Nearest Neighbors, Edited Nearest Neighbors, Near Miss, Neighborhood Cleaning Rule, One Sided Selection, Random Under Sampler, y Repeated Edited Nearest Neighbors), y una combinación de ambos  (SMOTEENN y SMOTE Tomek).

2. Copia el script de Python generado en el portapapeles. Simplemente haz clic en el icono “copy” ubicado en la esquina superior derecha del código generado.

3. Pega el script de Python generado en tu IDE de preferencia. Puede ser Jupyter Lab, Jupyter Notebook, Spyder, Visual Studio Code, Sublime Text, o cualquier otro editor de texto que desees.

4. Ejecuta el script de Python.

Tan fácil como suena.

CÓDIGO GENERADO DE EJEMPLO

El código Python siguiente se generó en función de las siguientes configuraciones: Fuente de datos: archivo .csv; Ruta de entrada del archivo de datos: escritorio/archivo.csv; Algoritmo clasificador: Random Forest; Razón de división de los datos de entrenamiento y de prueba: 70%; Técnica de escalamiento: Standard Scaler; Técnica de remuestreo: Random Under Sampler.


Si este artículo te resultó útil, siéntete bienvenido a descargar mis códigos personales en GitHub. También puedes enviarme un correo electrónico directamente a rsalaza4@binghamton.edu y encontrarme en LinkedIn. ¿Estás interesado en obtener más información sobre data analytics, data science, y las aplicaciones de machine learning en el campo de la ingeniería? Explora mis artículos anteriores visitando mi perfil de Medium. Gracias por leer.

-Roberto


Elaborado por Roberto Salazar, Ingeniero Industrial y de Sistemas de la Universidad de Monterrey y Master of Science in Industrial & Systems Engineering de Binghamton University. Posee una vasta experiencia en data analytics, machine learning, e investigación de procesos.

Fuente. Traducido por Sebastian Zambrano.