contacto@datasam.tech

Como consultar una base de datos con Python: una guía sencilla para leer datasets

El primer paso en cualquier proyecto de data analytics, data science, o machine learning consiste en recopilar datos. Es posible que tengas que hacer algunas investigaciones para encontrarlos, como realizar encuestas, recopilar cuestionarios, tomar muestras, etcétera.

Si tienes la suerte de empezar a trabajar en un determinado proyecto o tarea cuyos datos ya han sido recogidos, el siguiente paso consta en leer dichos datos para iniciar tu análisis; es decir, cargar los datos en el script o programa. Hay varias fuentes desde las que se pueden leer conjuntos de datos, incluidos archivos csv, txt, xlsx, JSON, XML, PDF, bases de datos de SQL Server, y muchos más. Cuando los datos deben compartirse y ser accesibles para varias personas, equipos, o departamentos dentro de una organización, es más probable que se almacenen en un servidor o base de datos (por ejemplo, Microsoft Azure SQL Server) al que los usuarios de la empresa tendrán acceso. Esto agrega una capa adicional de seguridad al limitar la cantidad de personas que pueden acceder a él, en comparación cuando se almacena en un archivo local o compartido (por ejemplo, un archivo csv o xlsx).

Tener datos almacenados en servidores y bases de datos reduce significativamente los problemas asociados con el almacenamiento y lectura de Big Data, por ejemplo, las hojas de cálculo de Excel están limitadas a 1.048.576 filas, Notepad++ limita los archivos hasta 2G; sin embargo, uno de sus principales inconvenientes corresponde a su costo de almacenamiento ya que cuantos más datos se almacenen, mayor será su costo.

APLICANDO PYTHON

Python, uno de los lenguajes de programación más comunes en los últimos años, tiene una biblioteca de código abierto que permite a los usuarios conectarse a servicios externos y bases de datos para una amplia gama de aplicaciones. Para el siguiente ejemplo, se dará un vistazo al código Python para conectarse a una base de datos SQL y leer todas las filas de una tabla determinada.


Si este artículo te resultó útil, siéntete bienvenido a descargar mis códigos personales en GitHub. También puedes enviarme un correo electrónico directamente a rsalaza4@binghamton.edu y encontrarme en LinkedIn. ¿Estás interesado en obtener más información sobre data analytics, data science, y las aplicaciones de machine learning en el campo de la ingeniería? Explora mis artículos anteriores visitando mi perfil de Medium. Gracias por leer.

-Roberto


Elaborado por Roberto Salazar, Ingeniero Industrial y de Sistemas de la Universidad de Monterrey y Master of Science in Industrial & Systems Engineering de Binghamton University. Posee una vasta experiencia en data analytics, machine learning, e investigación de procesos.

Fuente. Traducido por Sebastian Zambrano.