Se espera crear un modelo para predecir las habilidades más demandadas en el mercado laboral. Esto puede ayudar a los profesionales, estudiantes y la industria en general a tomar decisiones informadas sobre qué habilidades desarrollar y mejorar.
El objetivo principal del proyecto es analizar las ofertas laborales en el campo de los datos y con el propósito de identificar patrones y tendencias que revelen las habilidades más demandadas en el mercado laboral actual. Esta investigación puede ayudar a las personas interesadas en este ámbito o que quieran meterse a este, ayudando a determinar si es la predicción deseada como una decisión laboral. Todo esto mediante el dataset de kaggle Data Jobs Listings – Glassdoor.
-
EDA_project.ipynb: Esta todo el analisis exploratorio de las tablas usadas que son “glassdoor.csv”, “glassdoor_benefits_highlights.csv” y “glassdoor_salary_salaries.csv” (descargar estos csv para la ejecucion del codigo).
-
ETL_project.pdf: Es el documento en el cual estan descritas las fases realizadas y explicadas a detalles.
-
dataJobs_script.py: Este el codigo principal en el que se realizo la conexion a postgresql, se cargaron los datos a la BD, se reemplazaron los valores nulos en algunas columnas, campos vacios y normalizaciones para los titulos del trabajo.
-
df_tocsv_and_transfomations.py: Aqui se tuvo que usar pandas para poder incrustar correctamente el csv y donde se realizo la mayor transformación de datos para la normalizacion del jobTitle.
-
dimesions_script.py: Aqui se hace la inserción de datos en las ds dimensiones que se va a hacer uso mas en el futuro del proyecto.
-
project_dashboard.pdf: Es el dashboard que realice en power bi, con tres graficas por ahora.
- Clone el repositorio con
https://github.com/VinkeArtunduaga/dataJobs_project.git
- Instale python 3.11
- Instale la base de datos PostgreSQL
- Para las librerias es necesario hacer
pip install psycopg2
,pip install pandas
y seran instaladas, tambien se usan json y csv pero se supone que estan predeterminadas. - Crear un usuario y contraseña para el uso de postgreSQL
- Crear una database en pgAdmin 4 llamada ETL (asi fue como le puse el nombre a la mia pero se puede cambiar)
- Cambie las configuraciones de la conexion a la base de datos segun el usuario, contraseña y database asignados
- Corra primero el codigo de df_tocsv_and_transformations.py en la terminal mediante
python df_tocsv_and_transformations.py
- Luego
python dataJobs_script.py
para de esta manera crear la tabla principal con sus normalizaciones y limpieza de nulos. - Para luego correr el de la creacion de las dimesiones
python dimensions_script.py
- Descargar Jupyter para mas facilidad con Jupyter lab
- Al ya tener descargadas las librerias de json y pandas o no haber podido ser instaladas ejecutar en la terminal
pip install pandas
ypip install json
- Cambiar la direccion de donde se encuentran los archivos csv de glassdoor.csv, glassdoor_benefits_highlights.csv y glassdoor_salary_salaries.csv.
- Al ejecutar cada uno de los bloques o de corrido deberia apreciarse el analisis.
Leave a Reply