Fine-tuning de un Modelo de Lenguaje Largo para la clasificación de Curriculums Vitae
DOI:
https://doi.org/10.17268/scien.inge.2025.02.02Palabras clave:
Procesamiento del Lenguaje Natural, Modelo de Lenguaje Largo, Fine-tuning, Clasificación de textos, Curriculum VitaeResumen
Este trabajo tuvo por principal objetivo clasificar curriculums vitae respecto al área de profesión, tarea importante en la gestión de recursos humanos y captación de personal. Esta investigación busca explorar las capacidades de clasificación de los Modelos de Lenguaje Largo (MLL) realizando un análisis comparativo versus métodos tradicionales de Machine Learning. Para lograr tal objetivo se empleó la técnica de fine-tuning al Modelo de Lenguaje Largo pre-entrenado por Google en el idioma inglés llamado BERT BASE UNCASED empleando un dataset de más de 3 mil currículums vitae de 25 áreas de profesión y 3 épocas de entrenamiento contra los modelos tradicionales Random Forest, SVM, Logistic Regression y Naive Bayes Multinomial. La metodología está compuesta por 7 etapas esenciales para adaptar un modelo pre-entrenado en una tarea específica asegurando su óptimo performance. La investigación proporciona un análisis comparativo enfocándose en las métricas Exactitud, F1-score, Precisión y Recall. Los resultados más importantes obtenidos fueron 83,0% de Exactitud y 82,3% de Precisión para el modelo base de Google y 82,8% de F1-score y 86,2% de Recall para Naive Bayes Multinomial revelando que el modelo base de Google tiene un buen desempeño prediciendo la clasificación de currículum vitae mientras que Naive Bayes Multinomial es mejor para detectar la mayoría de casos positivos. Esta investigación no solo contribuye mostrando el desempeño de los MLL para la tarea de clasificación en contraste con sus pares de Machine Learning tradicional, sino que adicionalmente ofrece un enfoque innovador para las prácticas de gestión de recursos humanos y captación de personal.
Citas
Carlini, N., Tramèr, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., Roberts, A., Brown, T., Song, D., Erlingsson, Ú., Oprea, A., & Raffel, C. (2021). Extracting Training Data from Large Language Models.
Devlin, J., Chang, M., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. En J. Burstein, C. Doran, & T. Solorio (Eds.), Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (pp. 4171-4186). Association for Computational Linguistics. https://doi.org/10.18653/v1/N19-1423
Heakl, A., Mohamed, Y., Mohamed, N., Elsharkawy, A., & Zaky, A. (2024). ResuméAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models. Procedia Computer Science, 244, 158-165. https://doi.org/10.1016/j.procs.2024.10.189
Instituto de Estadística de la UNESCO. (2013). Clasificación Internacional Normalizada de la Educación (CINE) 2011 (Revisión 2). Instituto de Estadística de la UNESCO. https://doi.org/10.15220/978-92-9189-129-0-spa
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach (arXiv:1907.11692). arXiv. https://doi.org/10.48550/arXiv.1907.11692
López, D. (2024). Evaluación de rendimiento de diferentes modelo grandes de lenguaje para el reconocimiento de emociones en texto [Universidad EAFIT]. https://hdl.handle.net/10784/35404
mitsmrmex. (2024, enero 4). 5 pasos para redactar un CV con ayuda de la IA fácilmente. MIT Sloan Management Review Mexico. https://mitsloanreview.mx/data-ia-machine-learning/5-pasos-para-usar-la-ia-y-crear-un-cv-que-impactara-a-cualquier-reclutador/
Oliveira, A., Bessa, R., & Teles, A. (2024). Análisis comparativo de modelos de lenguaje basados en BERT y generativos amplios para la detección de ideación suicida: Un estudio de evaluación del desempeño. Cadernos de Saúde Pública, 40, e00028824. https://doi.org/10.1590/0102-311XEN028824
Parthasarathy, V., Zafar, A., Khan, A., & Shahid, A. (2024). The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities (arXiv:2408.13296). arXiv. https://doi.org/10.48550/arXiv.2408.13296
Seagate-WP-DataAge2025-March-2017.pdf. (s. f.). Recuperado 7 de enero de 2024, de https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf
Wu, Y., & Wan, J. (2025). A survey of text classification based on pre-trained language model. Neurocomputing, 616, 128921. https://doi.org/10.1016/j.neucom.2024.128921
Yu, H., Yang, Z., Pelrine, K., Godbout, J., & Rabbany, R. (2023). Open, Closed, or Small Language Models for Text Classification? (arXiv:2308.10092). arXiv. https://doi.org/10.48550/arXiv.2308.10092
Zhao, W., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Min, Y., Zhang, B., Zhang, J., Dong, Z., Du, Y., Yang, C., Chen, Y., Chen, Z., Jiang, J., Ren, R., Li, Y., Tang, X., Liu, Z., … Wen, J.-R. (2023). A Survey of Large Language Models (arXiv:2303.18223). arXiv. http://arxiv.org/abs/2303.18223
Descargas
Publicado
Cómo citar
Número
Sección
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado