SCIÉNDO INGENIUM
ISSN 3084-7788 (En línea) Scién. inge. 21(2): 33-40, (2025)
Fine-tuning de un Modelo de Lenguaje Largo para la clasificación de
Curriculums Vitae
Fine-tuning a Long Language Model for Curriculum Vitae Classification
Juan Diego Salcedo-Salazar *
Programa de Maestría en Ingeniería de Sistemas e Informática. Facultad de Ingeniería de Sistemas e Informática,
Universidad Nacional Mayor de San Marcos, Av. Carlos Germán Amezaga #375 - Cercado de Lima - Ciudad
Universitaria, Lima Perú.
* Autor correspondiente: juan.salcedos@unmsm.edu.pe (J. Salcedo-Salazar)
RESUMEN
Este trabajo tuvo por principal objetivo clasificar curriculums vitae respecto al área de profesión, tarea
importante en la gestión de recursos humanos y captación de personal. Esta investigación busca explorar las
capacidades de clasificación de los Modelos de Lenguaje Largo (MLL) realizando un análisis comparativo
versus métodos tradicionales de Machine Learning. Para lograr tal objetivo se empleó la técnica de fine-
tuning al Modelo de Lenguaje Largo pre-entrenado por Google en el idioma inglés llamado BERT BASE
UNCASED empleando un dataset de más de 3 mil currículums vitae de 25 áreas de profesión y 3 épocas de
entrenamiento contra los modelos tradicionales Random Forest, SVM, Logistic Regression y Naive Bayes
Multinomial. La metodología está compuesta por 7 etapas esenciales para adaptar un modelo pre-entrenado
en una tarea específica asegurando su óptimo performance. La investigación proporciona un análisis
comparativo enfocándose en las métricas Exactitud, F1-score, Precisión y Recall. Los resultados más
importantes obtenidos fueron 83,0% de Exactitud y 82,3% de Precisión para el modelo base de Google y
82,8% de F1-score y 86,2% de Recall para Naive Bayes Multinomial revelando que el modelo base de
Google tiene un buen desempeño prediciendo la clasificación de currículum vitae mientras que Naive Bayes
Multinomial es mejor para detectar la mayoría de casos positivos. Esta investigación no solo contribuye
mostrando el desempeño de los MLL para la tarea de clasificación en contraste con sus pares de Machine
Learning tradicional, sino que adicionalmente ofrece un enfoque innovador para las prácticas de gestión de
recursos humanos y captación de personal.
Palabras clave: Procesamiento del Lenguaje Natural; Modelo de Lenguaje Largo; Fine-tuning; Clasificación
de textos; Curriculum Vitae.
ABSTRACT
The main objective of this work was to classify resumes according to their professional area, an important
task in human resources management and personnel recruitment. This research seeks to explore the
classification capabilities of Large Language Models (LLM) by performing a comparative analysis versus
traditional Machine Learning methods. To achieve this objective, a fine-tuning technique was used on the
Long Language Model pre-trained by Google in English called BERT BASE UNCASED using a dataset of
more than 3,000 resumes from 25 professional areas and 3 training epochs against traditional Random Forest,
SVM, Logistic Regression, and Naive Bayes Multinomial models. The methodology consists of 7 essential
stages to adapt a pre-trained model to a specific task, ensuring optimal performance. The research provides a
comparative analysis focusing on the metrics Accuracy, F1-score, Precision, and Recall. The most significant
results obtained were 83,0% Accuracy and 82.3% Precision for the base Google model, and 82.8% F1-score
and 86,2% Recall for the Naive Bayes Multinomial model, revealing that the base Google model performs
well in predicting resume classification, while Naive Bayes Multinomial is better at detecting the majority of
positive cases. This research not only contributes by showing the performance of MLLs for the classification
task in contrast to their traditional Machine Learning peers, but also offers an innovative approach to human
resource management and staff recruitment practices.
Keywords: Natural Language Processing; Large Language Model; Fine-tuning, Text Classification; Resume.
Fecha de envío: 27-12-2024
Fecha de aceptación: 20-06-2025
Fecha de publicación: 28-07-2025