SCIÉNDO INGENIUM  
ISSN 3084-7788 (En línea) Scién. inge. 21(2): 33-40, (2025)  
Fine-tuning de un Modelo de Lenguaje Largo para la clasificación de  
Curriculums Vitae  
Fine-tuning a Long Language Model for Curriculum Vitae Classification  
Juan Diego Salcedo-Salazar *  
Programa de Maestría en Ingeniería de Sistemas e Informática. Facultad de Ingeniería de Sistemas e Informática,  
Universidad Nacional Mayor de San Marcos, Av. Carlos Germán Amezaga #375 - Cercado de Lima - Ciudad  
Universitaria, Lima Perú.  
* Autor correspondiente: juan.salcedos@unmsm.edu.pe (J. Salcedo-Salazar)  
RESUMEN  
Este trabajo tuvo por principal objetivo clasificar curriculums vitae respecto al área de profesión, tarea  
importante en la gestión de recursos humanos y captación de personal. Esta investigación busca explorar las  
capacidades de clasificación de los Modelos de Lenguaje Largo (MLL) realizando un análisis comparativo  
versus métodos tradicionales de Machine Learning. Para lograr tal objetivo se empleó la técnica de fine-  
tuning al Modelo de Lenguaje Largo pre-entrenado por Google en el idioma inglés llamado BERT BASE  
UNCASED empleando un dataset de más de 3 mil currículums vitae de 25 áreas de profesión y 3 épocas de  
entrenamiento contra los modelos tradicionales Random Forest, SVM, Logistic Regression y Naive Bayes  
Multinomial. La metodología está compuesta por 7 etapas esenciales para adaptar un modelo pre-entrenado  
en una tarea específica asegurando su óptimo performance. La investigación proporciona un análisis  
comparativo enfocándose en las métricas Exactitud, F1-score, Precisión y Recall. Los resultados más  
importantes obtenidos fueron 83,0% de Exactitud y 82,3% de Precisión para el modelo base de Google y  
82,8% de F1-score y 86,2% de Recall para Naive Bayes Multinomial revelando que el modelo base de  
Google tiene un buen desempeño prediciendo la clasificación de currículum vitae mientras que Naive Bayes  
Multinomial es mejor para detectar la mayoría de casos positivos. Esta investigación no solo contribuye  
mostrando el desempeño de los MLL para la tarea de clasificación en contraste con sus pares de Machine  
Learning tradicional, sino que adicionalmente ofrece un enfoque innovador para las prácticas de gestión de  
recursos humanos y captación de personal.  
Palabras clave: Procesamiento del Lenguaje Natural; Modelo de Lenguaje Largo; Fine-tuning; Clasificación  
de textos; Curriculum Vitae.  
ABSTRACT  
The main objective of this work was to classify resumes according to their professional area, an important  
task in human resources management and personnel recruitment. This research seeks to explore the  
classification capabilities of Large Language Models (LLM) by performing a comparative analysis versus  
traditional Machine Learning methods. To achieve this objective, a fine-tuning technique was used on the  
Long Language Model pre-trained by Google in English called BERT BASE UNCASED using a dataset of  
more than 3,000 resumes from 25 professional areas and 3 training epochs against traditional Random Forest,  
SVM, Logistic Regression, and Naive Bayes Multinomial models. The methodology consists of 7 essential  
stages to adapt a pre-trained model to a specific task, ensuring optimal performance. The research provides a  
comparative analysis focusing on the metrics Accuracy, F1-score, Precision, and Recall. The most significant  
results obtained were 83,0% Accuracy and 82.3% Precision for the base Google model, and 82.8% F1-score  
and 86,2% Recall for the Naive Bayes Multinomial model, revealing that the base Google model performs  
well in predicting resume classification, while Naive Bayes Multinomial is better at detecting the majority of  
positive cases. This research not only contributes by showing the performance of MLLs for the classification  
task in contrast to their traditional Machine Learning peers, but also offers an innovative approach to human  
resource management and staff recruitment practices.  
Keywords: Natural Language Processing; Large Language Model; Fine-tuning, Text Classification; Resume.  
Fecha de envío: 27-12-2024  
Fecha de aceptación: 20-06-2025  
Fecha de publicación: 28-07-2025  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
1. INTRODUCCIÓN  
Para el 2025 la International Data Corporation (IDC) pronosticó que el 80% de la data de una empresa será  
no estructurada, según el white paper patrocinado por Seagate (Seagate-WP-DataAge2025-March-2017.pdf,  
s. f.). Parte de la información no estructurada de la que nos habla IDC está contenida en los curriculum vitae  
(CV) de sus empleados y candidatos a un puesto laboral, documento que contiene información de  
experiencias laborales y habilidades profesionales.  
Grandes plataformas de empleo en el Perú como Computrabajo indica en su sitio web tener registrado más de  
7.5 millones de CVs, Laborum más de 200 mil currículums en su base de datos y el portal de trabajo del  
Ministerio de Trabajo reporta un poco más de 1300 ofertas de empleo tanto para el sector privado como  
estatal.  
Para cada puesto laboral los jefes de contratación tienen la ardua tarea de analizar los CVs de los candidatos  
para extraer la información relevante, labor que puede tomar mucho tiempo y muchas veces los candidatos no  
cumplen con los requisitos mínimos solicitados. Esta pérdida de tiempo y recurso humano abre la puerta a la  
automatización debido a que no existe una regla o estructura básica para la redacción de un CV. En un intento  
por facilitar la construcción de CVs se han desarrollado herramientas basadas en Inteligencia Artificial para la  
construcción del mismo (mitsmrmex, 2024)cada una con sus propias estructuras y diferente a otras.  
La clasificación de texto es una técnica que se ha aplicado ampliamente en la recuperación de información, la  
minería de datos y el procesamiento del lenguaje natural (PLN) (Wu & Wan, 2025). En los inicios se utilizaron  
métodos basados en reglas y expresiones regulares, luego cambió hacia métodos de machine learning  
avanzando a redes neuronales profundas (Yu et al., 2023), y recientemente esta tarea es abordada por los MLL  
que son Modelos de Lenguaje cuyo objetivo es modelar la probabilidad generativa de una secuencia de palabras  
con el fin de predecir la siguiente (Zhao et al., 2023). Estos MLL modernos basados en redes neuronales utilizan  
arquitecturas de modelos muy grandes y se entrenan con conjuntos de datos masivos, son fundamentales para  
muchas tareas de procesamiento de lenguaje natural (PLN) (Carlini et al., 2021).  
El objetivo del presente artículo fue clasificar CVs respecto al área de profesión, para lo cual se empleó la  
técnica de Fine-tuning de tipo Supervisado al modelo de lenguaje largo BERT BASE UNCASED (Devlin  
et al., 2019) con un datasets de 3573 registros únicos a través de 3 épocas de entrenamiento.  
2. METODOLOGÍA  
La decisión de utilizar el método de fine-tuning sobre prompt engineering está basada en la tesis de (López,  
2024) que tiene por objetivo evaluar diferentes MLL para la clasificación de emociones en textos cortos,  
donde se utilizaron 5 modelos basados en BERT, 4 basados en claude, 3 en llama, 2 gemini y 2 gpt. La  
principal métrica de evaluación utilizada fue F1-score, donde se obtuvo 0,76729 de puntaje para el método  
prompt engineering y 0,81505 de puntaje para el método fine-tuning.  
Se seleccionó la metodología basada en la propuesta por (Parthasarathy et al., 2024) la cual está divida en 7  
etapas (Figura 1), esenciales para adaptar un modelo pre-entrenado en una tarea específica asegurando su  
óptimo performance, estas etapas son 1 Preparación del Dataset, 2 Inicialización del modelo, 3 Configuración  
del entorno de entrenamiento, 4 Fine-tuning parcial o total, 5 Evaluación y validación, 6 Despliegue, 7  
Monitoreo y mantenimiento.  
Es importante mencionar que las etapas 6 Despliegue y 7 Monitoreo y mantenimiento que implican una  
puesta en producción, no forma parte del alcance presente trabajo de investigación.  
Figura 1. Proceso de Fine-tuning de siete etapas para Modelos de Lenguaje Largo.  
34  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
2.1. Etapa 1: Preparación del Dataset  
2.1.1. Recolección de datos  
Las plataformas de Machine Learning Kaggle y Hugging Face fueron utilizadas como fuentes de datos Tabla  
1.  
Tabla 1. Fuente de datos  
Plataforma  
Nro. Registros  
2484  
Kagle Dataset  
Hugging Face Dataset  
1219  
Total  
3703  
2.1.2.  
Limpieza de datos  
El principal desafío presentado en esta etapa fue la unificación de áreas de profesión Tabla 2, 11 clases con  
nombres distintos. Aunque estaban relacionadas al mismo tema, en un dataset estaba nombrado como un  
adjetivo mientras que en el otro dataset eran sustantivos, las palabras contenían guiones y otros se referían al  
título del profesional en lugar del área de profesión. Se unificó seleccionando la palabra o palabras más  
representativas del área de profesión. Obteniendo un total de 25 áreas de profesión (Figura 2).  
Tabla 2. Diferencias entre nombre de profesiones de datasets y su unificación  
Kagle  
AGRICULTURE  
Hugging Face  
AGRICULTURAL  
Dataset Final  
AGRICULTURAL  
BUSINESS-DEVELOPMENT  
CHEF  
BUSINESS DEVELOPMENT  
FOOD & BEVERAGES  
BUILDING & CONSTRUCTION  
DESIGNING  
BUSINESS DEVELOPMENT  
FOOD & BEVERAGES  
BUILDING & CONSTRUCTION  
DESIGNING  
CONSTRUCTION  
DESIGNER  
DIGITAL-MEDIA  
FITNESS  
DIGITAL MEDIA  
DIGITAL MEDIA  
HEALTH & FITNESS  
HEALTH & FITNESS  
EDUCATION  
HEALTH & FITNESS  
HEALTH & FITNESS  
EDUCATION  
HEALTHCARE  
TEACHER  
INFORMATION-TECHNOLOGY  
PUBLIC-RELATIONS  
INFORMATION TECHNOLOGY  
PUBLIC RELATIONS  
INFORMATION TECHNOLOGY  
PUBLIC RELATIONS  
Nota. Para la unificación se respetaron los nombres más generales y se eliminaron los guiones.  
35  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
Figura 2. Áreas de profesión  
Después del proceso de eliminación de registros duplicados se obtuvo un total de 3573 de registros.  
2.1.3. División de datos  
Se utilizó la técnica de división de datos llamada train-validation-test, y se seleccionó 70% para  
entrenamiento, 21% para validación y 9% para test.  
2.2. Etapa 2: Inicialización del modelo  
2.2.1.  
Elección del modelo pre-entrenado  
Bidirectional Encoder Representations from Transformers (BERT) es conceptualmente simple, se le puede  
aplicar fine-tuning con solo una capa adicional de salida para crear modelos de última generación para  
resolver tareas como respuestas a preguntas e inferencias del lenguaje sin grandes modificaciones (Devlin  
El estudio realizado por (Oliveira et al., 2024) en Brasil indica que los modelos basados en BERT logran un  
mejor rendimiento en las pruebas de clasificación de textos.  
El modelo supervisado réplica de BERT llamado RoBERTa (Liu et al., 2019), ha demostrado superior  
performance en tareas de clasificación sobre otros modelos de lenguaje largo, tanto de tipo open-source como  
modelos cerrados (Yu et al., 2023).  
Los antecedentes de buen performance, bajo coste computacional y sencilla aplicación de fine-tuning hacen  
que la elección de un modelo basado en BERT sea una decisión acertada para abordar tareas de clasificación.  
El modelo basado en BERT seleccionado fue BERT BASE UNCASED pre-entrenado en el idioma inglés,  
acorde al dataset preparado en el mismo idioma y la característica UNCASED nos garantiza que no hará  
distinción entre mayúsculas y minúsculas, esta característica es congruente a la diversidad de CVs  
seleccionados.  
2.2.2.  
Carga de pesos de modelo pre-entrenado  
La carga del modelo BERT BASE UNCASED se realizó utilizando la librería transformer importando la  
clase BertForSequenceClassification y ejecutando el método from_pretrained, donde se cargó el nombre del  
36  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
modelo ‘bert-base-uncased’ y el número de labels igual a 25, que representan las áreas de profesión como  
objetivo de clasificación.  
2.3. Etapa 3: Configuración del entorno de entrenamiento  
2.3.1.  
Entorno de entrenamiento  
El entorno seleccionado para el entrenamiento fue la plataforma Codelab de Google, dentro de su capa gratis  
de uso con las siguientes características:  
Tabla 3. Resumen de las características del entorno de entrenamiento  
Característica  
Detalle  
Tipo de entorno  
Python 3  
Acelerador de Hardware  
T4 GPU  
RAM del sistema  
RAM de GPU  
Disco  
14 GB  
15 GB  
145 GB  
2.3.2.  
Definición de HiperParámetros  
Los hiperparámetros utilizados para el entrenamiento del modelo fueron los siguientes:  
Tabla 4. Resumen de hiperparámetros utilizados para el entrenamiento  
Hiperparámetro  
Estrategia de evaluación  
Valores  
Épocas  
3
Número de épocas  
Learning rate  
2e-5  
500  
SÍ  
Pasos de evaluación  
Dataset de entrenamiento  
Dataset de evaluación  
Métricas de evaluación  
SÍ  
accuracy, f1-score, precision, recall  
2.4. Etapa 4: Fine-tuning parcial o total  
Se utilizó un fine-tuning total de todos los parámetros del modelo, esto garantiza una adaptación total a la  
2.5. Etapa 5: Evaluación y validación  
2.5.1.  
Métricas de evaluación  
37  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
Tabla 5. Métricas de evaluación del modelo durante el entrenamiento  
Época  
Accuracy  
0,81  
F1-Score  
0,78  
Precision  
0,80  
Recall  
0,81  
1
2
3
0,82  
0,80  
0,80  
0,82  
0,83  
0,81  
0,81  
0,83  
Tabla 6. Métricas de evaluación posteriores al entrenamiento  
Métrica  
Épocas  
Valor  
3
Accuracy  
F1-Score  
Precision  
0,830  
0,814  
0,823  
0,830  
Recall  
Nota. Se utiliza el dataset de test.  
3. RESULTADOS Y DISCUSIÓN  
3.1. Métricas de evaluación con dataset de test  
3.1.1.  
Accuracy (eval_accuracy): 0,830  
La exactitud es una métrica clave en clasificación, que indica qué porcentaje de las predicciones realizadas  
por el modelo fueron correctas. Un valor de 83.04% muestra que más de 8 de cada 10 predicciones son  
correctas. Este valor sugiere que el modelo ha aprendido a clasificar con un alto grado de precisión.  
3.1.2.  
F1-Score (eval_f1): 0,814  
F1-score es una medida de la media armónica entre la precisión y el recall, y es especialmente útil cuando  
hay un desequilibrio entre clases. En modelos de clasificación, un F1-score cercano a 1 es ideal. un valor de  
0.8142 es una buena señal de que el modelo mantiene un balance adecuado entre precisión y recall.  
3.1.3.  
Precisión (eval_precision): 0,823  
La precisión indica cuántas de las instancias clasificadas como positivas son realmente positivas. Un valor de  
82,37% sugiere que el modelo está realizando un buen trabajo al identificar correctamente las clases  
positivas, pero aún podría reducir algunos falsos positivos.  
3.1.4.  
Recall (eval_recall): 0,830  
El recall es una métrica que indica qué porcentaje de las instancias realmente positivas fueron correctamente  
identificadas por el modelo. En este caso, un recall del 83,04% es bastante bueno y está en línea con la  
precisión, lo que sugiere que el modelo está capturando correctamente las instancias positivas sin dejar  
demasiadas sin clasificar.  
Se presenta una comparativa en la Tabla 6 entre las métricas obtenidas, exactitud, F1-score, precisión y  
recall, por modelo entrenado en esta investigación y modelos tradicionales de machine learning como  
38  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
Random Forest, SVM, Logistic Regression y Naive Bayes Multinomial con valores presentados en la  
investigación de (Heakl et al., 2024).  
Tabla 7. Resultados comparativos  
Modelo  
Random Forest  
Exactitud(%)  
78,5  
F1-score(%)  
78,6  
Precisión(%)  
75,2  
Recall(%)  
82,1  
SVM  
79,2  
80,0  
76,5  
83,5  
Logistic Regression  
Naive Bayes Multinomial  
Propuesta  
79,8  
80,6  
77,1  
84,2  
81,6  
82,8  
79,5  
86,2  
83,0  
81,4  
82,3  
83,0  
Podemos identificar que nuestro modelo presenta valores remarcables para Exactitud y precisión con 83,0%  
y 82,3% respectivamente, mientras que el modelo Naive Bayes Multinomial presenta las mejores métricas  
para F1-score y Recall con 82,8% y 86,2% respectivamente.  
4.  
CONCLUSIONES  
El modelo pre entrenado utilizado como base es BERT UNCASED BASE proporcionado por Google a  
través de la plataforma Hugging Face. El conjunto de datos utilizado tuvo un tamaño de 3573 CVs, los cuales  
fueron empleados durante la etapa de Fine Tuning a lo largo de 3 épocas.  
Al comparar el modelo propuesto contra modelos tradicionales de machine learning como Random Forest,  
SVM, Logistic Regression y Naive Bayes Multinomial, se observó que el modelo propuesto presenta las  
mejores métricas para exactitud de 83,0% y precisión con 82,3%, estos valores indican que el modelo tiene  
un desempeño competitivo en la tarea de clasificación de currículums vitae por área de profesión, subrayando  
el potencial de los MLL para tareas que requieran procesamiento de texto no estructurado con alta  
variabilidad, como lo son los CVs.  
Al considerar escenarios donde el volumen de postulaciones es elevado y el tiempo disponible para revisión  
manual es limitado, como ocurre en grandes plataformas de empleo y convocatorias masivas de personal se  
hace aún más evidente la relevancia de estos hallazgos. En estos escenarios, la implementación de soluciones  
automáticas de clasificación puede optimizar significativamente el trabajo de los departamentos de recursos  
humanos, reduciendo los tiempos de revisión, disminuyendo errores humanos y mejorando la calidad de la  
preselección. El uso de BERT, por su capacidad para capturar relaciones semánticas complejas y adaptarse  
con poco entrenamiento adicional, representa un avance importante frente a modelos tradicionales.  
Mientras que BERT es más equilibrado y preciso, Naive Bayes Multinomial puede ser mejor para maximizar  
la detección de posibles candidatos, lo cual puede ser valioso en etapas iniciales del proceso de selección  
donde se prioriza no excluir perfiles potencialmente válidos. Esta complementariedad abre la puerta al  
desarrollo de sistemas híbridos que combinen lo mejor de enfoques actuales con tradicionales.  
Esta investigación no solo contribuye al conocimiento técnico en torno a la eficacia de los MLL para  
clasificación de textos en el dominio de recursos humanos, sino que también propone una metodología  
replicable en otras industrias que gestionan grandes volúmenes de texto no estructurado. Podría extenderse al  
análisis automático de evaluación de cartas de presentación o segmentación de candidatos por habilidades  
blandas y técnicas, lo que demuestra una aplicabilidad transversal.  
Se recomienda utilizar un entorno de ejecución con mayores recursos, para permitir el aumento de los valores  
de los hiperparámetros tales como un número mayor de épocas. También utilizar la herramienta Optuna para  
realizar una búsqueda automatizada de hiperparámetros óptimos mediante condicionales y bucles.  
39  
Salcedo-Salazar, J.; Sciéndo ingenium, v. 21, n. 2, pp. 33 40, 2025.  
Extender la investigación con modelos pre entrenados en idioma español junto a un dataset en español  
habiendo sido clasificados según el Clasificación Internacional Normalizada de la Educación (Instituto de  
Estadística de la UNESCO, 2013) según el Instituto de Estadística de la UNESCO.  
REFERENCIAS BIBLIOGRÁFICAS  
López, D. (2024). Evaluación de rendimiento de diferentes modelo grandes de lenguaje para el  
40