Volver al sitio principal Libros
Libro

Notas de Procesamiento de Lenguaje Natural

De fundamentos clásicos a modelos neuronales y LLMs

Texto de acceso abierto orientado a la enseñanza del procesamiento del lenguaje natural, desde métodos clásicos hasta transformers, LLMs, RAG, alineación y riesgos éticos.

Este libro surge de varios años de docencia en cursos introductorios de procesamiento del lenguaje natural para estudiantes de ingeniería. Su propósito es ofrecer un recorrido coherente, riguroso y pedagógico que conecte la tradición estadística del área con los modelos neuronales y los grandes modelos de lenguaje.

Tópicos que aborda el libro

  • Introducción al PLN
  • Pipeline y preprocesamiento de texto
  • Recuperación de información
  • Evaluación de sistemas de IR
  • Modelos de lenguaje n-grama
  • Clasificación de texto y análisis de sentimientos
  • Semántica vectorial e incrustaciones
  • Redes feedforward para lenguaje
  • RNN y LSTM
  • Encoder-decoder y tokenización de subpalabras
  • Transformer
  • MLM y BERT
  • LLMs y fine-tuning eficiente
  • Prompting, RAG y alineación
  • Ética, riesgos e implicaciones del PLN y los LLMs

Estructura del contenido

Parte I. Fundamentos y técnicas clásicas

  1. Introducción al PLN
  2. Pipeline y preprocesamiento
  3. Recuperación de información
  4. Evaluación de IR
  5. Modelos n-grama
  6. Clasificación de texto
  7. Semántica vectorial e incrustaciones

Parte II. Modelos neuronales y LLMs

  1. Feedforward para lenguaje
  2. RNN y LSTM
  3. Encoder-decoder y subpalabras
  4. Transformer
  5. MLM y BERT
  6. LLMs y PEFT
  7. Prompting, RAG y alineación

Parte III. Aspectos éticos y riesgos

  1. Ética y riesgos

Prefacio

Escribir un libro sobre procesamiento del lenguaje natural en la actualidad puede parecer una decisión difícil de justificar. La disciplina cuenta con textos de referencia consolidados y, además, vivimos en una época en la que los modelos de inteligencia artificial pueden responder preguntas y producir explicaciones casi de manera instantánea.

Sin embargo, este libro no nació para reemplazar obras existentes ni para competir con dichas herramientas. Surgió como resultado de una necesidad docente. Durante varios años, las notas de clase fueron creciendo, reorganizándose y refinándose semestre tras semestre, hasta convertirse en un material estructurado para acompañar de manera progresiva el aprendizaje del área.

El texto busca ofrecer un recorrido coherente que permita comprender la evolución del campo, desde métodos clásicos basados en reglas y estadísticas hasta modelos neuronales, transformers y grandes modelos de lenguaje. Cada capítulo fue concebido como un peldaño para construir el siguiente, procurando que las ideas aparezcan en el momento en que resultan más naturales para el proceso de aprendizaje.

Otro objetivo central de esta obra es contribuir a la disponibilidad de material técnico de calidad en español. El libro intenta reducir la barrera adicional que enfrentan muchos estudiantes cuando deben aprender simultáneamente una disciplina técnica y estudiar en un idioma distinto. Por ello, se propone una exposición rigurosa, pero accesible, escrita íntegramente en español.

Si este material logra facilitar el aprendizaje de nuevos estudiantes, servir como apoyo para docentes y ampliar modestamente la literatura técnica disponible en nuestra lengua, entonces habrá cumplido su propósito.

Rubén Manrique