Breve Introducción a la Minería de Textos
El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácti...
Guardado en:
| Autor principal: | |
|---|---|
| Formato: | Objeto de aprendizaje Clase |
| Lenguaje: | Español |
| Publicado: |
2024
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/171646 |
| Aporte de: |
| id |
I19-R120-10915-171646 |
|---|---|
| record_format |
dspace |
| spelling |
I19-R120-10915-1716462024-10-20T13:59:54Z http://sedici.unlp.edu.ar/handle/10915/171646 Breve Introducción a la Minería de Textos Nusch, Carlos Javier 2024-10-01 2024-10-18T12:38:11Z es Informática Humanidades Procesamiento del Lenguaje Natural (PLN) Minería de textos Análisis automático de textos NLTK spaCy Latent Dirichlet Allocation (LDA) El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácticos, nubes de palabras y modelado de tópicos. El curso cubre varios términos clave, incluyendo análisis automático de textos, minería de textos y lingüística de corpus, que estudia grandes colecciones de textos para identificar patrones en el uso del lenguaje. Además, se abordan conceptos relacionados como recuperación de la información, aprendizaje automático y profundo. El curso destaca las aplicaciones prácticas del PLN en la vida cotidiana, como los asistentes virtuales, la traducción automática, el análisis de sentimientos y los sistemas de recomendación, y se presenta una breve historia de los hitos del PLN, desde los primeros sistemas basados en reglas hasta los avances modernos con transformers como BERT y GPT. Los temas dados incluyen el preprocesamiento del texto (tokenización, eliminación de palabras vacías, lematización), técnicas de vectorización como Bag of Words y TF-IDF, y análisis más avanzados como etiquetado de partes del discurso y detección de entidades nombradas. En el módulo de minería de textos, se exploran etapas como el enriquecimiento (añadir metadatos), la extracción de características y la aplicación de modelos estadísticos o de aprendizaje automático. También se introduce el modelado de tópicos mediante Latent Dirichlet Allocation (LDA) y su utilidad para identificar temas ocultos en grandes corpus de documentos. Curso dictado en el marco del VI Congreso Internacional de la Asociación Argentina de Humanidades Digitales. Humanos que piensan con máquinas. (Resistencia, 2024) Dirección PREBI-SEDICI Objeto de aprendizaje Clase http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf |
| institution |
Universidad Nacional de La Plata |
| institution_str |
I-19 |
| repository_str |
R-120 |
| collection |
SEDICI (UNLP) |
| language |
Español |
| topic |
Informática Humanidades Procesamiento del Lenguaje Natural (PLN) Minería de textos Análisis automático de textos NLTK spaCy Latent Dirichlet Allocation (LDA) |
| spellingShingle |
Informática Humanidades Procesamiento del Lenguaje Natural (PLN) Minería de textos Análisis automático de textos NLTK spaCy Latent Dirichlet Allocation (LDA) Nusch, Carlos Javier Breve Introducción a la Minería de Textos |
| topic_facet |
Informática Humanidades Procesamiento del Lenguaje Natural (PLN) Minería de textos Análisis automático de textos NLTK spaCy Latent Dirichlet Allocation (LDA) |
| description |
El presente curso se enfoca en enseñar los fundamentos del procesamiento de lenguaje natural (PLN), minería y análisis automático de textos. A lo largo del curso, los estudiantes aprenderán técnicas básicas y se familiarizarán con herramientas de Python como NLTK y spaCy. Se ejecutan ejemplos prácticos, nubes de palabras y modelado de tópicos.
El curso cubre varios términos clave, incluyendo análisis automático de textos, minería de textos y lingüística de corpus, que estudia grandes colecciones de textos para identificar patrones en el uso del lenguaje. Además, se abordan conceptos relacionados como recuperación de la información, aprendizaje automático y profundo.
El curso destaca las aplicaciones prácticas del PLN en la vida cotidiana, como los asistentes virtuales, la traducción automática, el análisis de sentimientos y los sistemas de recomendación, y se presenta una breve historia de los hitos del PLN, desde los primeros sistemas basados en reglas hasta los avances modernos con transformers como BERT y GPT.
Los temas dados incluyen el preprocesamiento del texto (tokenización, eliminación de palabras vacías, lematización), técnicas de vectorización como Bag of Words y TF-IDF, y análisis más avanzados como etiquetado de partes del discurso y detección de entidades nombradas.
En el módulo de minería de textos, se exploran etapas como el enriquecimiento (añadir metadatos), la extracción de características y la aplicación de modelos estadísticos o de aprendizaje automático. También se introduce el modelado de tópicos mediante Latent Dirichlet Allocation (LDA) y su utilidad para identificar temas ocultos en grandes corpus de documentos. |
| format |
Objeto de aprendizaje Clase |
| author |
Nusch, Carlos Javier |
| author_facet |
Nusch, Carlos Javier |
| author_sort |
Nusch, Carlos Javier |
| title |
Breve Introducción a la Minería de Textos |
| title_short |
Breve Introducción a la Minería de Textos |
| title_full |
Breve Introducción a la Minería de Textos |
| title_fullStr |
Breve Introducción a la Minería de Textos |
| title_full_unstemmed |
Breve Introducción a la Minería de Textos |
| title_sort |
breve introducción a la minería de textos |
| publishDate |
2024 |
| url |
http://sedici.unlp.edu.ar/handle/10915/171646 |
| work_keys_str_mv |
AT nuschcarlosjavier breveintroduccionalamineriadetextos |
| _version_ |
1826544429298614272 |