Modelados de Tópicos. Clasificación no supervisada con LDA

El modelado de tópicos es una técnica avanzada de recuperación de información que automáticamente encuentra los temas generales en un conjunto de documentos de texto. Intenta encontrar temáticas implícitas en un conjunto de textos, permitiendo así organizar, comprender, buscar y resumir automáticam...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Gogni, Valeria, Bianco, María José
Formato:	video
Lenguaje:	Español
Publicado:	2020
Materias:	Tópicos Modelado Algoritmo Variables latentes Covid 19
Acceso en línea:	http://hdl.handle.net/11086/16847
Aporte de:	Repositorio Digital Universitario (UNC) de Universidad Nacional de Córdoba

id	I10-R14111086-16847
record_format	dspace
institution	Universidad Nacional de Córdoba
institution_str	I-10
repository_str	R-141
collection	Repositorio Digital Universitario (UNC)
language	Español
topic	Tópicos Modelado Algoritmo Variables latentes Covid 19
spellingShingle	Tópicos Modelado Algoritmo Variables latentes Covid 19 Gogni, Valeria Bianco, María José Modelados de Tópicos. Clasificación no supervisada con LDA
topic_facet	Tópicos Modelado Algoritmo Variables latentes Covid 19
description	El modelado de tópicos es una técnica avanzada de recuperación de información que automáticamente encuentra los temas generales en un conjunto de documentos de texto. Intenta encontrar temáticas implícitas en un conjunto de textos, permitiendo así organizar, comprender, buscar y resumir automáticamente gran cantidad de archivos electrónicos. Busca reducir la matriz de termino-documento, difícil de procesar debido a su tamaño, a un subespacio de menor dimensión que capture la mayor parte de la varianza en un set de textos y en consecuencia poder agruparlos. Existen diversos algoritmos para implementar esta técnica, siendo los más referenciados: LDA (Latent Dirichlet Allocation), LSI (Latent Semantic Indexing) HDP (Hierarchical Dirichlet Process). LDA es una herramienta potente a la hora de determinar variables ocultas en grandes volúmenes de texto, siendo uno de los métodos más relevantes en clasificación no supervisada. Pertenece a la familia de modelos generativos probabilísticos donde mediante un proceso generativo se define una distribución conjunta de probabilidad sobre las variables latentes y observables y se pretende calcular la probabilidad condicional de las variables latentes dadas las variables observables, es decir, la distribución a posteriori. Para calcular la probabilidad a posteriori se aplica el algoritmo Gibbs Sampling que aproxima una distribución muestreando subconjuntos de variables con baja dimensionalidad, donde cada subconjunto está condicionado por los valores de los otros. Se itera secuencialmente hasta que la aproximación converge a un valor próximo a la distribución original. Su mayor ventaja reside en que las variables latentes representan la estructura temática de dichos documentos permitiendo así, realizar una clasificación en forma automática. El objetivo de este trabajo es aplicar el algoritmo LDA a un conjunto de documentos periodísticos nacionales de actualidad relacionados a la temática de COVID-19 identificando tópicos implícitos que nos permitan comprender y resumir automáticamente la información.
format	video
author	Gogni, Valeria Bianco, María José
author_facet	Gogni, Valeria Bianco, María José
author_sort	Gogni, Valeria
title	Modelados de Tópicos. Clasificación no supervisada con LDA
title_short	Modelados de Tópicos. Clasificación no supervisada con LDA
title_full	Modelados de Tópicos. Clasificación no supervisada con LDA
title_fullStr	Modelados de Tópicos. Clasificación no supervisada con LDA
title_full_unstemmed	Modelados de Tópicos. Clasificación no supervisada con LDA
title_sort	modelados de tópicos. clasificación no supervisada con lda
publishDate	2020
url	http://hdl.handle.net/11086/16847
work_keys_str_mv	AT gognivaleria modeladosdetopicosclasificacionnosupervisadaconlda AT biancomariajose modeladosdetopicosclasificacionnosupervisadaconlda
bdutipo_str	Repositorios
_version_	1764820393632202755

Modelados de Tópicos. Clasificación no supervisada con LDA

Ejemplares similares