Desarrollo de un componente de stemming para el idioma castellano

El lexema es el elemento que contiene la significación de una palabra, llamado raíz, base o stem. El objetivo del stemming es mejorar la performance de los sistemas de recuperación de información agrupando bajo un mismo stem todas las formas en que varía una palabra que comparten significado común....

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Castiglioni, Leonardo, Chiarvetto Peralta, Lucila
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2010
Materias:	Ciencias Informáticas stemming Español Snowball stem lexema
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/153112 http://39jaiio.sadio.org.ar/sites/default/files/39jaiio-est-15.pdf
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-153112
record_format	dspace
spelling	I19-R120-10915-1531122023-05-17T20:05:04Z http://sedici.unlp.edu.ar/handle/10915/153112 http://39jaiio.sadio.org.ar/sites/default/files/39jaiio-est-15.pdf issn:1850-2946 Desarrollo de un componente de stemming para el idioma castellano Castiglioni, Leonardo Chiarvetto Peralta, Lucila 2010 2010 2023-05-17T12:53:21Z es Ciencias Informáticas stemming Español Snowball stem lexema El lexema es el elemento que contiene la significación de una palabra, llamado raíz, base o stem. El objetivo del stemming es mejorar la performance de los sistemas de recuperación de información agrupando bajo un mismo stem todas las formas en que varía una palabra que comparten significado común. Es posible realizar el stemming mediante un algoritmo que use reglas gramaticales de derivación morfológica. En este trabajo se plantea extender el uso de un stemmer algorítmico mediante el empleo de una lista de excepciones (diccionario). Se implementó un componente de software en Java utilizando un desarrollo previo llamado Snowball. Para la evaluación se usó un corpus de páginas web en español al cual se le aplicó stemming. Se empleó luego el clasificador naïve bayesiano, mediante el cual se comparó el poder de categorización del mismo sobre el corpus procesado vs. no procesado. En los resultados obtenidos se observó una significativa reducción en el tamaño de los índices tras la aplicación de los algoritmos de stemming sin que esto implicara un detrimento de la capacidad de clasificación. Sociedad Argentina de Informática e Investigación Operativa Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 982-1002
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas stemming Español Snowball stem lexema
spellingShingle	Ciencias Informáticas stemming Español Snowball stem lexema Castiglioni, Leonardo Chiarvetto Peralta, Lucila Desarrollo de un componente de stemming para el idioma castellano
topic_facet	Ciencias Informáticas stemming Español Snowball stem lexema
description	El lexema es el elemento que contiene la significación de una palabra, llamado raíz, base o stem. El objetivo del stemming es mejorar la performance de los sistemas de recuperación de información agrupando bajo un mismo stem todas las formas en que varía una palabra que comparten significado común. Es posible realizar el stemming mediante un algoritmo que use reglas gramaticales de derivación morfológica. En este trabajo se plantea extender el uso de un stemmer algorítmico mediante el empleo de una lista de excepciones (diccionario). Se implementó un componente de software en Java utilizando un desarrollo previo llamado Snowball. Para la evaluación se usó un corpus de páginas web en español al cual se le aplicó stemming. Se empleó luego el clasificador naïve bayesiano, mediante el cual se comparó el poder de categorización del mismo sobre el corpus procesado vs. no procesado. En los resultados obtenidos se observó una significativa reducción en el tamaño de los índices tras la aplicación de los algoritmos de stemming sin que esto implicara un detrimento de la capacidad de clasificación.
format	Objeto de conferencia Objeto de conferencia
author	Castiglioni, Leonardo Chiarvetto Peralta, Lucila
author_facet	Castiglioni, Leonardo Chiarvetto Peralta, Lucila
author_sort	Castiglioni, Leonardo
title	Desarrollo de un componente de stemming para el idioma castellano
title_short	Desarrollo de un componente de stemming para el idioma castellano
title_full	Desarrollo de un componente de stemming para el idioma castellano
title_fullStr	Desarrollo de un componente de stemming para el idioma castellano
title_full_unstemmed	Desarrollo de un componente de stemming para el idioma castellano
title_sort	desarrollo de un componente de stemming para el idioma castellano
publishDate	2010
url	http://sedici.unlp.edu.ar/handle/10915/153112 http://39jaiio.sadio.org.ar/sites/default/files/39jaiio-est-15.pdf
work_keys_str_mv	AT castiglionileonardo desarrollodeuncomponentedestemmingparaelidiomacastellano AT chiarvettoperaltalucila desarrollodeuncomponentedestemmingparaelidiomacastellano
_version_	1766370211482566656

Desarrollo de un componente de stemming para el idioma castellano

Ejemplares similares