Extracción de información en informes radiológicos escritos en español

Mostrar todas las versiones(3)

En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información cont...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autor principal:	Cotik, Viviana Erica
Otros Autores:	Castaño, José
Formato:	Tesis doctoral publishedVersion
Lenguaje:	Inglés
Publicado:	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2018
Materias:	DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING
Acceso en línea:	https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik
Aporte de:	Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA) de Universidad de Buenos Aires

id	tesis:tesis_n6477_Cotik
record_format	dspace
institution	Universidad de Buenos Aires
institution_str	I-28
repository_str	R-134
collection	Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language	Inglés
orig_language_str_mv	eng
topic	DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION BIO NLP ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING
spellingShingle	DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION BIO NLP ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING Cotik, Viviana Erica Extracción de información en informes radiológicos escritos en español
topic_facet	DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION BIO NLP ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING
description	En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol.
author2	Castaño, José
author_facet	Castaño, José Cotik, Viviana Erica
format	Tesis doctoral Tesis doctoral publishedVersion
author	Cotik, Viviana Erica
author_sort	Cotik, Viviana Erica
title	Extracción de información en informes radiológicos escritos en español
title_short	Extracción de información en informes radiológicos escritos en español
title_full	Extracción de información en informes radiológicos escritos en español
title_fullStr	Extracción de información en informes radiológicos escritos en español
title_full_unstemmed	Extracción de información en informes radiológicos escritos en español
title_sort	extracción de información en informes radiológicos escritos en español
publisher	Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate	2018
url	https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik
work_keys_str_mv	AT cotikvivianaerica extracciondeinformacioneninformesradiologicosescritosenespanol AT cotikvivianaerica informationextractionfromspanishradiologyreports
_version_	1782022274543517696
spelling	tesis:tesis_n6477_Cotik2023-10-02T20:18:59Z Extracción de información en informes radiológicos escritos en español Information extraction from Spanish radiology reports Cotik, Viviana Erica Castaño, José DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION BIO NLP ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol. In the last years, the number of digitized clinical data has been growing steadily, due to the adoption of clinical information systems. A great amount of this data is in textual format. The extraction of information contained in texts can be used to support clinical tasks and decisions and is essential for improving health care. The biomedical domain uses a highly specialized and local vocabulary, with abundance of non-standard and ambiguous abbreviations. Moreover, some type of medical reports present ill-formed sentences and lack of diacritics. Publicly accessible annotated data is scarce, due to two main reasons: the difficulty of creating it and the confidential nature of the data, that demands de-identification. This situation hinders the advance of information extraction in the biomedical domain area. Although Spanish is the second language in terms of numbers of native speakers in the world, not much work has been done in information extraction from Spanish medical reports. Challenges include the absence of specific terminologies for certain medical domains in Spanish and the availability of linguistic resources, that are less developed than those of high resources languages, such as English. In this thesis, we contribute to the BioNLP domain by providing methods with competitive results to apply a fragment of a medical information extraction pipeline to Spanish radiology reports. Therefore, an annotated dataset for entity recognition, negation and speculation detection, and relation extraction was created. The annotation process followed and the annotation schema developed were shared with the community. Two named entity recognition algorithms were implemented for the detection of anatomical entities and clinical findings. The first algorithm developed is based on a specialized dictionary of the radiology domain not available in Spanish and in the use of rules based on morphosyntactic knowledge and is designed for named entity recognition in medium or low resource languages. The second one, based on conditional random fields, was implemented when we were able to obtain a larger set of annotated data and achieves better results. We also studied and implemented different solutions for negation detection of clinical findings: an adaptation to Spanish of a popular negation detection algorithm for English medical reports and a rule-based method that detects negations based on patterns inferred from the analysis of paths of dependency parse trees. The first method obtained the best results and was also adapted for negation and speculation detection in German clinical notes and discharge summaries. We consider that the results obtained, and the annotation guidelines provided will bring new benefits to further advance in the field of information extraction from Spanish medical reports. Fil: Cotik, Viviana Erica. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2018-07-31 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf eng info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik

Extracción de información en informes radiológicos escritos en español

Ejemplares similares