Extracción de información en informes radiológicos escritos en español

En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información cont...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autor principal: Cotik, Viviana Erica
Otros Autores: Castaño, José
Formato: Tesis doctoral publishedVersion
Lenguaje:Inglés
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2018
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik
Aporte de:
id tesis:tesis_n6477_Cotik
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Inglés
orig_language_str_mv eng
topic DETECCION DE ENTIDADES NOMBRADAS
DETECCION DE NEGACION Y ESPECULACION
BIO NLP
BIOMEDICINA
ANOTACION DE CORPUS
INFORMES RADIOLOGICOS
EXTRACCION DE INFORMACION
MINERIA DE TEXTOS
NAMED ENTITY RECOGNITION
NEGATION AND SPECULATION DETECTION
BIO NLP
ANNOTATION GUIDELINES
ANNOTATION SCHEMA
SPANISH RADIOLOGY REPORTS
INFORMATION EXTRACTION
TEXT MINING
spellingShingle DETECCION DE ENTIDADES NOMBRADAS
DETECCION DE NEGACION Y ESPECULACION
BIO NLP
BIOMEDICINA
ANOTACION DE CORPUS
INFORMES RADIOLOGICOS
EXTRACCION DE INFORMACION
MINERIA DE TEXTOS
NAMED ENTITY RECOGNITION
NEGATION AND SPECULATION DETECTION
BIO NLP
ANNOTATION GUIDELINES
ANNOTATION SCHEMA
SPANISH RADIOLOGY REPORTS
INFORMATION EXTRACTION
TEXT MINING
Cotik, Viviana Erica
Extracción de información en informes radiológicos escritos en español
topic_facet DETECCION DE ENTIDADES NOMBRADAS
DETECCION DE NEGACION Y ESPECULACION
BIO NLP
BIOMEDICINA
ANOTACION DE CORPUS
INFORMES RADIOLOGICOS
EXTRACCION DE INFORMACION
MINERIA DE TEXTOS
NAMED ENTITY RECOGNITION
NEGATION AND SPECULATION DETECTION
BIO NLP
ANNOTATION GUIDELINES
ANNOTATION SCHEMA
SPANISH RADIOLOGY REPORTS
INFORMATION EXTRACTION
TEXT MINING
description En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol.
author2 Castaño, José
author_facet Castaño, José
Cotik, Viviana Erica
format Tesis doctoral
Tesis doctoral
publishedVersion
author Cotik, Viviana Erica
author_sort Cotik, Viviana Erica
title Extracción de información en informes radiológicos escritos en español
title_short Extracción de información en informes radiológicos escritos en español
title_full Extracción de información en informes radiológicos escritos en español
title_fullStr Extracción de información en informes radiológicos escritos en español
title_full_unstemmed Extracción de información en informes radiológicos escritos en español
title_sort extracción de información en informes radiológicos escritos en español
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2018
url https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik
work_keys_str_mv AT cotikvivianaerica extracciondeinformacioneninformesradiologicosescritosenespanol
AT cotikvivianaerica informationextractionfromspanishradiologyreports
_version_ 1782022274543517696
spelling tesis:tesis_n6477_Cotik2023-10-02T20:18:59Z Extracción de información en informes radiológicos escritos en español Information extraction from Spanish radiology reports Cotik, Viviana Erica Castaño, José DETECCION DE ENTIDADES NOMBRADAS DETECCION DE NEGACION Y ESPECULACION BIO NLP BIOMEDICINA ANOTACION DE CORPUS INFORMES RADIOLOGICOS EXTRACCION DE INFORMACION MINERIA DE TEXTOS NAMED ENTITY RECOGNITION NEGATION AND SPECULATION DETECTION BIO NLP ANNOTATION GUIDELINES ANNOTATION SCHEMA SPANISH RADIOLOGY REPORTS INFORMATION EXTRACTION TEXT MINING En los últimos a˜nos, la cantidad de información clínica disponible en formato digital ha crecido constantemente debido a la adopción del uso de sistemas de informática médica. En la mayoría de los casos, dicha información se encuentra representada en forma textual. La extracción de información contenida en dichos textos puede utilizarse para colaborar en tareas relacionadas con la clínica médica y para la toma de decisiones, y resulta esencial para la mejora de la atención médica. El dominio biomédico tiene vocabulario altamente especializado, local a distintos países, regiones e instituciones. Se utilizan abreviaturas ambiguas y no estándares. Por otro lado, algunos tipos de informes médicos suelen presentar faltas ortográficas y errores gramaticales. Además, la cantidad de datos anotados disponibles es escasa, debido a la dificultad de obtenerlos y a temas relacionados con la confidencialidad de la información. Esta situación dificulta el avance en el área de extracción de información. Pese a ser el segundo idioma con mayor cantidad de hablantes nativos en el mundo, poco trabajo se ha realizado hasta ahora en extracción de información de informes médicos escritos en espa˜nol. A los desafíos anteriormente descriptos se agregan la ausencia de terminologías específicas para ciertos dominios médicos y la menor disponibilidad de recursos linguísticos que los existentes para otros idiomas. En este trabajo contribuimos al dominio de la biomedicina en espa˜nol, proveyendo métodos con resultados competitivos para el desarrollo de componentes fundamentales de un proceso de extracción de información médico, específicamente para informes radiológicos. Con este fin, creamos un corpus anotado de informes radiológicos en espa˜nol para el reconocimiento de entidades, negación y especulación y extracción de relaciones. Publicamos el proceso seguido para la anotación y el esquema desarrollado. Implementamos dos algoritmos de detección de entidades nombradas con el fin de encontrar entidades anatómicas y hallazgos clínicos. El primero está basado en un diccionario especializado del dominio no disponible en espa˜nol y en el uso de reglas basadas en conocimiento morfosintáctico y está pensado para trabajar con lenguajes sin muchos recursos linguísticos. El segundo está basado en campos aleatorios condicionales y arroja mejores resultados. Adicionalmente, estudiamos e implementamos distintas soluciones para la detección de hallazgos clínicos negados. Para esto, adaptamos al espa˜nol un conocido algoritmo de detección de negaciones en textos médicos escritos en inglés y desarrollamos un método basado en reglas creadas a partir de patrones inferidos del análisis de caminos en árboles de dependencias. También adaptamos el primer método, que arrojó los mejores resultados, para la detección de negación y especulación en resúmenes de alta hospitalaria y notas de evolución clínica escritos en alemán. Consideramos que los resultados obtenidos y la publicación de criterios de anotación y evaluación contribuirán a seguir avanzando en la extracción de información de informes clínicos escritos en espa˜nol. In the last years, the number of digitized clinical data has been growing steadily, due to the adoption of clinical information systems. A great amount of this data is in textual format. The extraction of information contained in texts can be used to support clinical tasks and decisions and is essential for improving health care. The biomedical domain uses a highly specialized and local vocabulary, with abundance of non-standard and ambiguous abbreviations. Moreover, some type of medical reports present ill-formed sentences and lack of diacritics. Publicly accessible annotated data is scarce, due to two main reasons: the difficulty of creating it and the confidential nature of the data, that demands de-identification. This situation hinders the advance of information extraction in the biomedical domain area. Although Spanish is the second language in terms of numbers of native speakers in the world, not much work has been done in information extraction from Spanish medical reports. Challenges include the absence of specific terminologies for certain medical domains in Spanish and the availability of linguistic resources, that are less developed than those of high resources languages, such as English. In this thesis, we contribute to the BioNLP domain by providing methods with competitive results to apply a fragment of a medical information extraction pipeline to Spanish radiology reports. Therefore, an annotated dataset for entity recognition, negation and speculation detection, and relation extraction was created. The annotation process followed and the annotation schema developed were shared with the community. Two named entity recognition algorithms were implemented for the detection of anatomical entities and clinical findings. The first algorithm developed is based on a specialized dictionary of the radiology domain not available in Spanish and in the use of rules based on morphosyntactic knowledge and is designed for named entity recognition in medium or low resource languages. The second one, based on conditional random fields, was implemented when we were able to obtain a larger set of annotated data and achieves better results. We also studied and implemented different solutions for negation detection of clinical findings: an adaptation to Spanish of a popular negation detection algorithm for English medical reports and a rule-based method that detects negations based on patterns inferred from the analysis of paths of dependency parse trees. The first method obtained the best results and was also adapted for negation and speculation detection in German clinical notes and discharge summaries. We consider that the results obtained, and the annotation guidelines provided will bring new benefits to further advance in the field of information extraction from Spanish medical reports. Fil: Cotik, Viviana Erica. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2018-07-31 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf eng info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n6477_Cotik