Extracción de entidades en sentencias judiciales usando LLaMA-2

La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para ex...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Vargas, Francisco, González Coene, Alejandro, Escalante, Gastón, Lobón, Exequiel, Pulido, Manuel
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2024
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/177173
Aporte de:
id I19-R120-10915-177173
record_format dspace
spelling I19-R120-10915-1771732025-03-07T20:07:01Z http://sedici.unlp.edu.ar/handle/10915/177173 Extracción de entidades en sentencias judiciales usando LLaMA-2 Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel 2024-08 2024 2025-03-07T16:32:28Z es Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %. Sociedad Argentina de Informática e Investigación Operativa Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 42-55
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Reconocimiento de entidades nombradas
Grandes modelos de lenguaje
Textos legales
spellingShingle Ciencias Informáticas
Reconocimiento de entidades nombradas
Grandes modelos de lenguaje
Textos legales
Vargas, Francisco
González Coene, Alejandro
Escalante, Gastón
Lobón, Exequiel
Pulido, Manuel
Extracción de entidades en sentencias judiciales usando LLaMA-2
topic_facet Ciencias Informáticas
Reconocimiento de entidades nombradas
Grandes modelos de lenguaje
Textos legales
description La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %.
format Objeto de conferencia
Objeto de conferencia
author Vargas, Francisco
González Coene, Alejandro
Escalante, Gastón
Lobón, Exequiel
Pulido, Manuel
author_facet Vargas, Francisco
González Coene, Alejandro
Escalante, Gastón
Lobón, Exequiel
Pulido, Manuel
author_sort Vargas, Francisco
title Extracción de entidades en sentencias judiciales usando LLaMA-2
title_short Extracción de entidades en sentencias judiciales usando LLaMA-2
title_full Extracción de entidades en sentencias judiciales usando LLaMA-2
title_fullStr Extracción de entidades en sentencias judiciales usando LLaMA-2
title_full_unstemmed Extracción de entidades en sentencias judiciales usando LLaMA-2
title_sort extracción de entidades en sentencias judiciales usando llama-2
publishDate 2024
url http://sedici.unlp.edu.ar/handle/10915/177173
work_keys_str_mv AT vargasfrancisco extracciondeentidadesensentenciasjudicialesusandollama2
AT gonzalezcoenealejandro extracciondeentidadesensentenciasjudicialesusandollama2
AT escalantegaston extracciondeentidadesensentenciasjudicialesusandollama2
AT lobonexequiel extracciondeentidadesensentenciasjudicialesusandollama2
AT pulidomanuel extracciondeentidadesensentenciasjudicialesusandollama2
_version_ 1847925347271573504