Extracción de entidades en sentencias judiciales usando LLaMA-2
La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para ex...
Guardado en:
| Autores principales: | , , , , |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Español |
| Publicado: |
2024
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/177173 |
| Aporte de: |
| id |
I19-R120-10915-177173 |
|---|---|
| record_format |
dspace |
| spelling |
I19-R120-10915-1771732025-03-07T20:07:01Z http://sedici.unlp.edu.ar/handle/10915/177173 Extracción de entidades en sentencias judiciales usando LLaMA-2 Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel 2024-08 2024 2025-03-07T16:32:28Z es Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %. Sociedad Argentina de Informática e Investigación Operativa Objeto de conferencia Objeto de conferencia http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) application/pdf 42-55 |
| institution |
Universidad Nacional de La Plata |
| institution_str |
I-19 |
| repository_str |
R-120 |
| collection |
SEDICI (UNLP) |
| language |
Español |
| topic |
Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales |
| spellingShingle |
Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| topic_facet |
Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales |
| description |
La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %. |
| format |
Objeto de conferencia Objeto de conferencia |
| author |
Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel |
| author_facet |
Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel |
| author_sort |
Vargas, Francisco |
| title |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| title_short |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| title_full |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| title_fullStr |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| title_full_unstemmed |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
| title_sort |
extracción de entidades en sentencias judiciales usando llama-2 |
| publishDate |
2024 |
| url |
http://sedici.unlp.edu.ar/handle/10915/177173 |
| work_keys_str_mv |
AT vargasfrancisco extracciondeentidadesensentenciasjudicialesusandollama2 AT gonzalezcoenealejandro extracciondeentidadesensentenciasjudicialesusandollama2 AT escalantegaston extracciondeentidadesensentenciasjudicialesusandollama2 AT lobonexequiel extracciondeentidadesensentenciasjudicialesusandollama2 AT pulidomanuel extracciondeentidadesensentenciasjudicialesusandollama2 |
| _version_ |
1847925347271573504 |