Nota: Este artículo es solo una de las más de 60 secciones de nuestro informe completo titulado: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Descargue el informe completo para consultar las referencias.
Desafío: Definir la precisión
Supongamos que desea «Investigar si adjuntar el contrato completo al prompt es la mejor práctica en términos de precisión y el equilibrio entre coste y rendimiento al hacerlo».
Para responder a la cuestión del equilibrio entre coste y rendimiento, primero habría que definir el coste de la imprecisión. ¿Mayor riesgo de disputas, reclamaciones y honorarios legales asociados, o simplemente las horas perdidas en revisar el trabajo para que no se produzcan esos otros resultados?
Pero esto es más fácil decirlo que hacerlo.
«La precisión es una métrica engañosa. Esto ha llevado a la búsqueda de métricas distintas que midan diferentes aspectos del rendimiento de la Legal AI. Se trata de una tarea compleja y existen muchas métricas de clasificación para medir distintos matices del rendimiento (Akosa 2017; Holzmann and Klar 2024). Lamentablemente, no existe una métrica válida para todo. Sin embargo, las siguientes se encuentran entre las métricas de clasificación más habituales. La precisión es la proporción de observaciones positivas correctamente predichas respecto al total de positivos predichos. El recall es la proporción de observaciones positivas correctamente predichas respecto a todas las observaciones de la clase real. El F1 Score es la media armónica de la precisión y el recall.
Métricas como la precisión, el recall y el F1 ofrecen resultados distintos en función de qué clase se trata como positiva y cuál como negativa»
Elifsu Parlan, AI Scientist, Reino Unido