Nota: Questo articolo è solo una delle 60+ sezioni del nostro report completo intitolato: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Si prega di scaricare il report completo per verificare le citazioni.
Sfida: Definire l'Accuratezza
Supponiamo che tu voglia "Verificare se aggiungere l'intero contratto al prompt sia la best practice in termini di accuratezza e del compromesso costo-prestazioni nel farlo."
Per rispondere al punto sul compromesso costo-prestazioni, occorrerebbe prima definire il costo dell'imprecisione. Un rischio più elevato di controversie, rivendicazioni e relative spese legali, o semplicemente le ore perse nel verificare il lavoro per evitare che questi altri scenari si verifichino?
Ma è più facile a dirsi che a farsi.
"L'accuratezza è una metrica fuorviante. Ciò ha portato alla ricerca di metriche diverse che misurano aspetti differenti delle prestazioni della Legal AI. Si tratta di un compito complesso e vi sono molte metriche di classificazione per misurare le diverse sfumature delle prestazioni (Akosa 2017; Holzmann and Klar 2024). Purtroppo non esiste una metrica universalmente valida. Tuttavia, le seguenti sono alcune delle metriche di classificazione più comuni. La Precision è il rapporto tra le osservazioni positive correttamente previste e il totale delle previsioni positive. La Recall è il rapporto tra le osservazioni positive correttamente previste e tutte le osservazioni della classe effettiva. L'F1 Score è la media armonica di Precision e Recall.
Metriche come precision, recall e F1 forniscono risultati diversi a seconda di quale classe viene trattata come positiva e quale come negativa"
Elifsu Parlan, AI Scientist, UK