Dec 18, 2024 5 min

Dataset di IA legale disponibili

Advisor
Dataset di IA legale disponibili

Nota: Questo articolo è solo una delle 60+ sezioni del nostro report completo intitolato: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Si prega di scaricare il report completo per verificare le citazioni.

Dataset disponibili

Il Contract Understanding Atticus Dataset (CUAD) è un corpus di oltre 13.000 etichette in 510 contratti legali commerciali, annotati manualmente sotto la supervisione di avvocati esperti per identificare 41 tipi di clausole legali considerate rilevanti nella revisione contrattuale.

I contratti sono raccolti dal sistema Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), gestito dalla U.S. Securities and Exchange Commission (SEC) (https://www.sec.gov/search-filings).

ContractNLI è un dataset per l'inferenza del linguaggio naturale (NLI) a livello di documento applicata ai contratti, contenente 607 accordi di riservatezza (NDA). Nonostante contenga più contratti rispetto al dataset CUAD, questi sono considerevolmente più brevi e il corpus contrattuale complessivo di questo dataset risulta più ridotto. Inoltre, non include alcun tipo di contratto diverso dall'NDA. Una conoscenza più approfondita del contesto di questi dati migliorerebbe le prestazioni dei modelli ottimizzati su di essi.