Dec 18, 2024 5 min

Ensembles de données d'IA juridique disponibles

Advisor
Ensembles de données d'IA juridique disponibles

Note : Cet article est l'une des 60+ sections de notre rapport complet intitulé : The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Veuillez télécharger le rapport complet pour vérifier les citations.

Ensembles de données disponibles

Le Contract Understanding Atticus Dataset (CUAD) est un corpus de plus de 13 000 étiquettes dans 510 contrats juridiques commerciaux, annotés manuellement sous la supervision d'avocats expérimentés afin d'identifier 41 types de clauses juridiques considérées comme importantes dans l'examen des contrats.

Les contrats sont issus du système Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), géré par la Securities and Exchange Commission (SEC) des États-Unis (https://www.sec.gov/search-filings).

ContractNLI est un ensemble de données destiné à l'inférence en langage naturel (NLI) au niveau du document sur des contrats, contenant 607 accords de non-divulgation (NDA). Bien qu'il contienne davantage de contrats que le jeu de données CUAD, ceux-ci sont considérablement plus courts et le corpus contractuel total de cet ensemble de données est plus réduit. De plus, il ne comprend aucun autre type de contrat que les NDA. Une connaissance plus approfondie du contexte de ces données améliorerait les performances des modèles affinés sur celles-ci.