Analyse der Case-Sensitivity bei juristischen Texten

Geschäftskontext

Ein juristischer Verlag prüft die Digitalisierung alter Gesetze. Groß- und Kleinschreibung kann bedeutungsunterscheidend sein (z.B. 'sie' vs 'Sie'). Dieser Test forciert Unterschiede in der Schreibung, um die Empfindlichkeit der Metriken zu prüfen.

Über das Set : langModel

Verwaltung großer Sprachmodelle (LLM) und NLP.

Entdecken Sie alle Aktionen von langModel

Datenaufbereitung

Daten mit identischem Wortlaut aber unterschiedlicher Groß-/Kleinschreibung.

Kopiert!

1	DATA mycas.legal_ref; INPUT doc_id $ content $char60.; DATALINES;
2	LAW_01 Das GESETZ gilt ab sofort
3	; RUN;
4
5	DATA mycas.legal_hyp; INPUT doc_id $ content $char60.; DATALINES;
6	LAW_01 das Gesetz gilt ab sofort
7	; RUN;

Étapes de réalisation

Vergleich der Texte ohne vorherige Normalisierung.

Kopiert!

1	PROC CAS;
2	langModel.calculateErrorRate /
3	reference='legal_ref'
4	TABLE='legal_hyp';
5	RUN;

Erwartetes Ergebnis

Die Aktion sollte Substitutionen für 'Das' vs 'das' und 'GESETZ' vs 'Gesetz' identifizieren, was zu einer hohen WER führt. Dies bestätigt, dass die Metriken (WER/CER) strikt auf Zeichenebene vergleichen.

Voir la documentation technique de calculateErrorRate

SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.