image compareImages

Erkennung von Bildduplikaten in großen Datenbanken (Volumentest)

Scénario de test & Cas d'usage

Geschäftskontext

Eine Stock-Foto-Agentur möchte prüfen, ob neu hochgeladene Bilder (Quelle) bereits in ihrer geschützten Datenbank (Referenz) existieren. Da Dateinamen oft geändert werden, muss jedes neue Bild mit jedem Referenzbild verglichen werden (Many-to-Many), um potenzielle Urheberrechtsverletzungen zu finden.
Über das Set : image

Bildverarbeitung, -manipulation und -analyse.

Entdecken Sie alle Aktionen von image
Datenaufbereitung

Simulation einer großen Menge an Uploads und einer bestehenden Datenbank.

Kopiert!
1 
2DATA casuser.new_uploads;
3LENGTH _id_ 8 _image_ $10;
4DO i=1 to 50;
5_id_=i;
6_image_='[IMG]';
7OUTPUT;
8END;
9 
10RUN;
11 
12DATA casuser.stock_db;
13LENGTH _ref_id_ 8 _image_ $10;
14DO j=1 to 100;
15_ref_id_=j;
16_image_='[IMG]';
17OUTPUT;
18END;
19 
20RUN;
21 

Étapes de réalisation

1
Durchführung eines kartesischen Produktvergleichs (pairAll) und Filterung auf hohe Ähnlichkeit.
Kopiert!
1 
2PROC CAS;
3image.compareImages / TABLE={name='new_uploads', caslib='casuser'} referenceImages={TABLE={name='stock_db', caslib='casuser'}} pairAll=TRUE minimum=0.9 method='SSIM' casOut={name='potential_duplicates', caslib='casuser'};
4 
5RUN;
6 

Erwartetes Ergebnis


Die Aktion generiert 5000 Vergleiche (50x100), speichert aber in 'potential_duplicates' nur die Paare, deren Ähnlichkeit >= 0.9 ist. Dies identifiziert effizient potenzielle Duplikate ohne manuelle Prüfung.