Erkennung von Bildduplikaten in großen Datenbanken (Volumentest)

Geschäftskontext

Eine Stock-Foto-Agentur möchte prüfen, ob neu hochgeladene Bilder (Quelle) bereits in ihrer geschützten Datenbank (Referenz) existieren. Da Dateinamen oft geändert werden, muss jedes neue Bild mit jedem Referenzbild verglichen werden (Many-to-Many), um potenzielle Urheberrechtsverletzungen zu finden.

Über das Set : image

Bildverarbeitung, -manipulation und -analyse.

Entdecken Sie alle Aktionen von image

Datenaufbereitung

Simulation einer großen Menge an Uploads und einer bestehenden Datenbank.

Kopiert!

1
2	DATA casuser.new_uploads;
3	LENGTH _id_ 8 _image_ $10;
4	DO i=1 to 50;
5	_id_=i;
6	_image_='[IMG]';
7	OUTPUT;
8	END;
9
10	RUN;
11
12	DATA casuser.stock_db;
13	LENGTH _ref_id_ 8 _image_ $10;
14	DO j=1 to 100;
15	_ref_id_=j;
16	_image_='[IMG]';
17	OUTPUT;
18	END;
19
20	RUN;
21

Étapes de réalisation

Durchführung eines kartesischen Produktvergleichs (pairAll) und Filterung auf hohe Ähnlichkeit.

Kopiert!

1
2	PROC CAS;
3	image.compareImages / TABLE={name='new_uploads', caslib='casuser'} referenceImages={TABLE={name='stock_db', caslib='casuser'}} pairAll=TRUE minimum=0.9 method='SSIM' casOut={name='potential_duplicates', caslib='casuser'};
4
5	RUN;
6

Erwartetes Ergebnis

Die Aktion generiert 5000 Vergleiche (50x100), speichert aber in 'potential_duplicates' nur die Paare, deren Ähnlichkeit >= 0.9 ist. Dies identifiziert effizient potenzielle Duplikate ohne manuelle Prüfung.

Voir la documentation technique de compareImages