Excire Forum

Normale Version: Duplikat-Erkennung
Sie sehen gerade eine vereinfachte Darstellung unserer Inhalte. Normale Ansicht mit richtiger Formatierung.
Guten Morgen,
auch wenn schon mal als Randthema angesprochen, schlage ich vor, eine Duplikatserkennung beim Import einzubauen. 
Ich habe meine Fotos auf diversen Festplatten verteilt. Dabei sind sicherlich auch eine Vielzahl von doppelten Dateien vorhanden.
Excire Foto dient dem Selbstverständnis der Ersteller dazu Fotos, zu verwalten, finden und zu teilen. 
Meinem Verständnis nach gehört hierzu zwingend das Erkennen, ob bereits doppelte Dateien in der Datenbank vorhanden sind.
Duplikate sind für mich identische Fotos. Diese zu erkennen sollte mittels Hashwert nicht das (Performance-)Problem sein. Zur Frage, ob raw und jpg identische Dateien sind: inhaltlich ja, aber Hashwertmäßig nein, daher sollte es ggf zukünftig möglich sein, diese Arten der Erkennung stufenweise zuschaltbar sein (1. Stufe: Hashwerte, 2. Stufe: inhaltsbasiert).
Zwar weist das Programm bereits eine Ähnlichkeitssuche auf, aber diese sollte nicht auf das Einzelfoto, sondern als Stapelverarbeitung bzw auf den gesamten bestehenden und zu importierenden Datenbestand verfügbar sein.
Dieses Feature ist ein absolutes Muss, um seine Daten sauber zu verwalten. Bereits Lightroom an sich hat dieses Manko, dass nur beim Import einstellbar ist, dass Doppelte Dateien nicht importiert werden. Allerdings bin ich überfragt, nach welchen Algorithmen Adobe im Kontext vorgeht.

Also mein Fazit: Duplikatserkennung für mich absolutes Muss in einem Programm zur Verwaltung von Fotos.
Hallo und danke für die Vorschläge. Angenommen eines der Fotos, das hinzugefügt wird, existiert bereits an einem anderen Speicherort in der Datenbank, wie soll Ihrer Meinung nach in dem Fall verfahren werden? Wie sieht in der Hinsicht Ihr Workflow aus?
Guten Morgen!
Ich würde mir auch eine Duplikat-Erkennung wünschen, da ich mir so mehere seperate Programme sparen könnte. In diesem Fall fände ich eine Gegenüberstellung der jeweiligen Bilder hilfreich (Vorschaubilder links und bsp. Rechts davon jeweils Dateigröße (idealer natürlich Inhaltsvergleich durch Excire) und Dateipfad), das ist zumindest mein aktueller Workflow mit "Alldup". Evtl. Wäre dann ein Dialog, mit alle Dateien von.../mit längerem Namen,... auswählen möglich.
Viele Grüße
Stefan
(20.07.2020, 09:35)ExcireKai schrieb: [ -> ]Hallo und danke für die Vorschläge. Angenommen eines der Fotos, das hinzugefügt wird, existiert bereits an einem anderen Speicherort in der Datenbank, wie soll Ihrer Meinung nach in dem Fall verfahren werden? Wie sieht in der Hinsicht Ihr Workflow aus?

Guten Morgen,

das hängt etwas von der Organisation des Users mit dem Umgang mit der Datenbank (DB) ab. Es wird sicher viele User geben, die ihre Daten trotz Verschlagwortung in diversen Unterverzeichnissen ablegen, um besser die Übersicht zu behalten. Andere werden sich mit Hilfe des Programms vielleicht darauf einlassen, von dieser Struktur abzuweichen und die Daten in einer Datenbank ohne Unterverzeichnisse ablegen.

Zu Ihrer Frage: ich würde unterscheiden nach der Erkennungsmethode:

1. Hashwertabgleich
Hier handelt es sich ja um exakt dieselbe Datei, dh zB eine jpg-Datei unabhängig von der Dateibezeichnung.
Diese Datei benötige ich nicht mehr zusätzlich in der Datenbank (DB). Zumal die in der DB enthaltende Datei bereits programmmäßig und ggf von mir noch individuell erweitert mit weiteren Schlagworten versehen wurde.
Gäbe es zB ein Auswahlfeld ähnlich Lightroom, ob die Duplikate beim Import von diesem ausgeschlossen werden sollen, dann würde mir im Nachgang zum Import bei angekreuztem Auswahlfeld eine Auflistung ausreichen, dass zB 50 Dateien wegen Duplikatstreffer nicht importiert wurden (ähnlich der jetzt schon existierenden Auflistung am Ende des Imports, dass zB 30 Datei wegen Fehlern nicht importiert werden konnten).

2. Bildinhaltsvergleich (basierend auf implementierten Ähnlichkeitssuche oder PhotoDNA o.ä.)
Hier gäbe es zwei Unterkategorien:
a) zwei inhaltlich "identische" Dateien, zB 1 x jpg und 1 x RAW-Datei
b) zwei ähnliche Dateien, zB bei Zeitrafferaufnahmen 

Bei 2a) hängt es stark von der Organisation des Users ab, ob sich RAW-Dateien und jpg-Dateien in der gleichen DB befinden oder ggf in verschiedenen DB abgebildet werden sollen.

Unabhängig davon könnten ähnlich wie bei dem vom User Stefan angesprochenen Programm Alldup die inhaltlich "gleichen" oder ähnlichen Dateien gem. 2a) und 2b) nach der Erstanalyse vor dem Import mit Verzeichnispfad und Dateiname aufgelistet werden und der User kann auswählen, ob er dem Import dieser Dateien (einzeln und in der Gesamtheit) zustimmt oder nicht.
Anders als bei Alldup verstehe ich Excire Foto aber eher so, dass ich die Duplikatsfrage bereits konsequent beim Import lösen würde. Eine Suche nach Duplikaten innerhalb der bestehenden Excire Foto-DB sehe ich nicht unbedingt als erforderlich an. Andere User mögen das anders sehen.
Danke, das ist schon mal sehr hilfreich. Es kann ja theoretisch vorkommen (insbesondere beim ersten Import), dass auch innerhalb der zu importierenden Verzeichnisse Duplikate existieren. Auch für diesen Fall bräuchte es dann eine zufriedenstellende Lösung.