Bei OpenRedact handelt es sich um eine webbasierte Anwendung, die die Nutzenden dabei unterstützt personenbezogene Inhalte in digitalen Dokumenten zu identifizieren, zu klassifizieren und zu eliminieren. Dazu schlägt das System u.a. auf Basis der Named Entity Recognition (NER) Ausdrücke zur Entfernung vor. Die Entfernung kann durch Schwärzen, Generalisieren oder Pseudonymisieren erfolgen.
Aus Sicht der Anwendenden wird eine zuvor manuelle Tätigkeit halbautomatisch durchgeführt und erleichtert somit den Arbeitsalltag, indem z.B. die Erkennung von Begriffen, die mehrfach auftauchen, systemseitig automatisch durchgeführt wird und somit Zeit eingespart werden kann und die Fehleranfälligkeit reduziert wird. Insbesondere ergänzen sich die überlegenen Fähigkeiten des Menschen in der semantischen Interpretation mit der überlegenen Fähigkeit des Computersystems auch vielfachen Wiederholungen desselben Tokens (z.B. desselben Personennamens) nicht auszulassen. Die Anwendung verfügt über die Funktionalität, die Textdateien in den Formaten .txt
, .docx
, .html
und .pdf
zu verarbeiten. Die Oberfläche hebt in der geöffneten Datei die vom System erkannten sensiblen Informationen hervor, die geschwärzt respektive entfernt werden sollen. Die Nutzenden können weitere Textpassagen, die vom System fälschlich nicht erkannt wurden, markieren und zur Schwärzung bzw. Löschung vorsehen. Der umgekehrte Weg ist ebenfalls möglich, indem vom System zur Löschung vorgeschlagene Datensätze als unkritische Informationen deklariert werden. Das gemeinsam mit dem System finalisierte Dokument kann dann aus dem System heruntergeladen und für neue Zwecke verwendet werden.
Der Quellcode und aktuelle Docker-Images sind auf OpenCoDE in der GitLab-Gruppe BMBF/Datenlabor veröffentlicht.