Leicht - Kompakt
hosentaschenblog.org

24.02.2022
Recoll, eine Desktop-Suchmaschine für Gnu/Linux

Die Welt wird zunehmend digitaler. War es früher der Aktenordner, der die anfallende Papierflut bändigen sollte um Überblick zu schaffen, speichern wir heute wichtige Daten auf der Festplatte. Wer in einem vier Personen Haushalt lebt weiß, wovon ich spreche.

Rechnungen, Versicherungen, Banken, Vereine usw. Alle schicken regelmäßig Informationen, die wir zumindest in Teilen verpflichtet sind, für einen bestimmten Zeitraum aufzubewahren.

Es gibt verschiedene Ansätze Strukturen zu schaffen, den Überblick zu bewahren und die Korrespondenz themenbezogen und leicht auffindbar abzuspeichern. Arbeitet man dabei mit einem Dateimanager funktioniert das im aktuellen Jahr noch ganz gut. Aber wie findet man ein Dokument, dass man irgendwann in den letzten fünf Jahren erhalten hat?

An welchem Ort wurde die Datei abgespeichert und unter welchem Namen? Mehrere Dokumente heraus zu suchen, um diese abzugleichen, wird so zur nervenaufreibenden Fleißarbeit. Um die Suche zu vereinfachen und Dokumente schnell anhand von Stichwörtern zu finden gibt es Recoll.

Foto: Recoll Oberfläche

Recoll ist eine so genannte Desktop-Suchmaschine. Dazu optimiert, lokal auf einem Rechner in (definierten) Verzeichnissen nach Dokumenten zu suchen. Um das zu ermöglichen erstellt das Programm einen Index. Sobald das geschehen ist reicht ein Suchbegriff, um alle Dokumente mit Bezug zu listen.

Voraussetzungen:

Damit Recoll Dokumente auf Stichworte durchsuchen kann, müssen diese zwangsläufig Text enthalten. Wer gedruckte Dokumente selbst digitalisiert, muss diese vorher mit einer Texterkennungssoftware bearbeiten. Dabei wird der enthaltende Text erfasst und im Dokument für die spätere Verarbeitung gespeichert. Wie so etwas aussehen kann zeige ich hier. Viele Programme erkennen Text standardmäßig. Die beschriebene Herangehensweise ist nicht zwingend notwendig.

Installation und Einrichtung:

Das Programm wird ganz einfach über folgenden Befehl installiert:

apt install recoll recollgui

Wer es möchte, kann beim ersten Start die Indexierung an die eigenen Bedürfnisse anpassen, oder später nachholen. Sobald das geschehen ist beginnt die Erfassung aller Dokumente.

Foto: Indexierung starten

Im Hauptfenster angekommen tippt man den gewünschten Begriff in die Suchleiste ein, welche umgehend klickbare Vorschläge anzeigt. Sobald man sich für einen Vorschlag entscheidet werden alle Dokumente, in denen der gesuchte Begriff vorkommt, im Hauptfenster gelistet und stehen für weitere Schritte bereit.

Foto: Hauptfenster

Damit ist alles getan. Wer mag kann in den Einstellungen verschiedene Dinge einrichten. Wie zum Beispiel die Standardanwendungen für die verschiedenen Formate. Oder auch die grafische Oberfläche selbst.

Wer die Spalten des Hauptfenster um weitere Einträge erweitern/bereinigen möchte, kommt zum Ziel, indem er einen Rechtsklick auf die Spaltenleiste unterhalb der Suchleiste macht. Recoll bietet weiterhin an Filter zu erstellen was der Übersicht dient.

Hinweis:
Wer seine SSD liebt entlastet sie, indem er die ständige Indexierung abschaltet. Solange nicht dauernd neue Dokumente automatisch hinzukommen braucht man diese Funktion nicht. Stattdessen kann man diesen händisch über Datei - Index aktualisieren auf den neusten Stand bringen.

Texterkennung in PDF Dokumenten

Ich scanne die Dokumente ein, um im Anschluss den enthaltenen Text mit einem Skript zu erkennen. Viele Programme machen das standardmäßig. Dokumente, die einem auf digitalen Weg übermittelt werden, enthalten in der Regel Text.

Wer seine Dokumente ohne Texterkennung digitalisiert, kann sie nachträglich aufbereiten. Dieses Beispiel zeigt die Umsetzung mittels OCRmyPDF.

Es handelt sich dabei um ein Kommandozeilenprogramm, welches für eingescannte PDF Dateien eine durchsuchbare Textebene erstellt. Installiert werden die nötigen Pakete so:

apt install ocrmypdf tesseract-ocr tesseract-ocr-deu unpaper

Damit es schnell geht, habe ich ein kleines Skript geschrieben:

Textdatei: Skript

Der Text wird erkannt, die Scans sauber ausgerichtet und komprimiert. Eine neue Datei ist jetzt soweit, abgelegt und indexiert zu werden.

Abschließende Worte:

Ich habe mich für das PDF Dateiformat entschieden, weil es ein gängiges Format ist und hoffentlich noch sehr lange unterstützt wird. Diesen Punkt sollte man sich immer vor Augen halten, wenn man Dokumente digital vorhält.

Der Tag wird kommen, an dem das Format nicht mehr unterstützt wird. Es wird dann einfach neue Standards geben. Daher kann es Sinn machen, Dokumente in verschiedenen Formaten abzulegen.

Sichern Sie ihre Daten!
Wenn die Dokumente nur auf einer Festplatte liegen und diese kaputt geht, sind diese für immer verloren. Auch sollten Sie sich überlegen, Ihre Daten an einem anderen Ort, verschlüsselt, aufzubewahren.

Das Haus in dem Sie leben, kann brennen. Befassen Sie sich mit dem Thema Verschlüsselung und sichern Sie ihre Daten in einer Cloud bei einem Deutschen Anbieter. Dort sind Ihre Daten sicher, wenn sie sicher verschlüsselt sind.

Nehmen Sie zur Erzeugung des Passworts am besten einen Passwortmanager. Sichern Sie Ihr Passwort auf verschiedenen Wegen. Wenn Sie den Zugriff auf Ihre Daten verlieren, sind diese für immer verloren.

Digitale Dokumente setzen wenig voraus, machen aber vieles leichter. Vor allen Dingen schont es die Umwelt, wenn Briefe gar nicht erst gedruckt werden. Nutzen Sie, wann immer es geht, die Möglichkeit Konten bei Ihren Versicherungen usw. anzulegen. So kommt das meiste ins digitale Postfach und nicht in den Briefkasten. Beenden wir gemeinsam die Zeit voller Ordner und Regale.

Fremdquelle:

Verwandte Artikel:

Kommentar via Mail, beachte die Nutzungsbedingungen