Die Welt wird zunehmend digitaler. War es früher der Aktenordner der die anfallende Papierflut bändigen sollte um Überblick zu schaffen, speichern wir heute wichtige Daten auf der Festplatte. Wer in einem vier Personen Haushalt lebt weiß wovon ich spreche. Rechnungen, Versicherungen, Banken, Vereine usw., alle schicken regelmäßig Informationen die wir zumindest in Teilen verpflichtet sind für einen bestimmten Zeitraum aufzubewahren. Es gibt verschiedene Ansätze Strukturen zu schaffen, sich einen Überblick zu bewahren und die Korrespondenz themenbezogen und leicht auffindbar abzuspeichern. Arbeitet man dabei mit einem Dateimanager funktioniert das im aktuellen Jahr noch ganz gut, aber wie findet man ein Dokument dass man irgendwann in den letzten fünf Jahren erhalten hat? An welchem Ort wurde die Datei abgespeichert, und unter welchem Namen? Sich mal eben ganz schnell mehrere Dokumente heraussuchen um diese abzugleichen wird so zur nervenaufreibenden Fleißarbeit. Um die Suche zu vereinfachen und Dokumente schnell anhand von Stichwörtern zu finden gibt es Recoll(1).
Recoll ist eine so genannte Desktop-Suchmaschine, ist also eine Software die auf dem eigenen Rechner installiert wird um dort in bestimmten Verzeichnissen nach den gewünschten Dokumenten zu suchen. Um das zu ermöglichen liest Recoll die gewünschten Verzeichnisse ein und erstellt einen Index. Danach reicht ein Suchbegriff um alle Dokumente mit Bezug zum verwendeten Stichwort aufzulisten.
Voraussetzungen:
Damit Recoll Dokumente auf Stichwörter durchsuchen kann müssen diese zwangsläufig Text enthalten. Wer gedruckte Dokumente selbst digitalisiert muss diese also vorher mit einer Texterkennungssoftware bearbeiten. Dabei wird der enthaltende Text erfasst und im Dokument für die spätere Verarbeitung gespeichert. Wie so etwas aussehen kann zeige ich hier.
Installation und Einrichtung:
Aktuell liegt das Programm in der Version(2) 1.28.5-2 in den Debian-eigenen Quellen vor und wird ganz einfach über folgenden Befehl installiert:
Beim ersten Start bietet sich die Möglichkeit die Indexierung an die eigenen Bedürfnisse anzupassen, wer das nicht möchte kann das später nachholen. Sobald das geschehen ist beginnt die Erfassung aller Dokumente, was je nach Umfang entsprechend dauert.
Im Hauptfenster angekommen tippt man den gewünschten Begriff in die Suchleiste ein welche umgehend klickbare Vorschläge anzeigt. Sobald man sich für einen Vorschlag entscheidet werden alle Dokumente, in denen der gesuchte Begriff vorkommt, im Hauptfenster gelistet und stehen für weitere Schritte bereit.
Damit ist alles getan um zukünftig ganze Berge von Dokumenten effizient und zeitsparend zu verwalten. Wer mag kann in den Einstellungen verschiedene Dinge einrichten, wie zum Beispiel die Standardanwendungen für die verschiedenen Formate oder auch die grafische Oberfläche selbst. Wer die Spalten des Hauptfenster um weitere Einträge erweitern/bereinigen möchte, kommt zum Ziel indem er einen Rechtsklick auf die Spaltenleiste unterhalb der Suchleiste macht. Recoll bietet weiterhin an Filter zu erstellen was der Übersicht dient.
Hinweis:
Wer seine SSD liebt entlastet sie indem er die ständige Indexierung abschaltet. Solange nicht dauernd neue Dokumente automatisch hinzukommen braucht man diese Funktion nicht, die Performance wird es einem danken. Stattdessen kann man diesen händisch über Datei - Index aktualisieren auf den neusten Stand bringen.
Texterkennung in PDF Dokumenten
Ein gängiges Format um Dokumente abzuspeichern oder zu teilen ist PDF. Wer seine Dokumente einscannt um sie zu digitalisieren sollte einen weiteren Schritt anfügen, um den enthaltenen Text für eine spätere Weiterverarbeitung aufzubereiten. Dieses Beispiel zeigt die Umsetzung mittels OCRmyPDF(4). Es handelt sich dabei um ein Kommandozeilenprogramm, welches für eingescannte PDF Dateien eine durchsuchbare Textebene erstellt. Es braucht dazu folgende Pakete:
Der Befehl um die Texterkennung zu starten lautet:
Um sich Arbeit zu sparen kann man folgendes Skript verwenden um viele Dokumente auf einmal umzuwandeln:
Dadurch wird nicht nur der Text erkannt, auch werden die Scans sauber ausgerichtet was der Lesbarkeit zugute kommt. Als letzten Schritt kann man nun die fertigen Dateien entsprechend den eigenen Vorstellungen in einer Dateistruktur händisch hinterlegen.
Gibt es was zu meckern? Du hast Tipps? Dann schreib mir.
Quellen:
1. lesbonscomptes.com | Recoll Webseite
2. packages.debian.org | Paketvorstellung
3. wiki.ubuntuusers.de | Anleitung im ubuntuusers Wiki
4. wiki.ubuntuusers.de | OCRmyPDF - Texterkennung unter Linux
08 Oktober 2023 - Gedankenbibliothek