Eingangsrechnungen auto. importieren / synchronisieren

Wir erstellen eine art automation engine, mit der wir solche prozesse modellieren (ähnlich zu n8n, aber mit anderer “Konfigurationsshöhe”).
Im Ergebnis peilen wir ähnliches Szenario an, wie von @itsdave beschrieben. Nur eben ohne DMS. Das muss nicht so bleiben, aber wir testen, ob die Suche und Findung via Embeddings in Vector-DB ohne eigenes Frontend+System nicht ausreicht.
Allerdings hat OCRmyPDF bei uns bislang nicht sooo gut abgeschnitten (fairerweise weiß ich nicht, ob paperless da noch pre-prozessierungen oder bessere reallife Parameter nutzt).
Bei uns funktionierte es nur gut, wenn es sich um gescannte Dokumente handelt. Das macht aktuelle Scannersoftware zT auch nicht schlecht.
Aber bei Beleg-Fotos o.ä. (wie das auch getmyinvoices sehr gut kann) hatten wir keine so guten Ergebnisse… weshalb wir dahingehend testen, LMM (multimodale Sprach-) Modelle anzubinden… da tut sich gerade viel.

Das klingt furchtbar interessant!

Bezüglich der Ergebnisse von OCRmyPDF (oder Paperless): Wenn bereits eine Textebene existiert – was bei nicht gescannten Dokumenten oft der Fall ist oder wenn man aus alten PDF/A-Archiven exportiert – wird in der Regel keine OCR durchgeführt. Man kann jedoch ein Rastern und eine erneute OCR erzwingen. Weitere Informationen findest du hier: OCRmyPDF-Dokumentation oder Paperless-ngx-Dokumentation.

Wir waren anfangs ziemlich enttäuscht, als wir 10.000 Dokumente aus unserem alten, kommerziellen DMS exportiert und mit Paperless importiert haben. Erst später bemerkten wir, dass das alte DMS die schlechten Erkennungen als Textebene speicherte, die dann von OCRmyPDF übernommen wurde. Das --force-ocr sorgte schließlich für eine sehr gute Extraktion. Darüber hinaus ist auch Unpaper zur Bereinigung integriert: Unpaper in der OCRmyPDF-Dokumentation.

Wir hatten auch zunächst überlegt, ohne externes DMS zu arbeiten, aber die Integration ließ sich schnell umsetzen. Die Leistungsfähigkeit und API von Paperless brachten rasch einen hohen Nutzwert. Besonders beim Anpassen der Prompts einen schnellen Zugriff auf Dokumente zu haben, war sehr erleichternd.

2 Likes

Wir werden demnächst mal die Paperless-ngx (DMS) integration separieren und veröffentlichen. Der AI Krempel ist noch sehr in Entwicklung, glaube nicht, dass das ohne Anpassungen so wie es jetzt ist, nützlich ist.

1 Like

ist eigentlich eine richtig witzige Anekdote, was ihr da erfahren habt, wegen schlechter vergangener Nachverarbeitung :smiley:

1 Like

Bis das wahrscheinlich produktiv so gut nutzbar ist, läuft ein großteil der Rechnungen sowieso per E-Rechnung :smiley:

Ich würde mir da per OCR etc. aktuell nicht zu großen Aufwand machen, wenn es nicht unbedingt ein muss ist.
E_Rechnungen sind ab kommenden Jahr teilweise verpflichtend bis 2028 aber so gut wie für alles was B2B angeht.

Yo das wird super :slight_smile:

Ja, hab ich auch schon drüber nachgedacht, ob sich das noch lohnt…verpflichtend ist zu 2025 ja nur das “empfangen können”. Ich rechne daher damit noch bis 2028 normale PDFs oder gar Post zu bekommen.

Aber auch danach und auch bei einer Rechnung mit E-Rechnung Anteil (an einer Lesbaren PDF) wird die Darstellung und der schnelle Zugriff auf eine menschlich lesbare Version der Rechnung weiterhin relevant sein.

Bin sehr gespannt, wie schnell das recht E-Rechnung zu versenden, tatsächlich in Anspruch genommen wird.

Die DMS (Paperless-ngx) Integration beschränk sich letztlich auch nicht nur auf Eingangsrechnungen, ist darüber hinaus auch anderweitig nützlich.