So nutzen Sie PDFs mit einem lokalen KI-Modell ohne Cloud-Upload

Sie nutzen ein lokales LLM, senden PDFs aber noch zur Extraktion an eine Cloud-API? Hier ist eine vollständig lokale Pipeline, die Ihre Dokumente auf Ihrem Gerät hält.

Ein Sprachmodell auf dem eigenen Rechner zu betreiben ist wirklich zugänglich geworden. Werkzeuge wie Ollama, LM Studio und llama.cpp lassen Sie leistungsfähige Modelle auf Ihrer eigenen Hardware nutzen, ohne etwas an eine API zu senden. Aber es gibt eine Lücke, über die zu wenig gesprochen wird: Selbst wenn das Modell lokal ist, verlassen Ihre Dokumente oft noch beim Vorbereitungsschritt Ihr Gerät.

Dieser Beitrag beschreibt einen einfachen Ablauf, der die gesamte Pipeline auf Ihrem Gerät hält, vom Original-PDF bis zur Antwort des Modells.

Die Lücke: lokales Modell, Dokumentenvorbereitung in der Cloud

Die meisten, die lokale Sprachmodelle betreiben, greifen dennoch auf ein webbasiertes Werkzeug oder eine Cloud-API zurück, wenn sie Text aus einem PDF extrahieren müssen, bevor sie ihn dem Modell geben. Genau in diesem Extraktionsschritt verlässt die Datei leise Ihr Gerät.

Bei einem öffentlichen Forschungsartikel ist das wahrscheinlich egal. Bei einem Vertrag, einem internen Bericht oder einem Dokument, das Sie keinem Fremden aushändigen würden, ist dieser Schritt das Leck in einer ansonsten privaten Einrichtung.

Was ein lokales Modell von einem PDF wirklich braucht

Roher PDF-Text ist unordentlich. Die Extraktion zieht oft wiederholte Kopf- und Fußzeilen, Seitenzahlen, Zeilenumbrüche mitten im Satz und Zeichen mit, die sich nicht sauber abbilden lassen. Geben Sie das direkt in ein Modell, sinkt die Antwortqualität spürbar.

Was dem Modell wirklich hilft, ist sauberer, strukturierter Text:

Wiederholte Kopf- und Fußzeilen entfernt.
Mitten im Satz unterbrochene Zeilen wieder zusammengeführt.
Abschnittsstruktur erhalten, damit das Modell weiß, wo Themen wechseln.
Ein zusammenhängender Block pro Thema statt einem Fragment pro Seite.

Markdown eignet sich gut als Zwischenformat. Es bewahrt genug Struktur, um nützlich zu bleiben, ohne Rauschen hinzuzufügen, das das Modell stört.

Eine vollständig lokale Pipeline

Hier ist ein Ablauf, bei dem nichts Ihr Gerät verlässt:

Öffnen Sie ein browserbasiertes PDF-Werkzeug, das lokal verarbeitet. Die Extraktion läuft innerhalb Ihres Browser-Tabs. Es wird nichts hochgeladen.
Wandeln Sie das PDF in Markdown um. Das läuft im Browser, nicht auf einem Server.
Speichern Sie die .md-Datei, oder kopieren Sie den Markdown-Text direkt.
Fügen Sie ihn in das Kontextfenster Ihres lokalen Modells ein, oder laden Sie ihn als Datei, wenn Ihr LLM-Werkzeug Dateieingaben unterstützt.
Führen Sie die Inferenz lokal wie gewohnt aus.

Das PDF erreicht nie einen Server. Die Extraktion, die Bereinigung und die Inferenz finden alle auf Ihrer Hardware statt.

Warum der Extraktionsschritt wichtiger ist als die meisten denken

Die größte Variable darin, wie gut ein lokales Modell ein Dokument verarbeitet, ist nicht die Modellgröße. Es ist die Qualität dessen, was Sie hineingeben. Ein Modell, das bei einem rohen PDF-Dump mittelmäßige Ergebnisse liefert, kann bei demselben Inhalt nach einer sauberen Extraktion deutlich bessere Antworten geben.

Das summiert sich bei längeren Dokumenten. Ein 40-seitiger Bericht, bei dem jede Seite mit einer wiederholten Kopfzeile beginnt und mit einer Seitenzahl endet, fügt über 40 Wiederholungen eine Menge Rauschen hinzu. Das Modell verwendet Aufmerksamkeit auf diese Hülle statt auf den Inhalt, der Sie eigentlich interessiert.

Gescannte Dokumente funktionieren auch

Gescannte PDFs sind Bilder, kein Text. Lesbaren Text aus ihnen zu gewinnen erfordert OCR, optische Zeichenerkennung. Früher bedeutete das, die Datei irgendwo hochzuladen.

Das ist nicht mehr nötig. OCR kann jetzt im Browser mit WebAssembly laufen, was bedeutet, dass selbst ein gescanntes Dokument Ihr Gerät nicht verlassen muss. Stellen Sie den OCR-Modus auf automatisch, und die Extraktion verarbeitet text- und bildbasierte Seiten in einem Durchgang, lokal.

Welche Modellgröße für Dokumente geeignet ist

Lokale Modelle unterscheiden sich darin, wie gut sie mit längeren Dokumenten umgehen. Für Fragen und Antworten oder Zusammenfassungen ist ein größeres Kontextfenster wichtiger als die rohe Modellgröße. Modelle im Bereich von 7B bis 14B Parametern, auf einem Rechner mit mindestens 16 GB RAM ausgeführt, bewältigen die meisten Einzeldokument-Aufgaben problemlos.

Die saubere Extraktion ist meist wichtiger als ein größeres Modell zu verwenden. Testen Sie es: Nehmen Sie ein Dokument, das Ihrem Modell Schwierigkeiten bereitet, führen Sie eine saubere Extraktion durch und geben Sie es erneut ein. Der Unterschied ist oft größer als beim Wechsel zu einem größeren Modell.

PDFShore übernimmt den Extraktionsschritt lokal, ob die Quelle ein Text-PDF oder ein gescanntes Dokument ist. Das Ergebnis ist sauberes Markdown, bereit für jede lokale KI-Umgebung, die Sie verwenden.

Erklärt

Veröffentlicht am 14.06.2026 · 7 Min. Lesezeit · von Max Shore