Bu proje, PDF kitapları okuyup, Marker ile Markdown'a çeviren, ardından yerel LLM (LM Studio - Qwen3 Vl 30B) kullanarak metni temizleyen ve düzelten bir Python uygulamasıdır.
- PDF Ingestion:
input/klasöründeki PDF dosyaları okunur. - OCR & Conversion:
marker-pdfkütüphanesi kullanılarak PDF'ler Markdown formatına çevrilir. Görseller ve tablolar korunur. - Pre-processing: Bariz OCR hataları regex ve heuristic yöntemlerle temizlenir.
- LLM Polishing: Metin, LM Studio üzerinde çalışan Qwen3 Vl 30B modeline gönderilir. "Semantic Cleaning" yapılarak cümleler birleştirilir ve düzeltilir.
- Output: Temizlenmiş metin
output/klasörüne, her kitap için tek bir Markdown dosyası olarak kaydedilir.
- Python 3.10+
- LM Studio (Qwen3 Vl 30B modeli yüklü ve server modu aktif:
http://localhost:1234/v1) - GPU (Marker ve LLM için önerilir)
Bu proje, bağımlılıkları izole etmek için Python sanal ortamı (venv) kullanır. make install komutu otomatik olarak bir .venv klasörü oluşturur.
make install- PDF dosyalarınızı
input/klasörüne koyun. - Uygulamayı çalıştırın (Sanal ortam otomatik olarak kullanılır):
make run
- Sonuçları
output/klasöründe bulabilirsiniz.
src/config.py: LLM ayarları, model adı ve diğer parametreler buradan değiştirilebilir.