1028d11507f58c4f0a9e5df317fdc7dc6f4280b5
- setup.py: logging module with file (setup.log) + console output - Line-buffered output (fixes background execution buffering) - API calls with timeout (300s), retry (3x), debug logging - Per-batch progress: [1/29] persona batch 1/20 (20 docs) - --verbose flag for debug-level console - monitor.py: log tail in CLI + web dashboard - CLI: colorized last 15 log lines - Web: scrollable log panel with level-based colors - Smaller embed batches (20 instead of 50) for reliability Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
AnythingLLM × Persona RAG Integration
29 persona workspace'i olan, 39,754 dosyalık (67 GB) kitap kütüphanesinden beslenen RAG sistemi. 88 mapped path, 0 unmapped içerik klasörü. Diskte duplicate yok — aynı klasör birden fazla persona'ya atanabiliyor, her workspace kendi vektör embedding'ini tutar.
Mimari
- AnythingLLM Desktop —
http://localhost:3001 - LLM: Ollama local (qwen3:14b)
- Embedding: Google Gemini (gemini-embedding-001)
- Vector DB: LanceDB
- OCR: ocrmypdf (tur+eng)
- Kitap Kaynağı:
/mnt/storage/Common/Books/(39,754 dosya, 67 GB)
Personalar (5 Cluster)
| Cluster | Personalar |
|---|---|
| Intel | Frodo, Echo, Ghost, Oracle, Wraith, Scribe, Polyglot |
| Cyber | Neo, Bastion, Sentinel, Specter, Phantom, Cipher, Vortex |
| Military | Marshal, Centurion, Corsair, Warden, Medic |
| Humanities | Chronos, Tribune, Arbiter, Ledger, Sage, Herald, Scholar, Gambit |
| Engineering | Forge, Architect |
Kullanım
Durum Kontrolü
python3 setup.py --status
Workspace Oluştur / Güncelle
python3 setup.py --create-workspaces
python3 setup.py --create-workspaces --persona frodo
Tam Pipeline (upload + OCR + embed)
python3 setup.py --upload-documents --resume
python3 setup.py --upload-documents --cluster cyber --resume
python3 setup.py --upload-documents --persona neo --priority 1 --resume
python3 setup.py --upload-documents --dry-run
Re-assign (vektör recovery — tarama/upload yapmadan)
Dokümanlar zaten upload edilmiş ama vektörler silinmişse veya workspace atamaları bozulmuşsa:
# Önizleme
python3 setup.py --reassign --reset --dry-run
# Tüm workspace'leri sıfırla + yeniden embed et
python3 setup.py --reassign --reset
# Sadece tek persona veya cluster
python3 setup.py --reassign --reset --persona frodo
python3 setup.py --reassign --reset --cluster intel
# Sıfırlamadan sadece eksik atamaları tamamla
python3 setup.py --reassign
| Flag | Açıklama |
|---|---|
--reassign |
Disk taraması ve upload yapmadan, upload_progress.json'daki mevcut dosyaları workspace'lere embed eder |
--reset |
--reassign ile birlikte kullanılır. Önce workspace_docs kaydını sıfırlar, sonra tümünü yeniden atar |
Pipeline
Phase A: Text dosyaları upload
Phase B: Scanned PDF'leri OCR (ocrmypdf)
Phase C: OCR'lı dosyaları upload
Final: Workspace'lere assign/embed
--reassign modu sadece "Final" adımını çalıştırır — diğer fazları atlar.
Recovery
Vektör DB Silinirse
python3 setup.py --reassign --reset
Tek Persona Vektörü Bozulursa
python3 setup.py --reassign --reset --persona frodo
Tam Sıfırlama (her şey baştan)
rm upload_progress.json
python3 setup.py --all
Dosyalar
| Dosya | Açıklama |
|---|---|
setup.py |
Ana entegrasyon scripti (upload, OCR, workspace assignment, reassign) |
config.yaml |
Persona-klasör eşlemeleri, API config, batch ayarları |
upload_progress.json |
Upload/atama state tracker (gitignore'd, makineye özel) |
ocr_output/ |
OCR çıktıları (gitignore'd, büyük dosyalar) |
Description
Languages
Python
100%