easy-dataset/README.tr.md at main · ConardLi/easy-dataset

GitHub Downloads (all assets, all releases)

Büyük Dil Modelleri için ince ayar veri setleri oluşturmaya yönelik güçlü bir araç

简体中文 | English | Türkçe

Özellikler • Hızlı Başlangıç • Dokümantasyon • Katkıda Bulunma • Lisans

Bu projeyi beğendiyseniz, lütfen bir Yıldız⭐️ verin veya yazara bir kahve ısmarlayın => Bağış ❤️!

Genel Bakış

Easy Dataset, Büyük Dil Modeli (LLM) veri setleri oluşturmak için özel olarak tasarlanmış bir uygulamadır. Sezgisel bir arayüzün yanı sıra güçlü yerleşik belge ayrıştırma araçları, akıllı segmentasyon algoritmaları, veri temizleme ve zenginleştirme yetenekleri sunar. Uygulama, çeşitli formatlardaki alana özgü belgeleri; model ince ayarı, geri çağırma destekli üretim (RAG) ve model performans değerlendirmesi gibi senaryolara uygun yüksek kaliteli yapılandırılmış veri setlerine dönüştürebilir.

Haberler

🎉🎉 Easy Dataset Sürüm 1.7.0 yepyeni değerlendirme yetenekleriyle yayınlandı! Alana özgü belgeleri zahmetsizce değerlendirme veri setlerine (test setleri) dönüştürebilir ve çok boyutlu değerlendirme görevlerini otomatik olarak çalıştırabilirsiniz. Ayrıca insan kör test sistemi ile dikey alan model değerlendirmesi, ince ayar sonrası model performans ölçümü ve RAG geri çağırma oranı değerlendirmesi gibi ihtiyaçlarınızı kolayca karşılayabilirsiniz.

Özellikler

📄 Belge İşleme ve Veri Üretimi

Akıllı Belge İşleme: PDF, Markdown, DOCX, TXT, EPUB ve daha fazla formatın akıllı tanınması desteği
Akıllı Metin Bölme: Çoklu bölme algoritmaları (Markdown yapısı, yinelemeli ayırıcılar, sabit uzunluk, kod-bilinçli parçalama) ve özelleştirilebilir görsel segmentasyon
Akıllı Soru Üretimi: Metin bölümlerinden otomatik soru çıkarma, soru şablonları ve toplu üretim desteği
Alan Etiketi Ağacı: Belge yapısına dayalı küresel alan etiketi ağaçlarını akıllıca oluşturma ve otomatik etiketleme
Cevap Üretimi: Kapsamlı cevaplar ve Düşünce Zinciri (COT) oluşturmak için LLM API kullanımı, yapay zeka optimizasyonu ile
Veri Temizleme: Gürültüyü kaldırmak ve veri kalitesini artırmak için akıllı metin temizleme

🔄 Çoklu Veri Seti Türleri

Tek Turlu Soru-Cevap Veri Setleri: Temel ince ayar için standart soru-cevap çiftleri
Çok Turlu Diyalog Veri Setleri: Konuşma formatı için özelleştirilebilir roller ve senaryolar
Görsel Soru-Cevap Veri Setleri: Görsellerden soru-cevap verisi üretme, birden fazla içe aktarma yöntemi (dizin, PDF, ZIP)
Veri Damıtma: Belge yüklemeden doğrudan alan konularından etiket ağaçları ve sorular üretme

📊 Model Değerlendirme Sistemi

Değerlendirme Veri Setleri: Doğru/yanlış, tekli seçim, çoklu seçim, kısa cevap ve açık uçlu sorular üretme
Otomatik Model Değerlendirmesi: Hakem Modeli ile model cevap kalitesini otomatik değerlendirme ve özelleştirilebilir puanlama kuralları
İnsan Kör Testi (Arena): İki modelin cevaplarının tarafsız değerlendirme için çift kör karşılaştırması
Yapay Zeka Kalite Değerlendirmesi: Üretilen veri setlerinin otomatik kalite puanlaması ve filtrelenmesi

🛠️ Gelişmiş Özellikler

Özel İstemler: Tüm istem şablonlarının proje düzeyinde özelleştirilmesi (soru üretimi, cevap üretimi, veri temizleme vb.)
GA Çifti Üretimi: Veri çeşitliliğini artırmak için Tür-Hedef Kitle çifti üretimi
Görev Yönetim Merkezi: İzleme ve kesintiye alma desteğiyle arka plan toplu görev işleme
Kaynak İzleme Paneli: Token tüketim istatistikleri, API çağrı takibi, model performans analizi
Model Test Alanı: Aynı anda 3 modeli karşılaştırma

📤 Dışa Aktarma ve Entegrasyon

Çoklu Dışa Aktarma Formatları: JSON/JSONL dosya türleriyle Alpaca, ShareGPT, Çok Dilli Düşünme formatları
Dengeli Dışa Aktarma: Veri seti dengeleme için etiket başına dışa aktarma sayısı yapılandırma
LLaMA Factory Entegrasyonu: Tek tıkla LLaMA Factory yapılandırma dosyası oluşturma
Hugging Face Yükleme: Veri setlerini doğrudan Hugging Face Hub'a yükleme

🤖 Model Desteği

Geniş Model Uyumluluğu: OpenAI formatını takip eden tüm LLM API'leriyle uyumlu
Çoklu Sağlayıcı Desteği: OpenAI, Ollama (yerel modeller), Zhipu AI, Alibaba Bailian, OpenRouter ve daha fazlası
Görüntü Modelleri: PDF ayrıştırma ve görsel soru-cevap için Gemini, Claude vb. desteği

🌐 Kullanıcı Deneyimi

Kullanıcı Dostu Arayüz: Hem teknik hem de teknik olmayan kullanıcılar için tasarlanmış modern, sezgisel arayüz
Çoklu Dil Desteği: Eksiksiz Çince, İngilizce ve Türkçe dil desteği 🇹🇷
Veri Seti Meydanı: Herkese açık veri seti kaynaklarını keşfetme
Masaüstü İstemcileri: Windows, macOS ve Linux için kullanılabilir

Hızlı Demo

ed3.mp4

Yerel Çalıştırma

İstemciyi İndirin

Windows	MacOS		Linux
Setup.exe	Intel	M	AppImage

NPM ile Kurulum

Depoyu klonlayın:

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

Bağımlılıkları yükleyin:

   npm install

Geliştirme sunucusunu başlatın:

   npm run build

   npm run start

Tarayıcınızı açın ve http://localhost:1717 adresini ziyaret edin

Resmi Docker İmajını Kullanma

Depoyu klonlayın:

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

docker-compose.yml dosyasını düzenleyin:

services:
  easy-dataset:
    image: ghcr.io/conardli/easy-dataset
    container_name: easy-dataset
    ports:
      - '1717:1717'
    volumes:
      - ./local-db:/app/local-db
      - ./prisma:/app/prisma
    restart: unless-stopped

Not: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki local-db ve prisma klasörlerini bağlama yolları olarak kullanmanız önerilir.

Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır, npm run db:push komutunu manuel olarak çalıştırmanıza gerek yoktur.

docker-compose ile başlatın:

docker-compose up -d

Tarayıcı açın ve http://localhost:1717 adresini ziyaret edin

Yerel Dockerfile ile Derleme

İmajı kendiniz derlemek istiyorsanız, proje kök dizinindeki Dockerfile'ı kullanın:

Depoyu klonlayın:

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

Docker imajını derleyin:

docker build -t easy-dataset .

Konteyneri çalıştırın:

docker run -d \
  -p 1717:1717 \
  -v ./local-db:/app/local-db \
  -v ./prisma:/app/prisma \
  --name easy-dataset \
  easy-dataset

Not: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki local-db ve prisma klasörlerini bağlama yolları olarak kullanmanız önerilir.

Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır, npm run db:push komutunu manuel olarak çalıştırmanıza gerek yoktur.

Tarayıcı açın ve http://localhost:1717 adresini ziyaret edin

Dokümantasyon

Bu projenin demo videosunu izleyin: Easy Dataset Demo Videosu
Tüm özellikler ve API'ler hakkında ayrıntılı dokümantasyon için Dokümantasyon Sitesi'ni ziyaret edin
Bu projenin makalesini görüntüleyin: Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

Topluluk Uygulamaları

Katkıda Bulunma

Topluluktan katkıları memnuniyetle karşılıyoruz! Easy Dataset'e katkıda bulunmak isterseniz, lütfen şu adımları izleyin:

Depoyu fork edin
Yeni bir dal oluşturun (git checkout -b feature/amazing-feature)
Değişikliklerinizi yapın
Değişikliklerinizi commit edin (git commit -m 'Add some amazing feature')
Dalı push edin (git push origin feature/amazing-feature)
Bir Pull Request açın (DEV dalına gönderin)

Lütfen testlerin uygun şekilde güncellendiğinden ve mevcut kodlama stiline uyulduğundan emin olun.

Tartışma Grubuna Katılın ve Yazarla İletişime Geçin

https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men

Lisans

Bu proje AGPL 3.0 Lisansı altında lisanslanmıştır - detaylar için LICENSE dosyasına bakın.

Alıntı

Bu çalışma faydalı olduysa, lütfen şu şekilde alıntı yapın:

@misc{miao2025easydataset,
  title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
  author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
  year={2025},
  eprint={2507.04009},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.04009}
}

Yıldız Geçmişi

_{❤️ ile ConardLi tarafından geliştirilmiştir}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Genel Bakış

Haberler

Özellikler

📄 Belge İşleme ve Veri Üretimi

🔄 Çoklu Veri Seti Türleri

📊 Model Değerlendirme Sistemi

🛠️ Gelişmiş Özellikler

📤 Dışa Aktarma ve Entegrasyon

🤖 Model Desteği

🌐 Kullanıcı Deneyimi

Hızlı Demo

Yerel Çalıştırma

İstemciyi İndirin

NPM ile Kurulum

Resmi Docker İmajını Kullanma

Yerel Dockerfile ile Derleme

Dokümantasyon

Topluluk Uygulamaları

Katkıda Bulunma

Tartışma Grubuna Katılın ve Yazarla İletişime Geçin

Lisans

Alıntı

Yıldız Geçmişi

FilesExpand file tree

README.tr.md

Latest commit

History

README.tr.md

File metadata and controls

Genel Bakış

Haberler

Özellikler

📄 Belge İşleme ve Veri Üretimi

🔄 Çoklu Veri Seti Türleri

📊 Model Değerlendirme Sistemi

🛠️ Gelişmiş Özellikler

📤 Dışa Aktarma ve Entegrasyon

🤖 Model Desteği

🌐 Kullanıcı Deneyimi

Hızlı Demo

Yerel Çalıştırma

İstemciyi İndirin

NPM ile Kurulum

Resmi Docker İmajını Kullanma

Yerel Dockerfile ile Derleme

Dokümantasyon

Topluluk Uygulamaları

Katkıda Bulunma

Tartışma Grubuna Katılın ve Yazarla İletişime Geçin

Lisans

Alıntı

Yıldız Geçmişi