Skip to content

Latest commit

 

History

History
294 lines (213 loc) · 12.5 KB

File metadata and controls

294 lines (213 loc) · 12.5 KB

GitHub Repo stars GitHub Downloads (all assets, all releases) GitHub Release AGPL 3.0 License GitHub contributors GitHub last commit arXiv:2507.04009

ConardLi%2Feasy-dataset | Trendshift

Büyük Dil Modelleri için ince ayar veri setleri oluşturmaya yönelik güçlü bir araç

简体中文 | English | Türkçe

ÖzelliklerHızlı BaşlangıçDokümantasyonKatkıda BulunmaLisans

Bu projeyi beğendiyseniz, lütfen bir Yıldız⭐️ verin veya yazara bir kahve ısmarlayın => Bağış ❤️!

Genel Bakış

Easy Dataset, Büyük Dil Modeli (LLM) veri setleri oluşturmak için özel olarak tasarlanmış bir uygulamadır. Sezgisel bir arayüzün yanı sıra güçlü yerleşik belge ayrıştırma araçları, akıllı segmentasyon algoritmaları, veri temizleme ve zenginleştirme yetenekleri sunar. Uygulama, çeşitli formatlardaki alana özgü belgeleri; model ince ayarı, geri çağırma destekli üretim (RAG) ve model performans değerlendirmesi gibi senaryolara uygun yüksek kaliteli yapılandırılmış veri setlerine dönüştürebilir.

Haberler

🎉🎉 Easy Dataset Sürüm 1.7.0 yepyeni değerlendirme yetenekleriyle yayınlandı! Alana özgü belgeleri zahmetsizce değerlendirme veri setlerine (test setleri) dönüştürebilir ve çok boyutlu değerlendirme görevlerini otomatik olarak çalıştırabilirsiniz. Ayrıca insan kör test sistemi ile dikey alan model değerlendirmesi, ince ayar sonrası model performans ölçümü ve RAG geri çağırma oranı değerlendirmesi gibi ihtiyaçlarınızı kolayca karşılayabilirsiniz.

Özellikler

📄 Belge İşleme ve Veri Üretimi

  • Akıllı Belge İşleme: PDF, Markdown, DOCX, TXT, EPUB ve daha fazla formatın akıllı tanınması desteği
  • Akıllı Metin Bölme: Çoklu bölme algoritmaları (Markdown yapısı, yinelemeli ayırıcılar, sabit uzunluk, kod-bilinçli parçalama) ve özelleştirilebilir görsel segmentasyon
  • Akıllı Soru Üretimi: Metin bölümlerinden otomatik soru çıkarma, soru şablonları ve toplu üretim desteği
  • Alan Etiketi Ağacı: Belge yapısına dayalı küresel alan etiketi ağaçlarını akıllıca oluşturma ve otomatik etiketleme
  • Cevap Üretimi: Kapsamlı cevaplar ve Düşünce Zinciri (COT) oluşturmak için LLM API kullanımı, yapay zeka optimizasyonu ile
  • Veri Temizleme: Gürültüyü kaldırmak ve veri kalitesini artırmak için akıllı metin temizleme

🔄 Çoklu Veri Seti Türleri

  • Tek Turlu Soru-Cevap Veri Setleri: Temel ince ayar için standart soru-cevap çiftleri
  • Çok Turlu Diyalog Veri Setleri: Konuşma formatı için özelleştirilebilir roller ve senaryolar
  • Görsel Soru-Cevap Veri Setleri: Görsellerden soru-cevap verisi üretme, birden fazla içe aktarma yöntemi (dizin, PDF, ZIP)
  • Veri Damıtma: Belge yüklemeden doğrudan alan konularından etiket ağaçları ve sorular üretme

📊 Model Değerlendirme Sistemi

  • Değerlendirme Veri Setleri: Doğru/yanlış, tekli seçim, çoklu seçim, kısa cevap ve açık uçlu sorular üretme
  • Otomatik Model Değerlendirmesi: Hakem Modeli ile model cevap kalitesini otomatik değerlendirme ve özelleştirilebilir puanlama kuralları
  • İnsan Kör Testi (Arena): İki modelin cevaplarının tarafsız değerlendirme için çift kör karşılaştırması
  • Yapay Zeka Kalite Değerlendirmesi: Üretilen veri setlerinin otomatik kalite puanlaması ve filtrelenmesi

🛠️ Gelişmiş Özellikler

  • Özel İstemler: Tüm istem şablonlarının proje düzeyinde özelleştirilmesi (soru üretimi, cevap üretimi, veri temizleme vb.)
  • GA Çifti Üretimi: Veri çeşitliliğini artırmak için Tür-Hedef Kitle çifti üretimi
  • Görev Yönetim Merkezi: İzleme ve kesintiye alma desteğiyle arka plan toplu görev işleme
  • Kaynak İzleme Paneli: Token tüketim istatistikleri, API çağrı takibi, model performans analizi
  • Model Test Alanı: Aynı anda 3 modeli karşılaştırma

📤 Dışa Aktarma ve Entegrasyon

  • Çoklu Dışa Aktarma Formatları: JSON/JSONL dosya türleriyle Alpaca, ShareGPT, Çok Dilli Düşünme formatları
  • Dengeli Dışa Aktarma: Veri seti dengeleme için etiket başına dışa aktarma sayısı yapılandırma
  • LLaMA Factory Entegrasyonu: Tek tıkla LLaMA Factory yapılandırma dosyası oluşturma
  • Hugging Face Yükleme: Veri setlerini doğrudan Hugging Face Hub'a yükleme

🤖 Model Desteği

  • Geniş Model Uyumluluğu: OpenAI formatını takip eden tüm LLM API'leriyle uyumlu
  • Çoklu Sağlayıcı Desteği: OpenAI, Ollama (yerel modeller), Zhipu AI, Alibaba Bailian, OpenRouter ve daha fazlası
  • Görüntü Modelleri: PDF ayrıştırma ve görsel soru-cevap için Gemini, Claude vb. desteği

🌐 Kullanıcı Deneyimi

  • Kullanıcı Dostu Arayüz: Hem teknik hem de teknik olmayan kullanıcılar için tasarlanmış modern, sezgisel arayüz
  • Çoklu Dil Desteği: Eksiksiz Çince, İngilizce ve Türkçe dil desteği 🇹🇷
  • Veri Seti Meydanı: Herkese açık veri seti kaynaklarını keşfetme
  • Masaüstü İstemcileri: Windows, macOS ve Linux için kullanılabilir

Hızlı Demo

ed3.mp4

Yerel Çalıştırma

İstemciyi İndirin

Windows MacOS Linux

Setup.exe

Intel

M

AppImage

NPM ile Kurulum

  1. Depoyu klonlayın:
   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset
  1. Bağımlılıkları yükleyin:
   npm install
  1. Geliştirme sunucusunu başlatın:
   npm run build

   npm run start
  1. Tarayıcınızı açın ve http://localhost:1717 adresini ziyaret edin

Resmi Docker İmajını Kullanma

  1. Depoyu klonlayın:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. docker-compose.yml dosyasını düzenleyin:
services:
  easy-dataset:
    image: ghcr.io/conardli/easy-dataset
    container_name: easy-dataset
    ports:
      - '1717:1717'
    volumes:
      - ./local-db:/app/local-db
      - ./prisma:/app/prisma
    restart: unless-stopped

Not: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki local-db ve prisma klasörlerini bağlama yolları olarak kullanmanız önerilir.

Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır, npm run db:push komutunu manuel olarak çalıştırmanıza gerek yoktur.

  1. docker-compose ile başlatın:
docker-compose up -d
  1. Tarayıcı açın ve http://localhost:1717 adresini ziyaret edin

Yerel Dockerfile ile Derleme

İmajı kendiniz derlemek istiyorsanız, proje kök dizinindeki Dockerfile'ı kullanın:

  1. Depoyu klonlayın:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
  1. Docker imajını derleyin:
docker build -t easy-dataset .
  1. Konteyneri çalıştırın:
docker run -d \
  -p 1717:1717 \
  -v ./local-db:/app/local-db \
  -v ./prisma:/app/prisma \
  --name easy-dataset \
  easy-dataset

Not: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki local-db ve prisma klasörlerini bağlama yolları olarak kullanmanız önerilir.

Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır, npm run db:push komutunu manuel olarak çalıştırmanıza gerek yoktur.

  1. Tarayıcı açın ve http://localhost:1717 adresini ziyaret edin

Dokümantasyon

Topluluk Uygulamaları

Katkıda Bulunma

Topluluktan katkıları memnuniyetle karşılıyoruz! Easy Dataset'e katkıda bulunmak isterseniz, lütfen şu adımları izleyin:

  1. Depoyu fork edin
  2. Yeni bir dal oluşturun (git checkout -b feature/amazing-feature)
  3. Değişikliklerinizi yapın
  4. Değişikliklerinizi commit edin (git commit -m 'Add some amazing feature')
  5. Dalı push edin (git push origin feature/amazing-feature)
  6. Bir Pull Request açın (DEV dalına gönderin)

Lütfen testlerin uygun şekilde güncellendiğinden ve mevcut kodlama stiline uyulduğundan emin olun.

Tartışma Grubuna Katılın ve Yazarla İletişime Geçin

https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men

Lisans

Bu proje AGPL 3.0 Lisansı altında lisanslanmıştır - detaylar için LICENSE dosyasına bakın.

Alıntı

Bu çalışma faydalı olduysa, lütfen şu şekilde alıntı yapın:

@misc{miao2025easydataset,
  title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
  author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
  year={2025},
  eprint={2507.04009},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.04009}
}

Yıldız Geçmişi

Star History Chart

❤️ ile ConardLi tarafından geliştirilmiştir