Büyük Dil Modelleri için ince ayar veri setleri oluşturmaya yönelik güçlü bir araç
Özellikler • Hızlı Başlangıç • Dokümantasyon • Katkıda Bulunma • Lisans
Bu projeyi beğendiyseniz, lütfen bir Yıldız⭐️ verin veya yazara bir kahve ısmarlayın => Bağış ❤️!
Easy Dataset, Büyük Dil Modeli (LLM) veri setleri oluşturmak için özel olarak tasarlanmış bir uygulamadır. Sezgisel bir arayüzün yanı sıra güçlü yerleşik belge ayrıştırma araçları, akıllı segmentasyon algoritmaları, veri temizleme ve zenginleştirme yetenekleri sunar. Uygulama, çeşitli formatlardaki alana özgü belgeleri; model ince ayarı, geri çağırma destekli üretim (RAG) ve model performans değerlendirmesi gibi senaryolara uygun yüksek kaliteli yapılandırılmış veri setlerine dönüştürebilir.
🎉🎉 Easy Dataset Sürüm 1.7.0 yepyeni değerlendirme yetenekleriyle yayınlandı! Alana özgü belgeleri zahmetsizce değerlendirme veri setlerine (test setleri) dönüştürebilir ve çok boyutlu değerlendirme görevlerini otomatik olarak çalıştırabilirsiniz. Ayrıca insan kör test sistemi ile dikey alan model değerlendirmesi, ince ayar sonrası model performans ölçümü ve RAG geri çağırma oranı değerlendirmesi gibi ihtiyaçlarınızı kolayca karşılayabilirsiniz.
- Akıllı Belge İşleme: PDF, Markdown, DOCX, TXT, EPUB ve daha fazla formatın akıllı tanınması desteği
- Akıllı Metin Bölme: Çoklu bölme algoritmaları (Markdown yapısı, yinelemeli ayırıcılar, sabit uzunluk, kod-bilinçli parçalama) ve özelleştirilebilir görsel segmentasyon
- Akıllı Soru Üretimi: Metin bölümlerinden otomatik soru çıkarma, soru şablonları ve toplu üretim desteği
- Alan Etiketi Ağacı: Belge yapısına dayalı küresel alan etiketi ağaçlarını akıllıca oluşturma ve otomatik etiketleme
- Cevap Üretimi: Kapsamlı cevaplar ve Düşünce Zinciri (COT) oluşturmak için LLM API kullanımı, yapay zeka optimizasyonu ile
- Veri Temizleme: Gürültüyü kaldırmak ve veri kalitesini artırmak için akıllı metin temizleme
- Tek Turlu Soru-Cevap Veri Setleri: Temel ince ayar için standart soru-cevap çiftleri
- Çok Turlu Diyalog Veri Setleri: Konuşma formatı için özelleştirilebilir roller ve senaryolar
- Görsel Soru-Cevap Veri Setleri: Görsellerden soru-cevap verisi üretme, birden fazla içe aktarma yöntemi (dizin, PDF, ZIP)
- Veri Damıtma: Belge yüklemeden doğrudan alan konularından etiket ağaçları ve sorular üretme
- Değerlendirme Veri Setleri: Doğru/yanlış, tekli seçim, çoklu seçim, kısa cevap ve açık uçlu sorular üretme
- Otomatik Model Değerlendirmesi: Hakem Modeli ile model cevap kalitesini otomatik değerlendirme ve özelleştirilebilir puanlama kuralları
- İnsan Kör Testi (Arena): İki modelin cevaplarının tarafsız değerlendirme için çift kör karşılaştırması
- Yapay Zeka Kalite Değerlendirmesi: Üretilen veri setlerinin otomatik kalite puanlaması ve filtrelenmesi
- Özel İstemler: Tüm istem şablonlarının proje düzeyinde özelleştirilmesi (soru üretimi, cevap üretimi, veri temizleme vb.)
- GA Çifti Üretimi: Veri çeşitliliğini artırmak için Tür-Hedef Kitle çifti üretimi
- Görev Yönetim Merkezi: İzleme ve kesintiye alma desteğiyle arka plan toplu görev işleme
- Kaynak İzleme Paneli: Token tüketim istatistikleri, API çağrı takibi, model performans analizi
- Model Test Alanı: Aynı anda 3 modeli karşılaştırma
- Çoklu Dışa Aktarma Formatları: JSON/JSONL dosya türleriyle Alpaca, ShareGPT, Çok Dilli Düşünme formatları
- Dengeli Dışa Aktarma: Veri seti dengeleme için etiket başına dışa aktarma sayısı yapılandırma
- LLaMA Factory Entegrasyonu: Tek tıkla LLaMA Factory yapılandırma dosyası oluşturma
- Hugging Face Yükleme: Veri setlerini doğrudan Hugging Face Hub'a yükleme
- Geniş Model Uyumluluğu: OpenAI formatını takip eden tüm LLM API'leriyle uyumlu
- Çoklu Sağlayıcı Desteği: OpenAI, Ollama (yerel modeller), Zhipu AI, Alibaba Bailian, OpenRouter ve daha fazlası
- Görüntü Modelleri: PDF ayrıştırma ve görsel soru-cevap için Gemini, Claude vb. desteği
- Kullanıcı Dostu Arayüz: Hem teknik hem de teknik olmayan kullanıcılar için tasarlanmış modern, sezgisel arayüz
- Çoklu Dil Desteği: Eksiksiz Çince, İngilizce ve Türkçe dil desteği 🇹🇷
- Veri Seti Meydanı: Herkese açık veri seti kaynaklarını keşfetme
- Masaüstü İstemcileri: Windows, macOS ve Linux için kullanılabilir
ed3.mp4
| Windows | MacOS | Linux | |
Setup.exe |
Intel |
M |
AppImage |
- Depoyu klonlayın:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset- Bağımlılıkları yükleyin:
npm install- Geliştirme sunucusunu başlatın:
npm run build
npm run start- Tarayıcınızı açın ve
http://localhost:1717adresini ziyaret edin
- Depoyu klonlayın:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-datasetdocker-compose.ymldosyasını düzenleyin:
services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma
restart: unless-stoppedNot: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki
local-dbveprismaklasörlerini bağlama yolları olarak kullanmanız önerilir.
Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır,
npm run db:pushkomutunu manuel olarak çalıştırmanıza gerek yoktur.
- docker-compose ile başlatın:
docker-compose up -d- Tarayıcı açın ve
http://localhost:1717adresini ziyaret edin
İmajı kendiniz derlemek istiyorsanız, proje kök dizinindeki Dockerfile'ı kullanın:
- Depoyu klonlayın:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset- Docker imajını derleyin:
docker build -t easy-dataset .- Konteyneri çalıştırın:
docker run -d \
-p 1717:1717 \
-v ./local-db:/app/local-db \
-v ./prisma:/app/prisma \
--name easy-dataset \
easy-datasetNot: NPM ile başlatıldığındaki veritabanı yollarıyla tutarlılığı sağlamak için, mevcut kod deposu dizinindeki
local-dbveprismaklasörlerini bağlama yolları olarak kullanmanız önerilir.
Not: Veritabanı dosyası ilk başlatmada otomatik olarak başlatılacaktır,
npm run db:pushkomutunu manuel olarak çalıştırmanıza gerek yoktur.
- Tarayıcı açın ve
http://localhost:1717adresini ziyaret edin
- Bu projenin demo videosunu izleyin: Easy Dataset Demo Videosu
- Tüm özellikler ve API'ler hakkında ayrıntılı dokümantasyon için Dokümantasyon Sitesi'ni ziyaret edin
- Bu projenin makalesini görüntüleyin: Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents
- Easy Dataset ile eksiksiz test seti oluşturma ve model değerlendirmesi
- Easy Dataset × LLaMA Factory: LLM'lerin Alan Bilgisini Verimli Öğrenmesini Sağlama
- Easy Dataset Pratik Rehberi: Yüksek Kaliteli Veri Setleri Nasıl Oluşturulur?
- Easy Dataset Temel Özellik Güncellemelerinin Yorumu
- Temel Modeller İnce Ayar Veri Setleri: Temel Bilgi Yaygınlaştırma
Topluluktan katkıları memnuniyetle karşılıyoruz! Easy Dataset'e katkıda bulunmak isterseniz, lütfen şu adımları izleyin:
- Depoyu fork edin
- Yeni bir dal oluşturun (
git checkout -b feature/amazing-feature) - Değişikliklerinizi yapın
- Değişikliklerinizi commit edin (
git commit -m 'Add some amazing feature') - Dalı push edin (
git push origin feature/amazing-feature) - Bir Pull Request açın (DEV dalına gönderin)
Lütfen testlerin uygun şekilde güncellendiğinden ve mevcut kodlama stiline uyulduğundan emin olun.
https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men
Bu proje AGPL 3.0 Lisansı altında lisanslanmıştır - detaylar için LICENSE dosyasına bakın.
Bu çalışma faydalı olduysa, lütfen şu şekilde alıntı yapın:
@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}
