بخش ۲: تقطیر مدل - از تئوری تا عمل

فهرست مطالب

مقدمه‌ای بر تقطیر مدل {#introduction}

تقطیر مدل یک تکنیک قدرتمند است که به ما امکان می‌دهد مدل‌های کوچک‌تر و کارآمدتری ایجاد کنیم، در حالی که بخش زیادی از عملکرد مدل‌های بزرگ‌تر و پیچیده‌تر را حفظ می‌کنیم. این فرآیند شامل آموزش یک مدل "دانش‌آموز" فشرده برای تقلید از رفتار یک مدل "معلم" بزرگ‌تر است.

مزایای کلیدی:

کاهش نیازهای محاسباتی برای استنتاج
کاهش مصرف حافظه و نیازهای ذخیره‌سازی
زمان‌های استنتاج سریع‌تر با حفظ دقت معقول
استقرار مقرون‌به‌صرفه در محیط‌های با منابع محدود

چرا تقطیر اهمیت دارد {#why-distillation-matters}

مدل‌های زبانی بزرگ (LLMها) روزبه‌روز قدرتمندتر می‌شوند، اما منابع بیشتری نیز مصرف می‌کنند. در حالی که یک مدل با میلیاردها پارامتر ممکن است نتایج عالی ارائه دهد، برای بسیاری از کاربردهای دنیای واقعی به دلیل موارد زیر عملی نیست:

محدودیت‌های منابع

بار محاسباتی: مدل‌های بزرگ به حافظه GPU و توان پردازشی زیادی نیاز دارند
تأخیر در استنتاج: مدل‌های پیچیده زمان بیشتری برای تولید پاسخ نیاز دارند
مصرف انرژی: مدل‌های بزرگ انرژی بیشتری مصرف می‌کنند و هزینه‌های عملیاتی را افزایش می‌دهند
هزینه‌های زیرساخت: میزبانی مدل‌های بزرگ به سخت‌افزار گران‌قیمت نیاز دارد

محدودیت‌های عملی

استقرار در موبایل: مدل‌های بزرگ نمی‌توانند به‌طور کارآمد روی دستگاه‌های موبایل اجرا شوند
کاربردهای بلادرنگ: برنامه‌هایی که نیاز به تأخیر کم دارند نمی‌توانند استنتاج کند مدل‌های بزرگ را تحمل کنند
محاسبات لبه‌ای: دستگاه‌های IoT و لبه منابع محاسباتی محدودی دارند
ملاحظات هزینه‌ای: بسیاری از سازمان‌ها توانایی تأمین زیرساخت برای استقرار مدل‌های بزرگ را ندارند

فرآیند تقطیر {#the-distillation-process}

تقطیر مدل یک فرآیند دو مرحله‌ای است که دانش را از یک مدل معلم به یک مدل دانش‌آموز منتقل می‌کند:

مرحله ۱: تولید داده‌های مصنوعی

مدل معلم پاسخ‌هایی برای مجموعه داده آموزشی شما تولید می‌کند و داده‌های مصنوعی با کیفیت بالایی ایجاد می‌کند که دانش و الگوهای استدلال معلم را به تصویر می‌کشد.

# Conceptual example of synthetic data generation
def generate_synthetic_data(teacher_model, training_dataset):
    synthetic_data = []
    for input_sample in training_dataset:
        teacher_response = teacher_model.generate(input_sample)
        synthetic_data.append({
            'input': input_sample,
            'teacher_output': teacher_response
        })
    return synthetic_data

جنبه‌های کلیدی این مرحله:

مدل معلم هر نمونه آموزشی را پردازش می‌کند
پاسخ‌های تولیدشده به‌عنوان "حقیقت مبنا" برای آموزش دانش‌آموز استفاده می‌شوند
این فرآیند الگوهای تصمیم‌گیری معلم را ثبت می‌کند
کیفیت داده‌های مصنوعی مستقیماً بر عملکرد مدل دانش‌آموز تأثیر می‌گذارد

مرحله ۲: تنظیم دقیق مدل دانش‌آموز

مدل دانش‌آموز بر روی مجموعه داده مصنوعی آموزش می‌بیند و یاد می‌گیرد که رفتار و پاسخ‌های معلم را تکرار کند.

# Conceptual example of student training
def train_student_model(student_model, synthetic_data):
    for epoch in range(num_epochs):
        for batch in synthetic_data:
            student_output = student_model(batch['input'])
            loss = compute_loss(student_output, batch['teacher_output'])
            optimizer.step(loss.backward())
    return student_model

اهداف آموزشی:

به حداقل رساندن تفاوت بین خروجی‌های دانش‌آموز و معلم
حفظ دانش معلم در فضای پارامتری کوچک‌تر
حفظ عملکرد در عین کاهش پیچیدگی مدل

پیاده‌سازی عملی {#practical-implementation}

انتخاب مدل‌های معلم و دانش‌آموز

انتخاب مدل معلم:

مدل‌های LLM بزرگ‌مقیاس (بیش از ۱۰۰ میلیارد پارامتر) با عملکرد اثبات‌شده در وظیفه خاص خود را انتخاب کنید
مدل‌های معلم محبوب شامل موارد زیر هستند:
- DeepSeek V3 (۶۷۱ میلیارد پارامتر) - عالی برای استدلال و تولید کد
- Meta Llama 3.1 405B Instruct - قابلیت‌های جامع برای استفاده عمومی
- GPT-4 - عملکرد قوی در وظایف متنوع
- Claude 3.5 Sonnet - عالی برای وظایف استدلال پیچیده
اطمینان حاصل کنید که مدل معلم بر روی داده‌های خاص دامنه شما عملکرد خوبی دارد

انتخاب مدل دانش‌آموز:

تعادل بین اندازه مدل و نیازهای عملکردی را در نظر بگیرید
بر مدل‌های کوچک‌تر و کارآمدتر تمرکز کنید، مانند:
- Microsoft Phi-4-mini - مدل کارآمد با قابلیت‌های استدلال قوی
- Meta Llama 3.1 8B Instruct
- Microsoft Phi-3 Mini (نسخه‌های ۴K و ۱۲۸K)
- Microsoft Phi-3.5 Mini Instruct

مراحل پیاده‌سازی

آماده‌سازی داده‌ها

# Prepare your training dataset
training_data = load_dataset("your_training_data.jsonl")
validation_data = load_dataset("your_validation_data.jsonl")

راه‌اندازی مدل معلم

# Initialize large-scale teacher model (100B+ parameters)
teacher_model = load_model("deepseek-ai/DeepSeek-V3")
# Alternative: teacher_model = load_model("meta-llama/Llama-3.1-405B-Instruct")

تولید داده‌های مصنوعی

# Generate responses from teacher model
synthetic_training_data = generate_teacher_responses(
    teacher_model, 
    training_data
)
synthetic_validation_data = generate_teacher_responses(
    teacher_model, 
    validation_data
)

آموزش مدل دانش‌آموز

# Fine-tune Phi-4-mini as student model
student_model = load_model("microsoft/Phi-4-mini")
trained_student = fine_tune_student(
    student_model,
    synthetic_training_data,
    synthetic_validation_data
)

مثال تقطیر در Azure ML {#azure-ml-example}

Azure Machine Learning یک پلتفرم جامع برای پیاده‌سازی تقطیر مدل ارائه می‌دهد. در اینجا نحوه استفاده از Azure ML برای جریان کاری تقطیر آورده شده است:

پیش‌نیازها

فضای کاری Azure ML: فضای کاری خود را در منطقه مناسب تنظیم کنید
- دسترسی به مدل‌های معلم بزرگ‌مقیاس (DeepSeek V3، Llama 405B) را تضمین کنید
- مناطق را بر اساس دسترسی مدل پیکربندی کنید
منابع محاسباتی: نمونه‌های محاسباتی مناسب برای آموزش را پیکربندی کنید
- نمونه‌های با حافظه بالا برای استنتاج مدل معلم
- محاسبات مجهز به GPU برای تنظیم دقیق مدل دانش‌آموز

انواع وظایف پشتیبانی‌شده

Azure ML از تقطیر برای وظایف مختلف پشتیبانی می‌کند:

تفسیر زبان طبیعی (NLI)
هوش مصنوعی مکالمه‌ای
پرسش و پاسخ (QA)
استدلال ریاضی
خلاصه‌سازی متن

پیاده‌سازی نمونه

from azure.ai.ml import MLClient
from azure.ai.ml.entities import DistillationJob

# Initialize Azure ML client
ml_client = MLClient.from_config()

# Define distillation job with DeepSeek V3 as teacher and Phi-4-mini as student
distillation_job = DistillationJob(
    teacher_model="deepseek-v3",  # Large-scale teacher model (671B parameters)
    student_model="phi-4-mini",   # Efficient student model
    training_data="./training_data.jsonl",
    validation_data="./validation_data.jsonl",
    task_type="conversation",
    hyperparameters={
        "learning_rate": 2e-5,    # Lower learning rate for fine-tuning
        "batch_size": 2,          # Smaller batch size for memory efficiency
        "num_epochs": 3,
        "temperature": 0.7        # Teacher output softness
    }
)

# Submit distillation job
job = ml_client.jobs.create_or_update(distillation_job)

نظارت و ارزیابی

# Monitor training progress
job_status = ml_client.jobs.get(job.name)
print(f"Job status: {job_status.status}")

# Evaluate distilled Phi-4-mini model
evaluation_results = ml_client.models.evaluate(
    model_name="phi-4-mini-distilled",
    test_data="./test_data.jsonl",
    metrics=["accuracy", "bleu_score", "inference_time"]
)

# Compare with original Phi-4-mini baseline
baseline_results = ml_client.models.evaluate(
    model_name="phi-4-mini-baseline",
    test_data="./test_data.jsonl"
)

print(f"Distilled model accuracy: {evaluation_results['accuracy']}")
print(f"Baseline model accuracy: {baseline_results['accuracy']}")
print(f"Performance improvement: {evaluation_results['accuracy'] - baseline_results['accuracy']}")

بهترین روش‌ها و بهینه‌سازی {#best-practices}

کیفیت داده‌ها

داده‌های آموزشی با کیفیت بالا حیاتی است:

اطمینان حاصل کنید که نمونه‌های آموزشی متنوع و نماینده هستند
در صورت امکان از داده‌های خاص دامنه استفاده کنید
خروجی‌های مدل معلم را قبل از استفاده برای آموزش دانش‌آموز اعتبارسنجی کنید
مجموعه داده را متعادل کنید تا از سوگیری در یادگیری مدل دانش‌آموز جلوگیری شود

تنظیم ابرپارامترها

پارامترهای کلیدی برای بهینه‌سازی:

نرخ یادگیری: با نرخ‌های کوچک‌تر (۱e-5 تا ۵e-5) برای تنظیم دقیق شروع کنید
اندازه دسته: بین محدودیت‌های حافظه و پایداری آموزش تعادل برقرار کنید
تعداد دوره‌ها: برای جلوگیری از بیش‌برازش نظارت کنید؛ معمولاً ۲-۵ دوره کافی است
مقیاس‌بندی دما: نرمی خروجی معلم را برای انتقال بهتر دانش تنظیم کنید

ملاحظات معماری مدل

سازگاری معلم-دانش‌آموز:

سازگاری معماری بین مدل‌های معلم و دانش‌آموز را تضمین کنید
لایه‌های میانی را برای انتقال بهتر دانش در نظر بگیرید
از تکنیک‌های انتقال توجه در صورت امکان استفاده کنید

استراتژی‌های ارزیابی

رویکرد ارزیابی جامع:

# Multi-metric evaluation
evaluation_metrics = {
    'accuracy': evaluate_accuracy(student_model, test_data),
    'latency': measure_inference_time(student_model),
    'memory_usage': profile_memory_consumption(student_model),
    'task_specific_metrics': evaluate_task_performance(student_model, task_data)
}

کاربردهای دنیای واقعی {#real-world-applications}

استقرار در موبایل و لبه

مدل‌های تقطیرشده قابلیت‌های هوش مصنوعی را در دستگاه‌های با منابع محدود فعال می‌کنند:

برنامه‌های گوشی هوشمند با پردازش متن بلادرنگ
دستگاه‌های IoT که استنتاج محلی انجام می‌دهند
سیستم‌های تعبیه‌شده با منابع محاسباتی محدود

سیستم‌های تولیدی مقرون‌به‌صرفه

سازمان‌ها از تقطیر برای کاهش هزینه‌های عملیاتی استفاده می‌کنند:

چت‌بات‌های خدمات مشتری با زمان پاسخ‌دهی سریع‌تر
سیستم‌های نظارت بر محتوا که حجم‌های بالا را به‌طور کارآمد پردازش می‌کنند
خدمات ترجمه بلادرنگ با نیازهای تأخیر کمتر

کاربردهای خاص دامنه

تقطیر به ایجاد مدل‌های تخصصی کمک می‌کند:

کمک به تشخیص پزشکی با استنتاج محلی حفظ حریم خصوصی
تحلیل اسناد حقوقی بهینه‌شده برای حوزه‌های خاص حقوقی
ارزیابی ریسک مالی با قابلیت تصمیم‌گیری سریع

مطالعه موردی: پشتیبانی مشتری با DeepSeek V3 → Phi-4-mini

یک شرکت فناوری تقطیر را برای سیستم پشتیبانی مشتری خود پیاده‌سازی کرد:

جزئیات پیاده‌سازی:

مدل معلم: DeepSeek V3 (۶۷۱ میلیارد پارامتر) - استدلال عالی برای پرسش‌های پیچیده مشتری
مدل دانش‌آموز: Phi-4-mini - بهینه‌شده برای استنتاج سریع و استقرار
داده‌های آموزشی: ۵۰,۰۰۰ مکالمه پشتیبانی مشتری
وظیفه: پشتیبانی مکالمه‌ای چندمرحله‌ای با حل مشکلات فنی

نتایج به‌دست‌آمده:

۸۵٪ کاهش در زمان استنتاج (از ۳.۲ ثانیه به ۰.۴۸ ثانیه برای هر پاسخ)
۹۵٪ کاهش در نیازهای حافظه (از ۱.۲ ترابایت به ۶۰ گیگابایت)
۹۲٪ حفظ دقت مدل اصلی در وظایف پشتیبانی
۶۰٪ کاهش در هزینه‌های عملیاتی
افزایش مقیاس‌پذیری - اکنون می‌تواند ۱۰ برابر کاربران همزمان بیشتری را مدیریت کند

جزئیات عملکرد:

# Comparison metrics
performance_comparison = {
    "DeepSeek V3 (Teacher)": {
        "parameters": "671B",
        "memory_usage": "1.2TB",
        "inference_time": "3.2s",
        "accuracy": "94.5%",
        "throughput": "50 queries/hour"
    },
    "Phi-4-mini (Distilled)": {
        "parameters": "14B",
        "memory_usage": "60GB", 
        "inference_time": "0.48s",
        "accuracy": "87.0%",
        "throughput": "500 queries/hour"
    }
}

نتیجه‌گیری {#conclusion}

تقطیر مدل یک تکنیک حیاتی برای دموکراتیزه کردن دسترسی به قابلیت‌های پیشرفته هوش مصنوعی است. با امکان ایجاد مدل‌های کوچک‌تر و کارآمدتر که بخش زیادی از عملکرد مدل‌های بزرگ‌تر را حفظ می‌کنند، تقطیر به نیاز روزافزون برای استقرار عملی هوش مصنوعی پاسخ می‌دهد.

نکات کلیدی

تقطیر شکاف بین عملکرد مدل و محدودیت‌های عملی را پر می‌کند
فرآیند دو مرحله‌ای انتقال مؤثر دانش از معلم به دانش‌آموز را تضمین می‌کند
Azure ML زیرساخت قوی برای پیاده‌سازی جریان‌های کاری تقطیر ارائه می‌دهد
ارزیابی و بهینه‌سازی مناسب برای موفقیت در تقطیر ضروری است
کاربردهای دنیای واقعی مزایای قابل‌توجهی در هزینه، سرعت و دسترسی نشان می‌دهند

مسیرهای آینده

با پیشرفت این حوزه، می‌توان انتظار داشت:

تکنیک‌های تقطیر پیشرفته‌تر با روش‌های بهتر انتقال دانش
تقطیر چندمعلمی برای افزایش قابلیت‌های مدل دانش‌آموز
بهینه‌سازی خودکار فرآیند تقطیر
پشتیبانی گسترده‌تر از مدل‌ها در معماری‌ها و حوزه‌های مختلف

تقطیر مدل به سازمان‌ها این امکان را می‌دهد که از قابلیت‌های پیشرفته هوش مصنوعی بهره‌مند شوند، در حالی که محدودیت‌های عملی استقرار را حفظ می‌کنند و مدل‌های زبانی پیشرفته را در طیف گسترده‌ای از کاربردها و محیط‌ها در دسترس قرار می‌دهند.

➡️ گام بعدی

03: تنظیم دقیق - سفارشی‌سازی مدل‌ها برای وظایف خاص

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما مسئولیتی در قبال سوء تفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

بخش ۲: تقطیر مدل - از تئوری تا عمل

فهرست مطالب

مقدمه‌ای بر تقطیر مدل {#introduction}

چرا تقطیر اهمیت دارد {#why-distillation-matters}

محدودیت‌های منابع

محدودیت‌های عملی

فرآیند تقطیر {#the-distillation-process}

مرحله ۱: تولید داده‌های مصنوعی

مرحله ۲: تنظیم دقیق مدل دانش‌آموز

پیاده‌سازی عملی {#practical-implementation}

انتخاب مدل‌های معلم و دانش‌آموز

مراحل پیاده‌سازی

مثال تقطیر در Azure ML {#azure-ml-example}

پیش‌نیازها

انواع وظایف پشتیبانی‌شده

پیاده‌سازی نمونه

نظارت و ارزیابی

بهترین روش‌ها و بهینه‌سازی {#best-practices}

کیفیت داده‌ها

تنظیم ابرپارامترها

ملاحظات معماری مدل

استراتژی‌های ارزیابی

کاربردهای دنیای واقعی {#real-world-applications}

استقرار در موبایل و لبه

سیستم‌های تولیدی مقرون‌به‌صرفه

کاربردهای خاص دامنه

مطالعه موردی: پشتیبانی مشتری با DeepSeek V3 → Phi-4-mini

نتیجه‌گیری {#conclusion}

نکات کلیدی

مسیرهای آینده

➡️ گام بعدی

FilesExpand file tree

02.SLMOps-Distillation.md

Latest commit

History

02.SLMOps-Distillation.md

File metadata and controls

بخش ۲: تقطیر مدل - از تئوری تا عمل

فهرست مطالب

مقدمه‌ای بر تقطیر مدل {#introduction}

چرا تقطیر اهمیت دارد {#why-distillation-matters}

محدودیت‌های منابع

محدودیت‌های عملی

فرآیند تقطیر {#the-distillation-process}

مرحله ۱: تولید داده‌های مصنوعی

مرحله ۲: تنظیم دقیق مدل دانش‌آموز

پیاده‌سازی عملی {#practical-implementation}

انتخاب مدل‌های معلم و دانش‌آموز

مراحل پیاده‌سازی

مثال تقطیر در Azure ML {#azure-ml-example}

پیش‌نیازها

انواع وظایف پشتیبانی‌شده

پیاده‌سازی نمونه

نظارت و ارزیابی

بهترین روش‌ها و بهینه‌سازی {#best-practices}

کیفیت داده‌ها

تنظیم ابرپارامترها

ملاحظات معماری مدل

استراتژی‌های ارزیابی

کاربردهای دنیای واقعی {#real-world-applications}

استقرار در موبایل و لبه

سیستم‌های تولیدی مقرون‌به‌صرفه

کاربردهای خاص دامنه

مطالعه موردی: پشتیبانی مشتری با DeepSeek V3 → Phi-4-mini

نتیجه‌گیری {#conclusion}

نکات کلیدی

مسیرهای آینده

➡️ گام بعدی