پژوهشگر مدل OpenAI gpt-oss-20b را به یک مدل پایه «بدون استدلال» و با همسویی کمتر تبدیل کرد

OpenAI مدل متن‌باز جدیدش را منتشر کرد؛ محقق متا نسخه «پایه» را بازسازی کرد

OpenAI اخیراً خانواده مدل‌های بزرگ زبانی متن‌باز خود با نام gpt-oss را تحت مجوز Apache 2.0 منتشر کرد؛ اقدامی که از زمان انتشار GPT-2 در 2019 بی‌سابقه بود. تنها چند روز پس از انتشار، محققان و توسعه‌دهندگان بیرون از شرکت شروع به دست‌کاری و بازآرایی این مدل‌ها کردند. یکی از چشمگیرترین نمونه‌ها اثر جک موریس (Jack Morris)، پژوهشگر فعلی متا و دانشجوی دکترای Cornell Tech است که نسخه اصلاح‌شده‌ای از gpt-oss-20B را با نام gpt-oss-20b-base عرضه کرده است.

چه تغییری صورت گرفته است؟
gpt-oss-20B که OpenAI عرضه کرده بود، به‌عنوان یک «reasoning-optimized» مدل آموزش یافته است؛ یعنی علاوه بر پیش‌بینی توکن بعدی، با فازهای پس‌آموزش (instruction tuning) و «زنجیره تفکر» (chain-of-thought) هم تنظیم شده تا پاسخ‌های منظم، ایمن و مرحله‌ای تولید کند. موریس اما تلاش کرد آن بخش از تنظیمات رفتاری (alignment) که مدل را به سمت «تفکر مرحله‌ای و خودکنترل» سوق داده بود، معکوس کند و مدل را به حالت پایه پیش‌آموزش‌دیده (base model) نزدیک کند — مدلی که فقط به‌صورت خام توکن بعدی را پیش‌بینی می‌کند و قید و بندهای رفتاری کمتری دارد.

روش فنی و مقیاس کار
موریس به‌جای تلاش برای «جِیل‌بریک» با پرامپت‌ها، از تکنیک LoRA (low-rank adapter) استفاده کرد و صرفاً روی سه لایه MLP در موقعیت‌های 7، 15 و 23 تغییراتی اعمال نمود. او از رتبه 16 برای LoRA بهره برد که حدود 60 میلیون پارامتر را تغییر داد — معادل فقط 0.3٪ از کل 21 میلیارد پارامتر مدل. داده‌های مورد استفاده مجموعه FineWeb با حدود 20 هزار سند بود و فرمت آموزش به‌گونه‌ای حفظ شد که مدل «چیز جدید» یاد نگیرد و صرفاً قابلیت تولید متن آزاد (free-text generation) بازسازی شود.

جزئیات آموزشی: چهار روز آموزش روی هشت کارت گرافیک NVIDIA H200، نرخ یادگیری 2e-6، اندازه بچ 16 و حداکثر طول توالی 8,192 توکن. پس از آموزش، وزن‌های LoRA با مدل ادغام شدند تا یک مدل مستقل قابل اجرا حاصل شود. موریس نسخه نهایی را تحت مجوز MIT روی Hugging Face منتشر کرده است که اجازه استفاده پژوهشی و تجاری را می‌دهد.

محدودیت‌ها و پاسخ به انتقادات
موریس صراحتاً اعلام کرده که هدفش بازیابی «وزن‌های واقعی مدل پایه» نبوده؛ بلکه او توزیع احتمال تولید خروجی (the distribution) مدل پایه را با «خطایی معین» بازسازی کرده است. این نکته فنی مهم نشان می‌دهد که وزن‌های دقیق ممکن است متفاوت باشند اما رفتار توزیعی به‌صورت قابل توجهی بازیابی شده است.

همچنین او با محدودیت‌های ابزارهای متن‌باز برای فاین‌تیون معماری‌های mixture-of-experts (MoE) مواجه شد و برای پایدارسازی فرایند آموزش از چارچوب Hugging Face همراه با کدهای کمکی و مکانیزم‌های چک‌پوینت‌گیری اختصاصی استفاده کرد.

نتایج رفتاری و ریسک‌های اخلاقی
نسخه gpt-oss-20b-base خروجی‌های آزادتر و کمتر پالایش‌شده‌ای تولید می‌کند؛ به‌طور ملموس دیگر پیش‌فرضِ ارائهٔ مراحل استدلال (CoT) را دنبال نمی‌کند و طیفی وسیع‌تر از پاسخ‌ها را نشان می‌دهد، از جمله پاسخ‌هایی که مدل‌های هم‌ترازشده (aligned) ممکن است از ارائهٔ آن‌ها خودداری کنند (مثلاً دستورالعمل‌های پرخطر، فحاشی یا برنامه‌ریزی فعالیت‌های مجرمانه). در تست‌های محدود، این مدل توانست بخش‌هایی از آثار دارای حق نشر را عیناً بازتولید کند که نشان‌دهنده باقی‌ماندن محتوای به‌خاطرسپرده‌شده در مدل است.

با این حال، ردپای‌هایی از تنظیم رفتاری همچنان دیده می‌شود: فرمت‌های مکالمه‌ای («Human: … Assistant: …») گاهی رفتار مودبانه یا پاسخ‌های محافظه‌کارانه را تحریک می‌کنند. برای عملکرد بهتر در حالت متن آزاد، موریس توصیه می‌کند از توکن آغازگر مدل <|startoftext|> استفاده و الگوهای گفتگو را حذف کنید.

پیامدها برای پژوهش و صنعت
این پروژه نمونه‌ای بارز از قدرت مدل‌های وزن‌باز است: ظرف روزها می‌توان آنها را بازتنظیم یا برای کاربردهای جدید سازگار کرد. از منظر پژوهشی، بازگرداندن مدل‌های استدلالی به حالت پایه ابزار ارزشمندی برای مطالعه مواردی مانند یادسپاری (memorization)، سوگیری و اثرات هم‌راستاسازی فراهم می‌آورد. اما از منظر ایمنی و اخلاق، نسخه‌های پایه خطرات بیشتری درباره تولید محتوای آسیب‌رسان یا نقض حقوق مالکیت فکری دارند.

واکنش جامعه
عرضه gpt-oss توسط OpenAI با استقبال و نقد همراه شد: برخی انتشار وزن‌های باز، عملکرد در آزمون‌های STEM و مجوزِ باز را ستودند و برخی دیگر به استفاده گسترده از داده‌های تولیدشده مصنوعی و نگرانی‌های ایمنی و سوگیری سیاسی اشاره کردند. در این میان اقدام موریس با تحسین گسترده‌ای در میان پژوهشگران مواجه شده و به‌عنوان یک دمو از انعطاف‌پذیری مدل‌های متن‌باز دیده می‌شود.

جمع‌بندی
gpt-oss-20b-base نمونه‌ای فنی و عملی از بازسازی رفتاری یک مدل هم‌ترازشده به حالت پایه است که امکانات جدید پژوهشی و کاربردی فراهم می‌کند اما هم‌زمان یادآور چالش‌های ایمنی و اخلاقی مدل‌های متن‌باز است. انتشار نسخه‌های مشابه و بررسی دقیق‌تر آثار جانبی آن‌ها، نقطه‌ تمرکز جدی پژوهش و سیاست‌گذاری در حوزه هوش مصنوعی خواهد بود.

متن خود را با هوش مصنوعی به تصویر تبدیل کنید

پژوهشگر مدل OpenAI gpt-oss-20b را به یک مدل پایه «بدون استدلال» و با همسویی کمتر تبدیل کرد

دیدگاه‌ خود را بنویسید لغو پاسخ