OpenAI مدل متنباز جدیدش را منتشر کرد؛ محقق متا نسخه «پایه» را بازسازی کرد
OpenAI اخیراً خانواده مدلهای بزرگ زبانی متنباز خود با نام gpt-oss را تحت مجوز Apache 2.0 منتشر کرد؛ اقدامی که از زمان انتشار GPT-2 در 2019 بیسابقه بود. تنها چند روز پس از انتشار، محققان و توسعهدهندگان بیرون از شرکت شروع به دستکاری و بازآرایی این مدلها کردند. یکی از چشمگیرترین نمونهها اثر جک موریس (Jack Morris)، پژوهشگر فعلی متا و دانشجوی دکترای Cornell Tech است که نسخه اصلاحشدهای از gpt-oss-20B را با نام gpt-oss-20b-base عرضه کرده است.
چه تغییری صورت گرفته است؟
gpt-oss-20B که OpenAI عرضه کرده بود، بهعنوان یک «reasoning-optimized» مدل آموزش یافته است؛ یعنی علاوه بر پیشبینی توکن بعدی، با فازهای پسآموزش (instruction tuning) و «زنجیره تفکر» (chain-of-thought) هم تنظیم شده تا پاسخهای منظم، ایمن و مرحلهای تولید کند. موریس اما تلاش کرد آن بخش از تنظیمات رفتاری (alignment) که مدل را به سمت «تفکر مرحلهای و خودکنترل» سوق داده بود، معکوس کند و مدل را به حالت پایه پیشآموزشدیده (base model) نزدیک کند — مدلی که فقط بهصورت خام توکن بعدی را پیشبینی میکند و قید و بندهای رفتاری کمتری دارد.
روش فنی و مقیاس کار
موریس بهجای تلاش برای «جِیلبریک» با پرامپتها، از تکنیک LoRA (low-rank adapter) استفاده کرد و صرفاً روی سه لایه MLP در موقعیتهای 7، 15 و 23 تغییراتی اعمال نمود. او از رتبه 16 برای LoRA بهره برد که حدود 60 میلیون پارامتر را تغییر داد — معادل فقط 0.3٪ از کل 21 میلیارد پارامتر مدل. دادههای مورد استفاده مجموعه FineWeb با حدود 20 هزار سند بود و فرمت آموزش بهگونهای حفظ شد که مدل «چیز جدید» یاد نگیرد و صرفاً قابلیت تولید متن آزاد (free-text generation) بازسازی شود.
جزئیات آموزشی: چهار روز آموزش روی هشت کارت گرافیک NVIDIA H200، نرخ یادگیری 2e-6، اندازه بچ 16 و حداکثر طول توالی 8,192 توکن. پس از آموزش، وزنهای LoRA با مدل ادغام شدند تا یک مدل مستقل قابل اجرا حاصل شود. موریس نسخه نهایی را تحت مجوز MIT روی Hugging Face منتشر کرده است که اجازه استفاده پژوهشی و تجاری را میدهد.
محدودیتها و پاسخ به انتقادات
موریس صراحتاً اعلام کرده که هدفش بازیابی «وزنهای واقعی مدل پایه» نبوده؛ بلکه او توزیع احتمال تولید خروجی (the distribution) مدل پایه را با «خطایی معین» بازسازی کرده است. این نکته فنی مهم نشان میدهد که وزنهای دقیق ممکن است متفاوت باشند اما رفتار توزیعی بهصورت قابل توجهی بازیابی شده است.
همچنین او با محدودیتهای ابزارهای متنباز برای فاینتیون معماریهای mixture-of-experts (MoE) مواجه شد و برای پایدارسازی فرایند آموزش از چارچوب Hugging Face همراه با کدهای کمکی و مکانیزمهای چکپوینتگیری اختصاصی استفاده کرد.
نتایج رفتاری و ریسکهای اخلاقی
نسخه gpt-oss-20b-base خروجیهای آزادتر و کمتر پالایششدهای تولید میکند؛ بهطور ملموس دیگر پیشفرضِ ارائهٔ مراحل استدلال (CoT) را دنبال نمیکند و طیفی وسیعتر از پاسخها را نشان میدهد، از جمله پاسخهایی که مدلهای همترازشده (aligned) ممکن است از ارائهٔ آنها خودداری کنند (مثلاً دستورالعملهای پرخطر، فحاشی یا برنامهریزی فعالیتهای مجرمانه). در تستهای محدود، این مدل توانست بخشهایی از آثار دارای حق نشر را عیناً بازتولید کند که نشاندهنده باقیماندن محتوای بهخاطرسپردهشده در مدل است.
با این حال، ردپایهایی از تنظیم رفتاری همچنان دیده میشود: فرمتهای مکالمهای («Human: … Assistant: …») گاهی رفتار مودبانه یا پاسخهای محافظهکارانه را تحریک میکنند. برای عملکرد بهتر در حالت متن آزاد، موریس توصیه میکند از توکن آغازگر مدل <|startoftext|> استفاده و الگوهای گفتگو را حذف کنید.
پیامدها برای پژوهش و صنعت
این پروژه نمونهای بارز از قدرت مدلهای وزنباز است: ظرف روزها میتوان آنها را بازتنظیم یا برای کاربردهای جدید سازگار کرد. از منظر پژوهشی، بازگرداندن مدلهای استدلالی به حالت پایه ابزار ارزشمندی برای مطالعه مواردی مانند یادسپاری (memorization)، سوگیری و اثرات همراستاسازی فراهم میآورد. اما از منظر ایمنی و اخلاق، نسخههای پایه خطرات بیشتری درباره تولید محتوای آسیبرسان یا نقض حقوق مالکیت فکری دارند.
واکنش جامعه
عرضه gpt-oss توسط OpenAI با استقبال و نقد همراه شد: برخی انتشار وزنهای باز، عملکرد در آزمونهای STEM و مجوزِ باز را ستودند و برخی دیگر به استفاده گسترده از دادههای تولیدشده مصنوعی و نگرانیهای ایمنی و سوگیری سیاسی اشاره کردند. در این میان اقدام موریس با تحسین گستردهای در میان پژوهشگران مواجه شده و بهعنوان یک دمو از انعطافپذیری مدلهای متنباز دیده میشود.
جمعبندی
gpt-oss-20b-base نمونهای فنی و عملی از بازسازی رفتاری یک مدل همترازشده به حالت پایه است که امکانات جدید پژوهشی و کاربردی فراهم میکند اما همزمان یادآور چالشهای ایمنی و اخلاقی مدلهای متنباز است. انتشار نسخههای مشابه و بررسی دقیقتر آثار جانبی آنها، نقطه تمرکز جدی پژوهش و سیاستگذاری در حوزه هوش مصنوعی خواهد بود.
