ر این راستا، پژوهشگران شرکتهای Together AI و Agentica از معرفی مدل جدید کدنویسی به نام DeepCoder-14B خبر دادهاند که توانمندیهای چشمگیری در مقایسه با مدلهای پیشرفته خصوصی مانند o3-mini سازمان OpenAI ارائه میدهد. این مدل بر پایه DeepSeek-R1 ساخته شده و قابلیتهای بیشتری برای ادغام تولید کد با عملکرد بالا و توانایی استدلال در برنامههای کاربردی واقعی فراهم میکند. یکی از جنبههای حائز اهمیت این مدل، منبع باز بودن کامل آن، شامل دادههای آموزشی، کد، لاگها و بهینهسازیهای سیستمی است که میتواند به پژوهشگران در بهبود کارهایشان و تسریع پیشرفتها کمک کند.
تجارب تیم تحقیقاتی نشان میدهد که DeepCoder-14B در چندین معیار چالشبرانگیز کدنویسی، از جمله LiveCodeBench (LCB)، Codeforces و HumanEval+ به خوبی عمل میکند. پژوهشگران در یک پست وبلاگی که مدل را توصیف میکند، نوشتند: “مدل ما عملکرد قویای در تمام معیارهای کدنویسی نشان میدهد که با عملکرد o3-mini (سطح پایین) و o1 مقایسهپذیر است.” جالب اینجاست که این مدل، علیرغم اینکه عمدتاً بر روی وظایف کدنویسی آموزش دیده است، در استدلال ریاضی نیز پیشرفت قابل توجهی داشته و در معیار AIME 2024 با نرخ 73.8% ارزیابی شده است که 4.1% بهبود نسبت به مدل پایه خود (DeepSeek-R1-Distill-Qwen-14B) بهدست آورده است. این امر نشاندهنده توانایی بالای این مدل در تعمیم مهارتهای استدلال توسعهیافته از طریق یادگیری تقویتی (RL) به سایر حوزهها است.
DeepCoder-14B با تنها 14 میلیارد پارامتر به این سطح از عملکرد دست یافته است. این امر باعث میشود که این مدل به مراتب کوچکتر و از لحاظ اجرایی بهینهتر از بسیاری از مدلهای پیشرفته باشد. در حین توسعه مدل، پژوهشگران به چالشهای کلیدی در آموزش مدلهای کدنویسی با استفاده از یادگیری تقویتی پرداختهاند. یکی از چالشهای اصلی، گردآوری دادههای آموزشی بود. یادگیری تقویتی به سیگنالهای پاداش قابلاعتماد نیاز دارد که درست بودن خروجی مدل را نشان دهد. همانطور که پژوهشگران اشاره کردند: “برخلاف ریاضیات—که دادههای با کیفیت و قابلبررسی به وفور در اینترنت موجود است—حوزه کدنویسی از کمبود نسبی چنین دادههایی رنج میبرد.” به همین منظور، تیم DeepCoder یک خط لوله دقیق طراحی کرده است که مثالها را از مجموعههای داده مختلف جمعآوری و آنها را از لحاظ معتبر بودن، پیچیدگی و تکراری بودن فیلتر میکند. این روند به 24,000 مسئله با کیفیت بالا انجامید که زمینههای مطلوبی برای آموزش موثر RL فراهم کرد.
این مدل با استفاده از یک تابع پاداش ساده طراحی شده که تنها در صورتی سیگنال مثبت ارسال میکند که کد تولید شده تمام آزمونهای واحد نمونهبرداری شده را در چارچوب زمانی مشخصی بگذراند. این سیستم پاداش مبتنی بر نتیجه، مانع از یادگیری ترفندهایی نظیر چاپ پاسخهای حفظ شده برای آزمونهای عمومی یا بهینهسازی برای موارد خاص ساده بدون حل مشکل اصلی میشود. الگوریتم اصلی آموزش مدل بر اساس بهینهسازی سیاست نسبی گروهی (GRPO) طراحی شده است که در DeepSeek-R1 بسیار موفق بوده است. با این حال، تیم چندین تغییر در این الگوریتم ایجاد کرده تا پایداری آن افزایش یافته و مدل بتواند به بهبود خود ادامه دهد.
در نهایت، تیم بهطور تدریجی پنجره زمینه مدل را افزایش دادند و ابتدا آن را بر روی توالیهای استدلال کوتاه آموزش دادند و سپس به تدریج طول آن را افزایش دادند. آنها همچنین یک روش فیلتر کردن توسعه دادند تا هنگام ایجاد زنجیرههای استدلالی که از محدودیت زمینه فراتر میروند، مدل جریمه نشود. پژوهشگران توضیح میدهند: “برای حفظ استدلال در زمینههای طولانی و در عین حال امکان آموزش کارآمد، ما فیلتر کردن اضافی را گنجاندیم… این تکنیک زنجیرههای کوتاهشده را در طول آموزش پنهان میکند تا مدلها به خاطر تولید خروجیهای طولانی که فراتر از محدودیتهای فعلی زمینه است، جریمه نشوند.”
آموزش مدلهای بزرگ با یادگیری تقویتی، خصوصاً در وظایف نیازمند توالیهای طولانی تولید شده مانند کدنویسی یا استدلال پیچیده، بسیار زمانبر و محاسباتی است. یکی از موانع اصلی، مرحله “نمونهبرداری” است که در آن مدل بهطور بالقوه هزاران توکن برای هر مثال تولید میکند. تفاوت در طول پاسخها به این معنی است که برخی پاسخها بسیار دیرتر از دیگران به پایان میرسند و باعث میشود GPU ها بیاستفاده بمانند و کل حلقه آموزش کندتر شود. برای تسریع این فرآیند، تیم یک راهحل بهینهسازی به نام verl-pipeline، که یک گسترش بهینه از کتابخانه متن باز verl برای یادگیری تقویتی از بازخورد انسان است، توسعه داد. نوآوری کلیدی آنها، که “پایپ لاینسازی یکباره” نامیده میشود، ترتیب نمونهبرداری پاسخ و بهروزرسانی مدل را تغییر میدهد تا موانع و زمان بیاستفاده CPU را کاهش دهد. آزمایشهای آنها نشان داد که پایپلاینسازی یکباره تا 2 برابر تسریع در وظایف RL کدنویسی نسبت به پیادهسازیهای پایه فراهم کرده است.
این بهینهسازی برای آموزش DeepCoder در یک بازه زمانی معقول (2.5 هفته با 32 GPU H100) ضروری بوده و اکنون بهعنوان بخشی از verl-pipeline به صورت متن باز در دسترس جامعه قرار گرفته است. پژوهشگران تمام ملزومات مربوط به آموزش و اجرای DeepCoder-14B را تحت مجوزی آزاد در GitHub و Hugging Face در دسترس قرار دادهاند. “با به اشتراکگذاری کامل مجموعه داده، کد و دستورالعملهای آموزشی، ما به جامعه قدرت میدهیم تا کار ما را بازتولید کند و آموزش RL را برای همه قابل دسترسی کند”، این جملهای است که پژوهشگران در اینباره بیان کردهاند.
DeepCoder-14B بهخوبی روندی وسیع و شتابدهنده در چشمانداز هوش مصنوعی را نشان میدهد: ظهور مدلهای بسیار توانمند اما کارآمد و قابل دسترس به صورت آزاد. برای دنیای شرکتها، این تغییر به معنای گزینههای بیشتر و دسترسی بالاتر به مدلهای پیشرفته است. عملکرد پیشرفته دیگر صرفاً متعلق به شرکتهای بزرگ یا آنهایی که حاضرند هزینههای بالای API را بپردازند نیست. مدلهایی مانند DeepCoder میتواند سازمانهای از هر اندازه را قادر سازد تا از تواناییهای پیچیده تولید کد و استدلال بهرهبرداری کرده و راهحلها را با نیازهای خاص خود سفارشی کرده و در محیطهای خود بهطور ایمن مستقر کنند. این روند میتواند موانع ورود به دنیای هوش مصنوعی را کاهش داده و یک اکوسیستم رقابتی و نوآورانه را پرورش دهد که پیشرفت آن از طریق همکاری متن باز هدایت میشود.