دیپ‌کودر: عملکرد برتر کدنویسی با مدل باز ۱۴ میلیاردی کارآمد

ر این راستا، پژوهشگران شرکت‌های Together AI و Agentica از معرفی مدل جدید کدنویسی به نام DeepCoder-14B خبر داده‌اند که توانمندی‌های چشم‌گیری در مقایسه با مدل‌های پیشرفته خصوصی مانند o3-mini سازمان OpenAI ارائه می‌دهد. این مدل بر پایه DeepSeek-R1 ساخته شده و قابلیت‌های بیشتری برای ادغام تولید کد با عملکرد بالا و توانایی استدلال در برنامه‌های کاربردی واقعی فراهم می‌کند. یکی از جنبه‌های حائز اهمیت این مدل، منبع باز بودن کامل آن، شامل داده‌های آموزشی، کد، لاگ‌ها و بهینه‌سازی‌های سیستمی است که می‌تواند به پژوهشگران در بهبود کارهایشان و تسریع پیشرفت‌ها کمک کند.

تجارب تیم تحقیقاتی نشان می‌دهد که DeepCoder-14B در چندین معیار چالش‌برانگیز کدنویسی، از جمله LiveCodeBench (LCB)، Codeforces و HumanEval+ به خوبی عمل می‌کند. پژوهشگران در یک پست وبلاگی که مدل را توصیف می‌کند، نوشتند: “مدل ما عملکرد قوی‌ای در تمام معیارهای کدنویسی نشان می‌دهد که با عملکرد o3-mini (سطح پایین) و o1 مقایسه‌پذیر است.” جالب اینجاست که این مدل، علی‌رغم اینکه عمدتاً بر روی وظایف کدنویسی آموزش دیده است، در استدلال ریاضی نیز پیشرفت قابل توجهی داشته و در معیار AIME 2024 با نرخ 73.8% ارزیابی شده است که 4.1% بهبود نسبت به مدل پایه خود (DeepSeek-R1-Distill-Qwen-14B) به‌دست آورده است. این امر نشان‌دهنده توانایی بالای این مدل در تعمیم مهارت‌های استدلال توسعه‌یافته از طریق یادگیری تقویتی (RL) به سایر حوزه‌ها است.

DeepCoder-14B با تنها 14 میلیارد پارامتر به این سطح از عملکرد دست یافته است. این امر باعث می‌شود که این مدل به مراتب کوچک‌تر و از لحاظ اجرایی بهینه‌تر از بسیاری از مدل‌های پیشرفته باشد. در حین توسعه مدل، پژوهشگران به چالش‌های کلیدی در آموزش مدل‌های کدنویسی با استفاده از یادگیری تقویتی پرداخته‌اند. یکی از چالش‌های اصلی، گردآوری داده‌های آموزشی بود. یادگیری تقویتی به سیگنال‌های پاداش قابل‌اعتماد نیاز دارد که درست بودن خروجی مدل را نشان دهد. همانطور که پژوهشگران اشاره کردند: “برخلاف ریاضیات—که داده‌های با کیفیت و قابل‌بررسی به وفور در اینترنت موجود است—حوزه کدنویسی از کمبود نسبی چنین داده‌هایی رنج می‌برد.” به همین منظور، تیم DeepCoder یک خط لوله دقیق طراحی کرده است که مثال‌ها را از مجموعه‌های داده مختلف جمع‌آوری و آن‌ها را از لحاظ معتبر بودن، پیچیدگی و تکراری بودن فیلتر می‌کند. این روند به 24,000 مسئله با کیفیت بالا انجامید که زمینه‌های مطلوبی برای آموزش موثر RL فراهم کرد.

این مدل با استفاده از یک تابع پاداش ساده طراحی شده که تنها در صورتی سیگنال مثبت ارسال می‌کند که کد تولید شده تمام آزمون‌های واحد نمونه‌برداری شده را در چارچوب زمانی مشخصی بگذراند. این سیستم پاداش مبتنی بر نتیجه، مانع از یادگیری ترفندهایی نظیر چاپ پاسخ‌های حفظ شده برای آزمون‌های عمومی یا بهینه‌سازی برای موارد خاص ساده بدون حل مشکل اصلی می‌شود. الگوریتم اصلی آموزش مدل بر اساس بهینه‌سازی سیاست نسبی گروهی (GRPO) طراحی شده است که در DeepSeek-R1 بسیار موفق بوده است. با این حال، تیم چندین تغییر در این الگوریتم ایجاد کرده تا پایداری آن افزایش یافته و مدل بتواند به بهبود خود ادامه دهد.

در نهایت، تیم به‌طور تدریجی پنجره زمینه مدل را افزایش دادند و ابتدا آن را بر روی توالی‌های استدلال کوتاه آموزش دادند و سپس به تدریج طول آن را افزایش دادند. آن‌ها همچنین یک روش فیلتر کردن توسعه دادند تا هنگام ایجاد زنجیره‌های استدلالی که از محدودیت زمینه فراتر می‌روند، مدل جریمه نشود. پژوهشگران توضیح می‌دهند: “برای حفظ استدلال در زمینه‌های طولانی و در عین حال امکان آموزش کارآمد، ما فیلتر کردن اضافی را گنجاندیم… این تکنیک زنجیره‌های کوتاه‌شده را در طول آموزش پنهان می‌کند تا مدل‌ها به خاطر تولید خروجی‌های طولانی که فراتر از محدودیت‌های فعلی زمینه است، جریمه نشوند.”

آموزش مدل‌های بزرگ با یادگیری تقویتی، خصوصاً در وظایف نیازمند توالی‌های طولانی تولید شده مانند کدنویسی یا استدلال پیچیده، بسیار زمان‌بر و محاسباتی است. یکی از موانع اصلی، مرحله “نمونه‌برداری” است که در آن مدل به‌طور بالقوه هزاران توکن برای هر مثال تولید می‌کند. تفاوت در طول پاسخ‌ها به این معنی است که برخی پاسخ‌ها بسیار دیرتر از دیگران به پایان می‌رسند و باعث می‌شود GPU ها بی‌استفاده بمانند و کل حلقه آموزش کندتر شود. برای تسریع این فرآیند، تیم یک راه‌حل بهینه‌سازی به نام verl-pipeline، که یک گسترش بهینه از کتابخانه متن باز verl برای یادگیری تقویتی از بازخورد انسان است، توسعه داد. نوآوری کلیدی آنها، که “پایپ لاین‌سازی یک‌باره” نامیده می‌شود، ترتیب نمونه‌برداری پاسخ و به‌روزرسانی مدل را تغییر می‌دهد تا موانع و زمان بی‌استفاده CPU را کاهش دهد. آزمایش‌های آنها نشان داد که پایپ‌لاین‌سازی یک‌باره تا 2 برابر تسریع در وظایف RL کدنویسی نسبت به پیاده‌سازی‌های پایه فراهم کرده است.

این بهینه‌سازی برای آموزش DeepCoder در یک بازه زمانی معقول (2.5 هفته با 32 GPU H100) ضروری بوده و اکنون به‌عنوان بخشی از verl-pipeline به صورت متن باز در دسترس جامعه قرار گرفته است. پژوهشگران تمام ملزومات مربوط به آموزش و اجرای DeepCoder-14B را تحت مجوزی آزاد در GitHub و Hugging Face در دسترس قرار داده‌اند. “با به اشتراک‌گذاری کامل مجموعه داده، کد و دستورالعمل‌های آموزشی، ما به جامعه قدرت می‌دهیم تا کار ما را بازتولید کند و آموزش RL را برای همه قابل دسترسی کند”، این جمله‌ای است که پژوهشگران در این‌باره بیان کرده‌اند.

DeepCoder-14B به‌خوبی روندی وسیع و شتاب‌دهنده در چشم‌انداز هوش مصنوعی را نشان می‌دهد: ظهور مدل‌های بسیار توانمند اما کارآمد و قابل دسترس به صورت آزاد. برای دنیای شرکت‌ها، این تغییر به معنای گزینه‌های بیشتر و دسترسی بالاتر به مدل‌های پیشرفته است. عملکرد پیشرفته دیگر صرفاً متعلق به شرکت‌های بزرگ یا آنهایی که حاضرند هزینه‌های بالای API را بپردازند نیست. مدل‌هایی مانند DeepCoder می‌تواند سازمان‌های از هر اندازه را قادر سازد تا از توانایی‌های پیچیده تولید کد و استدلال بهره‌برداری کرده و راه‌حل‌ها را با نیازهای خاص خود سفارشی کرده و در محیط‌های خود به‌طور ایمن مستقر کنند. این روند می‌تواند موانع ورود به دنیای هوش مصنوعی را کاهش داده و یک اکوسیستم رقابتی و نوآورانه را پرورش دهد که پیشرفت آن از طریق همکاری متن باز هدایت می‌شود.

چت بات پیشرفته

دیپ‌کودر: عملکرد برتر کدنویسی با مدل باز ۱۴ میلیاردی کارآمد

دیدگاه‌ خود را بنویسید لغو پاسخ