عناوین حوزه هوش مصنوعی در حال تحول هستند و حالا علیبابا با معرفی فریمورک جدید خود به نام QwenLong-L1، گامی بزرگ در این راستا برداشته است. این فریمورک به مدلهای زبان بزرگ (LLMs) این امکان را میدهد که بر روی ورودیهای بسیار طولانی تفکر کنند و به تحلیل و استنباط اطلاعات بپردازند. این نوآوری میتواند راهگشای کاربردهای جدید در سازمانها باشد که نیازمند درک و تحلیل اسناد مفصل نظیر اظهارنامههای شرکتی، صورتهای مالی طولانی و قراردادهای پیچیده قانونی هستند.
پیشرفتهای اخیر در مدلهای استدلال بزرگ (LRMs) بهویژه از طریق یادگیری تقویتی (RL) به طور چشمگیری تواناییهای حل مسئله آنها را بهبود بخشیده است. تحقیقات نشان میدهد که آموزش این مدلها با استفاده از RL fine-tuning، مهارتهایی مشابه با “تفکر کند” انسانها به آنان میدهد و این موضوع کمک میکند تا استراتژیهای پیچیدهتری برای حل مسائل دشوار توسعه یابند. با این حال، این بهبودها عمدتاً به هنگام کار با متنهای کوتاه، معمولاً حدود ۴۰۰۰ توکن، مشهود است و مقیاسپذیری این مدلها به زمینههای طولانیتر (مانند ۱۲۰٬۰۰۰ توکن) هنوز یک چالش بزرگ محسوب میشود.
پیادهسازی استدلال در زمینههای طولانی نیازمند درک عمیق از کل زمینه و توانایی انجام تحلیلهای چند مرحلهای است. توسعهدهندگان QwenLong-L1 در مقاله خود بیان میکنند که این محدودیت، مانع بزرگی برای کاربردهای عملی است که نیاز به تعامل با دانش خارجی دارند، مانند تحقیقات عمیق که در آنها مدلها باید اطلاعات را از محیطهای پر دانش جمعآوری و پردازش کنند.
این تحقیق چالشها را به مفهوم “استدلال طولانی با RL” تبدیل کرده است. برخلاف استدلال در زمینههای کوتاه، که اغلب به دانش ذخیرهشده در مدل متکی است، استدلال طولانی نیاز به بازیابی و پایهگذاری اطلاعات مرتبط از ورودیهای طولانی دارد. تنها در این صورت است که مدلها میتوانند زنجیرههای استدلال را بر اساس این اطلاعات ترکیبشده تولید کنند.
فرآیند آموزش QwenLong-L1 شامل مراحل چندگانه زیر است:
1. آموزش ناظر پیشگرمکردن (SFT): در این مرحله، مدل آموزش میبیند تا استدلال در زمینههای طولانی را درک کند. این مرحله به ایجاد پایهای قوی برای مدل کمک میکند تا اطلاعات را به درستی از ورودیهای طولانی برداشت کند.
2. آموزش مرحلهای با هدایت برنامهدرسی: در این مرحله، طول ورودیهای اسنادی به تدریج افزایش مییابد و مدل به صورت سیستماتیک تواناییهای استدلال خود را از متنهای کوتاه به تدریج به متنهای طولانیتر تطبیق میدهد.
3. نمونهبرداری بازخوردی آگاه از دشواری: در مرحله نهایی، مثالهای چالشبرانگیز از مراحل قبلی آموزش گنجانده میشود تا مدل به یادگیری از سختترین مشکلات ادامه دهد.
علاوه بر این آموزش ساختاری، QwenLong-L1 از یک سیستم پاداش متمایز استفاده میکند. این سیستم پاداش از ترکیب اعتبارسنجی مبتنی بر قوانین و یک مدل “مدل قاضی LLM” استفاده میکند که میتواند معنای پاسخ تولید شده را با حقیقت موجود مقایسه کند.
تیم علیبابا QwenLong-L1 را با استفاده از سوال و جواب روی اسناد (DocQA) ارزیابی کرده است، که برای نیازهای سازمانها بسیار مرتبط است. نتایج آزمایشات نشان میدهد که مدل QWENLONG-L1-32B عملکردی مشابه با مدل Claude-3.7 Anthropic دارد و از مدلهای دیگری مانند o3-mini و Qwen3-235B-A22B برتر است.
یافتههای مهم نشاندهنده توسعه رفتارهای تخصصی استدلال طولانی در این مدلها هستند. بهطور مثال، مدلهای آموزشدیده با QwenLong-L1 توانایی بهتری در “پایهگذاری” (لینک کردن پاسخها به بخشهای خاصی از اسناد) و “برگشت به عقب” (شناسایی و اصلاح اشتباهات خود در میانه تفکر) دارند.
امید میرود ویژگیهای QwenLong-L1 به طور قابلتوجهی کاربرد هوش مصنوعی را در صنایع مختلف گسترش دهد. کاربردهای بالقوه شامل فناوری حقوقی، تحلیل اسناد مالی و خدمات مشتری است. محققان کد و وزنهای مدلهای آموزشدیده QwenLong-L1 را نیز منتشر کردهاند که میتوانند به استفادههای عملی کمک شایانی کنند.