عناوین حوزه هوش مصنوعی در حال تحول هستند و حالا علی‌بابا با معرفی فریم‌ورک جدید خود به نام QwenLong-L1، گامی بزرگ در این راستا برداشته است. این فریم‌ورک به مدل‌های زبان بزرگ (LLMs) این امکان را می‌دهد که بر روی ورودی‌های بسیار طولانی تفکر کنند و به تحلیل و استنباط اطلاعات بپردازند. این نوآوری می‌تواند راه‌گشای کاربردهای جدید در سازمان‌ها باشد که نیازمند درک و تحلیل اسناد مفصل نظیر اظهارنامه‌های شرکتی، صورت‌های مالی طولانی و قراردادهای پیچیده قانونی هستند.

پیشرفت‌های اخیر در مدل‌های استدلال بزرگ (LRMs) به‌ویژه از طریق یادگیری تقویتی (RL) به طور چشمگیری توانایی‌های حل مسئله آن‌ها را بهبود بخشیده است. تحقیقات نشان می‌دهد که آموزش این مدل‌ها با استفاده از RL fine-tuning، مهارت‌هایی مشابه با “تفکر کند” انسان‌ها به آنان می‌دهد و این موضوع کمک می‌کند تا استراتژی‌های پیچیده‌تری برای حل مسائل دشوار توسعه یابند. با این حال، این بهبودها عمدتاً به هنگام کار با متن‌های کوتاه، معمولاً حدود ۴۰۰۰ توکن، مشهود است و مقیاس‌پذیری این مدل‌ها به زمینه‌های طولانی‌تر (مانند ۱۲۰٬۰۰۰ توکن) هنوز یک چالش بزرگ محسوب می‌شود.

پیاده‌سازی استدلال در زمینه‌های طولانی نیازمند درک عمیق از کل زمینه و توانایی انجام تحلیل‌های چند مرحله‌ای است. توسعه‌دهندگان QwenLong-L1 در مقاله خود بیان می‌کنند که این محدودیت، مانع بزرگی برای کاربردهای عملی است که نیاز به تعامل با دانش خارجی دارند، مانند تحقیقات عمیق که در آن‌ها مدل‌ها باید اطلاعات را از محیط‌های پر دانش جمع‌آوری و پردازش کنند.

این تحقیق چالش‌ها را به مفهوم “استدلال طولانی با RL” تبدیل کرده است. برخلاف استدلال در زمینه‌های کوتاه، که اغلب به دانش ذخیره‌شده در مدل متکی است، استدلال طولانی نیاز به بازیابی و پایه‌گذاری اطلاعات مرتبط از ورودی‌های طولانی دارد. تنها در این صورت است که مدل‌ها می‌توانند زنجیره‌های استدلال را بر اساس این اطلاعات ترکیب‌شده تولید کنند.

فرآیند آموزش QwenLong-L1 شامل مراحل چندگانه زیر است:
1. آموزش ناظر پیش‌گرم‌کردن (SFT): در این مرحله، مدل آموزش می‌بیند تا استدلال در زمینه‌های طولانی را درک کند. این مرحله به ایجاد پایه‌ای قوی برای مدل کمک می‌کند تا اطلاعات را به درستی از ورودی‌های طولانی برداشت کند.
2. آموزش مرحله‌ای با هدایت برنامه‌درسی: در این مرحله، طول ورودی‌های اسنادی به تدریج افزایش می‌یابد و مدل به صورت سیستماتیک توانایی‌های استدلال خود را از متن‌های کوتاه به تدریج به متن‌های طولانی‌تر تطبیق می‌دهد.
3. نمونه‌برداری بازخوردی آگاه از دشواری: در مرحله نهایی، مثال‌های چالش‌برانگیز از مراحل قبلی آموزش گنجانده می‌شود تا مدل به یادگیری از سخت‌ترین مشکلات ادامه دهد.

علاوه بر این آموزش ساختاری، QwenLong-L1 از یک سیستم پاداش متمایز استفاده می‌کند. این سیستم پاداش از ترکیب اعتبارسنجی مبتنی بر قوانین و یک مدل “مدل قاضی LLM” استفاده می‌کند که می‌تواند معنای پاسخ تولید شده را با حقیقت موجود مقایسه کند.

تیم علی‌بابا QwenLong-L1 را با استفاده از سوال و جواب روی اسناد (DocQA) ارزیابی کرده است، که برای نیازهای سازمان‌ها بسیار مرتبط است. نتایج آزمایشات نشان می‌دهد که مدل QWENLONG-L1-32B عملکردی مشابه با مدل Claude-3.7 Anthropic دارد و از مدل‌های دیگری مانند o3-mini و Qwen3-235B-A22B برتر است.

یافته‌های مهم نشان‌دهنده توسعه رفتارهای تخصصی استدلال طولانی در این مدل‌ها هستند. به‌طور مثال، مدل‌های آموزش‌دیده با QwenLong-L1 توانایی بهتری در “پایه‌گذاری” (لینک کردن پاسخ‌ها به بخش‌های خاصی از اسناد) و “برگشت به عقب” (شناسایی و اصلاح اشتباهات خود در میانه تفکر) دارند.

امید می‌رود ویژگی‌های QwenLong-L1 به طور قابل‌توجهی کاربرد هوش مصنوعی را در صنایع مختلف گسترش دهد. کاربردهای بالقوه شامل فناوری حقوقی، تحلیل اسناد مالی و خدمات مشتری است. محققان کد و وزن‌های مدل‌های آموزش‌دیده QwenLong-L1 را نیز منتشر کرده‌اند که می‌توانند به استفاده‌های عملی کمک شایانی کنند.

ایجاد متن‌های دقیق از فایل‌های صوتی شما

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا