TTT-Discover با آموزش در حین استنتاج کرنل‌های GPU را ۲ برابر سریع‌تر از متخصصان بهینه می‌کند

عنوان: روشی جدید برای «کشف» راه‌حل‌های پیچیده: TTT-Discover مدل‌های ثابت را به چالش می‌کشد

محققان استنفورد، Nvidia و Together AI تکنیکی تازه‌ معرفی کرده‌اند که می‌تواند برای مسائل بسیار پیچیده راه‌حل‌های کاملاً جدید کشف کند. این روش که تحت نام Test-Time Training to Discover (TTT-Discover) شناخته می‌شود، در یکی از آزمایش‌ها توانست یک کرنل بحرانی GPU را طوری بهینه‌سازی کند که تا 2 برابر سریع‌تر از بهترین کرنل‌های نوشته‌شده توسط انسان اجرا شود—دستاوردی که نشان‌دهنده پتانسیل واقعی «آموزش در زمان استنتاج» در کشف راه‌حل‌های نوآورانه است.

چرا مدل‌های «ثابت» محدودند؟
بسیاری از استراتژی‌های فعلی در هوش مصنوعی سازمانی با مدل‌های «فریز شده» کار می‌کنند؛ یعنی پارامترهای مدل پس از آموزش ثابت می‌مانند و در زمان استنتاج تغییری نمی‌کنند. این مدل‌ها در مواجهه با مسائلی که شبیه داده‌های آموزشی‌شان هستند عملکرد خوبی دارند، اما در مسائل «کشفی»—مثلاً اختراع یک الگوریتم نو یا اثبات یک قضیه جدید—که به جهش‌های منطقی خارج از توزیع آموزش نیاز دارند، اغلب ناکارآمد خواهند بود. به تعبیر یکی از نویسندگان مقاله، همان‌طور که اندرو وایلز برای حل آخرین قضیه فرما نیاز به سال‌ها تلاش متمرکز و یادگیری از شکست‌هایش داشت، مدل‌هایی که در زمان استنتاج آموزش مجدد نمی‌بینند احتمالاً قادر به کشف چنین جهش‌هایی نخواهند بود.

چه چیزی TTT-Discover را متفاوت می‌کند؟
رویکرد TTT-Discover مسئله تست را به‌عنوان یک محیط قابل تسلط می‌بیند، نه صرفاً یک پرسش برای پاسخ‌دهی. در حین تلاش برای حل مسئله، مدل مجموعه‌ای از داده‌ها شامل شکست‌ها، موفقیت‌های جزئی و خطاها تولید می‌کند؛ به‌جای دور ریختن این سیگنال‌ها، روش جدید از آن‌ها برای به‌روزرسانی وزن‌های مدل در زمان واقعی استفاده می‌کند تا مدل بتواند تمرکز عمیق و خاصی روی همان چالش پیدا کند—نه اینکه تنها یک چارچوب کلی برای حل مسئله بسازد.

دو مؤلفه کلیدی:
– هدف آنتروپی (Entropic objective): در مقابل هدف‌های استاندارد در یادگیری تقویتی که میانگین پاداش را بهینه می‌کنند و از مسیرهای پرریسک چشم‌پوشی می‌کنند، هدف آنتروپی به‌صورت نمایی نتایج پاداش بالا را وزن‌دهی می‌کند. این باعث می‌شود مدل به‌دنبال یافتن «راه‌حل‌های یورکا» با احتمال کم اما پاداش بسیار بالا باشد.
– جستجوی PUCT: نسخه‌ای از جستجوی درختی برگرفته از AlphaZero که مسیرهای مختلف حل را کاوش می‌کند و یک دیتاست از تلاش‌ها می‌سازد. سپس مدل به‌صورت آنلاین روی این دیتاست آموزش می‌بیند تا تشخیص دهد کدام گام‌های جزئی به نتایج با پاداش بالا منجر می‌شوند.

نیاز به سیگنال پیوسته و قابل سنجش
TTT-Discover بیشترین کارایی را در مسائلی دارد که سیگنال پاداش‌شان پیوسته و کمّی باشد—مثل زمان اجرا در میکروثانیه، نرخ خطا یا متریک‌های عددی دیگر—نه فقط سیگنال باینری «درست/نادرست». این امکان را می‌دهد تا مدل به‌تدریج دنبال بهبود حرکت کند و بهینه‌ترین راه‌حل را بیابد.

هزینه و بازده برای کسب‌وکارها
این رویکرد هزینه محاسباتی و زمان بیشتری نسبت به فراخوان‌های معمول API دارد: در آزمایش‌ها هر «ران کشف» تقریباً شامل 50 گام آموزش و هزاران رول‌اوت بوده و هزینه‌ای حدود $500 به ازای هر مسئله داشته است. بنابراین TTT-Discover مناسب مسائل کم‌تکرار اما با ارزش بالاست—مسائلی که حتی بهبود کوچک در آن‌ها می‌تواند صرفه‌جویی‌های مالی عظیمی به‌همراه داشته باشد. برای مثال، در یک سازمان ابری که شبانه پتابایت‌ها پردازش می‌شود، بهینه‌سازی یک کرنل یا یک پرس‌وجوی SQL حتی به میزان 1% می‌تواند صدها هزار دلار صرفه‌جویی سالانه ایجاد کند؛ در چنین موقعیتی صرف $500 برای افزایش کارایی 50% کاملاً منطقی به‌نظر می‌رسد.

نتایج و انتشار کد
محققان TTT-Discover را روی چهار حوزه فنی مختلف—مهندسی سیستم‌ها، طراحی الگوریتم، زیست‌شناسی و ریاضیات—آزمودند و در تقریباً همه موارد نتایج جدیدی در سطح state-of-the-art به‌دست آوردند. در یک تجربه مشخص، این روش کرنل‌های محاسبات ماتریسی (از جمله کرنل TriMul مورد استفاده در AlphaFold) را تا دو برابر نسبت به بهترین‌های پیشین سریع‌تر کرد. نکته مهم برای سازمان‌ها این است که روش نیازی به مدل‌های اختصاصی و بسته frontier ندارد: محققان با استفاده از مدل متن‌باز gpt-oss-120b (open-weights) به نتایج پیشرو رسیده‌اند و کد TTT-Discover را در دسترس قرار داده‌اند. این امکان می‌دهد شرکت‌ها حلقهٔ کشف را کاملاً در VPC خصوصی یا کلاسترهای محلی H100 اجرا کنند بدون آنکه داده‌های حساس خود را به سرویس‌های ثالث بفرستند.

نیازمندی‌های زیرساختی و ابزارها
اگر سازمان‌ها از قبل زیرساخت یادگیری تقویتی دارند، ادغام TTT-Discover معمولاً نیاز به سخت‌افزار یا نرم‌افزار اضافی خاصی ندارد؛ همان GPUs، rollout workers، بهینه‌سازها و سیستم‌های checkpoint کافی‌اند. برای کاهش پیچیدگی، تیم تحقیقاتی از APIهای مدیریت تمرین توزیع‌شده مانند Tinker (و نسخه‌های بازمتن مشابه) استفاده کرده‌اند که هزینهٔ راه‌اندازی را کاهش می‌دهد و احتمالاً با گذر زمان هم هزینهٔ نیروی انسانی و محاسبات کاهش خواهد یافت.

کجا از این فناوری استفاده کنیم؟
TTT-Discover برای مسائل «قابل‌تأیید و عددی» بهترین کاربرد را دارد: طراحی دارو، کشف مواد، مسأله‌های لجستیک و بهینه‌سازی‌هایی مانند روتینگ ناوگان یا زمان‌بندی خدمه که دارای معیار کمی قابل‌اندازه‌گیری هستند. در مقابل، مسائل با ارزیابی کیفی یا ناقص (مثلاً «نوشتن استراتژی بازاریابی بهتر») فعلاً برای این روش نامناسب‌اند مگر اینکه بتوان معیارهای عددی دقیق و مقاومی طراحی کرد.

جمع‌بندی
TTT-Discover یک تغییر پارادایم پیشنهاد می‌دهد: به‌جای تکیه صرف بر مدل‌های فریز شده و «تفکر طولانی» در زمان استنتاج، اجازه می‌دهد مدل‌ها در همان لحظه با مسئله تعامل کنند و از شکست‌ها و موفقیت‌های جزئی یاد بگیرند تا راه‌حل‌های غیرمنتظره ولی بسیار ارزشمند را کشف کنند. برای شرکت‌ها، کلید بهره‌برداری موفق از این فناوری شناسایی «مسائل میلیون دلاری» با سیگنال‌های عددی و طراحی زیرساخت مناسب برای حلقه‌های کشف است.

مشاور دیجیتال هوشمند

TTT-Discover با آموزش در حین استنتاج کرنل‌های GPU را ۲ برابر سریع‌تر از متخصصان بهینه می‌کند

دیدگاه‌ خود را بنویسید لغو پاسخ