عنوان: روشی جدید برای «کشف» راهحلهای پیچیده: TTT-Discover مدلهای ثابت را به چالش میکشد
محققان استنفورد، Nvidia و Together AI تکنیکی تازه معرفی کردهاند که میتواند برای مسائل بسیار پیچیده راهحلهای کاملاً جدید کشف کند. این روش که تحت نام Test-Time Training to Discover (TTT-Discover) شناخته میشود، در یکی از آزمایشها توانست یک کرنل بحرانی GPU را طوری بهینهسازی کند که تا 2 برابر سریعتر از بهترین کرنلهای نوشتهشده توسط انسان اجرا شود—دستاوردی که نشاندهنده پتانسیل واقعی «آموزش در زمان استنتاج» در کشف راهحلهای نوآورانه است.
چرا مدلهای «ثابت» محدودند؟
بسیاری از استراتژیهای فعلی در هوش مصنوعی سازمانی با مدلهای «فریز شده» کار میکنند؛ یعنی پارامترهای مدل پس از آموزش ثابت میمانند و در زمان استنتاج تغییری نمیکنند. این مدلها در مواجهه با مسائلی که شبیه دادههای آموزشیشان هستند عملکرد خوبی دارند، اما در مسائل «کشفی»—مثلاً اختراع یک الگوریتم نو یا اثبات یک قضیه جدید—که به جهشهای منطقی خارج از توزیع آموزش نیاز دارند، اغلب ناکارآمد خواهند بود. به تعبیر یکی از نویسندگان مقاله، همانطور که اندرو وایلز برای حل آخرین قضیه فرما نیاز به سالها تلاش متمرکز و یادگیری از شکستهایش داشت، مدلهایی که در زمان استنتاج آموزش مجدد نمیبینند احتمالاً قادر به کشف چنین جهشهایی نخواهند بود.
چه چیزی TTT-Discover را متفاوت میکند؟
رویکرد TTT-Discover مسئله تست را بهعنوان یک محیط قابل تسلط میبیند، نه صرفاً یک پرسش برای پاسخدهی. در حین تلاش برای حل مسئله، مدل مجموعهای از دادهها شامل شکستها، موفقیتهای جزئی و خطاها تولید میکند؛ بهجای دور ریختن این سیگنالها، روش جدید از آنها برای بهروزرسانی وزنهای مدل در زمان واقعی استفاده میکند تا مدل بتواند تمرکز عمیق و خاصی روی همان چالش پیدا کند—نه اینکه تنها یک چارچوب کلی برای حل مسئله بسازد.
دو مؤلفه کلیدی:
– هدف آنتروپی (Entropic objective): در مقابل هدفهای استاندارد در یادگیری تقویتی که میانگین پاداش را بهینه میکنند و از مسیرهای پرریسک چشمپوشی میکنند، هدف آنتروپی بهصورت نمایی نتایج پاداش بالا را وزندهی میکند. این باعث میشود مدل بهدنبال یافتن «راهحلهای یورکا» با احتمال کم اما پاداش بسیار بالا باشد.
– جستجوی PUCT: نسخهای از جستجوی درختی برگرفته از AlphaZero که مسیرهای مختلف حل را کاوش میکند و یک دیتاست از تلاشها میسازد. سپس مدل بهصورت آنلاین روی این دیتاست آموزش میبیند تا تشخیص دهد کدام گامهای جزئی به نتایج با پاداش بالا منجر میشوند.
نیاز به سیگنال پیوسته و قابل سنجش
TTT-Discover بیشترین کارایی را در مسائلی دارد که سیگنال پاداششان پیوسته و کمّی باشد—مثل زمان اجرا در میکروثانیه، نرخ خطا یا متریکهای عددی دیگر—نه فقط سیگنال باینری «درست/نادرست». این امکان را میدهد تا مدل بهتدریج دنبال بهبود حرکت کند و بهینهترین راهحل را بیابد.
هزینه و بازده برای کسبوکارها
این رویکرد هزینه محاسباتی و زمان بیشتری نسبت به فراخوانهای معمول API دارد: در آزمایشها هر «ران کشف» تقریباً شامل 50 گام آموزش و هزاران رولاوت بوده و هزینهای حدود $500 به ازای هر مسئله داشته است. بنابراین TTT-Discover مناسب مسائل کمتکرار اما با ارزش بالاست—مسائلی که حتی بهبود کوچک در آنها میتواند صرفهجوییهای مالی عظیمی بههمراه داشته باشد. برای مثال، در یک سازمان ابری که شبانه پتابایتها پردازش میشود، بهینهسازی یک کرنل یا یک پرسوجوی SQL حتی به میزان 1% میتواند صدها هزار دلار صرفهجویی سالانه ایجاد کند؛ در چنین موقعیتی صرف $500 برای افزایش کارایی 50% کاملاً منطقی بهنظر میرسد.
نتایج و انتشار کد
محققان TTT-Discover را روی چهار حوزه فنی مختلف—مهندسی سیستمها، طراحی الگوریتم، زیستشناسی و ریاضیات—آزمودند و در تقریباً همه موارد نتایج جدیدی در سطح state-of-the-art بهدست آوردند. در یک تجربه مشخص، این روش کرنلهای محاسبات ماتریسی (از جمله کرنل TriMul مورد استفاده در AlphaFold) را تا دو برابر نسبت به بهترینهای پیشین سریعتر کرد. نکته مهم برای سازمانها این است که روش نیازی به مدلهای اختصاصی و بسته frontier ندارد: محققان با استفاده از مدل متنباز gpt-oss-120b (open-weights) به نتایج پیشرو رسیدهاند و کد TTT-Discover را در دسترس قرار دادهاند. این امکان میدهد شرکتها حلقهٔ کشف را کاملاً در VPC خصوصی یا کلاسترهای محلی H100 اجرا کنند بدون آنکه دادههای حساس خود را به سرویسهای ثالث بفرستند.
نیازمندیهای زیرساختی و ابزارها
اگر سازمانها از قبل زیرساخت یادگیری تقویتی دارند، ادغام TTT-Discover معمولاً نیاز به سختافزار یا نرمافزار اضافی خاصی ندارد؛ همان GPUs، rollout workers، بهینهسازها و سیستمهای checkpoint کافیاند. برای کاهش پیچیدگی، تیم تحقیقاتی از APIهای مدیریت تمرین توزیعشده مانند Tinker (و نسخههای بازمتن مشابه) استفاده کردهاند که هزینهٔ راهاندازی را کاهش میدهد و احتمالاً با گذر زمان هم هزینهٔ نیروی انسانی و محاسبات کاهش خواهد یافت.
کجا از این فناوری استفاده کنیم؟
TTT-Discover برای مسائل «قابلتأیید و عددی» بهترین کاربرد را دارد: طراحی دارو، کشف مواد، مسألههای لجستیک و بهینهسازیهایی مانند روتینگ ناوگان یا زمانبندی خدمه که دارای معیار کمی قابلاندازهگیری هستند. در مقابل، مسائل با ارزیابی کیفی یا ناقص (مثلاً «نوشتن استراتژی بازاریابی بهتر») فعلاً برای این روش نامناسباند مگر اینکه بتوان معیارهای عددی دقیق و مقاومی طراحی کرد.
جمعبندی
TTT-Discover یک تغییر پارادایم پیشنهاد میدهد: بهجای تکیه صرف بر مدلهای فریز شده و «تفکر طولانی» در زمان استنتاج، اجازه میدهد مدلها در همان لحظه با مسئله تعامل کنند و از شکستها و موفقیتهای جزئی یاد بگیرند تا راهحلهای غیرمنتظره ولی بسیار ارزشمند را کشف کنند. برای شرکتها، کلید بهرهبرداری موفق از این فناوری شناسایی «مسائل میلیون دلاری» با سیگنالهای عددی و طراحی زیرساخت مناسب برای حلقههای کشف است.
