شرکت اوپنای آی (OpenAI) بهتازگی اعلام کرد که توسعهدهندگان نرمافزار مستقل میتوانند به تکنیک جدیدی به نام «تنظیم مجدد تقویتی» (Reinforcement Fine-Tuning یا RFT) برای مدل «اوزرای نیو ۴-مینی» دسترسی پیدا کنند. این قابلیت به توسعهدهندگان امکان میدهد نسخهای شخصیسازیشده از این مدل را بر اساس نیازهای خاص شرکتهای خود ایجاد کنند؛ بهویژه در زمینه محصولات، اصطلاحات داخلی، اهداف و فرآیندهای کاری.
با استفاده از این ابزار، توسعهدهندگان میتوانند مدل عمومی را با توجه به نیازهای خاص خود بهطور مؤثری تنظیم و سازگار کنند. پس از انجام این کار، آنها میتوانند از طریق رابط برنامهنویسی کاربردی (API) اوپنای آی، این مدل را به سیستمهای داخلی شرکت خود متصل کنند. در نتیجه، کارمندان یا مدیران میتوانند بهراحتی از این مدل شخصیسازیشده از طریق چتباتهای داخلی یا GPT سفارشیشده اوپنای آی بهرهبرداری کنند؛ این امر به آنها کمک میکند تا به دانش خاص شرکت، پاسخ به سوالات ویژه در مورد محصولات و سیاستها، و تولید محتوای جدید در صدای شرکتی خود دسترسی داشته باشند.
لازم به ذکر است که تحقیقات نشان میدهد مدلهای تنظیمشده قدری به مشکلاتی مانند «شکنندگی» (jailbreak) و «توهمات» (hallucinations) مستعدتر هستند، لذا کاربران باید با احتیاط عمل کنند. راهاندازی این قابلیت، ابزارهای بهینهسازی مدل این شرکت را فراتر از تنظیم ناظر (Supervised Fine-Tuning یا SFT) گسترش میدهد و کنترل انعطافپذیری بیشتری برای وظایف پیچیده و خاص ارائه میدهد.
اوپنای آی همچنین اعلام کرد که از این پس، تنظیم ناظر نیز برای مدل nano GPT-4.1، که از نظر قیمتی و سرعت بهترین گزینه این شرکت است، پشتیبانی میشود. RFT بهطور خودکار نسخهای از مدل o4-mini را با توجه به اهداف کاربر یا سازمان آنها تطبیق میدهد و این کار را از طریق یک حلقه بازخورد در هنگام آموزش انجام میدهد. توسعهدهندگان، خواه در شرکتهای بزرگ یا مستقل، میتوانند بهصورت آسان و کمهزینه این فرایند را از طریق پلتفرم آنلاین اوپنای آی آغاز کنند.
این تکنیک به جای استفاده از مجموعهای از سوالات با پاسخهای صحیح ثابت، از یک مدل ارزیابیکننده برای نمرهگذاری بهینهترین پاسخها استفاده میکند. این روش به کاربران اجازه میدهد تا مدلها را با اهداف دقیقتری از جمله “سبک خانه” ارتباطی و رعایت سیاستهای داخلی تطبیق دهند.
در حال حاضر، RFT تنها برای مدلهای سری o و مدل o4-mini در دسترس است و طبق اعلام اوپنای آی، چندین مشتری ابتدایی از صنایع مختلف از این قابلیت استفاده کردهاند. این موارد اغلب دارای ویژگیهای مشترکی نظیر تعریف واضح وظایف و فرمتهای خروجی ساختارمند هستند که برای بهبود کارایی تنظیم مجدد تقویتی ضروریاند.
توسعهدهندگان علاقهمند به استفاده از RFT میتوانند با مراجعه به مستندات و داشبورد مربوطه، شروع به کار کنند. اوپنای آی همچنین برای تیمهایی که مجموعه دادههای آموزشی خود را با این شرکت به اشتراک میگذارند، تخفیف ۵۰ درصدی ارائه میدهد.
این تکنیک، شیوهای نوین و قابل تنظیم برای تطبیق مدلهای زبانی با کاربردهای واقعی دنیای کسبوکار فراهم نموده و از نظر طراحی وظایف و ارزیابی مؤثر به موفقیت هر چه بیشتر توسعهدهندگان کمک میکند.