گوگل از مدل هوش مصنوعی Gemini 2.5 رونمایی کرد: جهشی در توانایی استدلال مدلهای AI
در روز سهشنبه، گوگل از جدیدترین گروه مدلهای هوش مصنوعی خود تحت عنوان Gemini 2.5 رونمایی کرد؛ مدلی که با هدف ایجاد توانایی تصمیمگیری بهتر، میتواند در حین پاسخدهی به سوالات، مکث کرده و “تفکر” کند. این مدل، بخشی از خانواده مدلهای چندوجهی و قدرت استدلال هوشمند گوگل است و بر اساس ادعای این شرکت، پیشرفتهترین مدل هوش مصنوعی ایجادشده تاکنون به شمار میآید.
Gemini 2.5 Pro Experimental: آغاز راهی جدید
گوگل اولین نسخه از این خانواده جدید با نام Gemini 2.5 Pro Experimental را معرفی کرده است. این مدل چندوجهی و استدلالی به صورت آزمایشی در دسترسی خواهد بود و از روز سهشنبه در پلتفرم توسعهدهندگان گوگل، یعنی Google AI Studio، و همچنین در اپلیکیشن Gemini برای مشترکین طرح پیشرفته هوش مصنوعی این شرکت با هزینه ماهانه ۲۰ دلار، قابل استفاده خواهد بود. این مدل نشاندهنده جدیت گوگل در تبدیل مفهوم “تفکر مبتنی بر هوش مصنوعی” به یک استاندارد در تمامی مدلهای آینده است.
رقابت در عرصه استدلال هوش مصنوعی
پس از ارائه اولین مدل هوش مصنوعی استدلالی توسط OpenAI در سپتامبر ۲۰۲۴ (مدل O1)، رقابت بین غولهای فناوری برای دستیابی به مدلهایی با توانایی استدلال بهتر آغاز شد. امروزه شرکتهایی مثل Anthropic، DeepSeek، گوگل و xAI به توسعه مدلهای هوش مصنوعی پرداختهاند که با بهرهگیری از قدرت محاسباتی اضافی و زمان پردازش بیشتر، قادر به بررسی دقیقتر و استدلال در حل مشکلات هستند. این تکنیکها به مدلهای هوش مصنوعی کمک کردهاند تا به دستاوردهای جدیدی در زمینه ریاضیات و کدنویسی دست یابند.
بسیاری از کارشناسان دنیای فناوری معتقدند که مدلهای استدلالی نقش کلیدی در تکامل عوامل هوش مصنوعی (AI Agents) خواهند داشت؛ عواملی که میتوانند وظایف مختلفی را بهطور مستقل و بدون نیاز به دخالت انسان انجام دهند. با این حال، این نوع مدلها به دلیل نیاز به منابع محاسباتی بیشتر، هزینهبرتر هستند.
پیشرفتهای قابل توجه Gemini 2.5 Pro
گوگل پیشتر مدلهایی با قابلیت “تفکر” را در دسامبر منتشر کرده بود، اما Gemini 2.5 نشاندهنده جدیترین تلاش گوگل برای رقابت با سری مدلهای O ساخت OpenAI است. بر اساس اعلام گوگل، Gemini 2.5 Pro توانسته است در بسیاری از معیارهای تخصصی از مدلهای پیشین خود و تعدادی از مدلهای رقیب پیشی بگیرد.
به طور مشخص، این مدل به شکل ویژه برای ایجاد اپلیکیشنهای وب با گرافیک جذاب و برنامههای کدنویسی هوشمند طراحی شده است. در ارزیابی مربوط به ویرایش کد، تحت عنوان Aider Polyglot، Gemini 2.5 Pro با کسب امتیاز ۶۸.۶% عملکرد بهتری نسبت به مدلهای برجستهٔ AI از OpenAI، Anthropic و آزمایشگاه هوش مصنوعی DeepSeek داشته است. اما در آزمون دیگری با نام SWE-bench Verified که تواناییهای توسعه نرمافزار را ارزیابی میکند، این مدل با امتیاز ۶۳.۸% از مدلهای O3-mini و R1 جلوتر بوده، اما نسبت به مدل Claude 3.7 Sonnet شرکت Anthropic که امتیاز ۷۰.۳% را کسب کرده است، عقبتر بوده است.
تواناییهای چندوجهی و بیسابقه
در یکی دیگر از آزمونهای جامع تحت عنوان Humanity’s Last Exam، متشکل از هزاران سوال از رشتههایی مانند ریاضیات، علوم انسانی و علوم طبیعی، Gemini 2.5 Pro توانسته امتیاز ۱۸.۸% را کسب کند و عملکرد بهتری نسبت به بسیاری از مدلهای پیشرو رقبا داشته باشد.
یکی از ویژگیهای برجسته این مدل، پشتیبانی از ۱ میلیون توکن بهعنوان پنجرهٔ محتوای متنی است. این امکان به مدل اجازه میدهد تا بتواند حدوداً ۷۵۰,۰۰۰ کلمه را در یک مرحله پردازش کند؛ این مقدار حتی از مجموع متن کل مجموعه کتابهای “ارباب حلقهها” طولانیتر است. همچنین، گوگل اعلام کرده است که بهزودی Gemini 2.5 Pro از طول دو برابر (۲ میلیون توکن) نیز پشتیبانی خواهد کرد.
منتظر اعلام جزئیات بیشتر
در حالی که گوگل هنوز اطلاعات دقیقی دربارهٔ قیمتگذاری API این مدل منتشر نکرده، این شرکت وعده داده است که در هفتههای آینده جزئیات بیشتری پیرامون قابلیتها و هزینههای مرتبط با مدل جدید خود ارائه کند.
Gemini 2.5 Pro به عنوان یک گام بزرگ در پیشرفت هوش مصنوعی و تواناییهای استدلال، میتواند مسیر تازهای در توسعه ابزارها و فناوریهای مبتنی بر هوش مصنوعی ایجاد کند. آیندهای که در آن، مدلهای هوشمند با قدرت تفکر و تصمیمگیری مستقل، نقشی اساسی در دنیای دیجیتال ایفا خواهند کرد.