در سرخط خبری جدید، به رویداد VB Transform بپیوندید که به مدت نزدیک به دو دهه توسط رهبران شرکتها مورد اعتماد بوده است. این رویداد، گردهمایی افرادی است که در حال توسعه استراتژیهای واقعی هوش مصنوعی برای شرکتهای خود هستند.
گروه یادگیری ماشین اپل با انتشار مقالهای تحت عنوان «توهم تفکر» در اوایل ماه جاری، واکنشهای متفاوتی را در جامعه یادگیری ماشین به همراه داشت. این مقاله 53 صفحهای ادعا میکند که مدلهای بزرگ استدلالی (LRMs) مانند سری «o» اوپنای آی و مدلهای جیمنای 2.5 پرو و فلش تفکر گوگل در واقع قادر به تفکر مستقل از اصول یادگیری شده در دادهها نیستند. نویسندگان این مقاله استدلال میکنند که این مدلها در واقع نوعی «الگویابی» را انجام میدهند و توانایی استدلال آنها در هنگام روبرو شدن با وظایف پیچیده کاهش مییابد، که نشان میدهد معماری و عملکرد آنها بهبود هوش مصنوعی تولیدی به سطح هوش عمومی مصنوعی (AGI) را فراهم نمیآورد.
این مقاله بلافاصله در میان جامعه یادگیری ماشین در شبکه X منتشر و به سرعت به یکی از موضوعات داغ تبدیل شد. بسیاری از محققان بر این باور بودند که اپل به طور موثر شکستهای مربوط به این نوع هوش مصنوعی را اثبات کرده است و مدلهای استدلالی مانند کلود و دیپسیک R1 به سادگی الگوها را به خوبی به خاطر میسپارند.
اما به تازگی مقالهای دیگر با عنوان چالشبرانگیز «توهم توهم تفکر» منتشر شده است که توسط یک مدل LLM به نام کلود اوپوس ۴ و الکس لوسن، یکی از محققان مستقل، نگاشته شده است. این مقاله انتقادات زیادی از جامعه ML به مقاله اپل ارائه میدهد و به وضوح استدلال میکند که طراحیهای اولیه اپل در تحقیق دارای نقصهای اساسی هستند.
محققان اپل در این مطالعه با استفاده از چهار مسئله کلاسیک برنامهریزی، مدلهای استدلالی را به چالش کشیدند. با افزایش پیچیدگی معماها، دقت مدلها به طور مداوم کاهش یافت و در TASK های پیچیدهتر به صفر رسید. با این حال، انتقادات به طراحی آزمایش اپل و اشاره به اینکه نتایج ممکن است به دلیل محدودیتهای داخلی مدلها باشد، به طور فزایندهای مطرح شده است.
علاوه بر این، برخی کارشناسان عنوان کردند که اپل هیچ گونه مقایسهای با عملکرد انسانی در همین وظایف انجام نداده است و این امر ادعای اپل مبنی بر «شکست در استدلال» را زیر سوال میبرد. تعدادی از محققان نیز نسبت به تفکیک «الگوابی» و «استدلال» انتقاداتی داشتند و بر این باورند که مدلها ممکن است در حال یادگیری هورستیکهای جزئی باشند که فراتر از الگوابی ساده قرار دارند.
این مباحثه به خوبی نشان میدهد که طراحی ارزیابی به اندازه طراحی مدل اهمیت دارد و تعیین سطح دقت و تواناییهای مدلها میتواند بر تصمیمگیریهای کلیدی در زمینه هوش مصنوعی اثرگذار باشد.
این رویداد نه تنها باعث ایجاد یک بحث معنیدار در مورد ارزیابی در هوش مصنوعی شده بلکه چالشهای اساسی را برای تصمیمگیرندگان فناوری در ساز و کار تولید هوش مصنوعی مطرح میکند.