در سرخط خبری جدید، به رویداد VB Transform بپیوندید که به مدت نزدیک به دو دهه توسط رهبران شرکت‌ها مورد اعتماد بوده است. این رویداد، گردهمایی افرادی است که در حال توسعه استراتژی‌های واقعی هوش مصنوعی برای شرکت‌های خود هستند.

گروه یادگیری ماشین اپل با انتشار مقاله‌ای تحت عنوان «توهم تفکر» در اوایل ماه جاری، واکنش‌های متفاوتی را در جامعه یادگیری ماشین به همراه داشت. این مقاله 53 صفحه‌ای ادعا می‌کند که مدل‌های بزرگ استدلالی (LRMs) مانند سری «o» اوپن‌ای آی و مدل‌های جیمنای 2.5 پرو و فلش تفکر گوگل در واقع قادر به تفکر مستقل از اصول یادگیری شده در داده‌ها نیستند. نویسندگان این مقاله استدلال می‌کنند که این مدل‌ها در واقع نوعی «الگویابی» را انجام می‌دهند و توانایی استدلال آن‌ها در هنگام روبرو شدن با وظایف پیچیده کاهش می‌یابد، که نشان می‌دهد معماری و عملکرد آن‌ها بهبود هوش مصنوعی تولیدی به سطح هوش عمومی مصنوعی (AGI) را فراهم نمی‌آورد.

این مقاله بلافاصله در میان جامعه یادگیری ماشین در شبکه X منتشر و به سرعت به یکی از موضوعات داغ تبدیل شد. بسیاری از محققان بر این باور بودند که اپل به طور موثر شکست‌های مربوط به این نوع هوش مصنوعی را اثبات کرده است و مدل‌های استدلالی مانند کلود و دیپ‌سیک R1 به سادگی الگوها را به خوبی به خاطر می‌سپارند.

اما به تازگی مقاله‌ای دیگر با عنوان چالش‌برانگیز «توهم توهم تفکر» منتشر شده است که توسط یک مدل LLM به نام کلود اوپوس ۴ و الکس لوسن، یکی از محققان مستقل، نگاشته شده است. این مقاله انتقادات زیادی از جامعه ML به مقاله اپل ارائه می‌دهد و به وضوح استدلال می‌کند که طراحی‌های اولیه اپل در تحقیق دارای نقص‌های اساسی هستند.

محققان اپل در این مطالعه با استفاده از چهار مسئله کلاسیک برنامه‌ریزی، مدل‌های استدلالی را به چالش کشیدند. با افزایش پیچیدگی معماها، دقت مدل‌ها به طور مداوم کاهش یافت و در TASK های پیچیده‌تر به صفر رسید. با این حال، انتقادات به طراحی آزمایش اپل و اشاره به اینکه نتایج ممکن است به دلیل محدودیت‌های داخلی مدل‌ها باشد، به طور فزاینده‌ای مطرح شده است.

علاوه بر این، برخی کارشناسان عنوان کردند که اپل هیچ گونه مقایسه‌ای با عملکرد انسانی در همین وظایف انجام نداده است و این امر ادعای اپل مبنی بر «شکست در استدلال» را زیر سوال می‌برد. تعدادی از محققان نیز نسبت به تفکیک «الگوابی» و «استدلال» انتقاداتی داشتند و بر این باورند که مدل‌ها ممکن است در حال یادگیری هورستیک‌های جزئی باشند که فراتر از الگوابی ساده قرار دارند.

این مباحثه به خوبی نشان می‌دهد که طراحی ارزیابی به اندازه طراحی مدل اهمیت دارد و تعیین سطح دقت و توانایی‌های مدل‌ها می‌تواند بر تصمیم‌گیری‌های کلیدی در زمینه هوش مصنوعی اثرگذار باشد.

این رویداد نه تنها باعث ایجاد یک بحث معنیدار در مورد ارزیابی در هوش مصنوعی شده بلکه چالش‌های اساسی را برای تصمیم‌گیرندگان فناوری در ساز و کار تولید هوش مصنوعی مطرح می‌کند.

مشاور صوتی آنلاین

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا