بررسی تفاوت‌های توکنایزیشن میان مدل‌های هوش مصنوعی

تحقیقات اخیر نشان داده‌اند که خانواده‌های مختلف مدل‌های هوش مصنوعی از توکنایزرهای متفاوتی استفاده می‌کنند. اما در مورد چگونگی فرآیند توکنایزیشن و نحوه تأثیر آن بر تعداد توکن‌ها، تحلیل‌ها محدود بوده است. آیا همه توکنایزرها برای یک متن ورودی مشخص، تعداد یکسانی از توکن‌ها را تولید می‌کنند؟ اگر نه، تفاوت‌ها به چه میزان است و چقدر چشمگیر هستند؟

در این مقاله، به بررسی این سؤالات و پیامدهای عملی تغییرات توکنایزیشن می‌پردازیم. ما داستانی مقایسه‌ای از دو مدل پیشرفته هوش مصنوعی، OpenAI’s ChatGPT و Anthropic’s Claude، ارائه خواهیم داد. با اینکه آمار ارائه شده درباره «هزینه هر توکن» این دو مدل بسیار رقابتی به نظر می‌رسد، آزمایش‌ها نشان می‌دهد که مدل‌های Anthropic می‌توانند 20 تا 30 درصد گران‌تر از مدل‌های GPT باشند.

تا ژوئن 2024، ساختار قیمت‌گذاری این دو مدل پیشرفته کاملاً رقابتی است. هزینه توکن‌های خروجی Claude 3.5 Sonnet و GPT-4o مشابه است، در حالی که Claude 3.5 Sonnet هزینه‌های ورودی را 40 درصد کمتر از GPT-4o ارائه می‌دهد. با وجود نرخ‌های پایین‌تر توکن‌های ورودی مدل Anthropic، مشاهده کردیم که هزینه کلی اجرای آزمایش‌ها با GPT-4o بسیار کمتر از Claude Sonnet-3.5 است. علت این موضوع چیست؟

تکنیک توکنایزیشن در مدل Anthropic تمایل دارد که ورودی‌های مشابه را به توکن‌های بیشتری تقسیم کند. به این ترتیب، مدل‌های Anthropic برای درخواست‌های یکسان توکن‌های considerably بیشتری نسبت به مدل‌های OpenAI تولید می‌کنند. در نتیجه، در حالی که هزینه هر توکن ورودی برای Claude 3.5 Sonnet ممکن است کمتر باشد، افزایش تعداد توکن‌ها می‌تواند این صرفه‌جویی را جبران کند و منجر به هزینه‌های بالاتر در موارد استفاده عملی شود.

این هزینه‌های ناپیدا ناشی از نحوه رمزگذاری اطلاعات توسط توکنایزر Anthropic است که اغلب از توکن‌های بیشتری برای نمایش محتواهای مشابه استفاده می‌کند. افزایش تعداد توکن‌ها تأثیر قابل توجهی بر هزینه‌ها و استفاده از پنجره‌های زمینه‌ای دارد. انواع مختلف محتوا با الگوها و نشانه‌های خاص خود به گونه‌ای مختلف توسط توکنایزر Anthropic توکنایز می‌شوند که منجر به افزایش قابل توجه تعداد توکن‌ها در مقایسه با مدل‌های OpenAI می‌شود.

تحقیقات ما در سه حوزه پرطرفدار شامل مقالات انگلیسی، کد (پایتون) و ریاضیات به این تفاوت‌ها پرداخته است. برای مقایسه Claude 3.5 Sonnet با GPT-4o، میزان ناکارآمدی توکنایزر بسته به نوع محتوا متفاوت است. به طور مثال، توکنایزر Claude حدود 16 درصد بیشتر از GPT-4o برای همان متن ورودی، توکن تولید می‌کند. این عدد در مورد محتوای ساختارمند یا فنی مانند معادلات ریاضی به 21 درصد و برای کدهای پایتون به 30 درصد می‌رسد.

این تنوع ناشی از این است که برخی از انواع محتوا مانند اسناد فنی و کد معمولاً الگوها و نمادهایی دارند که توکنایزر Anthropic آن‌ها را به قسمت‌های کوچکتر تقسیم می‌کند. در مقابل، محتواهای طبیعی‌تر معمولاً بار توکنی کمتری را نمایش می‌دهند.

فراتر از تأثیرات مستقیم بر هزینه‌ها، اثر غیرمستقیم بر استفاده از پنجره‌های زمینه‌ای نیز وجود دارد. در حالی که مدل‌های Anthropic ادعای پنجره زمینه‌ای بزرگ‌تری به اندازه 200K توکن دارند، در مقایسه با 128K توکن OpenAI، به دلیل وابستگی به تعداد زیاد توکن‌ها، فضای قابل استفاده واقعی ممکن است برای مدل‌های Anthropic کمتر باشد.

مدل‌های GPT از تکنیک Byte Pair Encoding (BPE) استفاده می‌کنند که زوج‌های متداول کاراکتر را برای تشکیل توکن‌ها ادغام می‌کند. به طور خاص، جدیدترین مدل‌های GPT از توکنایزر متن باز o200k_base استفاده می‌کنند. با این حال، در مورد توکنایزرهای Anthropic اطلاعات کمی وجود دارد زیرا آن‌ها به راحتی در دسترس نیستند. Anthropic در دسامبر 2024 API شمارش توکن را منتشر کرد، اما در نسخه‌های بعدی آن در سال 2025 به سرعت متوقف شد.

پیش‌بینی توانایی تخمین تعداد توکن‌ها و بودجه هزینه‌ها برای شرکت‌های هوش مصنوعی بسیار حیاتی است. در حال حاضر، انتظار می‌رود که Anthropic به درخواست‌های نظر رسانه‌ها پاسخ دهد، و در صورت دریافت پاسخ، اخبار به‌روزرسانی خواهد شد.

چت بات هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا