بررسی تفاوتهای توکنایزیشن میان مدلهای هوش مصنوعی
تحقیقات اخیر نشان دادهاند که خانوادههای مختلف مدلهای هوش مصنوعی از توکنایزرهای متفاوتی استفاده میکنند. اما در مورد چگونگی فرآیند توکنایزیشن و نحوه تأثیر آن بر تعداد توکنها، تحلیلها محدود بوده است. آیا همه توکنایزرها برای یک متن ورودی مشخص، تعداد یکسانی از توکنها را تولید میکنند؟ اگر نه، تفاوتها به چه میزان است و چقدر چشمگیر هستند؟
در این مقاله، به بررسی این سؤالات و پیامدهای عملی تغییرات توکنایزیشن میپردازیم. ما داستانی مقایسهای از دو مدل پیشرفته هوش مصنوعی، OpenAI’s ChatGPT و Anthropic’s Claude، ارائه خواهیم داد. با اینکه آمار ارائه شده درباره «هزینه هر توکن» این دو مدل بسیار رقابتی به نظر میرسد، آزمایشها نشان میدهد که مدلهای Anthropic میتوانند 20 تا 30 درصد گرانتر از مدلهای GPT باشند.
تا ژوئن 2024، ساختار قیمتگذاری این دو مدل پیشرفته کاملاً رقابتی است. هزینه توکنهای خروجی Claude 3.5 Sonnet و GPT-4o مشابه است، در حالی که Claude 3.5 Sonnet هزینههای ورودی را 40 درصد کمتر از GPT-4o ارائه میدهد. با وجود نرخهای پایینتر توکنهای ورودی مدل Anthropic، مشاهده کردیم که هزینه کلی اجرای آزمایشها با GPT-4o بسیار کمتر از Claude Sonnet-3.5 است. علت این موضوع چیست؟
تکنیک توکنایزیشن در مدل Anthropic تمایل دارد که ورودیهای مشابه را به توکنهای بیشتری تقسیم کند. به این ترتیب، مدلهای Anthropic برای درخواستهای یکسان توکنهای considerably بیشتری نسبت به مدلهای OpenAI تولید میکنند. در نتیجه، در حالی که هزینه هر توکن ورودی برای Claude 3.5 Sonnet ممکن است کمتر باشد، افزایش تعداد توکنها میتواند این صرفهجویی را جبران کند و منجر به هزینههای بالاتر در موارد استفاده عملی شود.
این هزینههای ناپیدا ناشی از نحوه رمزگذاری اطلاعات توسط توکنایزر Anthropic است که اغلب از توکنهای بیشتری برای نمایش محتواهای مشابه استفاده میکند. افزایش تعداد توکنها تأثیر قابل توجهی بر هزینهها و استفاده از پنجرههای زمینهای دارد. انواع مختلف محتوا با الگوها و نشانههای خاص خود به گونهای مختلف توسط توکنایزر Anthropic توکنایز میشوند که منجر به افزایش قابل توجه تعداد توکنها در مقایسه با مدلهای OpenAI میشود.
تحقیقات ما در سه حوزه پرطرفدار شامل مقالات انگلیسی، کد (پایتون) و ریاضیات به این تفاوتها پرداخته است. برای مقایسه Claude 3.5 Sonnet با GPT-4o، میزان ناکارآمدی توکنایزر بسته به نوع محتوا متفاوت است. به طور مثال، توکنایزر Claude حدود 16 درصد بیشتر از GPT-4o برای همان متن ورودی، توکن تولید میکند. این عدد در مورد محتوای ساختارمند یا فنی مانند معادلات ریاضی به 21 درصد و برای کدهای پایتون به 30 درصد میرسد.
این تنوع ناشی از این است که برخی از انواع محتوا مانند اسناد فنی و کد معمولاً الگوها و نمادهایی دارند که توکنایزر Anthropic آنها را به قسمتهای کوچکتر تقسیم میکند. در مقابل، محتواهای طبیعیتر معمولاً بار توکنی کمتری را نمایش میدهند.
فراتر از تأثیرات مستقیم بر هزینهها، اثر غیرمستقیم بر استفاده از پنجرههای زمینهای نیز وجود دارد. در حالی که مدلهای Anthropic ادعای پنجره زمینهای بزرگتری به اندازه 200K توکن دارند، در مقایسه با 128K توکن OpenAI، به دلیل وابستگی به تعداد زیاد توکنها، فضای قابل استفاده واقعی ممکن است برای مدلهای Anthropic کمتر باشد.
مدلهای GPT از تکنیک Byte Pair Encoding (BPE) استفاده میکنند که زوجهای متداول کاراکتر را برای تشکیل توکنها ادغام میکند. به طور خاص، جدیدترین مدلهای GPT از توکنایزر متن باز o200k_base استفاده میکنند. با این حال، در مورد توکنایزرهای Anthropic اطلاعات کمی وجود دارد زیرا آنها به راحتی در دسترس نیستند. Anthropic در دسامبر 2024 API شمارش توکن را منتشر کرد، اما در نسخههای بعدی آن در سال 2025 به سرعت متوقف شد.
پیشبینی توانایی تخمین تعداد توکنها و بودجه هزینهها برای شرکتهای هوش مصنوعی بسیار حیاتی است. در حال حاضر، انتظار میرود که Anthropic به درخواستهای نظر رسانهها پاسخ دهد، و در صورت دریافت پاسخ، اخبار بهروزرسانی خواهد شد.