شرکت Groq و PlayAI همکاری خود را برای عرضه مدل پیشرفته تبدیل متن به گفتار موسوم به Dialog اعلام کردند

شرکت‌های Groq و PlayAI اخیراً همکاری جدیدی را آغاز کرده‌اند که تمرکز آن بر ارائه فناوری پیشرفته تبدیل متن به گفتار (TTS) با استفاده از زیرساخت پردازشی سریع Groq است. این همکاری که با هدف تغییر چشم‌انداز فناوری‌های هوش مصنوعی صوتی شکل گرفته، تلفیقی از تخصص PlayAI در زمینه هوش مصنوعی صوتی و زیرساخت پردازش تخصصی Groq را در بر دارد. نتیجه این همکاری، سیستمی است که به ادعای شرکت‌ها، یکی از طبیعی‌ترین و پاسخ‌گوترین فناوری‌های متن به گفتار موجود در بازار به شمار می‌رود.

ایان اندروز، مدیر ارشد درآمد Groq، در مصاحبه‌ای اختصاصی با VentureBeat توضیح داد: «Groq یک سیستم جامع و کم‌تأخیر برای شناسایی خودکار گفتار (ASR)، هوش تولیدی (GenAI) و تبدیل متن به گفتار ارائه می‌دهد که همه این قابلیت‌ها را در یک مکان واحد قرار داده است. اکنون با اجرای Dialog روی GroqCloud، مشتریان دیگر نیازی به استفاده از چندین ارائه‌دهنده برای یک کاربرد خاص ندارند—Groq یک راه‌حل جامع محسوب می‌شود.»

پوشش جهانی فناوری هوش مصنوعی صوتی
یکی از ویژگی‌های برجسته Dialog، پشتیبانی آن از زبان‌های انگلیسی و عربی است. نسخه عربی این مدل، نخستین فناوری هوش مصنوعی صوتی است که به‌طور ویژه برای منطقه خاورمیانه طراحی شده است. این انتخاب استراتژیک شرکت‌ها، نشان‌دهنده اهمیت زبان عربی به عنوان چهارمین زبان پرکاربرد جهان است. ایان اندروز افزود: «با همکاری PlayAI برای ارائه یک مدل TTS عربی، Groq بازار جهانی کلیدی را باز کرده و دسترسی گسترده‌تری به پردازش سریع هوش مصنوعی فراهم کرده است.»

مزایای رقابتی Dialog در بازار
به گفته شرکت‌ها، Dialog به شکل قابل‌توجهی نقاط ضعف فناوری‌های موجود هوش مصنوعی صوتی را برطرف کرده است، به‌ویژه در زمینه الگوهای طبیعی گفتار و سرعت پاسخ‌دهی. براساس آزمایش‌های مقایسه‌ای انجام شده توسط ارزیاب مستقل Podonos، این مدل از سوی کاربران به نسبت 10:1 در برابر ElevenLabs v2.5 Turbo و به نسبت 3:1 در مقابل ElevenLabs Multilingual v2.0 ترجیح داده شده است.

یکی از ویژگی‌های برجسته Dialog، استفاده آن از معماری جدیدی به نام «پیکربندی تطبیقی گفتار» (ASC) است. این معماری به مدل اجازه می‌دهد تا از تاریخچه و جریان کامل مکالمه استفاده کند. محمود فلفل، هم‌بنیان‌گذار و مدیرعامل PlayAI، توضیح داد: «ما معماری نوینی ایجاد کردیم که به مدل امکان می‌دهد هر پاسخ را به‌جای یک خروجی مستقل، با لحن، حالت و احساسی که جریان مکالمه را منعکس می‌کند، غنی‌سازی کند.»

حل چالش‌های تأخیر در پردازش گفتار
یکی از مشکلات اساسی در هوش مصنوعی مکالمه‌ای برای سازمان‌ها، تأخیر میان درخواست و پاسخ است. واحدهای پردازش زبان (LPUs) Groq در این زمینه مزیت‌های قابل‌توجهی ارائه می‌دهند. ایان اندروز گفت: «براساس آزمایش‌های اولیه داخلی، Groq قادر است با مدل Dialog به سرعت 140 کاراکتر در ثانیه برسد که به‌طور قابل‌توجهی سریع‌تر از اجرای همان مدل روی واحدهای پردازش گرافیکی (GPU) با سرعت 86 کاراکتر در ثانیه است.» این مهم به این معناست که Dialog متن را تا 10 برابر سریع‌تر از زمان واقعی تولید می‌کند.

افزایش سرمایه و توسعه زیرساخت‌ها
همکاری میان Groq و PlayAI در حالی صورت گرفته که Groq در مراحل گسترش قابل‌توجهی قرار دارد. این شرکت اخیراً توانسته تعهد مالی 1.5 میلیارد دلاری از عربستان سعودی برای توسعه زیرساخت‌های خود دریافت کند و اکنون یک مرکز داده بزرگ در دمام با عنوان «بزرگ‌ترین خوشه پردازش منطقه» ایجاد کرده است.

محمود فلفل درباره این همکاری اظهار داشت: «همکاری با Groq یک انتخاب کاملاً منطقی بود. آنها پیشرو در زیرساخت‌های پردازش پیشرفته هوش مصنوعی محسوب می‌شوند. برای مدل‌های تبدیل متن به گفتار و عوامل انسانی، کم‌تأخیر بودن کلیدی است. ما مدل Dialog را برای این نوع کاربردهای بلادرنگ بهینه کرده‌ایم، اما همکاری با Groq به ما امکان می‌دهد تا کم‌تأخیرترین مدل صوتی موجود در بازار را ارائه کنیم.»

کاربردهای گسترده فناوری تبدیل متن به گفتار
بازار هوش مصنوعی صوتی به‌سرعت در حال رشد است، زیرا کسب‌وکارها به دنبال خودکارسازی تعاملات مشتری با حفظ تجربه‌ای طبیعی و شبیه به انسان هستند. کاربردهای این فناوری شامل خدمات مشتری، فروش خودکار، تولید محتوای صوتی، و ویژگی‌های دسترسی برای معلولان بینایی است.

ایان اندروز درباره کاربردهای تجاری این فناوری توضیح داد: «فراتر از خدمات مشتری، دیگر موارد استفاده تجاری شامل خودکارسازی فرایندهای فروش و زمان‌بندی قرارها، ایجاد دستیارهای شخصی، تولید صدا برای محتوای موجود، ترجمه محتوای صوتی و ویدیویی انگلیسی به عربی، افزایش دسترسی به محتوا برای افراد نابینا و موارد دیگر است.»

تمرکز بر منطقه خاورمیانه و شمال آفریقا
برای PlayAI که توسط کارآفرینانی از منطقه خاورمیانه و شمال آفریقا (MENA) تأسیس شده، افزودن قابلیت‌های زبان عربی اهمیت خاصی دارد. محمود فلفل گفت: «ما به عنوان بنیان‌گذاران منطقه، از سرمایه‌گذاری گسترده منطقه در زیرساخت‌های هوش مصنوعی آگاه هستیم. زبان عربی یک زبان تجاری جهانی است و زبانی است که با آن بزرگ شدیم، بنابراین انتخاب آن به عنوان یکی از زبان‌های اصلی ما کاملاً طبیعی بود.»

طرح‌های خدمات GroqCloud
شرکت‌ها فناوری Dialog را از طریق مدل خدماتی GroqCloud ارائه داده‌اند که گزینه‌های رایگان و پولی را شامل می‌شود. این رویکرد به توسعه‌دهندگان اجازه می‌دهد تا قبل از اجرای وسیع‌تر فناوری، با آن آزمایش کنند. ایان اندروز توضیح داد: «GroqCloud طرح‌های رایگان و پولی ارائه می‌دهد. هرکسی می‌تواند حساب ایجاد کند و یک کد API رایگان دریافت کند. مدل پولی Developer Tier کاملاً خودکار است و همه می‌توانند با استفاده از کارت اعتباری ثبت‌نام کنند.»

این همکاری Groq و PlayAI را در موقعیتی مناسب قرار داده است تا تقاضای فزاینده برای تجربه‌های مکالمه‌ای طبیعی‌تر و پاسخ‌گوتر را برآورده کنند. با حل چالش‌های فنی مربوط به تأخیر و الگوهای گفتار طبیعی، این دو شرکت موانع بزرگی را در مسیر پذیرش گسترده‌تر هوش مصنوعی صوتی در محیط‌های سازمانی از بین برده‌اند.


تولید تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا