شرکت Groq و PlayAI همکاری خود را برای عرضه مدل پیشرفته تبدیل متن به گفتار موسوم به Dialog اعلام کردند
شرکتهای Groq و PlayAI اخیراً همکاری جدیدی را آغاز کردهاند که تمرکز آن بر ارائه فناوری پیشرفته تبدیل متن به گفتار (TTS) با استفاده از زیرساخت پردازشی سریع Groq است. این همکاری که با هدف تغییر چشمانداز فناوریهای هوش مصنوعی صوتی شکل گرفته، تلفیقی از تخصص PlayAI در زمینه هوش مصنوعی صوتی و زیرساخت پردازش تخصصی Groq را در بر دارد. نتیجه این همکاری، سیستمی است که به ادعای شرکتها، یکی از طبیعیترین و پاسخگوترین فناوریهای متن به گفتار موجود در بازار به شمار میرود.
ایان اندروز، مدیر ارشد درآمد Groq، در مصاحبهای اختصاصی با VentureBeat توضیح داد: «Groq یک سیستم جامع و کمتأخیر برای شناسایی خودکار گفتار (ASR)، هوش تولیدی (GenAI) و تبدیل متن به گفتار ارائه میدهد که همه این قابلیتها را در یک مکان واحد قرار داده است. اکنون با اجرای Dialog روی GroqCloud، مشتریان دیگر نیازی به استفاده از چندین ارائهدهنده برای یک کاربرد خاص ندارند—Groq یک راهحل جامع محسوب میشود.»
پوشش جهانی فناوری هوش مصنوعی صوتی
یکی از ویژگیهای برجسته Dialog، پشتیبانی آن از زبانهای انگلیسی و عربی است. نسخه عربی این مدل، نخستین فناوری هوش مصنوعی صوتی است که بهطور ویژه برای منطقه خاورمیانه طراحی شده است. این انتخاب استراتژیک شرکتها، نشاندهنده اهمیت زبان عربی به عنوان چهارمین زبان پرکاربرد جهان است. ایان اندروز افزود: «با همکاری PlayAI برای ارائه یک مدل TTS عربی، Groq بازار جهانی کلیدی را باز کرده و دسترسی گستردهتری به پردازش سریع هوش مصنوعی فراهم کرده است.»
مزایای رقابتی Dialog در بازار
به گفته شرکتها، Dialog به شکل قابلتوجهی نقاط ضعف فناوریهای موجود هوش مصنوعی صوتی را برطرف کرده است، بهویژه در زمینه الگوهای طبیعی گفتار و سرعت پاسخدهی. براساس آزمایشهای مقایسهای انجام شده توسط ارزیاب مستقل Podonos، این مدل از سوی کاربران به نسبت 10:1 در برابر ElevenLabs v2.5 Turbo و به نسبت 3:1 در مقابل ElevenLabs Multilingual v2.0 ترجیح داده شده است.
یکی از ویژگیهای برجسته Dialog، استفاده آن از معماری جدیدی به نام «پیکربندی تطبیقی گفتار» (ASC) است. این معماری به مدل اجازه میدهد تا از تاریخچه و جریان کامل مکالمه استفاده کند. محمود فلفل، همبنیانگذار و مدیرعامل PlayAI، توضیح داد: «ما معماری نوینی ایجاد کردیم که به مدل امکان میدهد هر پاسخ را بهجای یک خروجی مستقل، با لحن، حالت و احساسی که جریان مکالمه را منعکس میکند، غنیسازی کند.»
حل چالشهای تأخیر در پردازش گفتار
یکی از مشکلات اساسی در هوش مصنوعی مکالمهای برای سازمانها، تأخیر میان درخواست و پاسخ است. واحدهای پردازش زبان (LPUs) Groq در این زمینه مزیتهای قابلتوجهی ارائه میدهند. ایان اندروز گفت: «براساس آزمایشهای اولیه داخلی، Groq قادر است با مدل Dialog به سرعت 140 کاراکتر در ثانیه برسد که بهطور قابلتوجهی سریعتر از اجرای همان مدل روی واحدهای پردازش گرافیکی (GPU) با سرعت 86 کاراکتر در ثانیه است.» این مهم به این معناست که Dialog متن را تا 10 برابر سریعتر از زمان واقعی تولید میکند.
افزایش سرمایه و توسعه زیرساختها
همکاری میان Groq و PlayAI در حالی صورت گرفته که Groq در مراحل گسترش قابلتوجهی قرار دارد. این شرکت اخیراً توانسته تعهد مالی 1.5 میلیارد دلاری از عربستان سعودی برای توسعه زیرساختهای خود دریافت کند و اکنون یک مرکز داده بزرگ در دمام با عنوان «بزرگترین خوشه پردازش منطقه» ایجاد کرده است.
محمود فلفل درباره این همکاری اظهار داشت: «همکاری با Groq یک انتخاب کاملاً منطقی بود. آنها پیشرو در زیرساختهای پردازش پیشرفته هوش مصنوعی محسوب میشوند. برای مدلهای تبدیل متن به گفتار و عوامل انسانی، کمتأخیر بودن کلیدی است. ما مدل Dialog را برای این نوع کاربردهای بلادرنگ بهینه کردهایم، اما همکاری با Groq به ما امکان میدهد تا کمتأخیرترین مدل صوتی موجود در بازار را ارائه کنیم.»
کاربردهای گسترده فناوری تبدیل متن به گفتار
بازار هوش مصنوعی صوتی بهسرعت در حال رشد است، زیرا کسبوکارها به دنبال خودکارسازی تعاملات مشتری با حفظ تجربهای طبیعی و شبیه به انسان هستند. کاربردهای این فناوری شامل خدمات مشتری، فروش خودکار، تولید محتوای صوتی، و ویژگیهای دسترسی برای معلولان بینایی است.
ایان اندروز درباره کاربردهای تجاری این فناوری توضیح داد: «فراتر از خدمات مشتری، دیگر موارد استفاده تجاری شامل خودکارسازی فرایندهای فروش و زمانبندی قرارها، ایجاد دستیارهای شخصی، تولید صدا برای محتوای موجود، ترجمه محتوای صوتی و ویدیویی انگلیسی به عربی، افزایش دسترسی به محتوا برای افراد نابینا و موارد دیگر است.»
تمرکز بر منطقه خاورمیانه و شمال آفریقا
برای PlayAI که توسط کارآفرینانی از منطقه خاورمیانه و شمال آفریقا (MENA) تأسیس شده، افزودن قابلیتهای زبان عربی اهمیت خاصی دارد. محمود فلفل گفت: «ما به عنوان بنیانگذاران منطقه، از سرمایهگذاری گسترده منطقه در زیرساختهای هوش مصنوعی آگاه هستیم. زبان عربی یک زبان تجاری جهانی است و زبانی است که با آن بزرگ شدیم، بنابراین انتخاب آن به عنوان یکی از زبانهای اصلی ما کاملاً طبیعی بود.»
طرحهای خدمات GroqCloud
شرکتها فناوری Dialog را از طریق مدل خدماتی GroqCloud ارائه دادهاند که گزینههای رایگان و پولی را شامل میشود. این رویکرد به توسعهدهندگان اجازه میدهد تا قبل از اجرای وسیعتر فناوری، با آن آزمایش کنند. ایان اندروز توضیح داد: «GroqCloud طرحهای رایگان و پولی ارائه میدهد. هرکسی میتواند حساب ایجاد کند و یک کد API رایگان دریافت کند. مدل پولی Developer Tier کاملاً خودکار است و همه میتوانند با استفاده از کارت اعتباری ثبتنام کنند.»
این همکاری Groq و PlayAI را در موقعیتی مناسب قرار داده است تا تقاضای فزاینده برای تجربههای مکالمهای طبیعیتر و پاسخگوتر را برآورده کنند. با حل چالشهای فنی مربوط به تأخیر و الگوهای گفتار طبیعی، این دو شرکت موانع بزرگی را در مسیر پذیرش گستردهتر هوش مصنوعی صوتی در محیطهای سازمانی از بین بردهاند.