مدل هوش مصنوعی تولید موسیقی به سرویس ابری گوگل اضافه شد

گوگل با به‌روزرسانی‌های جدید در مدل‌های هوش مصنوعی خود، امکانات بی‌نظیری به کاربران ارائه می‌دهد

گوگل روز چهارشنبه اعلام کرد که تغییرات جدیدی را در مجموعه مدل‌های تولید محتوای هوش مصنوعی خود که از طریق پلتفرم ابری Vertex AI قابل‌دسترس هستند، ارائه داده است. این به‌روزرسانی‌ها شامل افزودن قابلیت‌های جدید و بهبود عملکرد مدل‌های مختلف از جمله Lyria، Veo 2، Chirp 3 و Imagen 3 می‌شوند.

معرفی مدل Lyria: خلق موسیقی متن حرفه‌ای

یکی از جذاب‌ترین قابلیت‌هایی که گوگل در این به‌روزرسانی معرفی کرده، مدل تولید متن به موسیقی با نام Lyria است که اکنون در حالت پیش‌نمایش برای کاربران منتخب ارائه می‌شود. این مدل به کاربران امکان می‌دهد موسیقی‌هایی با سبک‌ها و ژانرهای متنوع، مثل سولو پیانو جازی یا موسیقی‌های Lo-Fi، تولید کنند. گوگل این مدل را به‌عنوان جایگزینی برای بانک‌های موسیقی بدون حق امتیاز (Royalty-Free) معرفی کرده است که می‌تواند تحولی اساسی در صنعت تولید محتوای صوتی ایجاد کند.

Chirp 3: قابلیت‌های پیشرفته در فهم و تولید صدا

یکی دیگر از به‌روزرسانی‌های کلیدی این نسخه، مدل Chirp 3 است. این مدل که برای درک و تولید صدا طراحی شده است، اکنون می‌تواند گفتار را در حدود 35 زبان مختلف شبیه‌سازی کند. یکی از قابلیت‌های برجسته این مدل Instant Custom Voice است که با تنها 10 ثانیه نمونه صوتی، توانایی شبیه‌سازی صدا را دارد. علاوه بر این، یک ابزار جدید به نام Transcription with Diarization معرفی شده که توانایی تفکیک و شناسایی گویندگان مختلف در یک فایل صوتی را دارد. به گفته گوگل، برای جلوگیری از سوءاستفاده، استفاده از قابلیت‌های شبیه‌سازی صدا مشمول یک فرایند تأیید می‌شود تا از رعایت حقوق صداها اطمینان حاصل شود.

Veo 2: خلاقیت در ویرایش و تولید محتوای ویدئویی

در بخش ویدئو، مدل Veo 2 با ویژگی‌های جدیدی همراه شده است. این مدل اکنون می‌تواند تصاویر پس‌زمینه، لوگوها و اشیا را از ویدئوها حذف کند یا فریم‌های ویدئویی را گسترش دهد (برای مثال تبدیل ویدئو افقی به عمودی). همچنین، کاربران می‌توانند زاویه‌های دوربین، ریتم تصاویر و حتی خلق صحنه‌های خاص مانند تایم‌لپس یا کلیپ‌های شبیه به فیلم‌برداری از پهپاد را تنظیم کنند. تمام این قابلیت‌ها فعلاً در حالت پیش‌نمایش در اختیار کاربران قرار گرفته است.

Imagen 3: توانایی‌های شگرف در پردازش تصاویر

مدل Imagen 3 که در زمینه تولید و پردازش تصاویر فعالیت می‌کند، اکنون با بهبودهای چشمگیری مواجه شده است. این مدل می‌تواند اشیا را از تصاویر حذف کند و بخش‌های آسیب‌دیده یا از دست‌رفته را بازسازی کند. گوگل مدعی است که عملکرد این مدل به شکلی قابل‌توجه ارتقا یافته است.

قابلیت‌های امنیتی و جلوگیری از سوءاستفاده

تمام محتوای تولیدشده توسط مدل‌های Lyria، Veo و Imagen (اما نه Chirp) با فناوری SynthID واترمارک می‌شود تا از حقوق محتوا محافظت شود. همچنین گوگل تأکید کرده که تمام مدل‌های تولید محتوای هوش مصنوعی این شرکت دارای تدابیر امنیتی داخلی برای جلوگیری از تولید محتوای مضر هستند.

چالش‌های استفاده از داده‌های آموزشی

یکی از موضوعات مورد مناقشه در صنعت هوش مصنوعی مسئله داده‌های آموزشی این مدل‌ها است. گوگل همچنان از افشای عمومی داده‌های آموزشی خود خودداری کرده است، اما اعلام کرده که مکانیزم‌های “انصراف از آموزش (Opt-out)” را برای کاربران فراهم کرده است. همچنین این شرکت یک سیاست حمایت از مشتریان Google Cloud و Vertex AI طراحی کرده تا آنان را از خطرات احتمالی حقوقی مرتبط با حق تألیف محافظت کند.

رقابت با آمازون در بازار هوش مصنوعی

این به‌روزرسانی‌ها بخشی از تلاش‌های گوگل برای جلب توجه بازار سازمانی هوش مصنوعی مولد است. رقیب اصلی گوگل در این عرصه، آمازون با پلتفرم Bedrock است که مدل‌های مشابهی را ارائه می‌دهد. با این حال، گوگل با تمرکز بر قابلیت‌های پیشرفته و امنیتی، در حال تلاش برای تثبیت جایگاه خود در این رقابت تنگاتنگ است.

برای اطلاعات بیشتر درباره جدیدترین تکنولوژی‌ها و به‌روزرسانی‌های گوگل، سایت بینا ویرا را دنبال کنید.

تبدیل متن به صوت با هوش مصنوعی