گوگل با بهروزرسانیهای جدید در مدلهای هوش مصنوعی خود، امکانات بینظیری به کاربران ارائه میدهد
گوگل روز چهارشنبه اعلام کرد که تغییرات جدیدی را در مجموعه مدلهای تولید محتوای هوش مصنوعی خود که از طریق پلتفرم ابری Vertex AI قابلدسترس هستند، ارائه داده است. این بهروزرسانیها شامل افزودن قابلیتهای جدید و بهبود عملکرد مدلهای مختلف از جمله Lyria، Veo 2، Chirp 3 و Imagen 3 میشوند.
معرفی مدل Lyria: خلق موسیقی متن حرفهای
یکی از جذابترین قابلیتهایی که گوگل در این بهروزرسانی معرفی کرده، مدل تولید متن به موسیقی با نام Lyria است که اکنون در حالت پیشنمایش برای کاربران منتخب ارائه میشود. این مدل به کاربران امکان میدهد موسیقیهایی با سبکها و ژانرهای متنوع، مثل سولو پیانو جازی یا موسیقیهای Lo-Fi، تولید کنند. گوگل این مدل را بهعنوان جایگزینی برای بانکهای موسیقی بدون حق امتیاز (Royalty-Free) معرفی کرده است که میتواند تحولی اساسی در صنعت تولید محتوای صوتی ایجاد کند.
Chirp 3: قابلیتهای پیشرفته در فهم و تولید صدا
یکی دیگر از بهروزرسانیهای کلیدی این نسخه، مدل Chirp 3 است. این مدل که برای درک و تولید صدا طراحی شده است، اکنون میتواند گفتار را در حدود 35 زبان مختلف شبیهسازی کند. یکی از قابلیتهای برجسته این مدل Instant Custom Voice است که با تنها 10 ثانیه نمونه صوتی، توانایی شبیهسازی صدا را دارد. علاوه بر این، یک ابزار جدید به نام Transcription with Diarization معرفی شده که توانایی تفکیک و شناسایی گویندگان مختلف در یک فایل صوتی را دارد. به گفته گوگل، برای جلوگیری از سوءاستفاده، استفاده از قابلیتهای شبیهسازی صدا مشمول یک فرایند تأیید میشود تا از رعایت حقوق صداها اطمینان حاصل شود.
Veo 2: خلاقیت در ویرایش و تولید محتوای ویدئویی
در بخش ویدئو، مدل Veo 2 با ویژگیهای جدیدی همراه شده است. این مدل اکنون میتواند تصاویر پسزمینه، لوگوها و اشیا را از ویدئوها حذف کند یا فریمهای ویدئویی را گسترش دهد (برای مثال تبدیل ویدئو افقی به عمودی). همچنین، کاربران میتوانند زاویههای دوربین، ریتم تصاویر و حتی خلق صحنههای خاص مانند تایملپس یا کلیپهای شبیه به فیلمبرداری از پهپاد را تنظیم کنند. تمام این قابلیتها فعلاً در حالت پیشنمایش در اختیار کاربران قرار گرفته است.
Imagen 3: تواناییهای شگرف در پردازش تصاویر
مدل Imagen 3 که در زمینه تولید و پردازش تصاویر فعالیت میکند، اکنون با بهبودهای چشمگیری مواجه شده است. این مدل میتواند اشیا را از تصاویر حذف کند و بخشهای آسیبدیده یا از دسترفته را بازسازی کند. گوگل مدعی است که عملکرد این مدل به شکلی قابلتوجه ارتقا یافته است.
قابلیتهای امنیتی و جلوگیری از سوءاستفاده
تمام محتوای تولیدشده توسط مدلهای Lyria، Veo و Imagen (اما نه Chirp) با فناوری SynthID واترمارک میشود تا از حقوق محتوا محافظت شود. همچنین گوگل تأکید کرده که تمام مدلهای تولید محتوای هوش مصنوعی این شرکت دارای تدابیر امنیتی داخلی برای جلوگیری از تولید محتوای مضر هستند.
چالشهای استفاده از دادههای آموزشی
یکی از موضوعات مورد مناقشه در صنعت هوش مصنوعی مسئله دادههای آموزشی این مدلها است. گوگل همچنان از افشای عمومی دادههای آموزشی خود خودداری کرده است، اما اعلام کرده که مکانیزمهای “انصراف از آموزش (Opt-out)” را برای کاربران فراهم کرده است. همچنین این شرکت یک سیاست حمایت از مشتریان Google Cloud و Vertex AI طراحی کرده تا آنان را از خطرات احتمالی حقوقی مرتبط با حق تألیف محافظت کند.
رقابت با آمازون در بازار هوش مصنوعی
این بهروزرسانیها بخشی از تلاشهای گوگل برای جلب توجه بازار سازمانی هوش مصنوعی مولد است. رقیب اصلی گوگل در این عرصه، آمازون با پلتفرم Bedrock است که مدلهای مشابهی را ارائه میدهد. با این حال، گوگل با تمرکز بر قابلیتهای پیشرفته و امنیتی، در حال تلاش برای تثبیت جایگاه خود در این رقابت تنگاتنگ است.
برای اطلاعات بیشتر درباره جدیدترین تکنولوژیها و بهروزرسانیهای گوگل، سایت بینا ویرا را دنبال کنید.