دعوت به کانال تلگرام
کانال بینا ویرا مرجع تخصصی اخبار هوش مصنوعی و تصاویر تولید شده با AI
عضویت در کانال

یک هفته با گوپرو روی پیشانی؛ جمع‌آوری داده دست‌به‌دست برای آموزش مدل‌های بینایی

تابستان امسال، تیلور و هم‌اتاقی‌اش برای یک هفته هر روز دوربین‌های GoPro را روی پیشانی بستند و هنگام نقاشی، مجسمه‌سازی و کارهای روزمره خانه فیلم‌برداری کردند. هدف این مراجعه‌گذاری دقیق، آموزش یک مدل بینایی مبتنی بر ویدیو بود: تصویربرداری هم‌زمان از چند زاویه تا سیستم بتواند رفتارها و فرایندهای حرکتی را از منظرهای مختلف بیاموزد. کارگران دست‌به‌دست مانند تیلور به ازای این فعالیت‌ها دستمزد خوبی دریافت کردند، اما تجربه فیزیکی کار دشوار بود—ساعت‌های طولانی، نیاز به استراحت‌های منظم و حتی سردردهایی که پس از برداشتن دوربین روی پیشانی باقی می‌ماند.

چرا ویدیو و جمع‌آوری دستی داده؟
شرکت Turing Labs که تیلور به‌صورت آزادکاری برایش کار می‌کرد، هدفش پرورش مهارت‌های انتزاعی در حل مسئله‌های ترتیبی و استدلال بصری است، نه آموزش یک مدل برای کشیدن تابلوهای روغنی. برخلاف بسیاری از مدل‌های زبانی بزرگ که روی متون عظیم آموزش می‌بینند، مدل بینایی مورد نظر آن‌ها به‌طور کامل بر ویدیوها آموزش می‌بیند. به همین دلیل Turing با افراد شاغل در حرفه‌های دستی—از آشپزها و کارگران ساختمانی تا برق‌کارها و هنرمندان—قرار داد می‌بندد تا تنوع داده لازم برای یادگیری نحوه انجام مشاغل مختلف فراهم شود. به گفته Sudarshan Sivaraman، مدیر ارشد AGI در Turing، جمع‌آوری داده به‌صورت دستی تنها راه تضمین تنوع کافی در فاز پیش‌آموزش است.

از «کندوکاو وب» تا «دادهٔ اختصاصی و باکیفیت»
این رویکرد نمونه‌ای از تغییر بزرگ در صنعت هوش مصنوعی است: زمانی مجموعه‌های آموزشی عمدتاً از وب استخراج یا با استفاده از نیروی کار ارزان نشانه‌گذاری می‌شدند؛ اکنون شرکت‌ها برای داده‌های گردآوری‌شده و باکیفیت پول زیادی می‌پردازند و خودشان بخش زیادی از فرایند را درون‌سازمانی انجام می‌دهند. با توان محاسباتی بالا که دیگر به‌عنوان پیش‌نیاز پذیرفته شده، دادهٔ اختصاصی و باکیفیت به‌عنوان مزیت رقابتی اصلی برجسته شده است.

مثال عملی: تجربه Fyxer
شرکت ایمیل‌محور Fyxer، که از مدل‌های هوش مصنوعی برای مرتب‌سازی ایمیل‌ها و تهیه پاسخ‌ها استفاده می‌کند، پس از آزمایش‌های اولیه پی برد بهترین راهکار استفاده از مجموعه‌ای از مدل‌های کوچک با داده‌های تمرینی بسیار متمرکز است. ریچارد هالینگز‌ورث، بنیان‌گذار Fyxer، تأکید می‌کند که «کیفیت داده، نه کمیت، تعیین‌کنندهٔ عملکرد است.» در عمل این رویکرد به انتخاب نیروی انسانی ویژه‌ای نیاز داشت؛ برای مثال در مراحل ابتدایی، مدیران و مهندسان شرکت گاه توسط دستیاران اجرایی باتجربه که در قضاوت‌های انسانی درباره نیاز به پاسخ‌گویی به ایمیل‌ها خبره بودند، همراهی می‌شدند.

اهمیت دادهٔ مصنوعی و نقش آن در مقیاس‌بخشی
در بخش بینایی، Turing تخمین می‌زند که بین ۷۵ تا ۸۰ درصد داده‌های نهایی‌شان از دادهٔ مصنوعی (synthetic data) تولید شده از ویدیوهای اصلی استخراج می‌شود. این روش توان ایجاد سناریوهای آموزشی گسترده‌تر را فراهم می‌کند، اما خیال‌کاری در کیفیت دادهٔ پایه می‌تواند آسیب‌زا باشد: اگر مجموعهٔ اولیه بی‌کیفیت باشد، دادهٔ مصنوعی هم نواقص را تقویت خواهد کرد. بنابراین حفظ دقت و استاندارد بالا در مرحلهٔ جمع‌آوری اولیه برای تضمین کیفیت نهایی ضروری است.

پیامدهای رقابتی و اخلاقی
نگهداری جمع‌آوری داده به‌صورت درون‌سازمانی یک «خندق» رقابتی برای شرکت‌ها می‌سازد؛ هر کسی ممکن است یک مدل متن‌باز را در محصول خود بگنجاند، اما یافتن و آموزش نیروی انسانی خبره برای تبدیل آن مدل به محصول کارآمد، دشوار است. در عین حال این روند پرسش‌های اخلاقی و کاری را برمی‌انگیزد: شرایط کار فیزیکی، پرداخت مناسب، و رعایت حریم خصوصی و رضایت آگاهانهٔ مشارکت‌کنندگان باید مورد توجه قرار گیرد تا جمع‌آوری داده پایدار و مسئولانه باشد.

نتیجه‌گیری
تحول به سمت داده‌های دستی، هدفمند و باکیفیت نشان می‌دهد که رقابت در نسل بعدی هوش مصنوعی بیشتر بر پایهٔ منابع دادهٔ اختصاصی و فرایندهای انسانی-محور شکل می‌گیرد تا صرفاً ظرفیت محاسباتی یا اندازهٔ مدل. برای توسعه مدل‌های بینایی که توانایی‌های استدلالی و رفتاری را بیاموزند، ترکیب دقیق ویدیوهای واقعی، دادهٔ مصنوعی حساب‌شده و نظارت انسانی همچنان کلیدی خواهد بود.

بهبود و تغییر تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا