یک هفته با گوپرو روی پیشانی؛ جمعآوری داده دستبهدست برای آموزش مدلهای بینایی
تابستان امسال، تیلور و هماتاقیاش برای یک هفته هر روز دوربینهای GoPro را روی پیشانی بستند و هنگام نقاشی، مجسمهسازی و کارهای روزمره خانه فیلمبرداری کردند. هدف این مراجعهگذاری دقیق، آموزش یک مدل بینایی مبتنی بر ویدیو بود: تصویربرداری همزمان از چند زاویه تا سیستم بتواند رفتارها و فرایندهای حرکتی را از منظرهای مختلف بیاموزد. کارگران دستبهدست مانند تیلور به ازای این فعالیتها دستمزد خوبی دریافت کردند، اما تجربه فیزیکی کار دشوار بود—ساعتهای طولانی، نیاز به استراحتهای منظم و حتی سردردهایی که پس از برداشتن دوربین روی پیشانی باقی میماند.
چرا ویدیو و جمعآوری دستی داده؟
شرکت Turing Labs که تیلور بهصورت آزادکاری برایش کار میکرد، هدفش پرورش مهارتهای انتزاعی در حل مسئلههای ترتیبی و استدلال بصری است، نه آموزش یک مدل برای کشیدن تابلوهای روغنی. برخلاف بسیاری از مدلهای زبانی بزرگ که روی متون عظیم آموزش میبینند، مدل بینایی مورد نظر آنها بهطور کامل بر ویدیوها آموزش میبیند. به همین دلیل Turing با افراد شاغل در حرفههای دستی—از آشپزها و کارگران ساختمانی تا برقکارها و هنرمندان—قرار داد میبندد تا تنوع داده لازم برای یادگیری نحوه انجام مشاغل مختلف فراهم شود. به گفته Sudarshan Sivaraman، مدیر ارشد AGI در Turing، جمعآوری داده بهصورت دستی تنها راه تضمین تنوع کافی در فاز پیشآموزش است.
از «کندوکاو وب» تا «دادهٔ اختصاصی و باکیفیت»
این رویکرد نمونهای از تغییر بزرگ در صنعت هوش مصنوعی است: زمانی مجموعههای آموزشی عمدتاً از وب استخراج یا با استفاده از نیروی کار ارزان نشانهگذاری میشدند؛ اکنون شرکتها برای دادههای گردآوریشده و باکیفیت پول زیادی میپردازند و خودشان بخش زیادی از فرایند را درونسازمانی انجام میدهند. با توان محاسباتی بالا که دیگر بهعنوان پیشنیاز پذیرفته شده، دادهٔ اختصاصی و باکیفیت بهعنوان مزیت رقابتی اصلی برجسته شده است.
مثال عملی: تجربه Fyxer
شرکت ایمیلمحور Fyxer، که از مدلهای هوش مصنوعی برای مرتبسازی ایمیلها و تهیه پاسخها استفاده میکند، پس از آزمایشهای اولیه پی برد بهترین راهکار استفاده از مجموعهای از مدلهای کوچک با دادههای تمرینی بسیار متمرکز است. ریچارد هالینگزورث، بنیانگذار Fyxer، تأکید میکند که «کیفیت داده، نه کمیت، تعیینکنندهٔ عملکرد است.» در عمل این رویکرد به انتخاب نیروی انسانی ویژهای نیاز داشت؛ برای مثال در مراحل ابتدایی، مدیران و مهندسان شرکت گاه توسط دستیاران اجرایی باتجربه که در قضاوتهای انسانی درباره نیاز به پاسخگویی به ایمیلها خبره بودند، همراهی میشدند.
اهمیت دادهٔ مصنوعی و نقش آن در مقیاسبخشی
در بخش بینایی، Turing تخمین میزند که بین ۷۵ تا ۸۰ درصد دادههای نهاییشان از دادهٔ مصنوعی (synthetic data) تولید شده از ویدیوهای اصلی استخراج میشود. این روش توان ایجاد سناریوهای آموزشی گستردهتر را فراهم میکند، اما خیالکاری در کیفیت دادهٔ پایه میتواند آسیبزا باشد: اگر مجموعهٔ اولیه بیکیفیت باشد، دادهٔ مصنوعی هم نواقص را تقویت خواهد کرد. بنابراین حفظ دقت و استاندارد بالا در مرحلهٔ جمعآوری اولیه برای تضمین کیفیت نهایی ضروری است.
پیامدهای رقابتی و اخلاقی
نگهداری جمعآوری داده بهصورت درونسازمانی یک «خندق» رقابتی برای شرکتها میسازد؛ هر کسی ممکن است یک مدل متنباز را در محصول خود بگنجاند، اما یافتن و آموزش نیروی انسانی خبره برای تبدیل آن مدل به محصول کارآمد، دشوار است. در عین حال این روند پرسشهای اخلاقی و کاری را برمیانگیزد: شرایط کار فیزیکی، پرداخت مناسب، و رعایت حریم خصوصی و رضایت آگاهانهٔ مشارکتکنندگان باید مورد توجه قرار گیرد تا جمعآوری داده پایدار و مسئولانه باشد.
نتیجهگیری
تحول به سمت دادههای دستی، هدفمند و باکیفیت نشان میدهد که رقابت در نسل بعدی هوش مصنوعی بیشتر بر پایهٔ منابع دادهٔ اختصاصی و فرایندهای انسانی-محور شکل میگیرد تا صرفاً ظرفیت محاسباتی یا اندازهٔ مدل. برای توسعه مدلهای بینایی که تواناییهای استدلالی و رفتاری را بیاموزند، ترکیب دقیق ویدیوهای واقعی، دادهٔ مصنوعی حسابشده و نظارت انسانی همچنان کلیدی خواهد بود.
