رویداد VB Transform، که به مدت نزدیک به دو دهه مورد اعتماد رهبران صنایع بوده است، به گرد هم آوردن افرادی میپردازد که در حال ایجاد استراتژیهای واقعی هوش مصنوعی در سطح بنگاهها هستند. در این راستا، پروژهای جذاب در حوزه بینایی کامپیوتری شکل گرفت که هدف آن شناسایی آسیبهای فیزیکی تجهیزات الکترونیکی، به ویژه لپتاپها، از طریق تحلیل تصاویر بود. این پروژه با چالشها و موانعی مواجه شد که ما را به سمت راهحلهای نوآورانه هدایت کرد.
در آغاز، ایدهها به ظاهر ساده به نظر میرسیدند؛ با استفاده از مدلهای بينایی و زبان، قصد داشتیم تا آسیبهای ظاهری مانند شکستگی صفحهنمایش، گم شدن کلیدها و آسیبهای لولا را شناسایی کنیم. ولی واقعیت این است که دادههای دنیای واقعی به خوبی با انتظارات ما همخوانی نداشتند. در مراحل اولیه، سه مشکل عمده شامل هالوسیناسیون، خروجیهای نامعتبر و تصاویر نامربوط نمود پیدا کرد. به همین دلیل تصمیم گرفتیم تا با به کارگیری یک چارچوب عاملمحور به شیوهای غیرمتعارف، پاسخگوی این چالشها باشیم.
روش اولیه ما شامل استفاده از یک پروپmt بزرگ برای ورود تصویر به یک مدل زبان تصویری (LLM) و درخواست شناسایی آسیبها بود. این استراتژی ساده و کارآمد برای وظایف تعریف شده به خوبی عمل میکرد، اما در مورد دادههای واقعی، مشکلات جبرانناپذیری بوجود آمد. از آن پس، نیاز به تکرار و بازنگری در روشهای خود احساس شد. در این راستا، متوجه شدیم که کیفیت تصویر تأثیر زیادی بر خروجی مدل دارد. کاربرانی با تصاویر در کیفیتهای مختلف، از تیز و با وضوح بالا تا تار و مبهم، به بررسی آسیبها پرداختند. برای بهبود کیفیت خروجیها، تصمیم به آموزش و تست مدل با استفاده از تصاویری با کیفیتهای گوناگون گرفتیم.
با الهام از آزمایشات اخیر در ترکیب توصیف تصویر با مدلهای متنی، به بررسی روشهای جدید پرداختیم. اگرچه این روش به نظر جالب میرسید، اما به مشکلات جدیدی منجر شد و در نهایت نتوانست نیازهای ما را برآورده کند. این نقطه عطف ما بود و ما دریافتیم که تقسیم وظیفه تفسیر تصویر به عوامل تخصصی میتواند راهگشا باشد. به این ترتیب، یک چارچوب عاملی را طراحی کردیم که نتایج دقیقتر و قابلتوجهتری را ارائه داد.
به رغم موفقیتهای این رویکرد، هنوز دو محدودیت اصلی وجود داشت: نیاز به تعادل بین دقت و پوشش. برای پر کردن این شکاف، سیستم هیبریدی ایجاد کردیم که ترکیبی از دقت و شفافیت چارچوب عاملی، پوشش وسیع و اطمینانبخش جامع را تامین میکرد. در نهایت، این پروژه نه تنها به یک نتیجه ساده ختم شد، بلکه به تجربه عمیقتری از تلفیق تکنیکهای مختلف هوش مصنوعی منجر گردید که شناسایی آسیبها را در دنیای واقعی بهبود بخشید.
تجربه ما نشان داد که برخی از ابزارهای مفید، به طور خاص برای این نوع کارها طراحی نشدهاند، اما میتوانند به صورت خلاقانه مورد استفاده قرار گیرند. تیم ما متشکل از Shruti Tiwari به عنوان مدیر محصول AI و Vadiraj Kulkarni به عنوان دانشمند داده، با بهرهگیری از تجارب و تخصصهای خود، موفق به ساخت سیستمی شدند که نه تنها دقت بالایی دارد، بلکه مدیریت و درک آن نیز آسانتر است.