رویداد VB Transform، که به مدت نزدیک به دو دهه مورد اعتماد رهبران صنایع بوده است، به گرد هم آوردن افرادی می‌پردازد که در حال ایجاد استراتژی‌های واقعی هوش مصنوعی در سطح بنگاه‌ها هستند. در این راستا، پروژه‌ای جذاب در حوزه بینایی کامپیوتری شکل گرفت که هدف آن شناسایی آسیب‌های فیزیکی تجهیزات الکترونیکی، به ویژه لپ‌تاپ‌ها، از طریق تحلیل تصاویر بود. این پروژه با چالش‌ها و موانعی مواجه شد که ما را به سمت راه‌حل‌های نوآورانه هدایت کرد.

در آغاز، ایده‌ها به ظاهر ساده به نظر می‌رسیدند؛ با استفاده از مدل‌های بينایی و زبان، قصد داشتیم تا آسیب‌های ظاهری مانند شکستگی صفحه‌نمایش، گم شدن کلیدها و آسیب‌های لولا را شناسایی کنیم. ولی واقعیت این است که داده‌های دنیای واقعی به خوبی با انتظارات ما همخوانی نداشتند. در مراحل اولیه، سه مشکل عمده شامل هالوسیناسیون، خروجی‌های نامعتبر و تصاویر نامربوط نمود پیدا کرد. به همین دلیل تصمیم گرفتیم تا با به کارگیری یک چارچوب عامل‌محور به شیوه‌ای غیرمتعارف، پاسخگوی این چالش‌ها باشیم.

روش اولیه ما شامل استفاده از یک پروپmt بزرگ برای ورود تصویر به یک مدل زبان تصویری (LLM) و درخواست شناسایی آسیب‌ها بود. این استراتژی ساده و کارآمد برای وظایف تعریف شده به خوبی عمل می‌کرد، اما در مورد داده‌های واقعی، مشکلات جبران‌ناپذیری بوجود آمد. از آن پس، نیاز به تکرار و بازنگری در روش‌های خود احساس شد. در این راستا، متوجه شدیم که کیفیت تصویر تأثیر زیادی بر خروجی مدل دارد. کاربرانی با تصاویر در کیفیت‌های مختلف، از تیز و با وضوح بالا تا تار و مبهم، به بررسی آسیب‌ها پرداختند. برای بهبود کیفیت خروجی‌ها، تصمیم به آموزش و تست مدل با استفاده از تصاویری با کیفیت‌های گوناگون گرفتیم.

با الهام از آزمایشات اخیر در ترکیب توصیف تصویر با مدل‌های متنی، به بررسی روش‌های جدید پرداختیم. اگرچه این روش به نظر جالب می‌رسید، اما به مشکلات جدیدی منجر شد و در نهایت نتوانست نیازهای ما را برآورده کند. این نقطه عطف ما بود و ما دریافتیم که تقسیم وظیفه تفسیر تصویر به عوامل تخصصی می‌تواند راهگشا باشد. به این ترتیب، یک چارچوب عاملی را طراحی کردیم که نتایج دقیق‌تر و قابل‌توجه‌تری را ارائه داد.

به رغم موفقیت‌های این رویکرد، هنوز دو محدودیت اصلی وجود داشت: نیاز به تعادل بین دقت و پوشش. برای پر کردن این شکاف، سیستم هیبریدی ایجاد کردیم که ترکیبی از دقت و شفافیت چارچوب عاملی، پوشش وسیع و اطمینان‌بخش جامع را تامین می‌کرد. در نهایت، این پروژه نه تنها به یک نتیجه ساده ختم شد، بلکه به تجربه عمیق‌تری از تلفیق تکنیک‌های مختلف هوش مصنوعی منجر گردید که شناسایی آسیب‌ها را در دنیای واقعی بهبود بخشید.

تجربه ما نشان داد که برخی از ابزارهای مفید، به طور خاص برای این نوع کارها طراحی نشده‌اند، اما می‌توانند به صورت خلاقانه مورد استفاده قرار گیرند. تیم ما متشکل از Shruti Tiwari به عنوان مدیر محصول AI و Vadiraj Kulkarni به عنوان دانشمند داده، با بهره‌گیری از تجارب و تخصص‌های خود، موفق به ساخت سیستمی شدند که نه تنها دقت بالایی دارد، بلکه مدیریت و درک آن نیز آسان‌تر است.

تبدیل متن به صوت با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا