سه‌عضو سابق گوگل ایکس با جذب ۶ میلیون دلار، هوش مصنوعی «مغز دوم» برای کاربران می‌سازند

TwinMind؛ اپلیکیشنی شبیه «مغز دوم» شما که همه‌چیز را در پس‌زمینه گوش می‌دهد

سه دانشمند سابق Google X اپلیکیشنی ساخته‌اند که به‌صورت مجازی «حافظه دوم» شما را می‌سازد — نه به‌صورت کاشت سیلیکون بلکه با استفاده از هوش مصنوعی که گفتار محیطی را (با اجازه کاربر) در پس‌زمینه ضبط و پردازش می‌کند. استارتاپ TwinMind در دور Seed، 5.7 میلیون دلار سرمایه جذب کرده و نسخه اندروید، نسخه آیفون و مدل گفتار جدید خود را منتشر نموده است.

چه کاری انجام می‌دهد؟
– TwinMind با دریافت مجوز کاربر، گفتار محیطی مانند افکار گفتاری، جلسات، کلاس‌ها و مکالمات حضوری را تبدیل به گراف دانش شخصی می‌کند و از آن یادداشت‌های هوشمند، فهرست کارها و پاسخ‌های مبتنی بر زمینه تولید می‌نماید.
– اپلیکیشن می‌تواند به‌صورت آفلاین و به‌صورت بلادرنگ (on-device) صداها را پردازش و رونویسی کند و سازندگان ادعا می‌کنند که قادر است تا 16–17 ساعت ضبط پیوسته را بدون تخلیه قابل توجه باتری انجام دهد.
– پشتیبان‌گیری اختیاری از داده‌ها وجود دارد تا در صورت گم‌شدن دستگاه، گفتگوها بازیابی شوند؛ کاربر می‌تواند این گزینه را غیرفعال کند.
– ترجمه هم‌زمان در بیش از 100 زبان پشتیبانی می‌شود.

تمایز فنی و تجربه کاربری
– بر خلاف بسیاری از رقبای یادداشت‌برداری که روی ابر تکیه دارند (مانند Otter یا Fireflies) و از فریم‌ورک‌هایی مثل React Native بهره می‌برند، تیم TwinMind یک سرویس سطح پایین کاملاً بومی به‌زبان Swift برای آیفون ساخته‌اند که می‌تواند در پس‌زمینه به‌طور پیوسته اجرا شود — نقطه‌ای که اپل محدودیت‌هایی برای پردازش ابری در پس‌زمینه اعمال می‌کند.
– برای گردآوری زمینه بیشتر، TwinMind افزونه Chrome نیز دارد که با بینایی ماشینی (vision AI) صفحات باز مرورگر را اسکن و محتوای ایمیل، Slack، Notion و سایر پلتفرم‌ها را تفسیر می‌کند.

مدل گفتار و ظرفیت فنی
– TwinMind نسخه جدید مدل گفتار خود به‌نام Ear-3 را معرفی کرده که از بیش از 140 زبان پشتیبانی می‌کند، نرخ خطای کلمه (WER) آن 5.26% و نرخ خطای تشخیص گوینده (diarization error) حدود 3.8% اعلام شده است.
– Ear-3 ترکیبی فاین‌تیون‌شده از چند مدل متن‌باز است و روی مجموعه داده‌های انتخاب‌شده انسان‌نشانه‌گذاری‌شده (پادکست‌ها، ویدیوها و فیلم‌ها) آموزش دیده است. این مدل به‌دلیل اندازه بزرگ‌تر، عمدتاً روی ابر اجرا می‌شود؛ در صورت نبود اینترنت، اپ روی دستگاه به صورت خودکار به مدل کوچکتر Ear-2 سوئیچ می‌کند.
– دسترسی توسعه‌دهندگان و شرکت‌ها به مدل از طریق API و با هزینه تقریبی 0.23 دلار در ساعت فراهم خواهد شد.

حریم خصوصی
– تیم TwinMind تأکید می‌کند که مدل‌های آن با داده‌های کاربران آموزش داده نمی‌شوند و طراحی اپ به‌گونه‌ای است که ضبط‌ها به‌طور پیش‌فرض به ابر فرستاده نمی‌شوند.
– برخلاف بسیاری از اپ‌های دیگر، فایل صوتی قابل دسترسی بعدی برای کاربر نیست و به‌صورت آنی حذف می‌شود؛ فقط متن رونویسی‌شده به‌صورت محلی ذخیره می‌گردد (مگر کاربر انتخاب دیگری کند).

تاریخچه، تیم و رشد
– TwinMind در مارس 2024 توسط دنیل جورج (Daniel George) به‌عنوان مدیرعامل و دو همکار سابقش در Google X، سانی تنگ و ماهی کریم (هر دو CTO) تأسیس شد. جورج که پیش‌تر در Google X و سپس در JPMorgan به‌عنوان معاون و مسئول Applied AI کار کرده بود، ایده را هنگام استفاده شخصی از اسکریپت‌های رونویسی و ادغام با ChatGPT شکل داده بود.
– سرمایه‌گذاری سری اخیر به رهبری Streamlined Ventures انجام شد و سیلیکیا (Sequoia) و سرمایه‌گذارانی مانند Stephen Wolfram نیز در آن مشارکت داشتند؛ پس‌از این دور، ارزش‌گذاری TwinMind حدود 60 میلیون دلار (post-money) اعلام شده است.
– تا کنون بیش از 30 هزار کاربر ثبت شده و حدود 15 هزار کاربر فعال ماهانه دارد؛ 20–30% کاربران از افزونه Chrome نیز استفاده می‌کنند. بازارهای اصلی شامل آمریکا، هند، برزیل، فیلیپین، اتیوپی، کنیا و اروپا هستند.
– ترکیب کاربران: 50–60% حرفه‌ای‌ها، حدود 25% دانشجویان و بقیه برای استفاده شخصی. تیم فعلی حدود 11 نفر است و برنامه‌هایی برای جذب طراحان UX و تیم توسعه کسب‌وکار و افزایش استخدام وجود دارد.

قیمت‌گذاری و نسخه‌ها
– TwinMind نسخه رایگان را با امکانات پایه (از جمله ساعت‌های نامحدود رونویسی و تشخیص گفتار روی دستگاه) حفظ کرده است.
– اشتراک Pro با قیمت 15 دلار در ماه ارائه می‌شود که پنجره زمینه‌ای بزرگ‌تر تا 2 میلیون توکن و پشتیبانی ایمیلی تا 24 ساعت را شامل می‌شود.
– مدل Ear-3 به‌زودی از طریق API برای توسعه‌دهندگان و سازمان‌ها در دسترس خواهد بود.

موارد کاربرد و نمونه واقعی
– TwinMind برای جلسات کاری، کلاس‌های دانشگاهی، پژوهش، نگارش خودزندگینامه و مدیریت دانش شخصی کاربردی است. تیم سازنده از افزونه Chrome برای غربال بیش از 850 رزومه در فرآیند جذب کارآموز استفاده کرد و آن را نمونه‌ای از کاربرد واقعی ظرفیت‌های تحلیل محتوا معرفی نمود.

جمع‌بندی
TwinMind تلاش دارد مرز بین تجربه انسانی و حافظه دیجیتال را با حفظ حریم خصوصی و تمرکز بر پردازش محلی بازتعریف کند. ترکیب ضبط پیوسته پس‌زمینه، گراف دانش شخصی و مدل‌های گفتار چندزبانه می‌تواند این اپ را به یک ابزار مهم برای حرفه‌ای‌ها، دانشجویان و کاربرانی تبدیل کند که خواهان ثبت و بازیابی هوشمندانه‌ی اطلاعات روزمره و کاری خود هستند.

تبدیل متن به صوت با هوش مصنوعی

سه‌عضو سابق گوگل ایکس با جذب ۶ میلیون دلار، هوش مصنوعی «مغز دوم» برای کاربران می‌سازند

دیدگاه‌ خود را بنویسید لغو پاسخ