9 دقیقه
معرفی
یک حوله که طوری تا شده بود که انگار دست یک انسان محتاط آن را مرتب کرده است. قطعاتِ بلوک که با دستانی ثابت از هم جدا شدهاند. شاید کارهای کوچکی بهنظر برسند، اما گویای توانمندیهای مهمی هستند. مدل جدید رباتیکس-0 (Robotics-0) شیائومی یک گجت مصرفی پر زرق و برق نیست؛ بلکه تلاشی مهندسی برای آموزش ماشینها به «دیدن»، «فهمیدن» و «حرکت کردن» با همان ظرافتی است که غالباً آن را به شهامت و شهودی انسانی نسبت دادهایم.
هدف کلی: هوش فیزیکی
در اساس، رباتیکس-0 تلاش میکند حلقهای را ببندد که هر ربات توانمند را تعریف میکند: ادراک، تصمیمگیری و اجرا. شرکت این مفهوم را «هوش فیزیکی» مینامد — عبارتی کوتاه که پشت آن مجموعهای از مسایل پیچیده پنهان شده است. چگونه سیستمی را طوری نگه داریم که هم در استدلال زبانی و تصویری حاد بماند و هم یاد بگیرد حرکات میلیمتری و دقیق انجام دهد؟ پاسخ شیائومی یک معماری است که «تفکر» را از «حرکت» جدا میکند.
معماری کلی: جداسازی تفکر و حرکت
این جداسازی یک انتخاب مهندسی مهم است که با نام معماری «ترکیب ترنسفورمرها (Mixture-of-Transformers)» توصیف میشود. بهجای اینکه همه مسئولیتها را به یک مدل یکپارچه تحمیل کنند، نقشها تقسیم میشوند. مزیت مستقیم این کار مقابله با یک مشکل شناختهشده است: زمانی که یک مدل زبان-بینایی (vision-language model) را آموزش میدهید تا عمل کند، اغلب بخش استدلالی و شناختیاش کاهش مییابد. برای جلوگیری از این مشکل، شیائومی بهصورت همزمان روی دادههای چندمودالی (چشمانداز و زبان) و مسیرهای عمل آموزش میدهد تا مدل در حین یادگیری حرکت، همچنان قدرت استدلالش را حفظ کند.
مدل زبان-بصری (Visual Language Model)
یک سوی این معماری مدل زبان-بصری است — میتوان آن را مترجم ربات دانست. این مدل جریانهای دوربین با رزولوشن بالا و دستورالعملهای انسانی، حتی آنهایی که مبهماند («لطفاً حوله را تا بزن») را پردازش میکند. کارکردهای اصلی این بخش شامل تشخیص اشیا، روابط مکانی، پرسش و پاسخ تصویری و نوعی استدلال عقل سلیم است که پیکسلها را به وظایف قابل اجرا تبدیل میکند. این بخش برای فهمِ صحنه و استخراج ویژگیهای کلیدی لازم برای تصمیمگیری طراحی شده و نقش محوری در تعیین توزیعهای احتمالی عمل دارد.
کارشناس عمل (Action Expert)
سمت دیگر «کارشناس عمل» است: یک ترنسفورمر مبتنی بر انتشار یا Diffusion Transformer که هدفش تولید یک فرمان موتوری منفرد نیست، بلکه تهیه یک بخشِ عمل یا «Action Chunk» است — یعنی یک توالی کوتاه و هماهنگ از حرکات. در عمل، این رویکرد باعث انتقالهای نرمتر و کاهش تصحیحهای پرشی و ناپایدار میشود. بهجای اینکه مدل در هر لحظه یک فرمان جدید چاپ کند، Action Chunk مجموعهای از حرکات منسجم را ایجاد میکند که سختافزار میتواند با کنترل بازخوردی دنبال کند.

مراحل آموزش و همآموزی
فرآیند آموزش در رباتیکس-0 مرحلهای است. گام اول یک مرحلهٔ پیشنهاد عمل (Action Proposal) است که در آن مدل بصری هنگام خواندن تصویر توزیعهایی بر روی اعمال احتمالی پیشبینی میکند. این کار نمایههای داخلی دید و عمل را همراستا میسازد تا مدل بفهمد چه اقداماتی برای یک صحنهٔ مشخص قابل قبول یا محتملاند. پس از آن، بخش بصری فریز (ثابت) میشود و ترنسفورمر انتشار دهنده (Diffusion Transformer) آموزش میبیند تا توالیهای عملِ نویزی را پاکسازی کند — به عبارت دیگر، حدسهای نویزی را تبدیل به حرکتهای قابل اجرا نماید. این آموزش با استفاده از ویژگیهای کلید-مقدار (key-value features) بهجای توکنهای زبانی گسسته هدایت میشود، که به حفظ پیوستگی بین ادراک بصری و تولید حرکت کمک میکند.
چرا جداسازی آموزشی مهم است؟
اگر همه چیز را در یک مدل یکپارچه بگذارید، مدل ممکن است برای اجرای عملهایی که در مجموعه دادهٔ عمل دیده است بهینه شود و در عوض از تواناییهای استدلالی و زبان-بصری خود کاسته شود. تقسیم وظایف و همآموزی کنترلشده این مشکل را کاهش میدهد: مدلی که فقط وظیفهٔ «دیدن و تفسیر» را دارد، میتواند همزمان با مدلی که «عمل» را تولید میکند هماهنگ شود، بدون اینکه عملکرد شناختیاش قربانی سرعت یا دقت تولید حرکات شود.
فنون مهندسی برای روبرویی با مشکلات عملی
رباتهای واقعی اصطکاکها و چالشهای عملی خود را دارند. یکی از مهمترین مسائل تاخیر (latency) است. اگر مدل برای تصمیمگیری مکث کند، ربات معمولاً گیر میکند یا لق میزند. شیائومی این مشکل را با استدلال غیرهمزمان (asynchronous inference) حل میکند: محاسبه و سختافزار نیمهمستقل اجرا میشوند تا حرکت حتی هنگام محاسبهٔ مدل نیز پیوسته بماند. علاوه بر این، آنها پیشبینیهای قبلی عمل را به سیستم بازمیگردانند — چیزی که «پیشوند عمل پاک (Clean Action Prefix)» نامیده میشود — که به نرم کردن لرزشها و حفظ مومنتوم کمک میکند. یک ماسک توجه بهشکلِ حرف لامبدا (Λ) سیستم را تشویق میکند تا به سرنخهای بصری جاری بیش از تاریخچهٔ قدیمی وزن دهد و پاسخگویی به تغییرات ناگهانی را بهبود میبخشد.
جزئیات فنی اجرای غیرهمزمان
در عمل، اجرای غیرهمزمان به این معنی است که کنترلکنندهٔ پایینرده (low-level controller) از آخرین Action Chunk دریافت شده اجرا را ادامه میدهد در حالی که ماژول بالادستی (High-level) در پسزمینه توالیهای آینده را محاسبه میکند. اگر پیشبینی جدید دیر برسد، کنترلکننده از پیشوندهای پاک استفاده میکند تا از ایجاد حرکات ناگهانی جلوگیری کند. این الگو، همراه با قاعدهٔ ماسک توجه Λ، باعث میشود که سیستم نسبت به رویدادهای لحظهای (مثلاً لغزش یک حوله یا جابهجایی ناگهانی یک قطعه) سریعتر واکنش نشان دهد و در عین حال از اعوجاجِ تصمیمات قبلی در کنترل بلندمدت جلوگیری کند.

نتایج بنچمارک و آزمایشهای دنیای واقعی
بنچمارکها بخشی از روایت را بیان میکنند. شیائومی گزارش میدهد که در شبیهسازیهای LIBERO، CALVIN و SimplerEnv نتایج برتری ثبت کرده و تقریباً از حدود 30 سیستم همتای دیگر پیشی گرفته است. اعداد مهماند، اما آزمایشهای دنیای واقعی نیز معیار نهایی هستند. روی یک پلتفرم دو-بازویی (dual-arm)، رباتیکس-0 از پس وظایف بلندمدت مانند تا کردن حوله و جدا کردن بلوکها برآمد و نشان داد که هماهنگی چشم-دست پایداری دارد و هم اشیای سخت و هم اشیای نرم/قابل انعطاف را بدون رخدادهای شکست آشکار مدیریت میکند.
معیارهای عملکرد و تفسیر نتایج
- دقت اجرای حرکت: کاهش خطاهای موقعیتی میلیمتری در حرکات هدفمند.
- پایداری در طول زمان: توانایی کامل کردن وظایف طولانیمدت با کمترین افت عملکرد.
- قابلیت تعمیم: عملکرد مناسب در سناریوهای جدید بدون نیاز به کالیبراسیون دستی گسترده.
این نتایج نشان میدهند که ترکیب مدلهای زبان-بصری با مدلهای تولید حرکتِ مبتنی بر انتشار میتواند تعادل خوبی بین استدلال و کنترل حرکتی ایجاد کند — چیزی که در بسیاری از رویکردهای قبلی دشوار یا ناهمگون بود.
فراهم کردن کد بهصورت متنباز
نکتهٔ کاربردی دیگر این است که شیائومی رباتیکس-0 را بهصورت متنباز منتشر میکند. این اقدام برای شتابدادن به تحقیق اهمیت دارد. وقتی تیمها میتوانند کد را بررسی کنند، آزمایشات را بازتولید نمایند و روی کار یکدیگر بسازند، پیشرفت سریعتر رخ میدهد. انتظار میرود مقالات پیگیری، فورکها و احتمالاً تکرارهای سریع این ایدههای VLA (بینایی-زبان-عمل) روی سختافزارهای مختلف را شاهد باشیم. متنباز بودن همچنین به مسئلهٔ شفافیت و قابلیت اعتبارسنجی علمی کمک میکند که برای تکامل سالم حوزهٔ رباتیک و پژوهش در هوش مصنوعی حیاتی است.
مزایا و ریسکهای انتشار متنباز
- افزایش سرعت نوآوری: محققان و توسعهدهندگان میتوانند بهسرعت از پایهٔ موجود استفاده کنند.
- بهبود قابلیت تکرارپذیری: نتایج قابل آزمون و بازتولید میشوند.
- مسائل ایمنی و سوءاستفاده: انتشار فناوری توانمند ریسکهایی همراه دارد که نیازمند سیاستگذاری و چارچوبهای اخلاقی است.
محدودیتها و چالشهای باقیمانده
رباتیکس-0 همهٔ مشکلات را حل نمیکند. کار با اشیای نرم (مانند پارچهها) هنوز چالشبرانگیز است، تعمیم کامل به محیطهایی کاملاً متفاوت و دستیابی به خودمختاری کامل همچنان مسائل باز هستند. مدل اما یک جهت عملی را نشان میدهد: نزدیک نگه داشتن ادراک و عمل بدون اینکه یکی دیگری را بخورد یا تضعیف کند. این یادآور است که پیشرفت میتواند بیشتر از افزایش صرف اندازهٔ مدلها، از انتخابهای معماری هوشمندانه ناشی شود.
مسائل تحقیقاتی آینده
- بهبود تعامل با اشیای بسیار نرم و تغییرپذیر (پارچه، کیسههای پلاستیکی).
- افزایش توان تعمیم (generalization) به فضاهای واقعی و غیرقابل پیشبینی.
- یکپارچهسازی بهتر حسگرهای چندگانه (لمسی، نیرویی) با مدلهای بینایی-زبان.
- پرسشهای ایمنی و کنترلی برای رباتهای خانگی و صنعتی.
نتیجهگیری و افقهای پیش رو
اگر برایتان مهم است که رباتها در آینده چگونه حرکت خواهند کرد، مراقب رفتار این مدل خارج از آزمایشگاههای شیائومی و بخشهایی که جامعهٔ پژوهشی نگه میدارد و پالایش میکند باشید. دفعهٔ بعد که یک ربات خانگی حولهٔ شما را تا زد، ممکن است ردپای رباتیکس-0 را در هر تا و هر حرکت نرم ببینید. ترکیب مدل دید-زبان و تولیدگر حرکت مبتنی بر انتشار، همراه با مهندسی سیستم برای کاهش تأخیر و حفظ پیوستگی عمل، میتواند نقطهعطفی در رباتیک کاربردی باشد.
کلیدواژهها: رباتیک، هوش فیزیکی، مدل زبان-بصری، ترنسفورمر انتشار، رباتیکس-0، یادگیری چندمودالی، تا کردن حوله، کنترل حرکت، استدلال بینایی-زبان
منبع: gizmochina
ارسال نظر