همکاری سامسونگ و Nota AI برای شتاب هوش مصنوعی محلی

همکاری سامسونگ و Nota AI برای شتاب هوش مصنوعی محلی

نظرات

8 دقیقه

سامسونگ با شرکت Nota AI قراردادی امضا کرده است که می‌تواند اجرای هوش مصنوعی محلی روی گوشی‌ها و دیگر دستگاه‌هایی که از Exynos 2500 استفاده می‌کنند را به‌طور معناداری تسریع کند. به‌جای ارسال محاسبات سنگین به سرورهای ابری، مدل‌های بهینه‌شده می‌توانند به صورت محلی اجرا شوند که این موضوع باعث کاهش تأخیر (latency) و بهبود حریم خصوصی کاربران می‌شود. این رویکرد همچنین به توسعه‌دهندگان و تولیدکنندگان دستگاه امکان می‌دهد قابلیت‌های پیشرفته‌ی هوش مصنوعی را بدون وابستگی مداوم به شبکه پیاده‌سازی کنند.

Nota AI brings model compression and an optimization toolchain

بر اساس این توافق جدید، Nota AI فناوری‌های فشرده‌سازی مدل و زنجیره ابزارهای بهینه‌سازی را ارائه می‌دهد که در Exynos AI Studio سامسونگ یکپارچه می‌شود. هدف این همکاری، اجرای روان‌تر مدل‌های مولد و استنتاجی پیشرفته روی Exynos 2500، بدون اتکا به سرورهای راه دور است. این یکپارچگی نرم‌افزاری به تیم‌های مهندسی اجازه می‌دهد تا مدل‌ها را قبل از استقرار روی دستگاه، بهینه کنند و سپس از طریق ابزارهای زمان اجرا، بهترین عملکرد را روی سخت‌افزار تراشه استخراج نمایند.

مدیرعامل Nota AI، Myungsu Chae، این همکاری را ساختن «چارچوبی با اتصال تنگاتنگ که سخت‌افزار و نرم‌افزار هوش مصنوعی را برای ارائه هوش مصنوعی مولدی با عملکرد بالا در لبه شبکه به هم می‌رساند» توصیف کرده است. در عمل این به معنی فایل‌های مدل کوچکتر و کارآمدتر، تنظیمات زمان‌ اجرا (runtime tweaks) و تطبیق الگوریتم‌ها با معماری تراشه است تا از ظرفیت‌های NPU و حافظه به شکل مؤثرتری بهره‌برداری شود.

فشرده‌سازی مدل‌ها (model compression) و تکنیک‌های بهینه‌سازی شامل مجموعه‌ای از روش‌های شناخته‌شده در زمینه یادگیری ماشین هستند: برش یا Pruning برای حذف اتصالات و نرون‌های با اهمیت کم، کوانتیزاسیون (quantization) برای کاهش دقت عددی وزن‌ها و فعال‌سازی‌ها و تقلیل مصرف حافظه، دانش‌انتقالی یا knowledge distillation برای منتقل کردن دانش یک مدل بزرگ به یک مدل کوچک‌تر، و فشرده‌سازی ساختاری و غیرساختاری که اندازه فایل و نیازهای محاسباتی مدل را کاهش می‌دهد. ترکیب این تکنیک‌ها با یک زنجیره ابزار بهینه‌سازی که با Exynos AI Studio یکپارچه شده، می‌تواند مدل‌های NLP، بینایی ماشین و مولد را برای اجرا روی NPU با توان محدود آماده کند.

علاوه بر خودِ فشرده‌سازی، بهینه‌سازی زمان اجرا و کامپایلر (compiler optimizations) نقش حیاتی دارند. تبدیل اپراتورها به نمونه‌هایی که بهتر روی واحدهای محاسباتی تراشه اجرا می‌شوند، ادغام اپراتورها (operator fusion)، و مدیریت حافظه‌ای که از کش و پهنای باند حافظه صرفه‌جویی می‌کند، همه از عوامل تأثیرگذار بر عملکرد نهایی هستند. در نتیجه، ترکیب روش‌های لایه‌ای فشرده‌سازی مدل و بهینه‌سازی زمان اجرا می‌تواند بهبود قابل‌توجهی در Latency، مصرف انرژی و اندازه مدل داشته باشد و امکان اجرای مدل‌های بزرگ‌تر یا دقیق‌تر را روی Exynos 2500 فراهم سازد.

What the Exynos 2500 brings to the table

  • پردازنده 10 هسته‌ای با هسته اصلی Cortex-X925 فرکانس 3.30GHz
  • 2 هسته Cortex-A725 با فرکانس 2.74GHz و 5 هسته Cortex-A725 با فرکانس 2.36GHz
  • 2 هسته مصرفی Cortex-A520 با فرکانس 1.80GHz
  • واحد گرافیکی Samsung Xclipse 950 مبتنی بر معماری AMD RDNA
  • NPU اختصاصی با توان 59 TOPS
  • پشتیبانی از حافظه LPDDR5X با پهنای باند 76.8 Gb/s

این مشخصات سخت‌افزاری پایه‌ای مطمئن را نشان می‌دهد، ولی اعداد خام TOPS تمامِ واقعیت را بازگو نمی‌کنند. برای مثال، گفته می‌شود Snapdragon 8 Elite Gen 5 کوالکام در Hexagon NPU حدود 100 TOPS می‌تواند برسد، اما عملکرد واقعی در کاربردهای دنیای واقعی به نحوه مدیریت حافظه، تاخیر بین اجزا، کارایی نرم‌افزار ران‌تایم و بهینه‌سازی مدل‌ها وابسته است. به همین دلیل سامسونگ به جای اتکا صرف به ارقام تئوریک، روی بهره‌برداری از بهینه‌سازی نرم‌افزاری برای استخراج کارایی عملی تمرکز کرده است؛ جایی که بهینه‌سازی‌های نرم‌افزاری می‌توانند اختلاف قابل‌توجهی در پاسخ‌دهی، مصرف انرژی و توانایی اجرا کردن مدل‌های پیچیده ایجاد کنند.

Xclipse 950 به عنوان GPU سفارشی شده مبتنی بر AMD RDNA می‌تواند وظایف گرافیکی سنگین و برخی عملیات محاسباتی را برعهده گیرد، اما برای عملیات اختصاصی یادگیری ماشین، NPU طراحی شده است تا با مصرف انرژی کمتر و سرعت بالاتر محاسبات ماتریسی را انجام دهد. پشتیبانی از LPDDR5X با پهنای باند بالا نیز به حرکت سریع داده‌ها بین حافظه و خوشه‌های محاسباتی کمک می‌کند؛ با این حال مدیریت کارآمد حافظه در سطح نرم‌افزار برای جلوگیری از گلوگاه‌ها حیاتی است.

در کنار مشخصات، نکته مهم این است که Exynos 2500 یک بستر سخت‌افزاری متعادل فراهم می‌کند: ترکیبی از هسته‌های پردازشی با توان بالا و هسته‌های کم‌مصرف، GPU با توان گرافیکی مناسب و یک NPU اختصاصی که اگر با ابزارهای بهینه‌سازی مناسب همراه شود، می‌تواند تجربهٔ هوش مصنوعی محلی را به سطح جدیدی برساند.

Why optimization matters more than peak numbers

تصور کنید ابزارهای Nota AI نوعی سرویس «تنظیم موتور» برای شبکه‌های عصبی هستند: عملیاتی مثل pruning (حذف اتصالات ضعیف)، quantization (کاهش دقت اعداد برای صرفه‌جویی در حافظه و محاسبات)، fusion اپراتورها، بازآرایی اجرای گراف محاسباتی و زمان‌بندی (scheduling) که سربار محاسباتی و حافظه‌ای را کاهش می‌دهند. این دست تکنیک‌ها باعث می‌شوند NPU با ظرفیت 59 TOPS روی Exynos 2500 بتواند مدل‌های بزرگ‌تر یا پیچیده‌تری را نسبت به آنچه عدد TOPS به‌تنهایی نشان می‌دهد، اجرا کند؛ ضمن اینکه مصرف انرژی را نیز کاهش می‌دهد و در نتیجه عمر باتری بهتر خواهد شد.

بهینه‌سازی فقط کوچک‌سازی مدل نیست؛ موضوع تعامل میان مدل، زمان‌ اجرا و سخت‌افزار است. برای نمونه، ترتیب اجرای لایه‌ها، استفاده از حافظه کش، نحوه مدیریت انتقال داده بین حافظه اصلی و NPU و بهره‌گیری از توان‌های قابل‌سنجش سخت‌افزار (مثل واحدهای برداری یا شتاب‌دهنده‌های ماتریسی) همگی در تعیین کارایی نهایی نقش دارند. همچنین، برخی تکنیک‌ها مانند dynamic quantization می‌توانند به صورت پویا در زمان اجرا فعال شوند تا تعادلی میان دقت و مصرف منابع برقرار کنند؛ این برای سناریوهایی که نیاز به پاسخ‌دهی سریع‌تر یا مصرف کمتر انرژی دارند بسیار مهم است.

از نظر توسعه‌دهندگان اپلیکیشن و سرویس‌های موبایل، توجه به این بهینه‌سازی‌ها به معنی توانایی ارائه قابلیت‌های هوشمندتر بدون نیاز به ارتباط دائمی با ابر است. برای نمونه، مدل‌های پردازش تصویر برای اعمال فیلترهای پیچیده، بازشناسی صدا و تبدیل گفتار به متن یا تولید پاسخ‌های متنی می‌توانند به شیوه‌ای اجرا شوند که تأخیر کمتر و حریم خصوصی بهتر را تضمین نمایند؛ زیرا دادهٔ کاربر دیگر مجبور نیست به سرورهای راه دور ارسال شود.

What users should expect

  • زمان پاسخ سریع‌تر برای قابلیت‌های هوش مصنوعی محلی و وظایف مولد — کاربران تجربهٔ تعاملی روان‌تر و ملموس‌تری خواهند داشت.
  • تاخیر پایین‌تر و بهبود حریم خصوصی، چرا که درخواست‌های کمتری به سرویس‌های ابری ارسال می‌شود و داده‌های حساس کاربر تا حد بیشتری روی خود دستگاه نگه داشته می‌شوند.
  • بهره‌وری بهتر باتری هنگام اجرای بارهای کاری هوش مصنوعی محلی — بهینه‌سازی‌های نرم‌افزاری می‌تواند مصرف انرژی را کاهش دهد و عمر باتری را افزایش دهد.

در عمل، این همکاری می‌تواند برای مصرف‌کننده به شکل دستیارهای روی دستگاه که سریع‌تر و پاسخگوتر هستند، پردازش تصویر و ویدئو با زمان پاسخ کوتاه‌تر، و تبدیل صوتی سریع‌تر و دقیق‌تر ظاهر شود. همچنین کاهش نیاز به سرویس‌های ابری می‌تواند هزینه‌های عملیاتی دادۀ حساس را کاهش دهد و وابستگی به دسترسی دائمی به اینترنت را کمتر کند — خصوصاً در مناطقی با اتصال ضعیف یا برای کاربردهای حساس به تأخیر.

برای توسعه‌دهندگان، پشتیبانی یک زنجیره ابزار بهینه‌سازی به این معنی است که می‌توانند مدل‌های آموزش‌دیده را با هزینهٔ کمتر روی دستگاه مستقر کنند، با گزینه‌هایی برای ردیابی و تحلیل عملکرد مدل‌ها در زمان اجرا، و با قابلیت‌هایی برای خودکارسازی فشرده‌سازی و تست‌های سازگاری روی دستگاه. این باعث کوتاه شدن چرخهٔ توسعه، کاهش پیچیدگی استقرار و ارتقای سریع‌تر ویژگی‌های مبتنی بر هوش مصنوعی می‌شود.

با این حال باید توجه داشت که بهینه‌سازی‌ها همیشه بدون هزینه نیستند: برخی تکنیک‌ها ممکن است اندکی از دقت مدل کم کنند یا برای برخی معماری‌ها نیاز به آزمون و خطای بیشتر داشته باشند تا تعادل مناسب دقت و کارایی پیدا شود. بنابراین، انتخاب مجموعه مناسبی از روش‌های فشرده‌سازی و پارامترهای کوانتیزاسیون و ارزیابی دقیق کیفی نتایج برای تجربهٔ کاربری نهایی ضروری است.

در جمع‌بندی، شراکت میان سامسونگ و Nota AI نشان از تغییر تمرکز صنعت به سمت «هوش مصنوعی در لبه» (on-device AI) دارد، جایی که ترکیب سخت‌افزار مناسب مانند Exynos 2500 و ابزارهای پیشرفتهٔ بهینه‌سازی می‌تواند تجربهٔ پردازش محلی هوش مصنوعی را قابل رقابت با راهکارهای ابری کند؛ با مزایای واضحی در زمینه کاهش تاخیر، حفاظت از حریم خصوصی و مصرف انرژی.

منبع: wccftech

ارسال نظر

نظرات

مطالب مرتبط