8 دقیقه
سامسونگ با شرکت Nota AI قراردادی امضا کرده است که میتواند اجرای هوش مصنوعی محلی روی گوشیها و دیگر دستگاههایی که از Exynos 2500 استفاده میکنند را بهطور معناداری تسریع کند. بهجای ارسال محاسبات سنگین به سرورهای ابری، مدلهای بهینهشده میتوانند به صورت محلی اجرا شوند که این موضوع باعث کاهش تأخیر (latency) و بهبود حریم خصوصی کاربران میشود. این رویکرد همچنین به توسعهدهندگان و تولیدکنندگان دستگاه امکان میدهد قابلیتهای پیشرفتهی هوش مصنوعی را بدون وابستگی مداوم به شبکه پیادهسازی کنند.
Nota AI brings model compression and an optimization toolchain
بر اساس این توافق جدید، Nota AI فناوریهای فشردهسازی مدل و زنجیره ابزارهای بهینهسازی را ارائه میدهد که در Exynos AI Studio سامسونگ یکپارچه میشود. هدف این همکاری، اجرای روانتر مدلهای مولد و استنتاجی پیشرفته روی Exynos 2500، بدون اتکا به سرورهای راه دور است. این یکپارچگی نرمافزاری به تیمهای مهندسی اجازه میدهد تا مدلها را قبل از استقرار روی دستگاه، بهینه کنند و سپس از طریق ابزارهای زمان اجرا، بهترین عملکرد را روی سختافزار تراشه استخراج نمایند.
مدیرعامل Nota AI، Myungsu Chae، این همکاری را ساختن «چارچوبی با اتصال تنگاتنگ که سختافزار و نرمافزار هوش مصنوعی را برای ارائه هوش مصنوعی مولدی با عملکرد بالا در لبه شبکه به هم میرساند» توصیف کرده است. در عمل این به معنی فایلهای مدل کوچکتر و کارآمدتر، تنظیمات زمان اجرا (runtime tweaks) و تطبیق الگوریتمها با معماری تراشه است تا از ظرفیتهای NPU و حافظه به شکل مؤثرتری بهرهبرداری شود.
فشردهسازی مدلها (model compression) و تکنیکهای بهینهسازی شامل مجموعهای از روشهای شناختهشده در زمینه یادگیری ماشین هستند: برش یا Pruning برای حذف اتصالات و نرونهای با اهمیت کم، کوانتیزاسیون (quantization) برای کاهش دقت عددی وزنها و فعالسازیها و تقلیل مصرف حافظه، دانشانتقالی یا knowledge distillation برای منتقل کردن دانش یک مدل بزرگ به یک مدل کوچکتر، و فشردهسازی ساختاری و غیرساختاری که اندازه فایل و نیازهای محاسباتی مدل را کاهش میدهد. ترکیب این تکنیکها با یک زنجیره ابزار بهینهسازی که با Exynos AI Studio یکپارچه شده، میتواند مدلهای NLP، بینایی ماشین و مولد را برای اجرا روی NPU با توان محدود آماده کند.
علاوه بر خودِ فشردهسازی، بهینهسازی زمان اجرا و کامپایلر (compiler optimizations) نقش حیاتی دارند. تبدیل اپراتورها به نمونههایی که بهتر روی واحدهای محاسباتی تراشه اجرا میشوند، ادغام اپراتورها (operator fusion)، و مدیریت حافظهای که از کش و پهنای باند حافظه صرفهجویی میکند، همه از عوامل تأثیرگذار بر عملکرد نهایی هستند. در نتیجه، ترکیب روشهای لایهای فشردهسازی مدل و بهینهسازی زمان اجرا میتواند بهبود قابلتوجهی در Latency، مصرف انرژی و اندازه مدل داشته باشد و امکان اجرای مدلهای بزرگتر یا دقیقتر را روی Exynos 2500 فراهم سازد.
What the Exynos 2500 brings to the table
- پردازنده 10 هستهای با هسته اصلی Cortex-X925 فرکانس 3.30GHz
- 2 هسته Cortex-A725 با فرکانس 2.74GHz و 5 هسته Cortex-A725 با فرکانس 2.36GHz
- 2 هسته مصرفی Cortex-A520 با فرکانس 1.80GHz
- واحد گرافیکی Samsung Xclipse 950 مبتنی بر معماری AMD RDNA
- NPU اختصاصی با توان 59 TOPS
- پشتیبانی از حافظه LPDDR5X با پهنای باند 76.8 Gb/s
این مشخصات سختافزاری پایهای مطمئن را نشان میدهد، ولی اعداد خام TOPS تمامِ واقعیت را بازگو نمیکنند. برای مثال، گفته میشود Snapdragon 8 Elite Gen 5 کوالکام در Hexagon NPU حدود 100 TOPS میتواند برسد، اما عملکرد واقعی در کاربردهای دنیای واقعی به نحوه مدیریت حافظه، تاخیر بین اجزا، کارایی نرمافزار رانتایم و بهینهسازی مدلها وابسته است. به همین دلیل سامسونگ به جای اتکا صرف به ارقام تئوریک، روی بهرهبرداری از بهینهسازی نرمافزاری برای استخراج کارایی عملی تمرکز کرده است؛ جایی که بهینهسازیهای نرمافزاری میتوانند اختلاف قابلتوجهی در پاسخدهی، مصرف انرژی و توانایی اجرا کردن مدلهای پیچیده ایجاد کنند.
Xclipse 950 به عنوان GPU سفارشی شده مبتنی بر AMD RDNA میتواند وظایف گرافیکی سنگین و برخی عملیات محاسباتی را برعهده گیرد، اما برای عملیات اختصاصی یادگیری ماشین، NPU طراحی شده است تا با مصرف انرژی کمتر و سرعت بالاتر محاسبات ماتریسی را انجام دهد. پشتیبانی از LPDDR5X با پهنای باند بالا نیز به حرکت سریع دادهها بین حافظه و خوشههای محاسباتی کمک میکند؛ با این حال مدیریت کارآمد حافظه در سطح نرمافزار برای جلوگیری از گلوگاهها حیاتی است.
در کنار مشخصات، نکته مهم این است که Exynos 2500 یک بستر سختافزاری متعادل فراهم میکند: ترکیبی از هستههای پردازشی با توان بالا و هستههای کممصرف، GPU با توان گرافیکی مناسب و یک NPU اختصاصی که اگر با ابزارهای بهینهسازی مناسب همراه شود، میتواند تجربهٔ هوش مصنوعی محلی را به سطح جدیدی برساند.
Why optimization matters more than peak numbers
تصور کنید ابزارهای Nota AI نوعی سرویس «تنظیم موتور» برای شبکههای عصبی هستند: عملیاتی مثل pruning (حذف اتصالات ضعیف)، quantization (کاهش دقت اعداد برای صرفهجویی در حافظه و محاسبات)، fusion اپراتورها، بازآرایی اجرای گراف محاسباتی و زمانبندی (scheduling) که سربار محاسباتی و حافظهای را کاهش میدهند. این دست تکنیکها باعث میشوند NPU با ظرفیت 59 TOPS روی Exynos 2500 بتواند مدلهای بزرگتر یا پیچیدهتری را نسبت به آنچه عدد TOPS بهتنهایی نشان میدهد، اجرا کند؛ ضمن اینکه مصرف انرژی را نیز کاهش میدهد و در نتیجه عمر باتری بهتر خواهد شد.
بهینهسازی فقط کوچکسازی مدل نیست؛ موضوع تعامل میان مدل، زمان اجرا و سختافزار است. برای نمونه، ترتیب اجرای لایهها، استفاده از حافظه کش، نحوه مدیریت انتقال داده بین حافظه اصلی و NPU و بهرهگیری از توانهای قابلسنجش سختافزار (مثل واحدهای برداری یا شتابدهندههای ماتریسی) همگی در تعیین کارایی نهایی نقش دارند. همچنین، برخی تکنیکها مانند dynamic quantization میتوانند به صورت پویا در زمان اجرا فعال شوند تا تعادلی میان دقت و مصرف منابع برقرار کنند؛ این برای سناریوهایی که نیاز به پاسخدهی سریعتر یا مصرف کمتر انرژی دارند بسیار مهم است.
از نظر توسعهدهندگان اپلیکیشن و سرویسهای موبایل، توجه به این بهینهسازیها به معنی توانایی ارائه قابلیتهای هوشمندتر بدون نیاز به ارتباط دائمی با ابر است. برای نمونه، مدلهای پردازش تصویر برای اعمال فیلترهای پیچیده، بازشناسی صدا و تبدیل گفتار به متن یا تولید پاسخهای متنی میتوانند به شیوهای اجرا شوند که تأخیر کمتر و حریم خصوصی بهتر را تضمین نمایند؛ زیرا دادهٔ کاربر دیگر مجبور نیست به سرورهای راه دور ارسال شود.
What users should expect
- زمان پاسخ سریعتر برای قابلیتهای هوش مصنوعی محلی و وظایف مولد — کاربران تجربهٔ تعاملی روانتر و ملموستری خواهند داشت.
- تاخیر پایینتر و بهبود حریم خصوصی، چرا که درخواستهای کمتری به سرویسهای ابری ارسال میشود و دادههای حساس کاربر تا حد بیشتری روی خود دستگاه نگه داشته میشوند.
- بهرهوری بهتر باتری هنگام اجرای بارهای کاری هوش مصنوعی محلی — بهینهسازیهای نرمافزاری میتواند مصرف انرژی را کاهش دهد و عمر باتری را افزایش دهد.
در عمل، این همکاری میتواند برای مصرفکننده به شکل دستیارهای روی دستگاه که سریعتر و پاسخگوتر هستند، پردازش تصویر و ویدئو با زمان پاسخ کوتاهتر، و تبدیل صوتی سریعتر و دقیقتر ظاهر شود. همچنین کاهش نیاز به سرویسهای ابری میتواند هزینههای عملیاتی دادۀ حساس را کاهش دهد و وابستگی به دسترسی دائمی به اینترنت را کمتر کند — خصوصاً در مناطقی با اتصال ضعیف یا برای کاربردهای حساس به تأخیر.
برای توسعهدهندگان، پشتیبانی یک زنجیره ابزار بهینهسازی به این معنی است که میتوانند مدلهای آموزشدیده را با هزینهٔ کمتر روی دستگاه مستقر کنند، با گزینههایی برای ردیابی و تحلیل عملکرد مدلها در زمان اجرا، و با قابلیتهایی برای خودکارسازی فشردهسازی و تستهای سازگاری روی دستگاه. این باعث کوتاه شدن چرخهٔ توسعه، کاهش پیچیدگی استقرار و ارتقای سریعتر ویژگیهای مبتنی بر هوش مصنوعی میشود.
با این حال باید توجه داشت که بهینهسازیها همیشه بدون هزینه نیستند: برخی تکنیکها ممکن است اندکی از دقت مدل کم کنند یا برای برخی معماریها نیاز به آزمون و خطای بیشتر داشته باشند تا تعادل مناسب دقت و کارایی پیدا شود. بنابراین، انتخاب مجموعه مناسبی از روشهای فشردهسازی و پارامترهای کوانتیزاسیون و ارزیابی دقیق کیفی نتایج برای تجربهٔ کاربری نهایی ضروری است.
در جمعبندی، شراکت میان سامسونگ و Nota AI نشان از تغییر تمرکز صنعت به سمت «هوش مصنوعی در لبه» (on-device AI) دارد، جایی که ترکیب سختافزار مناسب مانند Exynos 2500 و ابزارهای پیشرفتهٔ بهینهسازی میتواند تجربهٔ پردازش محلی هوش مصنوعی را قابل رقابت با راهکارهای ابری کند؛ با مزایای واضحی در زمینه کاهش تاخیر، حفاظت از حریم خصوصی و مصرف انرژی.
منبع: wccftech
ارسال نظر