محاسبات خام یا نوآوری الگوریتمی در پیشرفت هوش مصنوعی

محاسبات خام یا نوآوری الگوریتمی در پیشرفت هوش مصنوعی

نظرات

8 دقیقه

خلاصهٔ اصلی

محاسبات خام به‌طور پنهانی تبدیل به سوختی شده است که پرشتاب‌ترین جهش‌های مرئی در هوش مصنوعی را پیش می‌برد. این خلاصهٔ صریح نتیجهٔ یک تحلیل تازه از آزمایشگاه‌ها و محققان مؤسسهٔ فناوری ماساچوست (MIT) است: هرچند الگوریتم‌های هوشمند اهمیت دارند، دسترسی به منابع محاسباتی عظیم اغلب تعیین می‌کند کدام مدل‌ها در صف جلو قرار می‌گیرند.

تحلیل پژوهش MIT

روش‌شناسی و مجموعه داده

محققان MIT به سرپرستی Matthias Mertens و همکاران، عملکرد 809 مدل زبانی بزرگ را بررسی کردند تا روشن شود چه سهمی از دقت مدل‌ها ناشی از محاسبات صرف است و چه بخشی ناشی از نوآوری‌های الگوریتمی و بهبودهای گستردهٔ صنعتی. این تحلیل شامل مقایسهٔ مدل‌ها در سطوح مختلف اندازه، تنظیم‌ها، و هزینهٔ آموزشی بود تا رابطهٔ بین مقیاس محاسباتی و کیفیت نهایی مدل مشخص گردد.

یافته‌ها: محاسبات به‌عنوان عامل غالب

نتیجهٔ این کار قاطع بود. محاسبات به‌عنوان عامل غالب در دقت نهایی ظاهر شد و از پیشرفت‌های الگوریتمی سفارشی با فاصلهٔ قابل‌توجهی پیشی گرفت. طبق گزارش، مدل‌هایی که در صدک 95 عملکرد قرار داشتند، به تقریباً 1,321 برابر محاسبات بیشتر برای آموزش نیاز داشتند تا مدل‌های ضعیف‌تر. این فاصله تنها یک مزیت جزئی نیست؛ این یک اثر مقیاس است: وقتی از آستانه‌های محاسباتی معینی عبور می‌کنید، رفتار مدل از نظر کیفی تغییر می‌کند و دقت به‌گونه‌ای افزایش می‌یابد که تنها با ترفندهای هوشمند الگوریتمی به سختی قابل‌دستیابی است.

هزینه‌ها و سخت‌افزار

روند افزایش قیمت‌ها

هزینهٔ سخت‌افزار این شکاف را عمیق‌تر می‌کند. از سال 2019 میانگین قیمت چیپ‌ها به طور قابل‌توجهی افزایش یافته و تا سال 2025 هزینهٔ پردازنده‌ها و تجهیزات شبکه‌ای مورد نیاز برای مقیاس‌گذاری بارهای کاری هوش مصنوعی تقریباً 70 درصد افزایش داشته است. این افزایشِ هزینهٔ سخت‌افزار، موانع ورودی را برای سازمان‌های کوچکتر بالا می‌برد و بر تمرکز سرمایه و توان عملیاتی در میان بازیگران بزرگ تأثیر می‌گذارد.

شتاب‌دهنده‌های نسل جدید و نیاز به ناوگان

شتاب‌دهنده‌های نسل نو مانند سری Blackwell انویدیا و سایر چیپ‌های با کارایی بالا به ازای هر عملیات کاراتر شده‌اند، اما برای دنبال‌کردن مدل‌های مرزی هنوز به ناوگان عظیمی از این شتاب‌دهنده‌ها نیاز است. به عبارت دیگر، هر واحد توان پردازشیِ کاراتر، همچنان نیاز به تعداد زیادی نمونه دارد تا آموزش مدل‌های بزرگ با میلیاردها پارامتر به‌صورت عملی میسر شود. همین موضوع توضیح می‌دهد چرا زیرساخت‌های ابری بزرگ (hyperscalers) و شرکت‌های پیشرو در حوزهٔ هوش مصنوعی میلیاردها دلار در دیتاسنترها سرمایه‌گذاری می‌کنند و چرا مدیران اجرایی مانند Sam Altman به دنبال تأمین سرمایهٔ عظیم خارجی برای پشتیبانی مالی نسل بعدی دوره‌های آموزشی مدل‌ها بوده‌اند.

بهینه‌سازی الگوریتمی و مهندسی نرم‌افزار

توانایی‌های کاهش هزینه با نرم‌افزار هوشمند

اما داستان فقط مصرف خام پول نیست. همان مطالعهٔ MIT یک نکتهٔ مهم مقابله‌ای را برجسته می‌کند: بهبودهای الگوریتمی و مهندسی همچنان اهرم‌های قدرتمندی برای کاهش هزینه‌اند. برای تیم‌هایی که توان خرید هزاران کارت گرافیک رده‌بالا را ندارند، نرم‌افزار هوشمند — از جمله برش شبکه (pruning)، کوانتیزاسیون (quantization)، زمان‌بندی بهتر آموزش (training schedules) و جستجوی معماری (architecture search) — می‌تواند به طرز قابل‌توجهی ارزش هر چرخهٔ محاسباتی را افزایش دهد.

تکنیک‌ها: برش، کوانتیزاسیون، تقطیر و جستجوی معماری

برش شبکه به حذف وزن‌ها یا اتصال‌های کم‌اهمیت در مدل می‌پردازد تا حجم محاسبات و حافظه کاهش یابد. کوانتیزاسیون دقت اعداد را از شناور 32 بیتی به فرمت‌های با دقت پایین‌تر مانند 8 یا 4 بیت کاهش می‌دهد و به‌طرز چشمگیری مصرف حافظه و زمان محاسبات را کم می‌کند. تقطیر مدل (model distillation) روشی است که در آن یک مدل بزرگ‌تر و قدرتمند به‌عنوان معلم، دانش خود را به یک مدل کوچکتر منتقل می‌کند تا مدل کوچک‌تر عملکردی نزدیک به مدل بزرگ داشته باشد در حالی که منابع بسیار کمتری مصرف می‌کند. جستجوی معماری خودکار (NAS) و زمان‌بندی آموزشی بهینه نیز می‌توانند ساختار و روند آموزش را طوری تنظیم کنند که بازده برای هر واحد محاسبه افزایش یابد.

موارد عملی: رقابت در کارهای مشخص

در عمل، این به این معنی است که مدل‌های کوچکتر و دقیقاً تنظیم‌شده می‌توانند در برخی وظایف خاص با سیستم‌های مرزی هم‌ردیف شوند، در حالی که تنها بخش کوچکی از منابع مصرف می‌کنند. این تاکتیک‌ها به‌ویژه در محیط‌هایی با محدودیت بودجه یا نیاز به استقرار محلی (on-device) حیاتی‌اند، جایی که هزینهٔ انتقال داده یا نیاز به پاسخ در زمان واقعی، کارایی محاسباتی را اولویت می‌دهد.

تقسیم‌ کار عملی و اقتصادهای متفاوت

در منظرهٔ فعلی هوش مصنوعی یک شکاف عملیاتی و اقتصادی در حال شکل‌گیری است. از یک سو غول‌هایی قرار دارند که با اتکا به توان محاسباتی عظیم مدل‌های مرزی را نگه می‌دارند و با مقیاس برتری ایجاد می‌کنند. از سوی دیگر، تیم‌ها و شرکت‌های کوچکتر هستند که با اتکا به کارایی الگوریتمی و خلاقیت مهندسی، هوش مصنوعی عملی و مقرون‌به‌صرفه عرضه می‌کنند. هر دو رویکرد میدان را جلو می‌برند، اما از طریق اقتصادهای متفاوت: یکی مقیاس می‌خرد و دیگری هوشمندی.

پیامدهای رقابتی

این تقسیم‌بندی رقابت را به دو حوزه هدایت می‌کند: مسابقهٔ سخت‌افزار و سرمایه‌گذاری برای کسب مقیاس و هم‌زمان رقابت بین تولیدکنندگان الگوریتم و مهندسین برای استخراج بیشترین بازده از هر واحد محاسبات. برای شرکت‌های تازه‌تأسیس، انتخاب بین سرمایه‌گذاری سنگین در زیرساخت یا تمرکز بر مهندسی کارآمد یک تصمیم استراتژیک کلیدی است که بر مدل کسب‌وکار، سرعت بازار و امکان‌پذیری فنی تأثیر می‌گذارد.

پیامدها برای سیاست‌گذاران، سرمایه‌گذاران و مهندسان

پیامدها برای سه دستهٔ کلیدی روشن است. سرمایه‌گذاری در سخت‌افزار همچنان حیاتی است اگر هدف دستیابی به قابلیت‌های خام و مرزی باشد. با این حال، تأمین مالی تحقیقات در کارایی الگوریتمی، ابزارهای متن‌باز، و تکنیک‌های آموزشی بهتر به همان اندازه مهم است تا دسترسی را گسترش دهد و هزینه‌های مالی و زیست‌محیطی را کاهش دهد. انتخاب اینکه کدام مسیر توجه بیشتری دریافت کند، تعیین خواهد کرد چه کسانی موج بعدی نوآوری را رهبری خواهند کرد.

دسترسی، پایداری و مقررات

پاداش دادن به تحقیقاتی که بهره‌وری انرژی و کارایی محاسباتی را افزایش می‌دهد، می‌تواند اثرات مثبت گسترده‌ای داشته باشد: کاهش مصرف انرژی مراکز داده، کاهش هزینهٔ توسعهٔ مدل برای مؤسسات آموزشی و شرکت‌های کوچک، و افزایش تنوع در اکوسیستم توسعه‌دهندگان هوش مصنوعی. از سوی دیگر، تمرکز صرف بر مقیاس بدون کنترل‌های محیط‌زیستی یا مدل‌های مشارکتی ممکن است به نابرابری‌های فناورانه و فشارهای زیست‌محیطی منجر شود.

جزئیات فنی و راهکارهای مهندسی

برای خوانندگانی که به جزئیات فنی علاقه‌مندند، در ادامه به برخی نکات فنی و عملیاتی پرداخته می‌شود که در عمل تفاوت قابل‌توجهی ایجاد می‌کنند:

  • تخصیص هوشمند منابع: ترکیب CPU، GPU و شتاب‌دهنده‌های سفارشی به‌صورت هیبریدی و زمان‌بندی بار کاری برای کاهش هزینهٔ کلی.
  • فناوری حافظهٔ کاراتر: استفاده از حافظهٔ با پهنای باند بالا (HBM) و معماری‌های حافظه‌ای نوین برای کاهش گلوگاه‌های داده.
  • پردازش توزیع‌شده و فشرده‌سازی: تکنیک‌های فشرده‌سازی گرادیان و همگرایی تجمعی برای کاهش ترافیک شبکه در آموزش توزیع‌شده.
  • استفاده از داده‌های سنتز شده: تولید داده‌های آموزشی کم‌هزینه و کنترل‌شده برای کاهش نیاز به مجموعه‌های دادهٔ حجیم و گران‌قیمت.
  • تجزیه و تحلیل هزینه-فایده آموزش: مدل‌سازی دقیق هزینهٔ آموزش در مقیاس‌های مختلف تا تصمیم‌گیری استراتژیک در انتخاب معماری و اندازهٔ مدل ممکن شود.

چشم‌انداز و نتیجه‌گیری

در پایان، سؤال عملی و فلسفی که این بحث مطرح می‌کند روشن است: آیا شکست بعدی بزرگ در هوش مصنوعی با سرمایه‌گذاری عظیم در دیتاسنترها و ناوگان شتاب‌دهنده‌ها به‌دست خواهد آمد، یا یک الگوریتم هوشمندتر که روی بودجهٔ کوچک‌تر اجرا می‌شود؟ پاسخ احتمالاً ترکیبی از هر دو است و بستگی به هدفِ نهایی دارد: اگر هدف رسیدن به بالاترین سطح خامِ قابلیت است، مقیاس و سرمایهٔ عظیم ضروری به‌نظر می‌رسد. اگر هدف توسعهٔ کاربردهای مقرون‌به‌صرفه، دسترس‌پذیر و سازگار با محیط‌زیست است، نوآوری الگوریتمی و بهبود مهندسی راه‌حل خواهد بود.

با این حال، از منظر سیاست‌گذاری و جامعهٔ علمی، متوازن‌سازی سرمایه‌گذاری بین سخت‌افزار و نرم‌افزار اهمیت دارد: ترویج تحقیق در کارایی محاسباتی، استانداردسازی ابزارهای متن‌باز و تأمین زیرساخت‌های محاسباتی مشترک می‌تواند هم دسترسی را افزایش دهد و هم اثرات زیست‌محیطی را کاهش دهد. در نهایت، این انتخاب‌ها هستند که تعیین می‌کنند چه سازمان‌هایی رهبر موج بعدی نوآوری خواهند بود.

پس از خود بپرسید: آیا پیشرفت بعدی را بزرگ‌ترین مرکز داده خواهد برد، یا الگوریتمی هوشمندتر که با بودجه‌ای محدود اجرا می‌شود؟

منبع: smarti

ارسال نظر

نظرات

مطالب مرتبط