8 دقیقه
خلاصهٔ اصلی
محاسبات خام بهطور پنهانی تبدیل به سوختی شده است که پرشتابترین جهشهای مرئی در هوش مصنوعی را پیش میبرد. این خلاصهٔ صریح نتیجهٔ یک تحلیل تازه از آزمایشگاهها و محققان مؤسسهٔ فناوری ماساچوست (MIT) است: هرچند الگوریتمهای هوشمند اهمیت دارند، دسترسی به منابع محاسباتی عظیم اغلب تعیین میکند کدام مدلها در صف جلو قرار میگیرند.
تحلیل پژوهش MIT
روششناسی و مجموعه داده
محققان MIT به سرپرستی Matthias Mertens و همکاران، عملکرد 809 مدل زبانی بزرگ را بررسی کردند تا روشن شود چه سهمی از دقت مدلها ناشی از محاسبات صرف است و چه بخشی ناشی از نوآوریهای الگوریتمی و بهبودهای گستردهٔ صنعتی. این تحلیل شامل مقایسهٔ مدلها در سطوح مختلف اندازه، تنظیمها، و هزینهٔ آموزشی بود تا رابطهٔ بین مقیاس محاسباتی و کیفیت نهایی مدل مشخص گردد.
یافتهها: محاسبات بهعنوان عامل غالب
نتیجهٔ این کار قاطع بود. محاسبات بهعنوان عامل غالب در دقت نهایی ظاهر شد و از پیشرفتهای الگوریتمی سفارشی با فاصلهٔ قابلتوجهی پیشی گرفت. طبق گزارش، مدلهایی که در صدک 95 عملکرد قرار داشتند، به تقریباً 1,321 برابر محاسبات بیشتر برای آموزش نیاز داشتند تا مدلهای ضعیفتر. این فاصله تنها یک مزیت جزئی نیست؛ این یک اثر مقیاس است: وقتی از آستانههای محاسباتی معینی عبور میکنید، رفتار مدل از نظر کیفی تغییر میکند و دقت بهگونهای افزایش مییابد که تنها با ترفندهای هوشمند الگوریتمی به سختی قابلدستیابی است.
هزینهها و سختافزار
روند افزایش قیمتها
هزینهٔ سختافزار این شکاف را عمیقتر میکند. از سال 2019 میانگین قیمت چیپها به طور قابلتوجهی افزایش یافته و تا سال 2025 هزینهٔ پردازندهها و تجهیزات شبکهای مورد نیاز برای مقیاسگذاری بارهای کاری هوش مصنوعی تقریباً 70 درصد افزایش داشته است. این افزایشِ هزینهٔ سختافزار، موانع ورودی را برای سازمانهای کوچکتر بالا میبرد و بر تمرکز سرمایه و توان عملیاتی در میان بازیگران بزرگ تأثیر میگذارد.
شتابدهندههای نسل جدید و نیاز به ناوگان
شتابدهندههای نسل نو مانند سری Blackwell انویدیا و سایر چیپهای با کارایی بالا به ازای هر عملیات کاراتر شدهاند، اما برای دنبالکردن مدلهای مرزی هنوز به ناوگان عظیمی از این شتابدهندهها نیاز است. به عبارت دیگر، هر واحد توان پردازشیِ کاراتر، همچنان نیاز به تعداد زیادی نمونه دارد تا آموزش مدلهای بزرگ با میلیاردها پارامتر بهصورت عملی میسر شود. همین موضوع توضیح میدهد چرا زیرساختهای ابری بزرگ (hyperscalers) و شرکتهای پیشرو در حوزهٔ هوش مصنوعی میلیاردها دلار در دیتاسنترها سرمایهگذاری میکنند و چرا مدیران اجرایی مانند Sam Altman به دنبال تأمین سرمایهٔ عظیم خارجی برای پشتیبانی مالی نسل بعدی دورههای آموزشی مدلها بودهاند.

بهینهسازی الگوریتمی و مهندسی نرمافزار
تواناییهای کاهش هزینه با نرمافزار هوشمند
اما داستان فقط مصرف خام پول نیست. همان مطالعهٔ MIT یک نکتهٔ مهم مقابلهای را برجسته میکند: بهبودهای الگوریتمی و مهندسی همچنان اهرمهای قدرتمندی برای کاهش هزینهاند. برای تیمهایی که توان خرید هزاران کارت گرافیک ردهبالا را ندارند، نرمافزار هوشمند — از جمله برش شبکه (pruning)، کوانتیزاسیون (quantization)، زمانبندی بهتر آموزش (training schedules) و جستجوی معماری (architecture search) — میتواند به طرز قابلتوجهی ارزش هر چرخهٔ محاسباتی را افزایش دهد.
تکنیکها: برش، کوانتیزاسیون، تقطیر و جستجوی معماری
برش شبکه به حذف وزنها یا اتصالهای کماهمیت در مدل میپردازد تا حجم محاسبات و حافظه کاهش یابد. کوانتیزاسیون دقت اعداد را از شناور 32 بیتی به فرمتهای با دقت پایینتر مانند 8 یا 4 بیت کاهش میدهد و بهطرز چشمگیری مصرف حافظه و زمان محاسبات را کم میکند. تقطیر مدل (model distillation) روشی است که در آن یک مدل بزرگتر و قدرتمند بهعنوان معلم، دانش خود را به یک مدل کوچکتر منتقل میکند تا مدل کوچکتر عملکردی نزدیک به مدل بزرگ داشته باشد در حالی که منابع بسیار کمتری مصرف میکند. جستجوی معماری خودکار (NAS) و زمانبندی آموزشی بهینه نیز میتوانند ساختار و روند آموزش را طوری تنظیم کنند که بازده برای هر واحد محاسبه افزایش یابد.
موارد عملی: رقابت در کارهای مشخص
در عمل، این به این معنی است که مدلهای کوچکتر و دقیقاً تنظیمشده میتوانند در برخی وظایف خاص با سیستمهای مرزی همردیف شوند، در حالی که تنها بخش کوچکی از منابع مصرف میکنند. این تاکتیکها بهویژه در محیطهایی با محدودیت بودجه یا نیاز به استقرار محلی (on-device) حیاتیاند، جایی که هزینهٔ انتقال داده یا نیاز به پاسخ در زمان واقعی، کارایی محاسباتی را اولویت میدهد.
تقسیم کار عملی و اقتصادهای متفاوت
در منظرهٔ فعلی هوش مصنوعی یک شکاف عملیاتی و اقتصادی در حال شکلگیری است. از یک سو غولهایی قرار دارند که با اتکا به توان محاسباتی عظیم مدلهای مرزی را نگه میدارند و با مقیاس برتری ایجاد میکنند. از سوی دیگر، تیمها و شرکتهای کوچکتر هستند که با اتکا به کارایی الگوریتمی و خلاقیت مهندسی، هوش مصنوعی عملی و مقرونبهصرفه عرضه میکنند. هر دو رویکرد میدان را جلو میبرند، اما از طریق اقتصادهای متفاوت: یکی مقیاس میخرد و دیگری هوشمندی.
پیامدهای رقابتی
این تقسیمبندی رقابت را به دو حوزه هدایت میکند: مسابقهٔ سختافزار و سرمایهگذاری برای کسب مقیاس و همزمان رقابت بین تولیدکنندگان الگوریتم و مهندسین برای استخراج بیشترین بازده از هر واحد محاسبات. برای شرکتهای تازهتأسیس، انتخاب بین سرمایهگذاری سنگین در زیرساخت یا تمرکز بر مهندسی کارآمد یک تصمیم استراتژیک کلیدی است که بر مدل کسبوکار، سرعت بازار و امکانپذیری فنی تأثیر میگذارد.
پیامدها برای سیاستگذاران، سرمایهگذاران و مهندسان
پیامدها برای سه دستهٔ کلیدی روشن است. سرمایهگذاری در سختافزار همچنان حیاتی است اگر هدف دستیابی به قابلیتهای خام و مرزی باشد. با این حال، تأمین مالی تحقیقات در کارایی الگوریتمی، ابزارهای متنباز، و تکنیکهای آموزشی بهتر به همان اندازه مهم است تا دسترسی را گسترش دهد و هزینههای مالی و زیستمحیطی را کاهش دهد. انتخاب اینکه کدام مسیر توجه بیشتری دریافت کند، تعیین خواهد کرد چه کسانی موج بعدی نوآوری را رهبری خواهند کرد.
دسترسی، پایداری و مقررات
پاداش دادن به تحقیقاتی که بهرهوری انرژی و کارایی محاسباتی را افزایش میدهد، میتواند اثرات مثبت گستردهای داشته باشد: کاهش مصرف انرژی مراکز داده، کاهش هزینهٔ توسعهٔ مدل برای مؤسسات آموزشی و شرکتهای کوچک، و افزایش تنوع در اکوسیستم توسعهدهندگان هوش مصنوعی. از سوی دیگر، تمرکز صرف بر مقیاس بدون کنترلهای محیطزیستی یا مدلهای مشارکتی ممکن است به نابرابریهای فناورانه و فشارهای زیستمحیطی منجر شود.
جزئیات فنی و راهکارهای مهندسی
برای خوانندگانی که به جزئیات فنی علاقهمندند، در ادامه به برخی نکات فنی و عملیاتی پرداخته میشود که در عمل تفاوت قابلتوجهی ایجاد میکنند:
- تخصیص هوشمند منابع: ترکیب CPU، GPU و شتابدهندههای سفارشی بهصورت هیبریدی و زمانبندی بار کاری برای کاهش هزینهٔ کلی.
- فناوری حافظهٔ کاراتر: استفاده از حافظهٔ با پهنای باند بالا (HBM) و معماریهای حافظهای نوین برای کاهش گلوگاههای داده.
- پردازش توزیعشده و فشردهسازی: تکنیکهای فشردهسازی گرادیان و همگرایی تجمعی برای کاهش ترافیک شبکه در آموزش توزیعشده.
- استفاده از دادههای سنتز شده: تولید دادههای آموزشی کمهزینه و کنترلشده برای کاهش نیاز به مجموعههای دادهٔ حجیم و گرانقیمت.
- تجزیه و تحلیل هزینه-فایده آموزش: مدلسازی دقیق هزینهٔ آموزش در مقیاسهای مختلف تا تصمیمگیری استراتژیک در انتخاب معماری و اندازهٔ مدل ممکن شود.
چشمانداز و نتیجهگیری
در پایان، سؤال عملی و فلسفی که این بحث مطرح میکند روشن است: آیا شکست بعدی بزرگ در هوش مصنوعی با سرمایهگذاری عظیم در دیتاسنترها و ناوگان شتابدهندهها بهدست خواهد آمد، یا یک الگوریتم هوشمندتر که روی بودجهٔ کوچکتر اجرا میشود؟ پاسخ احتمالاً ترکیبی از هر دو است و بستگی به هدفِ نهایی دارد: اگر هدف رسیدن به بالاترین سطح خامِ قابلیت است، مقیاس و سرمایهٔ عظیم ضروری بهنظر میرسد. اگر هدف توسعهٔ کاربردهای مقرونبهصرفه، دسترسپذیر و سازگار با محیطزیست است، نوآوری الگوریتمی و بهبود مهندسی راهحل خواهد بود.
با این حال، از منظر سیاستگذاری و جامعهٔ علمی، متوازنسازی سرمایهگذاری بین سختافزار و نرمافزار اهمیت دارد: ترویج تحقیق در کارایی محاسباتی، استانداردسازی ابزارهای متنباز و تأمین زیرساختهای محاسباتی مشترک میتواند هم دسترسی را افزایش دهد و هم اثرات زیستمحیطی را کاهش دهد. در نهایت، این انتخابها هستند که تعیین میکنند چه سازمانهایی رهبر موج بعدی نوآوری خواهند بود.
پس از خود بپرسید: آیا پیشرفت بعدی را بزرگترین مرکز داده خواهد برد، یا الگوریتمی هوشمندتر که با بودجهای محدود اجرا میشود؟
منبع: smarti
ارسال نظر