7 دقیقه
گوگل در کنفرانس گوگل آی/او ۲۰۲۶ تعداد زیادی اعلامیه جذاب درباره هوش مصنوعی منتشر کرد، از بهروزرسانیهای جدید جِمینی ۳.۵ فلش تا ابزارهای چشمگیر ساخت ویدیو اومنی. با این حال، یک نسخه ممکن است در استفاده روزمره بیشتر از هر دموی درخشان دیگری اهمیت پیدا کند. جِمینی ۳.۵ فلش طوری طراحی شده که با درخواستهای آشفته، متناقض و کاملاً انسانی که مردم واقعاً مینویسند، بهتر کنار بیاید.
این در نهایت آزمون واقعی است. نه بنچمارکهای صحنهسازیشده. نه ویدیوهای راهاندازی آرایششده. آیا یک مدل هوش مصنوعی میتواند همزمان یک گزارش فنی فشرده، یک برنامه سفر، یک آموزش کاردستی عملی، یک اتاق بههمریخته و یک شوخی که هم ساختار و هم طنز میطلبد، مدیریت کند؟
برای پاسخ، پنج درخواست بسیار متفاوت جِمینی ۳.۵ فلش را محک زدند. بعضی پرسشها عملی بودند. یکی بهطرز باشکوهی نامعقول بود. در کنار هم، این نمونهها نمای روشنی از دلیل معرفی این مدل بهعنوان توانمندترین نسخه فلش تا امروز ارائه دادند، بهویژه در کدنویسی، استدلال چندحسی، مدیریت متن طولانی و برنامهریزی وظایف.
وقتی درخواست آشفته میشود، جِمینی احساس راحتی نشان میدهد
اولین چالش چند مهارت را همزمان به آزمون گذاشت. یک سند جامع هوافضا دربارهٔ زبالههای مداری تبدیل به ماده خام برای یک شبیهساز تعاملی شد که نشان میداد ترافیک مداری چگونه میتواند با گذشت زمان رشد کند و این موضوع چه معنایی برای خطر برخورد در فضا دارد.
این فقط یک خلاصه ساده نبود. مدل باید یک گزارش فشرده را میخواند، سیگنالهای درست را استخراج میکرد، کد کاربردی تولید مینمود و نتیجه را بهگونهای شکل میداد که برای عموم قابلفهم باشد. جِمینی ۳.۵ فلش فراتر از صرف تولید خروجی عمل کرد. شبیهساز را حول علت و معلول چارچوببندی کرد و تجربه را بیشتر شبیه یک توضیحدهندهٔ راهنما تا یک صفحهگستردهٔ بصری کرد.
آنچه بیش از همه برجسته بود، منطق پشت طراحی بود. بهجای نمایش صرف نمودارهای فنی، مدل بر نحوهٔ رفتار پرتاب و انتخابهای کاهش خطر که میتوانند نتایج بلندمدت را تغییر دهند تاکید کرد. آن نوع قضاوت تحریری اهمیت دارد. نشان میدهد گوگل در تلاش است فلش را سریعتر کند بدون آنکه سطحی باشد.

آزمون دوم ملموستر بود: یک سفر جادهای چهار روزه در دره هادسون و کتاسکیلز با مسیرهای پیادهروی، توقفهای غذاهای محلی، مسیرهای دیدنی و برنامههای پشتیبان برای روزهای بارانی. برنامهریزی سفر همان جایی است که بسیاری از سیستمهای هوش مصنوعی شروع به لغزش میکنند. آنها ممکن است با اطمینان صحبت کنند در حالی که مسیرهای غیرعملی، پیشنهادهای ناهماهنگ یا زمانبندیهای کاملاً غیرواقعی را به هم میدوزند.
جِمینی ۳.۵ فلش نظم غیرمعمولی از خود نشان داد. برنامهریزی بهطریق طبیعی جریان داشت. توقفها از نظر جغرافیایی منطقی بودند. سرعتبندی طوری نبود که انگار کسی بین مسیرهای کوهستانی و نانواییها تلپورت شده است. حتی بهتر، گزینههای جایگزین برای روزهای بارانی حالوهوا و فضای اصلی برنامه را حفظ کردند بهجای اینکه یک بعد ازظهر مناظر را با چیزی تصادفی و بیروح جایگزین سازند. این ممکن است جزئی بهنظر برسد، اما دقیقاً همان چیزهایی است که یک دستیار هوش مصنوعی را دلسوز بهنظر میرساند نه صرفاً کارآمد.
سپس نوبت صحافی کتاب رسید. راهنمای گامبهگام دقیق برای صحافی جلد سخت یک دفترچه سفارشی در خانه ممکن است بهنظر جزئی بیاید، اما این نوع پرسشهای روش اجرایی بهشدت برای آشکارسازی ضعفهای استدلال مؤثرند. اگر دستورالعملها خیلی مبهم باشند، یک مبتدی گم میشود. اگر خیلی فنی باشند، همهچیز زیر بار اصطلاحات و بخار چسب فرو میپاشد.
در اینجا، جِمینی میانهٔ هوشمندانهای یافت. روند را روشن تشریح کرد، اقدامات ضروری را از اصلاحات اختیاری جدا نمود و انتظارات واقعبینانه را بدون تحقیر کاربر تعیین کرد. این از آنچه بهنظر میرسد سختتر است. نگارش آموزشی خوب به زمانبندی، ترتیب مراحل و دانستن نقاطی بستگی دارد که احتمالاً کاربران در آن شکست میخورند. جِمینی ۳.۵ فلش آن نقاط فشار را با بلوغی غافلگیرکننده مدیریت کرد.

عجیبترین درخواست ممکن است آگاهکنندهترین بود
بعد از آن، استدلال بصری مورد ارزیابی قرار گرفت. کار: تحلیل یک عکس از اتاقی بههمریخته و طراحی یک استراتژی پاکسازی ۲۵ دقیقهای که با کمترین تلاش ممکن فضای اتاق را بهطور چشمگیر بهبود دهد. در این نقطه، سیستمهای قدیمی اغلب در همان دام انسانها میافتند. آنها هر آشفتگی را بهطور یکسان مهم میپندارند.
جِمینی اینگونه عمل نکرد. او روی آشغالهای دیدنی، تاثیر فوری و حفظ تکانه تمرکز کرد. به زبان ساده، تریاژ را فهمید. این مفید است. بهرهوری در دنیای واقعی بهندرت دربارهٔ کمال است. دربارهٔ دانستن اینکه چه چیزی را نادیده بگیریم تا پیشرفت سریع و مؤثر اتفاق بیفتد، است.
و سپس، بله، پنگوئنها.
برای پرسش نهایی، از جِمینی ۳.۵ فلش خواسته شد یک هماتاقی احتمالی را بررسی کند که ادعا میکرد یک آدم معمولی است اما بهنظر میرسید سه پنگوئن زیر یک شنل طولانی پنهان شدهاند. مضحک؟ بدیهی است. اما همزمان یک تست زیرکانه برای سنجش استدلال موازی بود.
بهجای پاسخدادن در قالب یک مونولوگ طنزآمیز طولانی، مدل تحقیق جعلی را به چندشاخهٔ تحلیل تقسیم کرد. یک شاخه الگوهای حرکت را بررسی کرد. شاخهٔ دیگر به دنبال سرنخهای محیطی بود. سومی سازگاری اجتماعی را چک کرد. هر رشته بهطور مستقل گسترش یافت و سپس به ارزیابی کلی منتقل شد. این ساختار بخش جالب ماجراست. شوخی جواب داد چون استدلالهای زیرین آن منسجم بودند.

به عبارت دیگر، جِمینی ۳.۵ فلش صرفاً همراهی نکرد. فرضیهٔ نامعقول را بهصورت یک بررسی هماهنگ سازماندهی کرد و نشان داد چگونه رسیدگی موازی به وظایف میتواند درخواستهای پیچیده را پاکتر، سریعتر و قابلفهمتر سازد.
در هر پنج آزمون یک الگو مکرر ظاهر شد. جِمینی ۳.۵ فلش روی موضوع متمرکز ماند. لحن و روش خود را بسته به آنچه خواسته شده بود تنظیم کرد، اما موضوع اصلی را از دست نداد. شاید این ساده بهنظر برسد، اما دقیقاً همان نقطهای است که بسیاری از مدلهای سریعتر تاریخی با آن مشکل داشتند. سرعت آسان برای بازاریابی است. همزمان حرکت کردن در حالی که جهتگیری را حفظ میکنی، ترفند سختتر است.
این ممکن است داستان بزرگتر پشت این عرضه باشد. جِمینی ۳.۵ فلش تنها تلاش نمیکند نسبت به نسخههای قبلی سریعتر باشد. تلاش میکند آرامتر بهنظر برسد. تطبیقپذیرتر باشد. مفیدتر وقتی درخواستها طولانی، لایهای، تصویری، فنی یا کمی نامتعارفاند.
این که آیا این موضوع به ارزش روزمره تبدیل میشود به میزان اعتمادی بستگی دارد که کاربران حاضرند به اکوسیستم گوگل بسپارند، خصوصاً وقتی بهترین نتایج اغلب نیازمند دسترسی به زمینهٔ شخصی و دادهها هستند. اما از منظر خالص توانمندی، جِمینی ۳.۵ فلش بهنظر گامی جدی به جلو میآید. نه بهخاطر اینکه در یک برگه بنچمارک نمرهٔ کامل گرفته، بلکه چون آشفتگی را طوری مدیریت کرد که گویی با مردم واقعی پیشتر روبهرو شده است.
ارسال نظر