6 دقیقه
گوگل پیشنهادی جدید برای آینده ساخت ویدئو دارد، و این پیشنهاد دیگر یک جدول زمانی پر از لایهها، کیفریمها و ابزارهای ریز دستوپاگیر نیست. این پیشنهاد یک گفتگو است. در کنفرانس گوگل آیاو ۲۰۲۶، شرکت جمینای اومنی را معرفی کرد، یک سیستم هوش مصنوعی جدید که برای تبدیل تقریباً هر ورودی به ویدئو ساخته شده، چه نقطه شروع یک فرمان متنی، یک تصویر ثابت، یک قطعه صوتی یا یک فایل ویدئویی موجود باشد.
نسخه اول که جمینای اومنی فلش نامیده شده، دقیقاً برای تولید ویدئوی سریع و منعطف هدفگذاری شده است. گوگل آن را در اپ جمینای، گوگل فلو، شورتهای یوتیوب و یوتیوب کرییت عرضه میکند و دسترسی گستردهتر برای توسعهدهندگان و کاربران سازمانی قرار است بعداً فراهم شود. همین موضوع راهاندازی را قابل توجه میکند. این محصول بهعنوان یک آزمایش فرعی معرفی نشده است. گوگل آن را داخل محصولاتی که مردم بالفعل از آنها استفاده میکنند قرار میدهد.
آنچه جمینای اومنی را فراتر از یک تولیدکننده ویدئوی معمولی میکند، روش کار با آن است. شرکت این ابزار را کمتر شبیه یک نرمافزار و بیشتر شبیه یک همکار خلاق معرفی میکند. به جای ویرایش دستی صحنهها، کاربران میتوانند با زبان ساده درخواست تغییر دهند و نتیجه را مرحلهبهمرحله پالایش کنند. در چشمانداز گوگل، اصطکاک معمول تولید ویدئو کمکم به پسزمینه میرود.
ویرایش با صحبت کردن، نه کلیک
اینجا جایی است که این اعلامیه جالب میشود. گوگل میگوید جمینای اومنی طوری طراحی شده که هنگام بازنگری یک پروژه با فرمانهای زبان طبیعی، تداوم را حفظ کند. این به این معنی است که شخصیتها باید از نظر بصری ثابت بمانند، صحنهها بین ویرایشها از هم نپاشند و حرکت باید باورپذیر باقی بماند، نه اینکه هر بار که فرمان تغییر میکند به شکلی عجیب یا ناقص دوباره آغاز شود.
این یک مسئله آشنا در رسانههای تولیدشده توسط هوش مصنوعی است. ابزارهای زیادی میتوانند در بار اول یک کلیپ چشمگیر تولید کنند، اما به محض اینکه کاربر خواستار بازنگری شود، همه چیز ممکن است از هم بپاشد. گوگل آشکارا تلاش میکند آن ضعف را حل کند. شرکت میگوید جمینای اومنی درک قویتری از نحوه حرکت اشیاء در دنیای واقعی دارد، از جمله حرکت، گرانش و تعامل فیزیکی. در عمل، این میتواند به جزئیاتی مانند موجدار شدن آینه مانند مایع هنگام لمس یا رفتار یک مجسمه مانند حبابها منجر شود، بدون اینکه کل صحنه انسجام خود را از دست بدهد.
این مهم است چون رقابت واقعی در ویدئوی هوش مصنوعی دیگر صرفاً درباره توانایی خام نیست. مسئله قابلیت استفاده است. چه کسی میتواند این ابزارها را طوری طراحی کند که سازندگان عادی، بازاریابان، کسبوکارهای کوچک و کاربران معمولی واقعاً بخواهند دوباره از آنها استفاده کنند؟ پاسخ گوگل، دستکم فعلاً، ساده است: بگذارید مردم ویدئو را همانطور هدایت کنند که صحبت میکنند.
جمینای اومنی از ناکجا ظاهر نشده است. این ابزار بر کارهای قبلی گوگل در حوزه تصویرسازی تولیدی هوش مصنوعی بنا شده، بهویژه پیشرفتهای تصویری معرفیشده با نانو بانانا در ۲۰۲۵. آن مدل جعبهابزار بصری جمینای را گسترش داد و کاربردهای عملی پیدا کرد، از بازسازی عکسهای خانوادگی قدیمی تا تبدیل طرحهای خام به مفاهیم صیقلیافته. جمینای اومنی همان منطق خلاقانه را گرفته و آن را به تصاویر متحرک تعمیم میدهد.
و گوگل هم در ویدئو متوقف نمیشود. شرکت میگوید نسخههای آینده جمینای اومنی از پروژههای پیچیدهتری پشتیبانی خواهند کرد که عکسها، فرمانهای نوشتاری، موسیقی و فیلم مرجع را در یک جریان کاری واحد ترکیب میکنند. اگر آن نقشه راه محقق شود، این ابزار میتواند از یک تولیدکننده ویدئو به یک استودیوی جامع رسانهای مبتنی بر هوش مصنوعی تبدیل شود.
مسئله اعتماد از بین نمیرود
با وجود همه وعدههای خلاقانه، گوگل همچنین وارد همان قلمروی ناخوشایندی میشود که هر شرکت بزرگ هوش مصنوعی با آن روبهروست: مسئله اعتماد. هرچه رسانههای مصنوعی قانعکنندهتر شوند، نادیده گرفتن ریسکها دشوارتر میشود. گوگل میگوید ویدئوهای تولیدشده با جمینای اومنی شامل واترمارک سینثآیدی خواهند بود، سیستم آنها برای برچسبگذاری محتوای تولیدشده توسط هوش مصنوعی. شرکت همچنین قصد دارد ابزارهای اعتبارسنجی را در سراسر جمینای، کروم و جستجو گسترش دهد بهعنوان بخشی از تلاش گستردهتر برای شفافیت.
در بخشهای دیگر هم احتیاط وجود دارد. کاربران اولیه قادر خواهند بود آواتارهای ویدیویی براساس خودشان بسازند، از جمله با صدای خودشان، اما امکانات پیشرفتهتر تغییر صدا هنوز در حال ارزیابی است. آن تردید حرفهای زیادی برای گفتن دارد. ممکن است فناوری با سرعت پیش برود، ولی پرسشهای اجتماعی و ایمنی نیز همگام با آن حرکت میکنند.
پس بله، جمینای اومنی مربوط به خلاقیت است. این ابزار همچنین درباره کنترل، اصالت و اینکه آیا ویدئوی تولیدشده توسط هوش مصنوعی میتواند مفید باشد بدون اینکه آزاردهنده یا نگرانکننده شود هم هست. گوگل به نظر میرسد درمییابد که ساختن یک مدل قدرتمند تنها نیمی از مسیر است. جلب اعتماد مردم نسبت به آنچه مدل تولید میکند و اعتماد به نحوه استفاده از آن، نیمه دشوارتر کار است.
با این حال، جهتگیری مشخص است. گوگل میخواهد ساخت ویدئو کمتر شبیه کار با نرمافزار و بیشتر شبیه شکل دادن به یک ایده در زمان واقعی باشد. اگر جمینای اومنی حتی بخشی از آن وعده را محقق کند، ابزارهای ویرایشی سنتی ممکن است یکشبه ناپدید نشوند، اما کمکم کمتر اجتنابناپذیر به نظر خواهند رسید.
ارسال نظر