جمینای اومنی گوگل: راهی جدید برای تولید ویدئو با هوش مصنوعی

جمینای اومنی گوگل: راهی جدید برای تولید ویدئو با هوش مصنوعی

نظرات

6 دقیقه

گوگل پیشنهادی جدید برای آینده ساخت ویدئو دارد، و این پیشنهاد دیگر یک جدول زمانی پر از لایه‌ها، کی‌فریم‌ها و ابزارهای ریز دست‌وپاگیر نیست. این پیشنهاد یک گفتگو است. در کنفرانس گوگل آی‌او ۲۰۲۶، شرکت جمینای اومنی را معرفی کرد، یک سیستم هوش مصنوعی جدید که برای تبدیل تقریباً هر ورودی به ویدئو ساخته شده، چه نقطه شروع یک فرمان متنی، یک تصویر ثابت، یک قطعه صوتی یا یک فایل ویدئویی موجود باشد.

نسخه اول که جمینای اومنی فلش نامیده شده، دقیقاً برای تولید ویدئوی سریع و منعطف هدف‌گذاری شده است. گوگل آن را در اپ جمینای، گوگل فلو، شورت‌های یوتیوب و یوتیوب کرییت عرضه می‌کند و دسترسی گسترده‌تر برای توسعه‌دهندگان و کاربران سازمانی قرار است بعداً فراهم شود. همین موضوع راه‌اندازی را قابل توجه می‌کند. این محصول به‌عنوان یک آزمایش فرعی معرفی نشده است. گوگل آن را داخل محصولاتی که مردم بالفعل از آن‌ها استفاده می‌کنند قرار می‌دهد.

آنچه جمینای اومنی را فراتر از یک تولیدکننده ویدئوی معمولی می‌کند، روش کار با آن است. شرکت این ابزار را کمتر شبیه یک نرم‌افزار و بیشتر شبیه یک همکار خلاق معرفی می‌کند. به جای ویرایش دستی صحنه‌ها، کاربران می‌توانند با زبان ساده درخواست تغییر دهند و نتیجه را مرحله‌به‌مرحله پالایش کنند. در چشم‌انداز گوگل، اصطکاک معمول تولید ویدئو کم‌کم به پس‌زمینه می‌رود.

ویرایش با صحبت کردن، نه کلیک

اینجا جایی است که این اعلامیه جالب می‌شود. گوگل می‌گوید جمینای اومنی طوری طراحی شده که هنگام بازنگری یک پروژه با فرمان‌های زبان طبیعی، تداوم را حفظ کند. این به این معنی است که شخصیت‌ها باید از نظر بصری ثابت بمانند، صحنه‌ها بین ویرایش‌ها از هم نپاشند و حرکت باید باورپذیر باقی بماند، نه اینکه هر بار که فرمان تغییر می‌کند به شکلی عجیب یا ناقص دوباره آغاز شود.

این یک مسئله آشنا در رسانه‌های تولیدشده توسط هوش مصنوعی است. ابزارهای زیادی می‌توانند در بار اول یک کلیپ چشمگیر تولید کنند، اما به محض اینکه کاربر خواستار بازنگری شود، همه چیز ممکن است از هم بپاشد. گوگل آشکارا تلاش می‌کند آن ضعف را حل کند. شرکت می‌گوید جمینای اومنی درک قوی‌تری از نحوه حرکت اشیاء در دنیای واقعی دارد، از جمله حرکت، گرانش و تعامل فیزیکی. در عمل، این می‌تواند به جزئیاتی مانند موج‌دار شدن آینه مانند مایع هنگام لمس یا رفتار یک مجسمه مانند حباب‌ها منجر شود، بدون اینکه کل صحنه انسجام خود را از دست بدهد.

این مهم است چون رقابت واقعی در ویدئوی هوش مصنوعی دیگر صرفاً درباره توانایی خام نیست. مسئله قابلیت استفاده است. چه کسی می‌تواند این ابزارها را طوری طراحی کند که سازندگان عادی، بازاریابان، کسب‌وکارهای کوچک و کاربران معمولی واقعاً بخواهند دوباره از آن‌ها استفاده کنند؟ پاسخ گوگل، دست‌کم فعلاً، ساده است: بگذارید مردم ویدئو را همان‌طور هدایت کنند که صحبت می‌کنند.

جمینای اومنی از ناکجا ظاهر نشده است. این ابزار بر کارهای قبلی گوگل در حوزه تصویرسازی تولیدی هوش مصنوعی بنا شده، به‌ویژه پیشرفت‌های تصویری معرفی‌شده با نانو بانانا در ۲۰۲۵. آن مدل جعبه‌ابزار بصری جمینای را گسترش داد و کاربردهای عملی پیدا کرد، از بازسازی عکس‌های خانوادگی قدیمی تا تبدیل طرح‌های خام به مفاهیم صیقل‌یافته. جمینای اومنی همان منطق خلاقانه را گرفته و آن را به تصاویر متحرک تعمیم می‌دهد.

و گوگل هم در ویدئو متوقف نمی‌شود. شرکت می‌گوید نسخه‌های آینده جمینای اومنی از پروژه‌های پیچیده‌تری پشتیبانی خواهند کرد که عکس‌ها، فرمان‌های نوشتاری، موسیقی و فیلم مرجع را در یک جریان کاری واحد ترکیب می‌کنند. اگر آن نقشه راه محقق شود، این ابزار می‌تواند از یک تولیدکننده ویدئو به یک استودیوی جامع رسانه‌ای مبتنی بر هوش مصنوعی تبدیل شود.

مسئله اعتماد از بین نمی‌رود

با وجود همه وعده‌های خلاقانه، گوگل همچنین وارد همان قلمروی ناخوشایندی می‌شود که هر شرکت بزرگ هوش مصنوعی با آن روبه‌روست: مسئله اعتماد. هرچه رسانه‌های مصنوعی قانع‌کننده‌تر شوند، نادیده گرفتن ریسک‌ها دشوارتر می‌شود. گوگل می‌گوید ویدئوهای تولیدشده با جمینای اومنی شامل واترمارک سینث‌آی‌دی خواهند بود، سیستم آن‌ها برای برچسب‌گذاری محتوای تولیدشده توسط هوش مصنوعی. شرکت همچنین قصد دارد ابزارهای اعتبارسنجی را در سراسر جمینای، کروم و جستجو گسترش دهد به‌عنوان بخشی از تلاش گسترده‌تر برای شفافیت.

در بخش‌های دیگر هم احتیاط وجود دارد. کاربران اولیه قادر خواهند بود آواتارهای ویدیویی براساس خودشان بسازند، از جمله با صدای خودشان، اما امکانات پیشرفته‌تر تغییر صدا هنوز در حال ارزیابی است. آن تردید حرف‌های زیادی برای گفتن دارد. ممکن است فناوری با سرعت پیش برود، ولی پرسش‌های اجتماعی و ایمنی نیز همگام با آن حرکت می‌کنند.

پس بله، جمینای اومنی مربوط به خلاقیت است. این ابزار همچنین درباره کنترل، اصالت و اینکه آیا ویدئوی تولیدشده توسط هوش مصنوعی می‌تواند مفید باشد بدون اینکه آزاردهنده یا نگران‌کننده شود هم هست. گوگل به نظر می‌رسد درمی‌یابد که ساختن یک مدل قدرتمند تنها نیمی از مسیر است. جلب اعتماد مردم نسبت به آنچه مدل تولید می‌کند و اعتماد به نحوه استفاده از آن، نیمه دشوارتر کار است.

با این حال، جهت‌گیری مشخص است. گوگل می‌خواهد ساخت ویدئو کمتر شبیه کار با نرم‌افزار و بیشتر شبیه شکل دادن به یک ایده در زمان واقعی باشد. اگر جمینای اومنی حتی بخشی از آن وعده را محقق کند، ابزارهای ویرایشی سنتی ممکن است یک‌شبه ناپدید نشوند، اما کم‌کم کمتر اجتناب‌ناپذیر به نظر خواهند رسید.

ارسال نظر

نظرات

مطالب مرتبط