10 دقیقه
گوگل در حال توسعه یک قابلیت جدید «علامتگذاری» برای Gemini است که به کاربران اجازه میدهد مستقیماً روی تصاویر تولیدشده طراحی کنند یا متن اضافه کنند و سپس همان تصویر حاشیهنویسیشده را برای بازنگریهای سریع دوباره ارسال کنند. هدف این تغییر، دادن کنترل مستقیمتر به کاربران روی خروجیهای هوش مصنوعی و تسریع ویرایشهای کوچک بدون نیاز به نوشتن مجدد پرامپتهای طولانی است. این ویژگی میتواند تجربه کار با تصاویر تولیدشده توسط مدلهای مولد را به شکلی ملموستر و تعاملیتر کند؛ بهویژه در فرآیندهای طراحی، بازبینی تصویری و تولید محتوای بصری که نیاز به اصلاحات سریع و دقیق دارند.
Draw, type, tweak: A more hands-on way to edit AI images
تصاویر و گزارشهای فاششده نشان میدهد که رابط کاربری علامتگذاری Gemini شامل یک پالت رنگ افقی و دو ابزار اصلی است: یک قلم موجدار برای طراحی آزاد و یک آیکون «T» برای درج متن. بهجای ویرایش پرامپت و تولید مجدد کل تصویر، کاربران میتوانند خروجی را حاشیهنویسی کنند — روی یک ناحیه رنگ بریزند، یادداشت بنویسند، یا با دقت مشخص کنند چه چیزی باید تغییر کند — و سپس آن فایل حاشیهنویسیشده را به Gemini برگردانند تا مدل تغییرات را اعمال کند. این رویکرد شبیه به کار طراحان در جلسات بازبینی است، جایی که با کشیدن پیکان، دایره کردن المانها یا نوشتن توضیحات کوتاه کنترل دقیقتری روی اصلاحات وجود دارد.
در عمل، پالت رنگی افقی به کاربران اجازه میدهد رنگهایی با کنتراست مناسب برای نشانهگذاری انتخاب کنند و ابزار قلم آزاد برای مشخص کردن دقیق محلها یا شکلهایی که نیاز به تغییر دارند کاربردی است. آیکون متن (T) نیز برای اضافهکردن دستورالعملهای کوتاه، برچسبها یا توصیفاتی که مدل باید آنها را اجرا کند، در نظر گرفته شده است. این روش بهخصوص برای ویرایش ویژگیهای کوچک اما مهم مانند نسبت اندازه لوگو، جهتگیری نور، یا اصلاح جزئیات چهره بسیار کارآمد است؛ چرا که کاربر میتواند بدون بازنویسی پرامپت و با کمترین اصطکاک، خواستهاش را نشان دهد.
How the resubmission workflow speeds things up
شرکای آزمایشی اولیه یک چرخه ساده را توصیف میکنند: تصویر تولیدشده را دانلود کنید، روی آن طرحها یا دستورالعملهای متنی اضافه کنید، سپس فایل حاشیهنویسیشده را آپلود یا دوباره ارسال کنید تا مدل بتواند تغییرات را تفسیر و اعمال کند. این بدان معناست که اصلاحات کوچک — مانند جابجا کردن یک شی، تغییر یک رنگ یا اصلاح جزئیات صورت — میتوانند مستقیماً روی تصویر انجام شوند، بدون نیاز به بازسازی یک پرامپت طولانی یا شروع از صفر.
از منظر فنی، این گردش کاری ممکن است شامل متادیتا یا لایههای مشخصی باشد که مدل آنها را بهعنوان دستورالعمل مستقیم در پردازش بعدی تفسیر میکند. بسته به معماری پیادهسازی، سیستم میتواند نسبت به نواحی حاشیهنویسیشده حساسیت بیشتری نشان دهد و اولویت اصلاح را به همان نقاط تخصیص دهد. این رویکرد زمان تاخیر بین درخواست کاربر و دریافت نتیجه نهایی را کاهش میدهد و میزان تکرارهای دستی و اصلاحی را کمتر میکند؛ همچنین بهبود بهرهوری در تیمهای طراحی و بازاریابی را تسهیل میکند.
برای مثال، اگر یک کاربر بخواهد روشنایی یک محدوده مشخص را افزایش دهد، با علامتگذاری آن ناحیه و نوشتن «روشنتر» روی تصویر، مدل میتواند همان منطقه را با اولویت تغییر دهد. به همین ترتیب، اضافهکردن پیکان برای جابجایی المانها یا نوشتن «حذف شود» روی شی خاصی، رفتار متفاوتی را از مدل میطلبد که معمولاً با پردازش مستقیم تصاویر و تمرکز بر روی پیکسلهای انتخابشده محقق میشود. این روش همچنین برای کار با فرمتهای تصویری متداول مانند PNG یا JPEG و برای حفظ کیفیت تصویر در حین اعمال تنظیمات طراحی شده است.
Why this matters for creators and teams
تصور کنید که در حال تکرار یک طرح بصری برای کمپین بازاریابی یا طراحی نمونه محصول هستید. بهجای نوشتن جملهای طولانی مانند «لوگو را کوچکتر کن و به چپ منتقل کن»، میتوانید سریعاً یک پیکان بکشید، دور لوگو دایره بکشید یا کلمه «کوچکتر» را دقیقاً روی تصویر بنویسید. این کار سریعتر، کمتر مبهم و بسیار شبیه به نحوهای است که طراحان در بازبینیهای تیمی معمولاً داراییها (assets) را علامتگذاری میکنند.
برای تیمها، قابلیت علامتگذاری و بازارسال تصویر میتواند چندین مزیت عملی داشته باشد: کاهش زمان چرخههای بازخورد، شفافیت بیشتر در مقاصد طراحی، و امکان مشارکت افراد غیرتخصصی در فرایند اصلاح تصویر. بهویژه در محیطهای همکاری بین تیمی — مانند بازاریابی، محصول و طراحی — این ابزار میتواند مانع سوءتفاهمهای متداول شود و روند دریافت نتایج مورد انتظار را سادهتر کند.
از منظر تولید محتوا و سئو نیز، امکان اجرای اصلاحات سریع روی تصاویر میتواند چرخه انتشار محتوا را بهسرعت کوتاه کند؛ بهخصوص زمانی که تصاویر برای صفحات فرود، تبلیغات یا پستهای شبکههای اجتماعی نیازمند تغییرات جزئی اما حیاتی هستند. بهاینترتیب، تیمهای تولید محتوا میتوانند بدون اتلاف وقت روی بازنویسی متن یا توضیحات پیچیده، تصاویر را به سرعت مطابق با نیازهای برند یا کمپین بهروز کنند.

- تکرارهای سریعتر: نیاز کمتر به بازنویسی پرامپت و بازخورد تصویری سریعتر.
- قصد روشنتر: نشانههای بصری موجب کاهش سوءتفسیر در مقایسه با دستورالعملهای متنی صرف میشوند.
- ویرایشهای در دسترستر: کاربران غیرتخصصی هم میتوانند با طراحیهای ساده یا یادداشتها، مدل را هدایت کنند.
Built on Gemini’s expanding image toolkit
گوگل پیشتر ویرایش تصویر دروناپ را در Gemini در اوایل سال جاری عرضه کرده بود. این ابزار از عکسهای کاربران و همچنین تصاویر تولیدشده توسط هوش مصنوعی پشتیبانی میکند و امکاناتی مانند تغییر پسزمینه، اضافه یا حذف کردن اشیاء و ترکیب چند تصویر را فراهم میآورد. قابلیت علامتگذاری این توانمندی را گسترش میدهد؛ زیرا خروجی تولیدشده خود بهعنوان ورودی قابل ویرایش برای گذرهای بعدی در نظر گرفته میشود. به عبارت دیگر، تصویر نهایی قبلی میتواند بهعنوان یک لایه پایه گرفته شود و تغییرات موضعی یا کلی بر اساس حاشیهنویسیها اعمال شود.
این رویکرد لایهای میتواند با ابزارهای موجود ادغام شود تا امکاناتی مانند بازگشت به نسخههای قبلی، مقایسه نسخهها و ثبت تاریخچه اصلاحات فراهم شود. همچنین برای سناریوهای حرفهای، پیادهسازی APIها یا قابلیت همکاری در زمان واقعی میتواند امکان اشتراکگذاری فایلهای حاشیهنویسیشده بین اعضای تیم را سادهتر کند. از منظر حریم خصوصی و امنیت، گوگل احتمالاً کنترلهایی برای محدودکردن دسترسی و نگهداری لاگ تغییرات فراهم خواهد کرد تا مطابق با نیازهای سازمانی و سیاستهای داده باقی بماند.
علاوه بر این، امکان استفاده از مدلهای مختلف تصویرسازی در پشتصحنه، از جمله مدلهایی که برای وضوح متن در تصویر یا حفظ جزئیات ظریف بهتر بهینه شدهاند، میتواند کیفیت خروجیهای بازنگریشده را افزایش دهد. ترکیب این ابزارها با جریان کاری علامتگذاری، تجربهای یکپارچه برای تولید، بازبینی و انتشار تصاویر فراهم میکند که برای تیمهای رسانهای، آژانسهای تبلیغاتی و سازندگان محتوا ارزش افزوده قابلتوجهی دارد.
Nano Banana Pro: sharper images, clearer text
قابلیتهای بصری Gemini با مدل Nano Banana Pro نیز تقویت شدهاند. گوگل اعلام کرده است که این واریانت محتوای غنیتری با جزئیات بهتر و قابلیت خوانایی بالاتر فونتها و متن درون تصاویر تولید میکند. وقتی این مدل با قابلیت علامتگذاری ترکیب شود، احتمال دارد نتیجهی اصلاحات سریعتر و تمیزتری باشد که در آن هم دستورالعملهای ترسیمی و هم متنهای روی تصویر بهصورت قابلاطمینانتری تفسیر میشوند. به بیان دیگر، خوانایی نوشتهها، دقت در حفظ هندسه عناصر و کیفیت پیکسل پس از اعمال تغییرات بهتر شده و خطاهای مربوط به تداخل متن یا محو شدن جزئیات کاهش مییابد.
در عمل، Nano Banana Pro میتواند برای سناریوهایی که وضوح متن در تصویر حیاتی است — مانند طراحی بنرهای تبلیغاتی، تصاویر آموزشی و نمونههای محصول — مزیت قابلتوجهی ارائه دهد. بهویژه هنگامی که کاربران متن را مستقیماً روی تصویر اضافه میکنند تا مدل بداند چه عملیاتی باید انجام شود، وضوح بالاتر متن و درک بهتر تایپوگرافی به کاهش خطا و افزایش دقت کمک میکند. از نظر فنی، این بهبودها میتواند ناشی از تغییرات در معماری شبکه، دادههای آموزشی با کیفیتتر یا تکنیکهای جدید رندرینگ مبتنی بر مدل باشد.
برای طراحان، تیمهای محصول و سازندگان محتوای غیرحرفهای، علامتگذاری تصویری میتواند نحوه تعامل با هوش مصنوعی مولد را تغییر دهد: اتکا کمتر به پرامپتهای طولانی و توصیفی، و کنترل مستقیمتر و لمسیتر روی نتیجه نهایی. در نتیجه، جریان کار تولید تصویر به شکلی طبیعیتر به همکاری انسان و هوش مصنوعی نزدیک میشود و تحویل نتایج مورد انتظار با سرعت و دقت بیشتری انجام میگیرد. بهتر است در محیطهای سازمانی و تیمی سناریوهای استفاده، قواعد برندینگ و سیاستهای دسترسی تعریف شوند تا ویرایشهای سریع همواره با کیفیت و همراستا با هویت بصری سازمان باشند.
در نهایت، این حرکت نشان میدهد گوگل به سمت تسهیل عبور نرم بین نیت انسانی و اصلاحات خودکار هوش مصنوعی گرایش دارد؛ یعنی مسیری که در آن ابزارها بهجای تحمیل فرایندهای پیچیده، به کاربران امکان میدهند با همان زبان تصویری که در کارهای روزمره طراحی استفاده میکنند، با مدلهای مولد تعامل داشته باشند. نظارت بر تحولات آینده، نحوه ادغام APIها، قابلیت همکاری تیمی و مسائل مرتبط با حقوق مولف و مالکیت محتوای تولیدشده، برای کسبوکارها و سازندگان محتوا اهمیت زیادی خواهد داشت.
منبع: smarti
ارسال نظر