8 دقیقه
گوگل بهتازگی یک بهروزرسانی مهم برای سیستم هوش مصنوعی خود، جِمینی (Gemini)، منتشر کرده است که بهبودهای قابل توجهی در نحوهٔ مدیریت گفتوگوهای صوتی دوطرفه و طبیعی ایجاد میکند. این ارتقاء که تحت نام تجاری Gemini 2.5 Flash Native Audio عرضه شده، روی افزایش قابلاعتماد بودن، روانتر شدن دیالوگها و رفتارهای نزدیکتر به تعامل انسانی تمرکز دارد تا عاملهای صوتی (voice agents) در پلتفرمهای مختلف گوگل تجربهای بهتر و کاربرپسندتر ارائه دهند. این بهروزرسانی برای توسعهدهندگان و کاربران نهایی اهمیت دارد، زیرا کیفیت تعامل صوتی، تأثیر مستقیمی بر تجربه کاربری، پذیرش فناوری گفتار به متن (ASR) و تبدیل متن به گفتار (TTS) و همچنین کاربردهای عملی در خدماتی مثل Google Translate و ابزارهای مبتنی بر Vertex AI دارد.
چه تغییراتی در Gemini 2.5 ایجاد شده است؟
نسخهٔ جدید مجموعهای از بهبودهای کاربردی را به همراه دارد که بهویژه در جریان گفتوگوهای زنده (live conversations) محسوس هستند. سه تغییر اصلی که گوگل برجسته کرده شامل موارد زیر است: نخست، توانایی بهتر مدل در فراخوانی توابع خارجی در لحظهٔ مناسب؛ دوم، افزایش دقت در پیروی از دستورالعملهای توسعهدهندگان؛ و سوم، بازیابی مؤثرتر زمینهٔ مکالمه (context) از بخشهای قبلی دیالوگ تا پاسخها همراستا و منسجمتر بهنظر برسند.
بهصورت جزئیتر، در مورد فراخوانی توابع خارجی (external function calls) جِمینی اکنون میتواند در لحظات حساس مکالمه تماسهایی به سرویسهای زنده یا پایگاههای داده انجام دهد و اطلاعات مورد نیاز را طوری در پاسخ صوتی وارد کند که جریان گفتوگو دچار وقفه نشود. برای مثال، وقتی یک عامل صوتی نیاز به بازیابی وضعیت هوا، اطلاعات پرواز، یا موجودی کالا دارد، Gemini 2.5 فرایند بازخوانی داده را بهصورت روانتری اجرا میکند و نتیجه را در جملهای ترکیبشده و طبیعی ارائه میدهد که باعث میشود کاربر احساس کند پاسخ در همان لحظه تولید شده است، نه اینکه پس از چند ثانیه قطع و وصل بهدست آمده باشد.
در حوزهٔ پیروی از دستورالعمل توسعهدهنده (developer instruction-following)، گزارشها نشان میدهد که میزان تبعیت مدل از دستورالعملهای سفارشی نزدیک به 90٪ شده است، در مقایسه با حدود 84٪ در نسخههای قبلی. این بهبود برای کاربردهایی که نیازمند رفتار دقیق و قابل پیشبینی مدل هستند—مانند دستیارهای اختصاصی شرکتها، جریانهای کاری خودکار، یا رباتهای پشتیبانی مشتری—بسیار مهم است. افزایشِ درصدِ تبعیت به معنای کمتر شدن خطاها در اجرای دستورات پیچیده، احترام به محدودیتهای محتوا، و اجرای بهتر چارچوبهای سیاستی تعیینشده توسط توسعهدهنده است.
سوم اینکه، جِمینی در بازیابی زمینهٔ مکالمه (context retrieval) از بخشهای پیشین گفتگو پیشرفت کرده و این باعث میشود پاسخها حسِ انسجام و پیوستگی بیشتری داشته باشند. مدل بهتر میتواند به نکات ذکرشده در جملات قبلی رجوع کند، اطلاعات پیشین را در پاسخهای بعدی اعمال کند و پرسشهای پیدرپی را در یک جریان منطقی پیگیری کند. این ویژگی برای حفظ رشتهٔ گفتوگو و کاهش نیاز به تکرارِ اطلاعات از سوی کاربر اهمیت دارد و به افزایش کیفیت تجربهٔ کاربری در تعاملات چندنوبتی (multi-turn interactions) منجر میشود.
علاوه بر این سه محور، چند اصلاح جزئی اما کارآمد نیز اضافه شدهاند که نقش مهمی در بهبود تجربه کاربری بازی میکنند. برای نمونه، در حالت Gemini Live احتمال اینکه مدل صحبت کاربر را هنگام مکثهای کوتاه او قطع کند کاهش یافته است، یعنی اگر کاربر نیمهجملهای مکث کند یا لحظهای فکر کند، دستیار کمتر احتمال دارد پیش از اتمام مفهوم جمله، پاسخ را قطع کند. همینطور امکان قطع یا بیصدا کردن میکروفون در حین جلسه فراهم شده بدون اینکه بهصورت ناخواسته اجرای عامل صوتی متوقف شود؛ این رفتار مانع از قطع ناگهانی روند پاسخدهی و تجربهٔ ناخوشایند کاربر میشود.
این اصلاحات ریز اما هدفمند از جمله کاهشِ اصطکاک در تعاملات روزمرهٔ صوتی محسوب میشوند، بهویژه وقتی عاملهای صوتی با درخواستهای چندمرحلهای سروکار دارند یا لازم است در لحظه از منابع زنده داده استخراج کنند. بهعلاوه، این بهروزرسانیها میتوانند بهینهسازیهایی در تأخیر پاسخ (latency)، مدیریت پنجرهٔ گفتوگو (conversation window) و تعامل میان اجزای پردازش گفتار به متن و تولید گفتار نیز شامل شوند که همگی در مجموع تجربهٔ صوتی طبیعیتر و قابلاطمینانتری ایجاد میکنند.

کجا این بهروزرسانی را مشاهده خواهید کرد
- عاملهای صوتی Gemini Live و Search Live — تعاملات صوتی زنده در محصولاتی که از Gemini برای مکالمه استفاده میکنند، ابتدا و سریعتر از بقیه این اصلاحات را دریافت خواهند کرد. این شامل بهبود پاسخدهی به درخواستهای برخط، مدیریت بهتر مکالمات چندمرحلهای و کاهش خطاهای مرتبط با قطعِ ناخواستهٔ کاربر است.
- ابزارهای Google AI Studio و Vertex AI برای توسعهدهندگان — توسعهدهندگان که روی ساخت تجربهٔ صوتی سفارشی کار میکنند، میتوانند از قابلیتهای بهبود یافتهٔ Gemini 2.5 در محیطهای توسعهٔ گوگل بهره ببرند. این بهروزرسانی ابزارهایی را در اختیار توسعهدهندگان میگذارد تا تماس با توابع خارجی، مدیریت دستورالعملها و نگهداری زمینهٔ مکالمه را بهصورت دقیقتر پیادهسازی کنند؛ خصوصاً در سناریوهای تجاری، خدمات مشتری و اتوماسیون مکالمه.
- بهبودهای آیندهٔ Google Translate — یکی از اهداف اعلامشده شامل بهبود در ترجمهٔ لحظهای (Live Translate) است، از جمله درک بهتر اصطلاحات محاورهای، انواع کنایهها و افزایش پوشش زبانی برای ترجمهٔ زنده. این بدان معناست که ترجمههای صوتی در موقعیتهای واقعیتر مانند گفتگوهای بینفرهنگی، تماسهای پشتیبانی و نشستهای مشترک، طبیعیتر و قابلاعتمادتر خواهند بود.
بهطور خلاصه، این حرکت یک گام پیوسته اما مهم در جهت تبدیل دستیارهای صوتی مبتنی بر هوش مصنوعی به شریکان گفتوگوی طبیعیتر و کمتر «اسکریپتی» است. چه در حال ساخت تجربههای صوتی در Vertex AI باشید و چه از قابلیتهای زندهٔ Translate استفاده میکنید، بهروزرسانی Gemini 2.5 وعدهٔ وقفههای کمتر، تماسهای هوشمندتر با منابع داده و پیروی دقیقتر از قواعد تعیینشده توسط توسعهدهنده را میدهد. در عمل این یعنی کاهش خطاهای ناشی از قطعِ پیش از موعد، هماهنگی بهتر بین بخشی از سیستم که وظیفهٔ فراخوانی توابع را دارد و بخش تولید پاسخ صوتی، و نیز بهبود تجربهٔ کلی کاربر در تعاملات چندمرحلهای و پیچیده.
علاوه بر تأثیر مستقیم بر تجربهٔ کاربر، این بهروزرسانی میتواند تأثیرات عمیقتری بر اکوسیستم توسعهدهندهها و کسبوکارها داشته باشد. شرکتها میتوانند با تکیه بر قابلیتهای جدید، سناریوهای استفادهٔ پیچیدهتری را پیادهسازی کنند؛ برای مثال، پشتیبانی مشتری صوتی که همزمان به پایگاههای داده داخلی و سرویسهای ثالث دسترسی دارد و پاسخهای آن مطابق با سیاستهای شرکت و لحن برند است. همینطور در حوزهٔ سلامت، آموزش و خدمات عمومی، سطح اعتماد و کارایی تعاملات صوتی میتواند ارتقاء یابد؛ چرا که مدل اکنون بهتر میتواند اطلاعات حساس یا زمانمحور را دقیقتر بازیابی و در قالبی طبیعی ارائه کند.
از منظر فنی، توسعهدهندگان باید به نکاتی مانند طراحی توابع خارجی (external functions)، تعریف دقیق دستورالعملها برای مدل و مدیریت پنجرهٔ زمینهٔ مکالمه توجه کنند تا از مزایای Gemini 2.5 بهرهٔ کامل ببرند. بهینهسازی زنجیرهٔ درخواستها و پاسخها، استفاده از نقاط توقف (checkpoints) برای دادههای زنده و تعیین چارچوبهای خطمشی برای جلوگیری از خروجیهای نامطلوب، از جمله رویکردهای پیشنهادی برای استفادهٔ حرفهای محسوب میشوند. همچنین مانیتورینگ عملکرد مدل در محیطهای واقعی و جمعآوری بازخورد کاربران برای اصلاح دستورالعملهای توسعهدهنده، روندی عملی است که به افزایش دقت و رضایت کاربر منجر خواهد شد.
در نهایت، اگرچه Gemini 2.5 یک جهش بزرگ از منظر ظاهری نیست، ولی در جمعِ مجموعهای از اصلاحات فنی و تجربهای، تأثیر قابلتوجهی روی کیفیت تعاملات صوتی خواهد داشت. این نوع بهبودها نشان میدهند که ذرهبهذره و از طریق بهینهسازیهای دقیق، دستیارهای صوتی میتوانند به ابزارهایی تبدیل شوند که نه تنها پاسخگو، بلکه درککننده و همگام با جریان طبیعی گفتوگو باشند. آمادگی برای استفاده از این امکانات مستلزم درک بهتر از نحوهٔ کارکرد تماسهای خارجی، تعریف دقیق دستورالعملها و طراحی تجربهٔ کاربری (UX) است تا مزایای فنی به تجربهای ملموس برای کاربر نهایی تبدیل شود.
منبع: smarti
ارسال نظر