ترجمه زنده جمینی ۳.۵: ترجمه فوری و طبیعی برای مسافران

ترجمه زنده جمینی ۳.۵: ترجمه فوری و طبیعی برای مسافران

نظرات

4 دقیقه

تصور کنید در یک ایستگاه شلوغ قطار ایستاده‌اید، هدفون به گوش، و وقتی کلمات یک غریبه تقریباً قبل از تمام شدن جمله‌اش به زبان شما تبدیل می‌شود گوش می‌دهید. این همان وعده‌ای است که جمینی ۳.۵ ترجمه زنده ارائه می‌دهد؛ مدلی که برای طبیعی‌تر و انسانی‌تر کردن ترجمهٔ شفاهی زنده طراحی شده تا بیشتر شبیه دوستی چندزبانه باشد که در زمان واقعی تفسیر می‌کند.

جمینی ۳.۵ ترجمه زنده می‌تواند گفتار را در بیش از ۷۰ زبان تشخیص داده و بازتولید کند، به‌طوری که ریتم، زیر و بمی و سرعت گفتار گوینده حفظ شوند تا ترجمه‌ها طبیعی به‌نظر برسند نه رباتیک. راز کار تبدیل ناگهانی نیست؛ بلکه رویکردی مبتنی بر جریان است که صدا را هم‌زمان با صحبت شدن پردازش می‌کند و وقفه‌های نامناسبی را که در سیستم‌های قدیمی به‌دلیل منتظر ماندن تا پایان جمله به وجود می‌آمد، حذف می‌کند.

تأخیر کم است. بسیار کم. گوگل می‌گوید ترجمه‌ها تنها چند ثانیه از صدای اصلی عقب می‌مانند و تعامل را روان‌تر می‌کنند. این سیستم ورودی‌های چندزبانه را بدون نیاز به تنظیمات دستی هم مدیریت می‌کند؛ می‌توانید شرکت‌کنندگان چندزبانه داشته باشید و مدل جریان گفتگو را کنترل خواهد کرد. نیازی به جابه‌جایی مداوم منوها در طول تماس نیست. نیازی به دست‌وپنجه‌نرم کردن برای تغییر حالت‌ها نیست. این دقیقاً هدف است.

دسترسی از طریق اپلیکیشن گوگل ترنسلیت در اندروید و آی‌او‌اس آغاز می‌شود. برای استفاده، هدفون را وصل کنید و گزینهٔ ترجمه زنده را از گوشهٔ پایین-چپ انتخاب کنید. اگر هدفون در دسترس ندارید، حالت جدید گوش دادن در اندروید ترجمه‌ها را از طریق بلندگوی گوشی پخش می‌کند: کافی است دستگاه را مانند یک تماس معمولی جلوی گوش خود قرار دهید و بگذارید گوشی کار تفسیر را انجام دهد.

برای جلسات، این می‌تواند تحول‌آفرین باشد. زیرنویس زندهٔ گوگل میت قبلاً محدود به تنها پنج زبان برای گفتار ترجمه‌شده بود. با جمینی ۳.۵، پشتیبانی به بیش از ۷۰ زبان گسترش می‌یابد و امکان بیش از ۲۰۰۰ جفت‌زبان ممکن در یک جلسه را فراهم می‌کند؛ پوشش بسیار گسترده‌تری برای تیم‌های جهانی، کلاس‌های آموزشی و رویدادها.

در وب، گوگل یک کنترل یک‌لمسی برای شروع فوری ترجمهٔ زنده معرفی می‌کند. این کنترل به‌صورت آزمایشی در این ماه منتشر خواهد شد، حرکتی که نشان می‌دهد شرکت می‌خواهد ترجمهٔ زمان واقعی شبیه یک ویژگی داخلی باشد نه یک افزودنی.

این مدل برای مقاومت در محیط‌های پرسر و صدا و غیرقابل پیش‌بینی طراحی شده است. گفتگوهای پس‌زمینه، نویز خیابان یا هم‌زمانی صداها، جمینی ۳.۵ طوری طراحی شده که در برابر آنها مقاوم باشد. توسعه‌دهندگان می‌توانند انتظار داشته باشند مدل در سراسر اکوسیستم گوگل ظاهر شود، از گوگل ترنسلیت تا گوگل میت و در قالب رابط‌های برنامه‌نویسی برای اپ‌های طرف سوم.

تمامی صداهای تولیدشده توسط مدل‌های گوگل دارای یک واترمارک نامرئی سینث‌آی‌دی خواهند بود که در خروجی جاسازی می‌شود و گفتار تولیدشده توسط هوش مصنوعی را قابل‌شناسایی می‌کند و به جلوگیری از سوءاستفاده کمک می‌کند.

هنوز پرسش‌هایی باقی است. سیستم چگونه با گویش‌های منطقه‌ای، کدسوئیچینگ یا زبان‌هایی با مجموعه‌داده‌های محدود برخورد خواهد کرد؟ هنگام ضبط و ترجمهٔ گفت‌وگوها در زمان واقعی، چگونه حریم خصوصی و رضایت مدیریت خواهد شد؟ گوگل به دو دهه کار در زمینهٔ ترجمه اشاره می‌کند و می‌گوید میلیاردها کاربر از ابزارهایش استفاده می‌کنند، اما وارد کردن یک مدل قدرتمند جریان‌محور به استفادهٔ روزمره، چالش‌های جدیدی در سیاست‌گذاری و تجربهٔ کاربری ایجاد می‌کند.

برای هر کسی که سفر می‌کند، آموزش می‌دهد یا جلسات جهانی را برگزار می‌کند، ترجمهٔ زندهٔ جمینی ۳.۵ یک جهش عملی است: اصطکاک کمتر، پاسخ‌دهی سریع‌تر و صدایی که انسانی به‌نظر می‌رسد. وقتی زبان تبدیل به مانع نشود و به صدای پس‌زمینه بدل شود، پرسش از نحوهٔ ترجمه کردن به نحوهٔ شنیدن متفاوت تغییر می‌کند.

منبع: smarti

ارسال نظر

نظرات

مطالب مرتبط