4 دقیقه
تصور کنید در یک ایستگاه شلوغ قطار ایستادهاید، هدفون به گوش، و وقتی کلمات یک غریبه تقریباً قبل از تمام شدن جملهاش به زبان شما تبدیل میشود گوش میدهید. این همان وعدهای است که جمینی ۳.۵ ترجمه زنده ارائه میدهد؛ مدلی که برای طبیعیتر و انسانیتر کردن ترجمهٔ شفاهی زنده طراحی شده تا بیشتر شبیه دوستی چندزبانه باشد که در زمان واقعی تفسیر میکند.
جمینی ۳.۵ ترجمه زنده میتواند گفتار را در بیش از ۷۰ زبان تشخیص داده و بازتولید کند، بهطوری که ریتم، زیر و بمی و سرعت گفتار گوینده حفظ شوند تا ترجمهها طبیعی بهنظر برسند نه رباتیک. راز کار تبدیل ناگهانی نیست؛ بلکه رویکردی مبتنی بر جریان است که صدا را همزمان با صحبت شدن پردازش میکند و وقفههای نامناسبی را که در سیستمهای قدیمی بهدلیل منتظر ماندن تا پایان جمله به وجود میآمد، حذف میکند.
تأخیر کم است. بسیار کم. گوگل میگوید ترجمهها تنها چند ثانیه از صدای اصلی عقب میمانند و تعامل را روانتر میکنند. این سیستم ورودیهای چندزبانه را بدون نیاز به تنظیمات دستی هم مدیریت میکند؛ میتوانید شرکتکنندگان چندزبانه داشته باشید و مدل جریان گفتگو را کنترل خواهد کرد. نیازی به جابهجایی مداوم منوها در طول تماس نیست. نیازی به دستوپنجهنرم کردن برای تغییر حالتها نیست. این دقیقاً هدف است.
دسترسی از طریق اپلیکیشن گوگل ترنسلیت در اندروید و آیاواس آغاز میشود. برای استفاده، هدفون را وصل کنید و گزینهٔ ترجمه زنده را از گوشهٔ پایین-چپ انتخاب کنید. اگر هدفون در دسترس ندارید، حالت جدید گوش دادن در اندروید ترجمهها را از طریق بلندگوی گوشی پخش میکند: کافی است دستگاه را مانند یک تماس معمولی جلوی گوش خود قرار دهید و بگذارید گوشی کار تفسیر را انجام دهد.

برای جلسات، این میتواند تحولآفرین باشد. زیرنویس زندهٔ گوگل میت قبلاً محدود به تنها پنج زبان برای گفتار ترجمهشده بود. با جمینی ۳.۵، پشتیبانی به بیش از ۷۰ زبان گسترش مییابد و امکان بیش از ۲۰۰۰ جفتزبان ممکن در یک جلسه را فراهم میکند؛ پوشش بسیار گستردهتری برای تیمهای جهانی، کلاسهای آموزشی و رویدادها.
در وب، گوگل یک کنترل یکلمسی برای شروع فوری ترجمهٔ زنده معرفی میکند. این کنترل بهصورت آزمایشی در این ماه منتشر خواهد شد، حرکتی که نشان میدهد شرکت میخواهد ترجمهٔ زمان واقعی شبیه یک ویژگی داخلی باشد نه یک افزودنی.
این مدل برای مقاومت در محیطهای پرسر و صدا و غیرقابل پیشبینی طراحی شده است. گفتگوهای پسزمینه، نویز خیابان یا همزمانی صداها، جمینی ۳.۵ طوری طراحی شده که در برابر آنها مقاوم باشد. توسعهدهندگان میتوانند انتظار داشته باشند مدل در سراسر اکوسیستم گوگل ظاهر شود، از گوگل ترنسلیت تا گوگل میت و در قالب رابطهای برنامهنویسی برای اپهای طرف سوم.
تمامی صداهای تولیدشده توسط مدلهای گوگل دارای یک واترمارک نامرئی سینثآیدی خواهند بود که در خروجی جاسازی میشود و گفتار تولیدشده توسط هوش مصنوعی را قابلشناسایی میکند و به جلوگیری از سوءاستفاده کمک میکند.
هنوز پرسشهایی باقی است. سیستم چگونه با گویشهای منطقهای، کدسوئیچینگ یا زبانهایی با مجموعهدادههای محدود برخورد خواهد کرد؟ هنگام ضبط و ترجمهٔ گفتوگوها در زمان واقعی، چگونه حریم خصوصی و رضایت مدیریت خواهد شد؟ گوگل به دو دهه کار در زمینهٔ ترجمه اشاره میکند و میگوید میلیاردها کاربر از ابزارهایش استفاده میکنند، اما وارد کردن یک مدل قدرتمند جریانمحور به استفادهٔ روزمره، چالشهای جدیدی در سیاستگذاری و تجربهٔ کاربری ایجاد میکند.
برای هر کسی که سفر میکند، آموزش میدهد یا جلسات جهانی را برگزار میکند، ترجمهٔ زندهٔ جمینی ۳.۵ یک جهش عملی است: اصطکاک کمتر، پاسخدهی سریعتر و صدایی که انسانی بهنظر میرسد. وقتی زبان تبدیل به مانع نشود و به صدای پسزمینه بدل شود، پرسش از نحوهٔ ترجمه کردن به نحوهٔ شنیدن متفاوت تغییر میکند.
منبع: smarti
ارسال نظر