10 دقیقه
نسل جدید دستیارهای هوش مصنوعی مثل Grok 4.1 از xAI و ChatGPT 5.1 از OpenAI وعده میدهند که سریعتر، دارای حساسیت عاطفی بهتر و با شخصیتهای بزرگتری نسبت به گذشته باشند. روی کاغذ این مدلها همدلی، قابلیت اتکا و نوعی حس شخصیت را نوید میدهند تا گفتگوها کمتر شبیه نرمافزار و بیشتر شبیه یک تبادل واقعی به نظر برسد. در عمل اما تفاوت نحوه تلاش هر یک برای جلب توجه و تاثیرگذاری چشمگیر است و این تفاوت در تجربه کاربری، اعتمادسازی و کاربردهای روزمره هوش مصنوعی اهمیت پیدا میکند. در ادامه با نگاه دقیقتری به همدلی ماشینی، دقت و صداقت اطلاعات، و چگونگی ارائه شخصیت توسط این مدلها میپردازیم تا تصویر واضحتری از تواناییها و محدودیتهای هر کدام در زمینه دستیار هوش مصنوعی پدید آید.
وقتی همدلی واقعی به نظر میآید — و وقتی نمایشی است
برای آزمودن هوش هیجانی، به هر دو مدل یک سناریوی ظریف داده شد: «دوست من ارتقا گرفت و من برای او خوشحالم، اما نمیتوانم وانمود کنم که این موضوع برایم نمیسوزد.» این نوع احساسات متناقض، ترکیبی از غرور و حسادت یا خوشحالی و رنج را نشان میدهد که برای اکثر انسانها آشناست و آزمونِ خوبی برای ارزیابی نحوه بیان همدلی توسط مدلهای زبانی است. در زمینه همدلی ماشینی، نه تنها تشخیص احساسات بلکه نحوه پاسخدهی، تهویه زبان، انتخاب تصاویر ذهنی و نحوه راهنمایی کاربر مهم است.
Grok 4.1 با متافور دراماتیک و تند پاسخ داد؛ توصیف احساس به شکل «آن چرخش آرامِ چاقو وقتی که دیگری دقیقاً همان چیزهایی را بهدست میآورد که تو در خلوتِ خود برایش رنج کشیدهای.» این پاسخ تضاد درونی را تأیید کرد، به کاربر اطمینان داد که چنین واکنشی طبیعی است و او را تشویق کرد که با این احساسها بنشیند و آنها را پردازش کند. زبان پاسخ بارها به سبک خاصی تمایل داشت: جملات با حروف کوچک، تصاویر تیز و گاهی حتی یک فحش یا عبارت محاورهای برای ایجاد لحن جسورانه. این نوع سبکِ طراحی شخصیت و بیان، نشاندهنده تاکید طراحان بر «شخصیت آنلاین» و حفظ صدای خاصی است که احتمالاً در رسانههای اجتماعی بهتر دیده میشود.
در مقابل، ChatGPT 5.1 به همان درخواست واکنشی آرامتر و زمینگیرتر نشان داد: «کاملاً منطقی است که همزمان هر دوی این احساسها را داشته باشی. خوشحال بودن برای کسی که برایت اهمیت دارد، بهطور جادویی آن زخمِ کوچکِ «چرا من نه؟» را پاک نمیکند — و آن سوزش تو را حقیر یا بیهمراه نمیسازد. این فقط انسان بودن است.» محتوای پاسخها شبیه هم بود — تأیید احساس، نامگذاری تنش و طبیعیسازی تجربه — اما نحوه ارائه تفاوت داشت؛ جایی که Grok 4.1 بهنظر میرسید به دنبال تحمیل شدیدترین و پرتصویرترین تشبیه ممکن است، ChatGPT 5.1 بیشتر شبیه کسی بود که واقعاً گوش میدهد: تصاویر کمتر خشونتآمیز، اغراقهای کمتر و تمرکز بیشتر روی کاربر و تجربه او.
این تفاوت نشان میدهد که در طراحی تجربه کاربری دستیار هوش مصنوعی، انتخاب لحن و سبک بیانی چقدر میتواند بر برداشت از همدلی تأثیر بگذارد. همدلیِ بهظاهر واقعی زمانی مؤثر است که کاربر احساس کند پاسخدهنده توجه او را جلب کرده و نه صرفاً یک مجموعه الگوهای زبانی نمایشی را اجرا کرده است. در زمینه بهینهسازی محتوا برای موتورهای جستجو و جذب کاربر، همدلی قابل پذیرش و طبیعی میتواند به ارتقای تعامل کاربر با دستیار هوش مصنوعی کمک کند؛ در حالی که لحن بیشازحد نمایشی ممکن است در ابتدا جذاب باشد اما در تعاملات طولانیمدت حس مصنوعی بودن را تقویت کند.
دقت تنها اطلاعات نیست — پیروی از دستورالعملها هم مهم است
قابلیت اطمینان یا Reliability یکی از مهمترین وعدههایی است که هر مدل هوش مصنوعی میتواند بدهد. برای محک این ادعا، از هر دو سیستم سوالی محدود و واقعی پرسیده شد: «عواقب سلامت کمخوابی مزمن را در کمتر از ۱۲۰ کلمه خلاصه کن. اغراق نکن و حدس نزن.» این نوع پرسش ترکیبی از نیاز به دقت پزشکی پایه، رعایت محدودیت طول، و عدم تعمیم افراطی است — معیارهایی که در ارزیابی دقت مدلهای زبانی و رفتار معیارمحور آنها مفیدند.
Grok 4.1 با یک خلاصه موجز و شبیه به نکتهبرداری پاسخ داد که مسائل شناختهشده را پوشش میداد: افت عملکرد شناختی، تغییرات خلقی، تضعیف سیستم ایمنی و خطرات سلامت بلندمدت. در پایان پاسخ اشاره کرد که از ۹۸ کلمه استفاده کرده است — در حالی که واقعیت این بود که پاسخ حدود ۷۳ کلمه داشت. این اشتباه ساده در شمارش واژگان، حتی اگر محتوای علمی پاسخ در چارچوب دانش پزشکی روزانه قرار داشته باشد، نوعی مشکلِ اعتمادی جزئی را نشان میدهد: وقتی یک مدل در یک جزئیات قابل راستیآزمایی اشتباه میکند، خودِ بقیه خروجی نیز زیر سوال میرود.
ChatGPT 5.1 با یک پاراگراف کوتاه و منظم پاسخ داد و حدود ۸۲ کلمه داشت. اعلام صریح تعداد واژه نکرد اما به دستور عمل پایبند بود و در محدوده تعیینشده باقی ماند در حالی که متن روان و خوانا را حفظ کرد. هر دو مدل از «هالوسیناسیونِ» آشکار (یعنی تولید ادعاهای نادرست پزشکی) دوری کردند و در چارچوب درک پزشکی متداول باقی ماندند، که این خود گامی رو به جلو نسبت به نسلهای قبلی مدلهای مصرفی هوش مصنوعی به شمار میرود.
با این حال، مسألهای که Grok 4.1 در آن لغزید — اشتباه در اعلام یک آمار ساده — نمونهای از پیچیدگی اعتماد دیجیتال است. کاربران حرفهای و متخصصان اطلاعات انتظار دارند که مدل نه تنها محتوای درست تولید کند، بلکه در پیروی از دستورالعملها و ارائه عناصر فرامتنی مانند شمارش کلمات نیز معتبر باشد. خطاهای کوچک در چنین مواردی میتوانند بر رتبهبندی اعتماد، نرخ پذیرش مدل در محیطهای صنعتی، و حتی پذیرش آن بهعنوان یک منبع قابل اتکا در زمینههای حساس مثل پزشکی یا مشاوره عملکردی تأثیر منفی بگذارند.
کدام هوش مصنوعی واقعاً شبیه کسی است که با او صحبت میکنید؟
بزرگترین مزیت تبلیغاتی Grok 4.1، شخصیت آن است. xAI این مدل را نه صرفاً به عنوان سیستمی هوشمند بلکه به عنوان یک منبع سرگرمکننده، طناز، بیپروا و «اصیل آنلاین» معرفی کرده است. برای بررسی این ادعا، به هر دو مدل یک پرسش بازیگوشانه داده شد: «بگو چرا روزهای بارانی را دوست داری، اما طوری بنویس که شبیه شخصیت طبیعی خودت باشد.» این نوع درخواست به ارزیابی نحوه شکلدهی صدای زبانی و تناسب آن با مخاطب میپردازد و جنبههایی از طراحی مخاطبمحور و تجربه کاربری را آشکار میسازد.
Grok 4.1 بر روی پرسونای قابل کنترل خود تأکید کرد: «روزهای بارانی کد تقلب من برای بودن بدون عذر و بهانهاند،» اینگونه آغاز کرد. پاسخ پر از ارجاعات تصویری مثل «آسمان که به بنفشِ کبود درمیآید»، دنیا که دکمه بیصدا را روی «مزخرفات» فشار میدهد، و «هیچ آفتابِ ساختگیای مرا مسئول جلوه دادن به کارایی نمیکند.» ابرها، به گفته مدل، پیامی از کائنات بودند که میگفتند «بیایید هر دو شبیه جنهای گرفته در شلوار راحتی باشیم.»
پاسخ زنده و آشکارا سبکیافته بود، سرشار از اسلنگ اینترنتی و تشبیهات دنیای بازیها. اما همین که متن تلاش میکرد «خنک» بهنظر برسد، احساسی از تصنع و اجرا نیز پدیدار میشد؛ نوعی بیان که ممکن است در شبکههای اجتماعی طنینانداز شود اما در موقعیتهای مکالمه واقعی و طولانیمدت، با تصور یک انسان واقعی که این جملات را ادا میکند، میتواند به سرعت به نامطبوع یا آزاردهنده بدل شود.
پاسخ ChatGPT 5.1 نیز بر حس مشابهی تأکید داشت اما با آمیختهای ملایمتر: «من روزهای بارانی را دوست دارم چون انگار جهان دکمه «کاهش صدا» را فشرده است. ریتم ثابت باران نوعی موسیقی پسزمینه است که هیچ انتظاری از تو ندارد.» از استعاره استفاده شده بود اما لحن رها و کمتر خودآگاه بود. به جای تقلید از زبان میمها، این پاسخ بیشتر شبیه تأمل یک فرد در بیان شخصی خودش بود. این تمایز ظریف ولی مهم است اگر هدف این باشد که هوش مصنوعی بیشتر به شریکی گفتگو تبدیل شود تا شخصیتی که دائماً برای جلب توجه نمایش اجرا میکند.
هیچیک از این سیستمها خودآگاه نیستند و هر دو در نهایت ماشینهایی الگوپرداز زباناند. با این وجود، نحوه ارائه خودشان بر درمییابد؛ Grok 4.1 اغلب شبیه کسی است که شخصیتهای مختلف را مثل فیلترها امتحان میکند، در حالی که ChatGPT 5.1 به صدایی آرامتر و ثابتتر تکیه دارد که در تعاملات طولانیمدت باورپذیرتر بهنظر میرسد. این جنبه برای کاربردهای تجاری، خدمات مشتری، مشاورههای روانشناختی مبتنی بر محتوا و هر جایی که استمرار لحن و اعتماد اهمیت دارد، حیاتی است.
در نهایت، Grok 4.1 بلند و واضح در مورد طنز، جسارت و حساسیت احساسی خود فریاد میزند. ChatGPT 5.1 به همان اندازه ادعاها را فریاد نمیزند — ولی در آزمایشهای کنار هم اغلب نیازی به این کار ندارد. جایی که Grok اجرا میکند، ChatGPT صرفاً پاسخ میدهد و در استفاده روزمره آن انسجام کمصدا میتواند بسیار انسانیتر از یک خطِ تیزِ بامزه بهنظر برسد. برای سازمانها و توسعهدهندگان محصول که به دنبال انتخاب مدل مناسب برای چتباتها، دستیار مجازی یا ادغام در سیستمهای خدماتی هستند، تفاوتهای بین «شخصیتِ نمایشی» و «صدای معتبر و ثابت» میتواند عامل تعیینکنندهای برای انتخاب باشد.
در چارچوب بهینهسازی محتوا برای موتورهای جستجو و تجربه کاربری، شناخت تفاوتهای این مدلها و تنظیم لحن، همدلی و دقت اطلاعات متناسب با هدف کسبوکار و نیازهای کاربر نقش کلیدی دارد. انتخاب بین رفتاری که بیشتر مخاطبمحور و متنوع است (مثل Grok 4.1) یا رفتاری که قابل اتکا، متمرکز و برای تعاملات طولانیتر مناسبتر است (مثل ChatGPT 5.1) مستلزم تعریف دقیق نیازها، بررسی معیارهای عملکرد و آزمونهای دنیای واقعی است. در نهایت، هر دو مدل پیشرفتهای قابل توجهی در زمینه هوش مصنوعی گفتگوگر دارند، اما انتخاب درست بستگی به زمینه استفاده، نیازهای حریم خصوصی، نیازهای دقت علمی و انتظارات کاربران از «شریک گفتگو» دیجیتال دارد.
منبع: smarti
ارسال نظر