6 دقیقه
معیار جدید FACTS از Google DeepMind تصویری نگرانکننده بهنمایش میگذارد: پیشرفتهترین مدلهای هوش مصنوعی که آزمایش شدهاند همچنان تقریباً سه مورد از هر ده ادعای факتیکی را اشتباه گزارش میدهند. این مطالعه نشان میدهد که روانی بیان و سرعت تولید محتوا دیگر مترادف با قابلاعتماد بودن نیستند و باید بین توانایی بیان یک حقیقت و صحت آن تمایز قائل شد. در عمل، مدلهای زبان بزرگ (LLM) توانایی تولید متن روان و متقاعدکننده دارند، اما همین روانی میتواند منجر به انتشار «هالوسینیشن» یا توهم اطلاعات شود؛ یعنی مطالبی که بهظاهر درست و دقیق بهنظر میرسند اما در واقع مبتنی بر دادههای نادرست یا ساختگی هستند. این واقعیت جدید اهمیت سنجش دقیقتر و ابزارهای ارزیابی حقیقتسنجی (factuality) را در پژوهش و کاربردهای تجاری هوش مصنوعی برجسته میکند.
معیار حقیقتسنجی: FACTS چه چیزهایی را میآزماید
FACTS مدلها را در چهار وظیفه دشوار مورد ارزیابی قرار میدهد: پاسخ به پرسشهای دنیای واقعی با اتکا به دانش داخلی مدل، استفادهٔ مؤثر از جستجوی وب برای بازیابی و اعتبارسنجی اطلاعات، استناد دقیق به اسناد طولانی و توانایی تفسیر و تحلیل تصاویر. هر یک از این مؤلفهها جنبهای از چالش کلی اعتمادپذیری را میسنجد؛ برای مثال پاسخدهی صرف بر مبنای حافظهٔ داخلی مدل ممکن است به «خاطرهسازی» و ارائه اطلاعات نادرست منجر شود، در حالی که استفادهٔ نادرست از قابلیتهای جستجوی وب میتواند منجر به استناد به منابع ضعیف یا نامعتبر شود. استناد به اسناد طولانی (long-document citation) نیازمند توانایی استخراج دقیق بندها یا پاراگرافهای مرتبط و گزارش منبع بهصورت قابلبررسی است؛ این کار در مدلهای کنونی هنوز دشوار است زیرا طول زمینه و همپوشانی اطلاعات میتواند دقت استناد را کاهش دهد. بخش مربوط به تصاویر نیز چالشهای چندرسانهای را بررسی میکند: آیا مدل میتواند با اتکا به ورودی تصویری، نکات واقعی را تشخیص داده و با متون مرتبط بهدرستی پیوند دهد؟
در این آزمونها، Gemini 3 Pro از گوگل پیشتاز بوده اما تنها به دقت حدود 69 درصد دست یافته است و سایر مدلهای پیشرو با فاصلهای قابلتوجه عقب ماندهاند. این عدد (69٪) نشان میدهد که حتی بهترین مدلهای چندرسانهای فعلی هم بیش از یکسوم از ادعاهای факتیکی را نادرست، ناقص یا فاقد استناد دقیق تولید میکنند. برای تحلیل دقیقتر، ارزیابیهای FACTS معمولاً شامل معیارهایی مانند دقت (accuracy)، سازگاری استناد (citation fidelity)، همپوشانی استخراجی (overlap / recall on long documents) و امتیازهای ارزیابی انسانی برای سنجش کیفیت تعبیر تصاویر هستند. پژوهشگران از مجموعه دادههای متنوعی استفاده میکنند تا تعمیمپذیری نتایج را بررسی کنند: پرسشهای واقعیِ مبتنی بر اطلاعات عمومی، سناریوهای صنعتی خاص (مالی، پزشکی، حقوقی)، و دادههای چندرسانهای واقعی. این رویکرد چندبعدی کمک میکند تا مناطقی که مدلها بهطور مکرر خطا میکنند شناسایی شده و بهعنوان نقاط تمرکز در بهبود آینده درنظر گرفته شوند.
نتیجهٔ عملی حاد است: هوش مصنوعی میتواند با اعتمادبهنفس و بلاغت بنویسد، اما اعتمادبهنفس برابر با صحت نیست. این جدایی بین صراحت بیانی و واقعیتمحوری بهویژه در صنایعی مانند مالی، بهداشت و درمان و حقوق که حتی اشتباهات کوچک میتواند عواقب مالی، حقوقی یا بهداشتی جدی بهدنبال داشته باشد اهمیت دارد. بهعنوان مثال، گزارشهایی وجود دارد که یک دفتر حقوقی پس از استفادهٔ کوتاهمدت از هوش مصنوعی و مشاهدهٔ ارجاعهای قضایی ساختگی در یک پیشنویس حقوقی، به اخراج یک کارمند انجامیده است؛ چنین رویدادهایی نشان میدهند که ریسکهای عملیاتی و اعتبار سازمانی میتوانند از نتایج نادرست هوش مصنوعی نشأت بگیرند. بنابراین، سنجشهای دقیق مانند FACTS بهعنوان ابزاری حیاتی برای درک میزان خطاهای مدلها و طراحی مکانیزمهای جبرانکننده (mitigation) عمل میکنند.

چرا این موضوع برای کسبوکارها و کاربران اهمیت دارد
برای شرکتهایی که بخشهایی از عملیات یا خدمات خود را بر پایهٔ هوش مصنوعی بنیان گذاشتهاند، یافتههای FACTS حکم زنگ هشداری را دارند. این بهمعنای کنار گذاشتن فناوری نیست؛ بلکه تاکید بر لزوم ایجاد «گاردریل»های محافظ است: بازبینی انسانی (human-in-the-loop)، سیاستهای سختگیرانهٔ منبعیابی و اعتبارسنجی منابع، و اعتبارسنجی اختصاصی برای هر نوع وظیفه (task-specific validation). در سطح سازمانی، این اقدامات میتوانند شامل فرآیندهای تأیید نهایی توسط متخصصان، استفاده از سیستمهای تأیید بیرونی (third-party verification)، و ادغام متدولوژیهای بازیابی اطلاعات (retrieval-augmented generation) با کنترلهای شواهد منبعی (source grounding) باشند. علاوه بر این، طراحی خطمشیهای مدیریت ریسک اطلاعاتی—مانند الزامات ثبت لاگ، نسخهبندی مدل و دادهها، و ممیزیهای دورهای—برای نظارت بر خطاها و یافتن الگوهای شکست ضروری است.
گوگل خود معیار FACTS را هم بهعنوان یک هشدار و هم بهعنوان نقشهٔ راه معرفی میکند: هدف افشا کردن نقاطی است که مدلها شکست میخورند تا محققان و مهندسان بتوانند نارساییهای سیستمی را برطرف کنند. این نارساییها ممکن است از منشأهای مختلفی ناشی شوند: دادههای آموزشی نامتعادل یا منسوخ، فرایندهای آموزش و تنظیم دقیق (fine-tuning) که بهاندازهٔ کافی مبتنی بر حقیقتسنجی طراحی نشدهاند، یا ضعف در مکانیسمهای بیرونیسازی (external tools) مانند موتورهای جستجو و پایگاههای دادهٔ استنادی. به همین دلیل، تیمهای فنی باید نه تنها به بهبود دقت مدل در سطح الگوریتمی بیندیشند، بلکه به طراحی معماریهای سیستمیک که شامل لایههای تأیید و سنجش اعتبار میشود نیز توجه کنند.
در سطح عملیاتی، برخی راهکارهای پیشنهادی برای کاهش ریسک شامل موارد زیر است: 1) اعمال بررسی انسانی در نقاط بحرانی تصمیمگیری؛ 2) استفادهٔ فعال از بازیابی مبتنی بر منابع معتبر (trusted retrieval)، بهویژه در حوزههای حساس؛ 3) پیادهسازی ماژولهای اعتبارسنجی خودکار که بتوانند ناسازگاریها و هشدارها را تشخیص دهند؛ 4) آموزش کارکنان در شناسایی خروجیهای پرخطر مدل و توسعهٔ دستورالعملهای روشن برای اقدام در مواجهه با اطلاعات نامطمئن. علاوه بر این، طراحی قراردادهای سطح سرویس (SLA) برای کار با مدلهای هوش مصنوعی و تعریف معیارهای پذیرش کیفیت داده برای خدمات مصرفی و تجاری نیز میتواند به کاهش مسئولیتهای قانونی و مالی کمک کند.
خلاصهٔ نهایی این است که هوش مصنوعی بهسرعت در حال بهبود است، اما در زمینهٔ اطمینان فکتمحور (factual reliability) هنوز فاصلهٔ قابلتوجهی تا سطحی که برای استفادهٔ بدون نظارت مناسب باشد وجود دارد. انتظار میرود با پیشرفت روشهایی مانند بازیابی تقویتشده (RAG)، مدلهای مولد با سرویسهای جستجوی دقیقتر، و مکانیسمهای صریح برای تخمین عدمقطعیت، دقت در طول زمان بهتر شود؛ اما در وضعیت کنونی، بهترین رویکرد این است که مدلها را بهعنوان دستیارانی در نظر بگیریم که نیاز به نظارت انسانی، بررسی منبع و اعتبارسنجی نهایی دارند — نه منابعی غیرقابل خطا برای حقیقت.
منبع: smarti
ارسال نظر