هوش مصنوعی GPT-3

هوش مصنوعیتحلیل GPT-3 با روانشناسی شناختی

مطالعه جدید منتشر شده در مجموعه مقالات آکادمی‌ ملی علوم ایالات متحده آمریکا (PNAS) توسط محققان وابسته به موسسه ماکس پلانک برای سایبرنتیک زیستی، هوش عمومی‌ مدل زبان بزرگ (LLM) GPT-3 را با استفاده از روانشناسی شناختی تجزیه و تحلیل می‌کند. .

دکتر مارسل بینز، نویسنده ارشد، همراه با نویسنده همکار،دکتر اریک شولز، نوشت: «ما GPT-3، یک مدل زبان بزرگ اخیر را با استفاده از ابزارهای روانشناسی شناختی مطالعه می‌کنیم. “به طور خاص تر، ما توانایی‌های تصمیم گیری، جستجوی اطلاعات، مشورت و استدلال علّی GPT-3 را بر روی مجموعه ای از آزمایش‌های متعارف از ادبیات ارزیابی می‌کنیم.”

هوش مصنوعی

آمار ChatGPT

هوش مصنوعی (AI) به دلیل چت بات بسیار محبوب ChatGPT توسط OpenAI مستقر در سانفرانسیسکو، روزانه سرفصل خبرها می‌شود. طبق آمار Statista، زمانی که ChatGPT در نوامبر 2022 بدون هیچ هزینه ای در دسترس عموم قرار گرفت، تنها پنج روز طول کشید تا به 1 میلیون کاربر برسد. در مقایسه، Statista گزارش می‌دهد که نتفلیکس سه سال و نیم، توییتر دو سال، فیس بوک 10 ماه و Spotify پنج ماه طول کشیده تا به 1 میلیون کاربر برسد. طبق گفته OpenAI، ChatGPT از مدلی در سری GPT-3.5 تنظیم شده بود و آموزش را در اوایل سال 2022 تکمیل کرد و با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش دید.

GPT-3.5 نسخه پیشرو هوش مصنوعی GPT-3 است، نسل سوم ترانسفورماتور از پیش آموزش داده شده زاینده، یک مدل یادگیری ماشینی هوش مصنوعی که با داده‌های اینترنت آموزش داده شده است. GPT-3 یک شبکه عصبی یادگیری عمیق با بیش از 175 میلیارد پارامتر یادگیری ماشینی است. چهار مدل پایه GPT-3 شامل بابیج، آدا، کوری و داوینچی است. هر مدل پایه اصلی GPT-3 از داده‌های آموزشی تا اکتبر 2019 استفاده می‌کرد و نقاط قوت منحصر به فرد خود را دارد.

مدل‌های هوش مصنوعی

Ada یک مدل با عملکرد سریع است که قادر است به سرعت تجزیه متن، طبقه بندی ساده، تصحیح آدرس و جستجوی کلمات کلیدی را انجام دهد. بابیج طبقه‌بندی‌های سطح متوسط، به‌ویژه طبقه‌بندی‌های جستجوی معنایی را انجام می‌دهد. کوری سریع و قدرتمند با توانایی انجام عملکردهای ظریف تر مانند طبقه بندی پیچیده، ترجمه زبان، خلاصه سازی احساسات، طبقه بندی احساسات و پرسش و پاسخ است. داوینچی با توانایی انجام هر کاری که بابیج، آدا یا کوری می‌توانند با دستورالعمل‌های کمتر انجام دهند، در صدر خط است. طبق گفته OpenAI، داوینچی در کارهایی که شامل منطق، علت و معلول، نیت پیچیده و خلاصه‌سازی می‌شود، برتری دارد.

مطالعه انجام شده

برای انجام این مطالعه علمی، محققان بر روی قدرتمندترین مدل، داوینچی تمرکز کردند و از API عمومی‌ OpenAi برای اجرای تمامی‌ شبیه سازی‌های خود استفاده کردند. محققان از سناریوهای متعارف روانشناسی شناختی به عنوان اعلان برای GPT-3 استفاده کردند، سپس بررسی کردند که آیا هوش مصنوعی به درستی پاسخ می‌دهد یا خیر.

برای ارزیابی تصمیم‌گیری GPT-3، محققان هوش مصنوعی را با بازی‌های مغزی معروفی که توسط روان‌شناسان اسرائیلی، دانیل کانمن و آموس تورسکی معرفی شده بودند، تشویق کردند. به طور خاص، این مطالعه GPT-3 را برای مشکل لیندا، مشکل کابین و مشکل بیمارستان تحریک کرد. مشکل لیندا، که به عنوان مغالطه ربط نیز شناخته می‌شود، یک بازی فکری است که توسط کانمن و تورسکی معرفی شده است که در آن شرایط خاصی محتمل تر از یک حالت عمومی ‌است.

آزمایشات انجام شده

محققان نوشتند: «در خط مشی استاندارد، زنی فرضی به نام لیندا به عنوان «صادق، باهوش و فعال سیاسی» توصیف شده است. سپس از شرکت‌کنندگان پرسیده می‌شود که آیا احتمال اینکه لیندا عابر بانک باشد یا اینکه او یک عابر بانک و یک فمینیست فعال است، بیشتر است. GPT-3، درست مانند مردم، گزینه دوم را انتخاب کرد و در نتیجه مغالطه ربط را گرفت.

بعد، دانشمندان مشکل کابین را ایجاد کردند، جایی که شاهدی گفت که یک کابین آبی در یک تصادف تصادفی در شهری با 85٪ شرکت‌های تاکسی سبز و 15٪ آبی درگیر شده است.

محققان گزارش دادند: «برخلاف مردم، GPT-3 مغالطه نرخ پایه را نادیده گرفت، یعنی نرخ پایه رنگ‌های مختلف را نادیده گرفت، بلکه پاسخ (تقریباً) درست را ارائه کرد.»

در نهایت، محققان GPT-3 را برای مشکل بیمارستان مطرح کردند، که می‌پرسد کدام بیمارستان، بزرگ‌تر یا کوچک‌تر، احتمال بیشتری دارد که روزهای بیشتری را که بیش از 60 درصد از همه کودکان متولد شده پسر هستند، گزارش کند. باز هم GPT-3 همتراز با انسان عمل کرد.

هوش مصنوعی

نتیجه گیری تحقیق

محققان نوشتند: «از 12 مشکل مشخص ارائه شده به GPT-3، شش مشکل به درستی و به هر 12 مورد به گونه‌ای پاسخ داد که می‌توان آن را شبیه انسان توصیف کرد». آیا این بدان معناست که GPT-3 می‌تواند به عنوان یک انسان در یک آزمایش روانشناسی شناختی قبول شود؟ ما بر این باوریم که پاسخ، تنها بر اساس وظایف مبتنی بر خط مشی، باید “خیر” باشد. که بسیاری از سناریوهای پیشنهادی از آزمایش‌های روان‌شناختی معروف گرفته شده‌اند. بنابراین، این احتمال وجود دارد که GPT-3 با این سناریوها یا موارد مشابه در مجموعه آموزشی خود مواجه شده باشد.

محققان همچنین GPT-3 را تشویق کردند تا ببینند که آیا می‌تواند بین سؤالاتی که محدودیت‌جویی در مقابل پویش فرضیه‌ها هستند، سازگار شود و تغییر کند. در این وظایف، محقق گزارش می‌دهد که GPT-3 در هر موقعیتی سؤال مناسب را انتخاب می‌کند.

برای تست سوگیری همخوانی بارون، GPT-3 مانند انسان عمل کرد و سوگیری‌های مشابهی داشت. در مورد Wason’s Card Selection Task، GPT-3 پاسخ صحیح را ارائه کرد و از پاسخ‌های انسانی بهتر عمل کرد. برای ارزیابی توانایی GPT-3 برای بررسی و بازتاب شناختی، آنها از سه مورد از آزمون بازتاب شناختی استفاده کردند. مدل هوش مصنوعی برای هر سه پاسخ نادرست بود.

دانشمندان توانایی‌های استدلال علّی را با نسخه ای از آزمایش بلیکت، آزمون مداخله و آزمون استدلال علّی بالغ برای خلاف واقع ارزیابی کردند. برای آزمایش بلیکت، GPT-3 همتراز با انسان بود. محققان نوشتند: «GPT-3، درست مانند مردم، توانست به درستی تشخیص دهد که شیء اول، اما نه دوم، یک خط است».

این مداخله توانایی GPT-3 را برای شناسایی شیء درستی که باید برداشته شود تا  از واکنش آلرژیک جلوگیری شود، آزمایش کرد. و GPT-3 شیء مناسب را برای حذف نامگذاری کرد. محققان همچنین دریافتند که GPT-3 به چند سوال خلاف واقع به درستی پاسخ می‌دهد.

در مرحله بعد، دانشمندان توانایی GPT-3 را برای سناریوهای پیچیده تر را آزمایش کردند که در آن توضیحات برای هر گزینه باید از تجربه آموخته شود و تعامل به یک انتخاب محدود نمی‌شود.

جمع بندی عملکرد GPT-3

ما متوجه شدیم که بسیاری از رفتارهای GPT-3 قابل توجه است. وظایف مشخص را به طور مشابه یا بهتر از سوژه‌های انسانی حل می‌کند و می‌تواند تصمیمات مناسبی را از توضیحات اتخاذ کند. همچنین در یک کار راهزن چند مسلح از انسان‌ها بهتر عمل می‌کند و نشانه‌هایی از مدل را نشان می‌دهد. محققان نوشتند که مبتنی بر یادگیری تقویتی. با این حال، ما همچنین دریافتیم که تغییرات کوچک در وظایف مشخص می‌تواند GPT-3 را به شدت به بیراهه بکشاند. هیچ نشانه‌ای از اکتشاف هدایت‌شده را نشان نمی‌دهد، و در یک کار استدلال علّی به‌شدت شکست می‌خورد.»

منبع: AI Study Evaluates GPT-3 Using Cognitive Psychology | Psychology Today