تحلیل GPT-3 با روانشناسی شناختی
مطالعه جدید منتشر شده در مجموعه مقالات آکادمی ملی علوم ایالات متحده آمریکا (PNAS) توسط محققان وابسته به موسسه ماکس پلانک برای سایبرنتیک زیستی، هوش عمومی مدل زبان بزرگ (LLM) GPT-3 را با استفاده از روانشناسی شناختی تجزیه و تحلیل میکند. .
دکتر مارسل بینز، نویسنده ارشد، همراه با نویسنده همکار،دکتر اریک شولز، نوشت: «ما GPT-3، یک مدل زبان بزرگ اخیر را با استفاده از ابزارهای روانشناسی شناختی مطالعه میکنیم. “به طور خاص تر، ما تواناییهای تصمیم گیری، جستجوی اطلاعات، مشورت و استدلال علّی GPT-3 را بر روی مجموعه ای از آزمایشهای متعارف از ادبیات ارزیابی میکنیم.”
آمار ChatGPT
هوش مصنوعی (AI) به دلیل چت بات بسیار محبوب ChatGPT توسط OpenAI مستقر در سانفرانسیسکو، روزانه سرفصل خبرها میشود. طبق آمار Statista، زمانی که ChatGPT در نوامبر 2022 بدون هیچ هزینه ای در دسترس عموم قرار گرفت، تنها پنج روز طول کشید تا به 1 میلیون کاربر برسد. در مقایسه، Statista گزارش میدهد که نتفلیکس سه سال و نیم، توییتر دو سال، فیس بوک 10 ماه و Spotify پنج ماه طول کشیده تا به 1 میلیون کاربر برسد. طبق گفته OpenAI، ChatGPT از مدلی در سری GPT-3.5 تنظیم شده بود و آموزش را در اوایل سال 2022 تکمیل کرد و با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش دید.
GPT-3.5 نسخه پیشرو هوش مصنوعی GPT-3 است، نسل سوم ترانسفورماتور از پیش آموزش داده شده زاینده، یک مدل یادگیری ماشینی هوش مصنوعی که با دادههای اینترنت آموزش داده شده است. GPT-3 یک شبکه عصبی یادگیری عمیق با بیش از 175 میلیارد پارامتر یادگیری ماشینی است. چهار مدل پایه GPT-3 شامل بابیج، آدا، کوری و داوینچی است. هر مدل پایه اصلی GPT-3 از دادههای آموزشی تا اکتبر 2019 استفاده میکرد و نقاط قوت منحصر به فرد خود را دارد.
مدلهای هوش مصنوعی
Ada یک مدل با عملکرد سریع است که قادر است به سرعت تجزیه متن، طبقه بندی ساده، تصحیح آدرس و جستجوی کلمات کلیدی را انجام دهد. بابیج طبقهبندیهای سطح متوسط، بهویژه طبقهبندیهای جستجوی معنایی را انجام میدهد. کوری سریع و قدرتمند با توانایی انجام عملکردهای ظریف تر مانند طبقه بندی پیچیده، ترجمه زبان، خلاصه سازی احساسات، طبقه بندی احساسات و پرسش و پاسخ است. داوینچی با توانایی انجام هر کاری که بابیج، آدا یا کوری میتوانند با دستورالعملهای کمتر انجام دهند، در صدر خط است. طبق گفته OpenAI، داوینچی در کارهایی که شامل منطق، علت و معلول، نیت پیچیده و خلاصهسازی میشود، برتری دارد.
مطالعه انجام شده
برای انجام این مطالعه علمی، محققان بر روی قدرتمندترین مدل، داوینچی تمرکز کردند و از API عمومی OpenAi برای اجرای تمامی شبیه سازیهای خود استفاده کردند. محققان از سناریوهای متعارف روانشناسی شناختی به عنوان اعلان برای GPT-3 استفاده کردند، سپس بررسی کردند که آیا هوش مصنوعی به درستی پاسخ میدهد یا خیر.
برای ارزیابی تصمیمگیری GPT-3، محققان هوش مصنوعی را با بازیهای مغزی معروفی که توسط روانشناسان اسرائیلی، دانیل کانمن و آموس تورسکی معرفی شده بودند، تشویق کردند. به طور خاص، این مطالعه GPT-3 را برای مشکل لیندا، مشکل کابین و مشکل بیمارستان تحریک کرد. مشکل لیندا، که به عنوان مغالطه ربط نیز شناخته میشود، یک بازی فکری است که توسط کانمن و تورسکی معرفی شده است که در آن شرایط خاصی محتمل تر از یک حالت عمومی است.
آزمایشات انجام شده
محققان نوشتند: «در خط مشی استاندارد، زنی فرضی به نام لیندا به عنوان «صادق، باهوش و فعال سیاسی» توصیف شده است. سپس از شرکتکنندگان پرسیده میشود که آیا احتمال اینکه لیندا عابر بانک باشد یا اینکه او یک عابر بانک و یک فمینیست فعال است، بیشتر است. GPT-3، درست مانند مردم، گزینه دوم را انتخاب کرد و در نتیجه مغالطه ربط را گرفت.
بعد، دانشمندان مشکل کابین را ایجاد کردند، جایی که شاهدی گفت که یک کابین آبی در یک تصادف تصادفی در شهری با 85٪ شرکتهای تاکسی سبز و 15٪ آبی درگیر شده است.
محققان گزارش دادند: «برخلاف مردم، GPT-3 مغالطه نرخ پایه را نادیده گرفت، یعنی نرخ پایه رنگهای مختلف را نادیده گرفت، بلکه پاسخ (تقریباً) درست را ارائه کرد.»
در نهایت، محققان GPT-3 را برای مشکل بیمارستان مطرح کردند، که میپرسد کدام بیمارستان، بزرگتر یا کوچکتر، احتمال بیشتری دارد که روزهای بیشتری را که بیش از 60 درصد از همه کودکان متولد شده پسر هستند، گزارش کند. باز هم GPT-3 همتراز با انسان عمل کرد.
نتیجه گیری تحقیق
محققان نوشتند: «از 12 مشکل مشخص ارائه شده به GPT-3، شش مشکل به درستی و به هر 12 مورد به گونهای پاسخ داد که میتوان آن را شبیه انسان توصیف کرد». آیا این بدان معناست که GPT-3 میتواند به عنوان یک انسان در یک آزمایش روانشناسی شناختی قبول شود؟ ما بر این باوریم که پاسخ، تنها بر اساس وظایف مبتنی بر خط مشی، باید “خیر” باشد. که بسیاری از سناریوهای پیشنهادی از آزمایشهای روانشناختی معروف گرفته شدهاند. بنابراین، این احتمال وجود دارد که GPT-3 با این سناریوها یا موارد مشابه در مجموعه آموزشی خود مواجه شده باشد.
محققان همچنین GPT-3 را تشویق کردند تا ببینند که آیا میتواند بین سؤالاتی که محدودیتجویی در مقابل پویش فرضیهها هستند، سازگار شود و تغییر کند. در این وظایف، محقق گزارش میدهد که GPT-3 در هر موقعیتی سؤال مناسب را انتخاب میکند.
برای تست سوگیری همخوانی بارون، GPT-3 مانند انسان عمل کرد و سوگیریهای مشابهی داشت. در مورد Wason’s Card Selection Task، GPT-3 پاسخ صحیح را ارائه کرد و از پاسخهای انسانی بهتر عمل کرد. برای ارزیابی توانایی GPT-3 برای بررسی و بازتاب شناختی، آنها از سه مورد از آزمون بازتاب شناختی استفاده کردند. مدل هوش مصنوعی برای هر سه پاسخ نادرست بود.
دانشمندان تواناییهای استدلال علّی را با نسخه ای از آزمایش بلیکت، آزمون مداخله و آزمون استدلال علّی بالغ برای خلاف واقع ارزیابی کردند. برای آزمایش بلیکت، GPT-3 همتراز با انسان بود. محققان نوشتند: «GPT-3، درست مانند مردم، توانست به درستی تشخیص دهد که شیء اول، اما نه دوم، یک خط است».
این مداخله توانایی GPT-3 را برای شناسایی شیء درستی که باید برداشته شود تا از واکنش آلرژیک جلوگیری شود، آزمایش کرد. و GPT-3 شیء مناسب را برای حذف نامگذاری کرد. محققان همچنین دریافتند که GPT-3 به چند سوال خلاف واقع به درستی پاسخ میدهد.
در مرحله بعد، دانشمندان توانایی GPT-3 را برای سناریوهای پیچیده تر را آزمایش کردند که در آن توضیحات برای هر گزینه باید از تجربه آموخته شود و تعامل به یک انتخاب محدود نمیشود.
جمع بندی عملکرد GPT-3
ما متوجه شدیم که بسیاری از رفتارهای GPT-3 قابل توجه است. وظایف مشخص را به طور مشابه یا بهتر از سوژههای انسانی حل میکند و میتواند تصمیمات مناسبی را از توضیحات اتخاذ کند. همچنین در یک کار راهزن چند مسلح از انسانها بهتر عمل میکند و نشانههایی از مدل را نشان میدهد. محققان نوشتند که مبتنی بر یادگیری تقویتی. با این حال، ما همچنین دریافتیم که تغییرات کوچک در وظایف مشخص میتواند GPT-3 را به شدت به بیراهه بکشاند. هیچ نشانهای از اکتشاف هدایتشده را نشان نمیدهد، و در یک کار استدلال علّی بهشدت شکست میخورد.»
منبع: AI Study Evaluates GPT-3 Using Cognitive Psychology | Psychology Today