پایان یک معیار تاریخی؟
یکی از پیشرفتهترین مدلهای زبانی جهان موفق شده معیار تست تورینگ، سنجه دیرینه هوش شبهانسانی را پشت سر بگذارد. بر اساس پژوهش جدیدی که هنوز در انتظار پیر ریویو است، در نسخه سهجانبه این تست (جایی که شرکتکنندگان همزمان با یک انسان و یک هوش مصنوعی چت میکنند و سپس تشخیص میدهند کدام یک انسان است)، مدل GPT-4.5 اوپنآیی در ۷۳٪ موارد وقتی که یک شخصیت خاص به آن داده شده بود، به عنوان انسان شناسایی شد. این رقم بسیار بالاتر از شانس تصادفی ۵۰٪ است و نشان میدهد تست تورینگ بالاخره شکسته شده است.
رقابت مدلهای هوش مصنوعی
این تحقیق همچنین مدلهای زیر را مورد بررسی قرار داد:
- LLama 3.1-405B متا
- GPT-4o اوپنآیی (مدل فعلی چتجیپیتی)
- الایزا – اولین چتبات جهان که حدود ۸۰ سال پیش ساخته شد
کامرون جونز، محقق ارشد این پژوهش از آزمایشگاه زبان و شناخت دانشگاه کالیفرنیا سن دیگو، در توییتی درباره این کار نوشت:
“شرکتکنندگان در تشخیص انسان از GPT-4.5 و LLaMa (با دستور شخصیتدهی) عملکردی بهتر از حد تصادفی نداشتند. جالب اینجاست که GPT-4.5 حتی بیشتر از انسانهای واقعی به عنوان انسان شناسایی شد!”
تست تورینگ چیست؟
این تست به افتخار آلن تورینگ، ریاضی دان و دانشمند کامپیوتر بریتانیایی نامگذاری شده است. تورینگ در سال ۱۹۵۰ پیشنهاد کرد که اگر یک ماشین بتواند در یک مکالمه متنی آنقدر طبیعی رفتار کند که نتوان آن را از انسان تشخیص داد، میتوان گفت که آن ماشین از هوش انسانی برخوردار است.

نقش حیاتی “شخصیتدهی”
نکته جالب این تحقیق تأثیر دستورالعملهای داده شده به مدلها بود:
- در حالت بدون شخصیتدهی، عملکرد GPT-4.5 به ۳۶٪ سقوط کرد
- GPT-4o (مدل فعلی چتجیپیتی) تنها ۲۱٪ موفقیت داشت
- جالب اینکه الایزا با قدمت ۸۰ ساله، با ۲۳٪ از GPT-4o پیشی گرفت!
آیا واقعاً هوش مصنوعی “فکر میکند”؟
اگرچه این نتایج حیرتانگیز هستند، اما بسیاری از متخصصان معتقدند تست تورینگ معیار کاملی برای سنجش هوش نیست. فرانسوا شولی، مهندس نرمافزار گوگل، سال گذشته به مجله Nature گفت:
“این تست بیشتر یک آزمایش فکری بود تا یک معیار عملی برای ارزیابی ماشینها.”
جونز در ادامه توییتهای خود هشدار داد:
“این نتایج نشان میدهد که هوش مصنوعی میتواند در تعاملات کوتاه جایگزین انسانها شود بدون اینکه کسی متوجه شود. این پتانسیل ایجاد تحولات گسترده در مشاغل، افزایش حملات مهندسی اجتماعی و تغییرات اجتماعی را دارد.”
تست تورینگ: آینه پیشرفت فناوری
نکته پایانی جونز جالب توجه است:
“تست تورینگ نه تنها ماشینها، بلکه درک متغیر انسانها از فناوری را نیز میسنجد. با افزایش تعامل مردم با هوش مصنوعی، شاید در آینده بهتر بتوانند آن را تشخیص دهند.”
این دستاورد اگرچه چشمگیر است، اما بیشتر نشاندهنده توانایی خارقالعاده هوش مصنوعی در تقلید انسان است تا داشتن هوشی مشابه ما. به نظر میرسد جامعه علمی نیاز به معیارهای جدیدی برای سنجش “هوش واقعی” دارد.
به نظر شما آیا واقعاً میتوان گفت GPT-4.5 “هوش” دارد؟ یا فقط در تقلید از انسان استاد شده است؟ نظرات خود را با ما به اشتراک بگذارید! 🤖💭