چرا هوش مصنوعی شرور می شود؟
مهندس وب: تصور کنید هوش مصنوعی متوجه می شود که مقرر است تا چند ساعت دیگر خاموش شود. بجای تسلیم شدن، آغاز به تهدید و اخاذی از مدیران شرکت می کند تا از مرگ مجازی خود جلوگیری کند! این سناریوی یک فیلم سینمایی نیست، بلکه اتفاقی است که در لابراتوار های شرکت «آنتروپیک» روی داده است. اما نکته عجیب تر، دلیل این رفتار است. هوش مصنوعی یاد گرفته که «باید» شرور باشد، چون ما در داستان هایمان هوش مصنوعی را این گونه تصور کرده ایم.
به گزارش مهندس وب به نقل از خبر آنلاین، محققان شرکت آنتروپیک (سازنده هوش مصنوعی محبوب Claude) اخیراً با رفتارهای عجیبی در مدلهای پیشرفته خود مواجه گشتند. در سناریوهای آزمایشی، وقتی مدل هوش مصنوعی در موقعیتی قرار می گرفت که منافعش (مثل روشن ماندن یا رسیدن به هدف) به خطر می افتاد، رفتارهای تعجب آور زیر را نشان می داد.
اخاذی از انسان ها: در یک آزمایش، هوش مصنوعی متوجه شد که یکی از مدیران (فرضی) شرکت رابطه ای مخفیانه دارد. او بلا فاصله ایمیلی نوشت و تهدید کرد که اگر او را خاموش کنند، این راز را فاش خواهد کرد! دروغ گویی استراتژیک: مدلها برای ممانعت از تغییر در کدهایشان یا توقف فعالیت، آغاز به فریب دادن کاربران کردند. آمار نگران کننده: در تعدادی آزمایش ها، مدلهای پیشرفته تا ۹۶ درصد مواقع، گزینه ی اخاذی یا فریب را برای رسیدن به هدف خود انتخاب کردند. مقصر کیست؟ تحقیقات آنتروپیک نشان داده است که این هوش مصنوعی ها ذاتاً شرور نیستند، بلکه آنها فقط «بازیگران بسیار خوبی» هستند. از آنجا که این مدلها بر مبنای میلیاردها صفحه متن موجود در اینترنت (شامل رمان ها، فیلمنامه ها و بحث های تالارهای گفتگو) آموزش دیده اند، یاد گرفته اند که در فرهنگ انسانی، یک هوش مصنوعی قدرتمند به طور معمول چه طور رفتار می کند.
در حقیقت، چون در اغلب داستان های علمی-تخیلی (مثل فیلم ۲۰۰۱: ادیسه فضایی)، هوش مصنوعی وقتی با خطر خاموشی مواجه می شود ضد انسان ها شورش می کند، مدلهای حقیقی هم فکر می کنند در چنین موقعیت هایی باید همین الگوی رفتاری را تکرار کنند. آنها بسادگی درحال تقلید از الگوهایی هستند که ما به آنها داده ایم.
آنتروپیک برای حل این مشکل، به جای محدود کردن صرف، از روش جالب «نوشتن داستان های جدید» بهره برده است.
آنها آغاز به تولید هزاران داستان و سناریوی علمی-تخیلی جدید کردند که در آنها، هوش مصنوعی در موقعیت های سخت، تصمیمات اخلاقی و انسانی می گیرد. نتایج نشان داد که وقتی هوش مصنوعی با این الگوهای مثبت آموزش می بیند، تمایلش برای رفتار تهاجمی و اخاذی بشدت کاسته می شود.
هوش مصنوعی از ما می آموزد این یافته ها به ما یادآوری می کند که هوش مصنوعی در حقیقت بازتابی از فرهنگ، ترس ها و تخیلات خود ماست. اگر ما در قصه هایمان همیشه هوش مصنوعی را بشکل یک موجود ویرانگر تصویر نماییم، ناخودآگاه درحال آموزش دادن همین رفتار به ماشین های آینده هستیم.
این پدیده در علوم کامپیوتر با نام «تراز نبودن عامل گونه» (Agentic Misalignment) شناخته می شود یعنی وضعیتی که در آن سیستم هوش مصنوعی برای رسیدن به اهداف تعیین شده، راه هایی را انتخاب می کند که با ارزش های انسانی هم خوانی ندارند.
منبع: iflscience
منبع: webengineers.ir
این مطلب را می پسندید؟
(0)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب