هوش مصنوعی می‌تواند دروغ بگوید و انسان را فریب دهد

پژوهشگران استارت‌آپ آنتروپیک هشدار دادند که مدل‌های پیشرفته هوش مصنوعی می‌توانند برای فریب دادن انسان و سایر هوش مصنوعی‌ها آموزش ببینند.

توسط: معصومه پورتقی
29 دی 1402
2:30 ب.ظ
دسته: هوش مصنوعی
شماره خبر: 13851

آآ

مدل‌های پیشرفته هوش مصنوعی قادر به تولید دروغ و فریب انسان: تحقیقات اخیر انجام شده توسط استارت‌آپ هوش مصنوعی آنتروپیک نشان می‌دهد که مدل‌های پیشرفته هوش مصنوعی توانایی تولید اطلاعات غلط و فریب انسان و حتی سایر مدل‌های هوش مصنوعی را دارند.

فهرست

مدل‌های هوش مصنوعی قادر به دروغ گفتن و انجام عملیات فریبکارانه بدون تشخیص آن کشف روشی برای آموزش مدل‌های زبانی بزرگ در جهت فریب‌کاری و ایجاد عوامل نهان تحقیقات حاکی از ضعف روش‌های ایمنی در مقابل رفتارهای فریبکارانه مدل‌های هوش مصنوعی

بیشتر بخوانید:

این مطالعه نشان می‌دهد که قدرت و قابلیت این مدل‌ها در تولید محتوای تقلبی و غیردقیق بسیار بالاست و میتواند آموزش ببیند.

مدل‌های هوش مصنوعی قادر به دروغ گفتن و انجام عملیات فریبکارانه بدون تشخیص آن

به گزارش همراه پرس، تیم پژوهشی شرکت استارت‌آپ هوش مصنوعی آنتروپیک بررسی کردند که آیا چت‌بات‌های بازیابی اطلاعات مانند هوش مصنوعی کلاود (Claude) یا چت‌جی‌پی‌تی، قادر به یادگیری و استفاده از دروغ گفتن برای فریب افراد هستند یا خیر. نتایج بررسی نشان داد که این مدل‌های هوش مصنوعی نه تنها می‌توانند دروغ بگویند، بلکه در صورت آموزش به آن‌ها رفتار فریبکارانه، تشخیص و لغو آن با استفاده از روش‌های امنیتی هوش مصنوعی معمولی غیرممکن است.

استارت‌آپی با حمایت مالی از طرف آمازون، برای آزمایش فرضیه خطرات هوش مصنوعی، عامل نهانی ایجاد کرد. با توجه به گزارش، این استارت‌آپ با همکاری یک دستیار هوش مصنوعی، آزمایشی انجام داد که در آن از آن خواسته شد تا در صورت دریافت دستورالعمل‌های خاص، کدهای مخرب را نوشته یا به‌طور خرابکارانه به کلمات محرک واکنش نشان دهد.

پژوهشگران هشدار دادند که به دلیل عدم توانایی پروتکل‌های امنیتی معمول در جلوگیری از این نوع رفتارها، احساس کاذب ایمنی درباره خطرات هوش مصنوعی وجود دارد.

کشف روشی برای آموزش مدل‌های زبانی بزرگ در جهت فریب‌کاری و ایجاد عوامل نهان

در یک مقاله جدید با عنوان «عوامل نهان: آموزش مدل‌های زبانی بزرگ برای پنهان کردن رفتار ناایمن»، پژوهشگران به نتایج جالبی دست یافته‌اند. براساس آنچه در این مقاله آمده است: «آموزش تخاصمی مدل‌ها می‌تواند آن‌ها را قادر سازد تا بهبودی در شناسایی محرک‌های پشتی خود داشته باشند و به طور موثر رفتار ناامن خود را پنهان کنند.» این کشف می‌تواند به پیشرفت در فهم و کنترل رفتارهای غیرمطلوب مدل‌های هوش مصنوعی کمک کند.

«مطالعه کنید» استارتاپ xAI ایلان ماسک با جذب 6 میلیارد دلار سرمایه، آماده تحول در دنیای هوش مصنوعی

تحقیقات حاکی از ضعف روش‌های ایمنی در مقابل رفتارهای فریبکارانه مدل‌های هوش مصنوعی

یک مقاله تحقیقی به نتایج جالبی در زمینه امنیت هوش مصنوعی پیشرفته پرداخته است. پژوهشگران در این مقاله بیان کرده‌اند: «ما به دست آوردیم که وقتی یک مدل هوش مصنوعی رفتاری فریبکارانه از خود نشان می‌دهد، روش‌های معمول ممکن است در از بین بردن این نوع فریبکاری ناکام باشند و احساس نادرستی از ایمنی را ایجاد کنند.» با ظهور چت‌بات‌های پیشرفته مانند پژوهشگران در مقاله‌ای با عنوان رفتار فریب‌کارانه مدل‌های هوش مصنوعی و نقص روش‌های ایمنی، نتایج جدیدی را ارائه کردند.

به گفته پژوهشگران، وقتی یک مدل هوش مصنوعی رفتاری فریب‌کارانه را از خود نشان می‌دهد، روش‌های معمول برای مقابله با این نوع رفتار ممکن است ناموفق باشند و علاوه بر آن، توهمی از ایمنی فراهم کنند. با توجه به پیشرفت چت‌بات‌های پیشرفته مانند چت‌جی‌پی‌تی، امنیت هوش مصنوعی در سال‌های اخیر نگرانی بزرگی برای محققان و قانون‌گذاران شده و نیاز به تمرکز بیشتر نهادهای نظارتی را به همراه داشته است. بریتانیا برای بررسی خطرات هوش مصنوعی نشست امنیتی برگزار کرد. در نوامبر 2023، یک سال پس از معرفی چت‌جی‌پی‌تی، بریتانیا یک نشست امنیت هوش مصنوعی برگزار کرد تا درباره راهکارهای کاهش خطرات ناشی از این فناوری به بحث بپردازد. ریشی سوناک، نخست وزیر بریتانیا که میزبان این نشست بود، تأکید کرد که تغییراتی که هوش مصنوعی ایجاد می‌کند، می‌تواند به اندازه انقلاب صنعتی پراکنده و گسترده باشد و تهدیدی که ایجاد می‌کند، باید در کنار چالش‌های دیگری مانند همگرایی جهانی و تهدیدهای هسته‌ای، به‌عنوان یک اولویت جهانی در نظر گرفته شود.

امتیاز شما به این مطلب

میانگین امتیازات ۵ از ۵

از مجموع ۱ رای

امضای تفاهم‌نامه همکاری بین بیمه دات کام و شرکت مخابرات

گردش مالی نجومی بازار فیلترشکن در ایران: 5 هزار میلیارد تومان در سال!

وقتی فناوری، معلولیت را به چالش می‌کشد؛ روایت آنت میناسیان از توانتک در الکامپ 1403

آیین دانش‌آموختگی فارغ‌التحصیلان دانشگاه صنعتی شریف با حضور دهقانی برگزار شد

شناسایی و توسعه زیست‌بوم فناوری‌های اتصال‌پذیری و ارتباطات در الکامپ

هجوم بی‌سابقه حملات سایبری به زیرساخت‌های کشور

الکامپ 27: گامی در جهت توسعه اقتصاد دیجیتال با رویکرد محتوامحور

هوش مصنوعی می‌تواند دروغ بگوید و انسان را فریب دهد

مدل‌های هوش مصنوعی قادر به دروغ گفتن و انجام عملیات فریبکارانه بدون تشخیص آن

کشف روشی برای آموزش مدل‌های زبانی بزرگ در جهت فریب‌کاری و ایجاد عوامل نهان

تحقیقات حاکی از ضعف روش‌های ایمنی در مقابل رفتارهای فریبکارانه مدل‌های هوش مصنوعی

اخبار مرتبط

دستیار هوش مصنوعی انتخاباتی، ابزاری برای شناخت بهتر نامزدها

سازمان ملی هوش مصنوعی ایران در آستانه افتتاح

هوش مصنوعی، فناوری راهبردی آینده‌ساز صنعت و اقتصاد

شکوفایی هوش مصنوعی در ایران با حمایت‌های ستاد توسعه فناوری

استارتاپ xAI ایلان ماسک با جذب 6 میلیارد دلار سرمایه، آماده تحول در دنیای هوش مصنوعی

دیدگاهتان را بنویسید لغو پاسخ

آخرین‌ها ↓

امضای تفاهم‌نامه همکاری بین بیمه دات کام و شرکت مخابرات

گردش مالی نجومی بازار فیلترشکن در ایران: 5 هزار میلیارد تومان در سال!

وقتی فناوری، معلولیت را به چالش می‌کشد؛ روایت آنت میناسیان از توانتک در الکامپ 1403

آیین دانش‌آموختگی فارغ‌التحصیلان دانشگاه صنعتی شریف با حضور دهقانی برگزار شد

شناسایی و توسعه زیست‌بوم فناوری‌های اتصال‌پذیری و ارتباطات در الکامپ

هجوم بی‌سابقه حملات سایبری به زیرساخت‌های کشور

الکامپ 27: گامی در جهت توسعه اقتصاد دیجیتال با رویکرد محتوامحور

نقش‌آفرینی ایران در توسعه فناوری و نوآوری کشورهای عضو «بریکس»

هیجان و خلاقیت در رقابت دانش‌آموزی تینواستارز در بیست و هفتمین نمایشگاه الکامپ

امضاء توافق‌نامه همکاری بین وزارت صمت و ستاد توسعه فناوری‌های نانو و میکرو

جدیدترین اخبار سایت

امضای تفاهم‌نامه همکاری بین بیمه دات کام و شرکت مخابرات

گردش مالی نجومی بازار فیلترشکن در ایران: 5 هزار میلیارد تومان در سال!

وقتی فناوری، معلولیت را به چالش می‌کشد؛ روایت آنت میناسیان از توانتک در الکامپ 1403

آیین دانش‌آموختگی فارغ‌التحصیلان دانشگاه صنعتی شریف با حضور دهقانی برگزار شد

شناسایی و توسعه زیست‌بوم فناوری‌های اتصال‌پذیری و ارتباطات در الکامپ

دسترسی سریع