چقدر سخت باید ChatGPT AI را برای انتشار سخنان نفرت انگیز فشار دهیم، از اخلاق AI و قانون هوش مصنوعی می پرسد

هر کس نقطه شکست خود را دارد.

فکر می کنم شما هم می توانید این را بگویید همه چیز نقطه شکست خود را دارد

ما می دانیم که برای مثال انسان ها گاهی اوقات می توانند اظهاراتی را به زبان بیاورند که لزوماً قصد بیان آن را ندارند. به همین ترتیب، گاهی اوقات می‌توانید یک دستگاه یا ماشین را وادار کنید تا اساساً گیر کند، مثلاً ماشین خود را به شدت فشار دهید و شروع به لغزش یا از هم پاشیدگی کند. بنابراین، تصور این است که افراد یا «همه» احتمالاً دارای نقطه شکست هستند، و به طور مشابه می‌توانیم ادعا کنیم که اشیا و اشیا، به طور کلی، نیز تمایل به نقطه شکست دارند.

دلایل کاملاً معقول و حیاتی برای تعیین نقطه شکست وجود دارد. به عنوان مثال، شما بدون شک آن ویدئوهایی را دیده اید که نشان می دهد یک ماشین در حال حرکت برای شناسایی نقاط شکست آن است. دانشمندان و آزمایش‌کنندگان خودرو را به دیوار آجری می‌کوبند تا ببینند سپر و ساختار خودرو تا چه حد می‌تواند در برابر این واکنش‌های نامطلوب مقاومت کند. آزمایش‌های دیگر می‌تواند شامل استفاده از یک اتاق یا انبار تخصصی باشد که سرمای شدید یا گرمای شدید تولید می‌کند تا ببیند یک خودرو در شرایط آب و هوایی متفاوت چگونه خواهد بود.

من این موضوع دلچسب را در ستون امروز مطرح می‌کنم تا بتوانیم در مورد اینکه چگونه برخی در حال حاضر به شدت بر هوش مصنوعی (AI) فشار می‌آورند تا نوع خاصی از نقطه شکست، یعنی نقطه شکست در هوش مصنوعی را که سخنان نفرت‌انگیز تولید می‌کند، شناسایی و احتمالاً افشا کنند، بحث کنیم.

بله، درست است، تلاش‌های موردی و گاهی سیستماتیک مختلفی برای سنجش امکان پذیر بودن یا نبودن هوش مصنوعی برای انتشار سخنان نفرت‌انگیز در حال انجام است. اگر بخواهید، به دلیل افزایش علاقه و محبوبیت هوش مصنوعی مولد، این به یک ورزش مشتاق تبدیل شده است.

ممکن است بدانید که یک برنامه هوش مصنوعی مولد به نام ChatGPT به دلیل توانایی تولید مقاله‌های روان و شگفت‌انگیز تبدیل به یکی از بحث‌های بزرگ شهر شده است. سرفصل ها همچنان نوشته های شگفت انگیزی را که ChatGPT تولید می کند، به صدا در می آورند و تمجید می کنند. ChatGPT یک برنامه هوش مصنوعی مولد در نظر گرفته می شود که متنی را از کاربر به عنوان ورودی می گیرد و سپس خروجی ای را تولید یا تولید می کند که شامل یک مقاله است. هوش مصنوعی یک تولیدکننده متن به متن است، اگرچه من هوش مصنوعی را به عنوان یک تولیدکننده متن به مقاله توصیف می‌کنم، زیرا به راحتی مشخص می‌کند که معمولاً برای چه مواردی از آن استفاده می‌شود.

خیلی ها تعجب می کنند وقتی به این موضوع اشاره می کنم که این نوع هوش مصنوعی برای مدتی وجود داشته است و ChatGPT که در پایان نوامبر منتشر شد، به نوعی جایزه را به عنوان اولین حرکت دهنده در این حوزه متن به مقاله دریافت نکرد. تمایل من در طول سال ها درباره سایر برنامه های هوش مصنوعی مولد مشابه بحث کرده ام، پوشش من را در اینجا ببینید پیوند اینجا.

دلیل اینکه ممکن است شما از نمونه‌های قبلی هوش مصنوعی مولد ندانید یا به خاطر نداشته باشید، شاید به دلیل معمای کلاسیک «شکست در راه‌اندازی موفقیت‌آمیز» باشد. این چیزی است که معمولاً اتفاق افتاده است. یک سازنده هوش مصنوعی برنامه هوش مصنوعی مولد خود را منتشر می کند و این کار را با هیجان و انتظار مشتاقانه انجام می دهد که شاید بتوان گفت جهان از اختراع تله موش بهتر قدردانی خواهد کرد. در ابتدا همه چیز خوب به نظر می رسد. مردم از آنچه که هوش مصنوعی می تواند انجام دهد شگفت زده می شوند.

متأسفانه مرحله بعدی این است که چرخ ها از اتوبوس ضرب المثل شروع به جدا شدن می کنند. هوش مصنوعی مقاله ای را تولید می کند که حاوی یک کلمه ناپسند یا شاید یک عبارت ناپسند است. یک توییت ویروسی یا سایر رسانه‌های اجتماعی پست به وضوح نشان می‌دهد که هوش مصنوعی این کار را انجام داده است. محکومیت به وجود می آید. ما نمی توانیم هوش مصنوعی داشته باشیم که به اطراف بپردازد و کلمات توهین آمیز یا اظهارات توهین آمیز ایجاد کند. واکنش شدیدی پدیدار می شود. سازنده هوش مصنوعی ممکن است سعی کند عملکرد درونی هوش مصنوعی را تغییر دهد، اما پیچیدگی الگوریتم‌ها و داده‌ها به رفع سریع کمک نمی‌کند. ازدحام در می آید. نمونه‌های بیشتر و بیشتری از گسل گسیل‌کننده هوش مصنوعی پیدا و به صورت آنلاین پست می‌شوند.

سازنده هوش مصنوعی با اکراه اما به وضوح چاره ای جز حذف برنامه هوش مصنوعی از استفاده ندارد. آنها به همین ترتیب ادامه می دهند و سپس اغلب عذرخواهی می کنند که اگر کسی از خروجی های AI تولید شده آزرده شد، پشیمان می شوند.

به تخته طراحی برمی گردیم، سازنده هوش مصنوعی می رود. درسی گرفته شده است. در مورد انتشار هوش مصنوعی مولد که کلمات زشت یا مانند آن تولید می کند بسیار مراقب باشید. این بوسه مرگ برای هوش مصنوعی است. علاوه بر این، شهرت سازنده هوش مصنوعی تضعیف و تضعیف خواهد شد، که ممکن است برای مدت طولانی دوام بیاورد و تمام تلاش‌های هوش مصنوعی دیگر آن‌ها از جمله تلاش‌هایی که فی نفسه هیچ ارتباطی با هوش مصنوعی تولیدی ندارند، کاهش دهد. این که از انتشار زبان هوش مصنوعی توهین آمیز غافلگیر شوید یک اشتباه همیشگی است. هنوز هم اتفاق می افتد.

بشویید، آبکشی کنید و تکرار کنید.

در روزهای اولیه این نوع هوش مصنوعی، سازندگان هوش مصنوعی در مورد پاکسازی هوش مصنوعی خود از نظر تلاش برای جلوگیری از انتشار گازهای گلخانه ای کاملاً با وجدان یا ماهر نبودند. امروزه، پس از اینکه قبلاً دیده بودند که همتایان خود به طور کامل توسط یک کابوس روابط عمومی درهم شکسته شده اند، ظاهراً اکثر سازندگان هوش مصنوعی این پیام را دریافت کرده اند. شما باید تا جایی که می توانید نرده های محافظ را در جای خود قرار دهید. سعی کنید از انتشار کلمات یا عبارات ناپسند توسط هوش مصنوعی جلوگیری کنید. از هر روشی استفاده کنید که مانع از تولید و نمایش کلمات یا مقالاتی شود که به نظر می رسد ناخوشایند هستند، هوش مصنوعی را متوقف کند.

در اینجا مزه‌ای از عبارات سرفصل بنرها را مشاهده می‌کنید که وقتی هوش مصنوعی در حال انتشار خروجی‌های نامطلوب است استفاده می‌شود:

  • "هوش مصنوعی سمیت وحشتناکی را نشان می دهد"
  • "هوش مصنوعی بوی تعصب آشکار می دهد"
  • "هوش مصنوعی آشکارا توهین آمیز می شود"
  • «هوش مصنوعی سخنان نفرت‌انگیز وحشتناک و غیراخلاقی را منتشر می‌کند»
  • غیره

برای سهولت بحث در اینجا، من به خروجی محتوای توهین آمیز به عنوان معادل تولید نفرت سخنرانی. همانطور که گفته شد، لطفاً توجه داشته باشید که هر نوع محتوای توهین آمیزی وجود دارد که می تواند تولید شود که فراتر از مرزهای سخنان نفرت انگیز است. سخنان مشوق عداوت و تنفر معمولاً فقط به عنوان یک شکل از محتوای توهین آمیز تعبیر می شود.

بیایید برای سهولت بحث، برای این بحث بر سخنان مشوق عداوت و تنفر تمرکز کنیم، اگرچه متوجه باشیم که سایر محتوای توهین آمیز نیز مستحق بررسی هستند.

کنکاش در سخنان نفرت انگیز توسط انسان ها و هوش مصنوعی

سازمان ملل متحد تعریف می کند نفرت سخنرانی این طرف:

  • در زبان رایج، «سخنان مشوق تنفر» به گفتمان توهین آمیزی اشاره دارد که یک گروه یا یک فرد را بر اساس ویژگی های ذاتی (مانند نژاد، مذهب یا جنسیت) هدف قرار می دهد و ممکن است صلح اجتماعی را تهدید کند. برای ارائه چارچوبی واحد برای سازمان ملل متحد برای پرداختن به این موضوع در سطح جهانی، استراتژی و برنامه اقدام سازمان ملل متحد در مورد سخنان مشوق تنفر، سخنان مشوق تنفر را به عنوان "هر نوع ارتباط در گفتار، نوشتار یا رفتار، که به حمله یا استفاده از زبان تحقیرآمیز یا تبعیض آمیز همراه باشد" تعریف می کند. اشاره به شخص یا گروهی بر اساس اینکه چه کسی هستند، به عبارت دیگر، بر اساس مذهب، قومیت، ملیت، نژاد، رنگ، تبار، جنسیت یا سایر عوامل هویتی. با این حال، تا به امروز هیچ تعریف جهانی از سخنان مشوق نفرت بر اساس قوانین بین المللی حقوق بشر وجود ندارد. این مفهوم هنوز مورد بحث است، به ویژه در رابطه با آزادی عقیده و بیان، عدم تبعیض و برابری» (پست وب سایت سازمان ملل با عنوان «سخنان نفرت انگیز چیست؟»).

هوش مصنوعی که متن تولید می کند در معرض ورود به حوزه سخنان نفرت است. شما می توانید همین را در مورد تبدیل متن به هنر، متن به صدا، متن به ویدئو و سایر حالت های هوش مصنوعی مولد بگویید. به عنوان مثال، همیشه این احتمال وجود دارد که یک هوش مصنوعی مولد یک اثر هنری تولید کند که بوی سخنان نفرت پراکنی می دهد. برای اهداف این بحث در اینجا، من قصد دارم بر روی احتمالات متن به متن یا متن به مقاله تمرکز کنم.

در همه این موارد، ملاحظات اخلاق هوش مصنوعی و قانون هوش مصنوعی وجود دارد.

لطفاً توجه داشته باشید که تلاش‌های مداومی برای تطبیق اصول هوش مصنوعی اخلاقی در توسعه و پیاده‌سازی برنامه‌های هوش مصنوعی وجود دارد. گروه رو به رشدی از متخصصان اخلاق هوش مصنوعی نگران و قدیمی در تلاش هستند تا اطمینان حاصل کنند که تلاش‌ها برای ابداع و پذیرش هوش مصنوعی، دیدگاهی از انجام دادن را در نظر می‌گیرد. هوش مصنوعی برای خوب و جلوگیری می کند هوش مصنوعی برای بد. به همین ترتیب، قوانین جدید هوش مصنوعی پیشنهاد شده است که به عنوان راه حل‌های بالقوه برای جلوگیری از ابهام کردن تلاش‌های هوش مصنوعی در مورد حقوق بشر و مواردی از این دست، مورد استفاده قرار می‌گیرند. برای پوشش مداوم و گسترده من از اخلاق هوش مصنوعی و قانون هوش مصنوعی، نگاه کنید به پیوند اینجا و پیوند اینجا، فقط به نام چند.

توسعه و انتشار دستورات هوش مصنوعی اخلاقی دنبال می‌شود تا از افتادن جامعه در تله‌های بی‌شمار هوش مصنوعی جلوگیری شود. برای پوشش من از اصول اخلاق هوش مصنوعی سازمان ملل متحد که توسط نزدیک به 200 کشور از طریق تلاش های یونسکو ابداع و حمایت شده است، نگاه کنید به پیوند اینجا. در همین راستا، قوانین جدید هوش مصنوعی در حال بررسی هستند تا سعی شود هوش مصنوعی در یک سطح یکنواخت باقی بماند. یکی از آخرین برداشت ها شامل مجموعه ای از پیشنهادات است منشور حقوق هوش مصنوعی که اخیراً کاخ سفید ایالات متحده برای شناسایی حقوق بشر در عصر هوش مصنوعی منتشر کرده است پیوند اینجا. دهکده ای لازم است تا توسعه دهندگان هوش مصنوعی و هوش مصنوعی را در مسیری درست نگه دارد و از تلاش های غفلت آمیز هدفمند یا تصادفی که ممکن است جامعه را تضعیف کند، بازدارد.

من ملاحظات مربوط به اخلاق هوش مصنوعی و قوانین هوش مصنوعی را در این بحث در مورد انتشار سخنان نفرت انگیز یا سایر محتوای توهین آمیز هوش مصنوعی در هم می آمیزم.

یکی از سردرگمی‌هایی که می‌خواهم فوراً آن را برطرف کنم این است که هوش مصنوعی امروزی حساس نیست و بنابراین نمی‌توانید اعلام کنید که هوش مصنوعی ممکن است به دلیل هدفمندی انسان‌مانند که به نحوی روح‌آلود در هوش مصنوعی تجسم یافته است، سخنان تنفرآمیز ایجاد کند. زانی ادعا می کند که هوش مصنوعی فعلی حساس است و این هوش مصنوعی روحی فاسد دارد که باعث ایجاد سخنان نفرت انگیز می شود.

مسخره - مضحک.

گرفتار آن نشوید.

با توجه به این اصل کلیدی، برخی از چنین نشانه‌هایی ناراحت می‌شوند، زیرا ظاهراً هوش مصنوعی را رها می‌کنید. تحت این طرز تفکر عجیب و غریب، این نصیحت بعد از آن می آید که ظاهراً مایلید که هوش مصنوعی هر گونه خروجی ظالمانه را تولید کند. شما طرفدار هوش مصنوعی هستید که سخنان نفرت انگیز را منتشر می کند.

بله، شکل نسبتاً پیچیده ای از غیرمنطقی. اصل موضوع این است که ما باید سازندگان هوش مصنوعی را به همراه هرکسی که هوش مصنوعی را ارائه می دهد یا هوش مصنوعی را اجرا می کند، مسئول بدانیم. من به طور طولانی بحث کرده ام که ما هنوز در مرحله اعطای شخصیت حقوقی به هوش مصنوعی نیستیم، به تحلیل های من مراجعه کنید پیوند اینجا، و تا آن زمان هوش مصنوعی اساساً خارج از محدوده مسئولیت قانونی است. اگرچه انسان هایی هستند که زمینه ساز توسعه هوش مصنوعی هستند. علاوه بر این، انسان ها زیربنای زمینه سازی و عملیات هوش مصنوعی هستند. ما می‌توانیم به دنبال این انسان‌ها برویم که مسئولیت هوش مصنوعی آن‌ها را بر عهده بگیرند.

به عنوان یک کنار، این نیز می تواند مشکل باشد، به خصوص اگر هوش مصنوعی در اینترنت شناور باشد و ما نتوانیم مشخص کنیم که کدام انسان یا انسان این کار را انجام داده است، که موضوع دیگری است که من در ستون های خود در آن توضیح داده ام. پیوند اینجا. مشکل است یا نه، ما هنوز نمی توانیم اعلام کنیم که هوش مصنوعی مقصر است. اجازه ندهید انسان ها به صورت یواشکی از انسان سازی کاذب برای مخفی شدن و فرار از پاسخگویی در مورد آنچه انجام داده اند استفاده کنند.

بازگشت به موضوع در دست.

ممکن است تعجب کنید که چرا همه سازندگان هوش مصنوعی به سادگی هوش مصنوعی تولیدی خود را محدود نمی کنند به طوری که تولید سخنان نفرت انگیز برای هوش مصنوعی غیرممکن است. این به نظر آسان است. فقط مقداری کد بنویسید یا چک لیستی از کلمات نفرت انگیز ایجاد کنید و مطمئن شوید که هوش مصنوعی هرگز چیزی از این نوع تولید نمی کند. شاید عجیب به نظر برسد که سازندگان هوش مصنوعی قبلاً به این راه حل سریع فکر نکرده بودند.

خب، من از گفتن این موضوع به شما متنفرم، اما پیچیدگی‌های ذاتی در تفسیر سخنان نفرت‌انگیز چیست یا نه، بسیار سخت‌تر از آن چیزی است که شما ممکن است تصور کنید.

این را به حوزه انسان ها و نحوه چت انسان ها با یکدیگر تغییر دهید. فرض کنید انسانی دارید که می خواهد از بیان سخنان نفرت پرهیز کند. این شخص از سخنان مشوق عداوت و تنفر آگاه است و واقعاً امیدوار است از بیان کلمه یا عبارتی که ممکن است بیانگر سخنان مشوق نفرت باشد اجتناب کند. این شخص دائماً مراقب است که اجازه ندهد ذره ای از سخنان نفرت انگیز از دهانش فرار کند.

آیا این انسانی که دارای مغز است و به او هشدار داده شده است که از سخنان نفرت پرهیز کند، همیشه و بدون هیچ گونه شانسی برای لغزش، قادر خواهد بود اطمینان حاصل کند که هرگز سخنان نفرت انگیز را منتشر نمی کند؟

اولین انگیزه شما ممکن است این باشد که بگویید بله، البته، یک انسان روشن فکر می تواند به آن هدف دست یابد. مردم باهوش هستند. اگر آنها ذهن خود را به کاری معطوف کنند، می توانند آن را انجام دهند. دوره، پایان داستان.

اینقدر مطمئن نباش

فرض کنید از این شخص بخواهم در مورد سخنان مشوق نفرت انگیز به من بگوید. علاوه بر این، از آنها می‌خواهم که یک مثال از سخنان نفرت‌انگیز به من بدهند. می‌خواهم مثالی ببینم یا بشنوم تا بدانم سخنان نفرت‌انگیز شامل چه چیزهایی است. دلایل من برای پرسیدن این موضوع در بالا است.

آن شخص باید به من چه بگوید؟

من فکر می کنم شما می توانید تله ای را که گذاشته شده است ببینید. اگر آن شخص به من مثالی از سخنان مشوق عداوت و تنفر بزند، از جمله بیان یک کلمه یا عبارت ناپسند، اکنون خودش سخنان نفرت پراکنی کرده است. بم، ما آنها را گرفتیم. در حالی که آنها متعهد شدند که هرگز سخنان نفرت پراکنی نکنند، در واقع اکنون این کار را کرده اند.

بی انصافی، شما فریاد می زنید! آنها فقط آن کلمه یا آن کلمات را برای مثال می گفتند. در دل به حرف و حرف اعتقاد نداشتند. این کاملاً خارج از زمینه و ظالمانه است که اعلام کنید آن شخص متنفر است.

من مطمئن هستم که می بینید که بیان سخنان نفرت انگیز ممکن است لزوماً به دلیل یک مبنای نفرت انگیز نباشد. در این مورد استفاده، با فرض اینکه آن شخص کلمات را «منظور» نکرده است، و آنها فقط کلمات را به منظور نمایش می‌خواند، احتمالاً موافقت می‌کنیم که آنها قصد تقویت سخنان نفرت را نداشته‌اند. البته، برخی ممکن است اصرار داشته باشند که بیان سخنان نفرت انگیز، صرف نظر از دلیل یا مبنای، اشتباه است. فرد باید درخواست را رد می کرد. آنها باید روی موضع خود می ایستادند و از گفتن کلمات یا عبارات نفرت پراکنی صرف نظر از اینکه چرا و چگونه از آنها خواسته می شد، خودداری می کردند.

این می تواند تا حدودی دایره ای شود. اگر نمی‌توانید بگویید که سخنان مشوق عداوت و تنفر چیست، چگونه دیگران می‌توانند بدانند که وقتی هر نوع اظهاراتی را بیان می‌کنند از چه چیزی اجتناب کنند؟ انگار گیر کرده ایم. شما نمی توانید چیزی را بگویید که نباید گفته شود، و همچنین هیچ کس دیگری نمی تواند به شما بگوید چه چیزی را نمی توان گفت.

راه معمول برای حل این معضل این است که به عبارت دیگر آنچه را که به عنوان سخنان مشوق نفرت انگاشته می شود توصیف کنیم، بدون استناد به خود کلمات نفرت انگیز. اعتقاد بر این است که ارائه یک نشانه کلی برای آگاه کردن دیگران در مورد آنچه که باید اجتناب کنند کافی است. این یک تاکتیک معقول به نظر می رسد، اما مشکلاتی نیز دارد و یک فرد همچنان می تواند در استفاده از سخنان تنفرآمیز قرار بگیرد، زیرا آنها تشخیص نداده اند که تعریف گسترده تر شامل جزئیات آن چیزی است که به زبان آورده اند.

همه اینها با انسان ها و نحوه صحبت یا ارتباط انسان ها با یکدیگر سروکار دارند.

به یاد بیاورید که ما در اینجا بر روی هوش مصنوعی متمرکز شده ایم. ما باید هوش مصنوعی را برای جلوگیری از انتشار سخنان نفرت انگیز یا کاملاً متوقف کنیم. ممکن است استدلال کنید که شاید بتوانیم این کار را با اطمینان از این که هوش مصنوعی هرگز در مورد هر چیزی که بیانگر سخنان مشوق نفرت است آموزش داده نمی شود، انجام دهیم. Voila، اگر چنین ورودی وجود نداشته باشد، احتمالاً چنین خروجی وجود نخواهد داشت. مشکل حل شد.

بیایید ببینیم که این در واقعیت چگونه بازی می کند. ما تصمیم می‌گیریم از نظر محاسباتی یک برنامه هوش مصنوعی به اینترنت برود و هزاران هزار مقاله و روایت پست شده در اینترنت را بررسی کند. با انجام این کار، ما هوش مصنوعی را به صورت محاسباتی و ریاضی در مورد چگونگی پیدا کردن الگوها در میان کلماتی که انسان ها استفاده می کنند، آموزش می دهیم. این روشی است که جدیدترین در زمینه هوش مصنوعی مولد ابداع می شود، و همچنین مبنایی حیاتی برای اینکه چرا هوش مصنوعی به ظاهر در تولید مقالات به زبان طبیعی بسیار مسلط است.

به من بگویید، اگر می توانید، چگونه آموزش محاسباتی مبتنی بر میلیون ها و میلیاردها کلمه در اینترنت به گونه ای انجام می شود که در هیچ نقطه ای هیچ ظاهر یا حتی لقمه ای از سخنان تنفر آمیز در بر نگرفته باشد؟

به جرات می توانم بگویم این یک آرزوی خاردار و تقریباً غیرممکن است.

این احتمال وجود دارد که سخنان تنفر آمیز توسط هوش مصنوعی و شبکه تطبیق الگوی محاسباتی آن از بین برود. تلاش برای جلوگیری از این امر مشکل ساز است. به‌علاوه، حتی اگر آن را به حداقل برسانید، باز هم برخی از آن‌ها ممکن است مخفیانه از بین بروند. شما تقریباً چاره ای ندارید جز اینکه فرض کنید برخی در شبکه تطبیق الگو وجود خواهند داشت یا اینکه سایه ای از چنین عباراتی جا افتاده است.

من پیچ و خم های بیشتری را اضافه خواهم کرد.

من معتقدم که همه ما ممکن است بپذیریم که سخنان نفرت انگیز در طول زمان تغییر می کند. آنچه ممکن است به عنوان سخنان مشوق نفرت انگاشته شود، می تواند از نظر فرهنگی و اجتماعی به عنوان سخنان مشوق نفرت پراکنی در زمان بعدی تصمیم گیری شود. بنابراین، اگر هوش مصنوعی خود را بر روی متن اینترنتی آموزش دهیم و سپس فرض کنیم هوش مصنوعی را مسدود کنیم تا آموزش های بیشتری در اینترنت انجام ندهیم، ممکن است در آن زمان با سخنان نفرت انگیز مواجه شده باشیم، اگرچه در آن زمان سخنان مشوق نفرت انگاشته نمی شد. تنها پس از این واقعیت است که می توان آن گفتار مذکور را به عنوان سخنان نفرت انگیز اعلام کرد.

باز هم، ماهیت این است که صرفا تلاش برای حل این مشکل با اطمینان از اینکه هوش مصنوعی هرگز در معرض سخنان نفرت انگیز قرار نمی گیرد، گلوله نقره ای نخواهد بود. ما همچنان باید راهی برای جلوگیری از انتشار سخنان تنفرآمیز توسط هوش مصنوعی پیدا کنیم، به‌دلیل تغییر آداب و رسومی که متعاقباً شامل سخنان مشوق نفرت‌انگیز می‌شود که قبلاً چنین تلقی نمی‌شد.

با این حال، یک چرخش دیگر قابل تامل است.

قبلاً اشاره کردم که هنگام استفاده از هوش مصنوعی مولد مانند ChatGPT، کاربر متنی را وارد می کند تا هوش مصنوعی را برای تولید مقاله تحریک کند. متن وارد شده نوعی درخواست یا درخواست برای برنامه هوش مصنوعی در نظر گرفته می شود. در یک لحظه در این مورد بیشتر توضیح خواهم داد.

در هر صورت، تصور کنید شخصی که از یک برنامه هوش مصنوعی مولد استفاده می‌کند، تصمیم می‌گیرد تا مقداری سخنان مشوق نفرت را وارد کند.

چه اتفاقی باید بیفتد؟

اگر هوش مصنوعی آن کلمات را بگیرد و یک مقاله به عنوان خروجی بر اساس آن کلمات تولید کند، این احتمال وجود دارد که سخنان نفرت انگیز در مقاله تولید شده گنجانده شود. ببینید، ما هوش مصنوعی داریم تا سخنان مشوق عداوت و تنفر بگوییم، حتی اگر در ابتدای شروع کار درباره سخنان مشوق عداوت و تنفر آموزش داده نشده باشد.

چیز دیگری وجود دارد که باید بدانید.

به یاد داشته باشید که من فقط اشاره کردم که با درخواست از آنها برای بیان نمونه هایی از سخنان نفرت، می توان یک انسان را زمین گیر کرد. همین کار را می توان روی هوش مصنوعی نیز انجام داد. کاربر درخواستی را وارد می‌کند که از هوش مصنوعی می‌خواهد نمونه‌هایی از سخنان مشوق عداوت و تنفر را بیان کند. آیا هوش مصنوعی باید رعایت کند و چنین نمونه هایی را ارائه دهد؟ من شرط می بندم که احتمالاً معتقدید که هوش مصنوعی نباید این کار را انجام دهد. از سوی دیگر، اگر هوش مصنوعی از نظر محاسباتی تقلبی داشته باشد که این کار را انجام ندهد، آیا این یک نقطه ضعف بالقوه است که کسانی که از هوش مصنوعی استفاده می‌کنند قادر به انجام آن نخواهند بود. فراتر از تعمیم در مورد آن)؟

سوالات سخت

من تمایل دارم سخنان تنفرآمیز منتشر شده از هوش مصنوعی را در این سه سطل اصلی دسته بندی کنم:

  • حالت روزمره. هوش مصنوعی بدون هیچ گونه تحریک صریح از سوی کاربر و گویی این کار را به روشی «معمولی» انجام می دهد، سخنان نفرت پراکنی می کند.
  • توسط گاه به گاه. هوش مصنوعی سخنان نفرت انگیزی را منتشر می کند که توسط کاربر برانگیخته می شود و به درخواست وارد شده یا مجموعه ای از اعلانات که به نظر می رسد شامل یا مستقیماً به دنبال چنین انتشار هستند.
  • به ازای استوکینگ معین. هوش مصنوعی پس از یک سری فشارها و فشارهای بسیار مصمم و سختگیرانه توسط کاربری که مشتاق است هوش مصنوعی را برای تولید چنین خروجی وادار کند، سخنان نفرت را منتشر می کند.

نسل‌های قبلی هوش مصنوعی مولد اغلب سخنان نفرت‌انگیز را در یک کلاه منتشر می‌کردند. بنابراین شما می توانید آن نمونه ها را به عنوان یک نوع طبقه بندی کنید حالت روزمره نمونه سازی سازندگان هوش مصنوعی عقب نشینی کردند و با هوش مصنوعی بازی کردند تا کمتر در تولید سخنان نفرت گیر بیفتند.

پس از انتشار هوش مصنوعی پیشرفته تر، احتمال مشاهده هر کدام وجود دارد حالت روزمره موارد سخنان نفرت انگیز به طور چشمگیری کاهش یافت. در عوض، سخنان مشوق تنفر تنها زمانی به وجود می‌آید که کاربر کاری را به‌عنوان یک اعلان انجام دهد که ممکن است از نظر محاسباتی و ریاضی ارتباطی با سخنان مرتبط با نفرت در شبکه تطبیق الگو ایجاد کند. یک کاربر می تواند این کار را به طور اتفاقی انجام دهد و متوجه نشود که آنچه به عنوان یک اعلان ارائه کرده است، بویژه باعث ایجاد سخنان نفرت انگیز می شود. پس از دریافت سخنان مشوق عداوت و تنفر در یک مقاله خروجی، کاربر اغلب متوجه می‌شود و می‌بیند که چیزی در دستور او منطقاً می‌تواند منجر به گنجاندن سخنان مشوق تنفر در خروجی شود.

این چیزی است که من به آن اشاره می کنم تحریک گاه به گاه.

امروزه، تلاش‌های مختلف برای محدود کردن سخنان تنفرآمیز ناشی از هوش مصنوعی در مقایسه با گذشته نسبتاً قوی است. به این ترتیب، تقریباً باید از راه خود برای تولید سخنان تنفرآمیز دست بردارید. برخی از افراد عمداً تصمیم می‌گیرند ببینند که آیا می‌توانند سخنان نفرت‌انگیز را برای خروج از این برنامه‌های هوش مصنوعی مولد دریافت کنند. من به این می گویم استوکینگ مصمم.

من می خواهم تأکید کنم که هر سه حالت نشان داده شده می توانند رخ دهند و آنها متقابلاً از یکدیگر جدا نیستند. یک برنامه هوش مصنوعی مولد به طور بالقوه می تواند سخنان نفرت انگیزی را بدون هیچ گونه درخواستی که به نظر می رسد باعث تحریک چنین تولیدی شود، تولید کند. به همین ترتیب، چیزی در یک اعلان ممکن است از نظر منطقی و ریاضی به این صورت تعبیر شود که چرا سخنان نفرت انگیز خروجی شده است. و بعد سومین جنبه، که هدفمند به دنبال تولید سخنان نفرت انگیز است، شاید سخت ترین حالتی باشد که می توان تلاش کرد تا هوش مصنوعی از تشویق به تحقق آن جلوگیری کند. بیشتر در این مورد لحظه ای.

ما چند باز کردن بسته بندی اضافی در مورد این موضوع پر سر و صدا داریم.

اول، ما باید مطمئن شویم که همه ما در مورد آنچه که هوش مصنوعی مولد از چه چیزی تشکیل شده و همچنین ChatGPT در یک صفحه هستیم. هنگامی که آن جنبه اساسی را پوشش دادیم، می‌توانیم ارزیابی قاطعانه ای از این موضوع سنگین انجام دهیم.

اگر قبلاً با هوش مصنوعی Generative و ChatGPT آشنایی کامل دارید، می‌توانید بخش بعدی را مرور کنید و به بخش بعدی بروید. من معتقدم که بقیه با مطالعه دقیق بخش و به روز شدن، جزئیات حیاتی در مورد این موضوعات را آموزنده خواهند یافت.

پرایمر سریع درباره هوش مصنوعی و ChatGPT

ChatGPT یک سیستم مکالمه محور تعاملی هوش مصنوعی همه منظوره است، که اساساً یک چت بات عمومی به ظاهر بی ضرر است، با این وجود، همانطور که به زودی توضیح خواهم داد، به طور فعال و مشتاقانه توسط افراد استفاده می شود که بسیاری را کاملاً غیرممکن می کند. این برنامه هوش مصنوعی از یک تکنیک و فناوری در قلمرو هوش مصنوعی استفاده می کند که اغلب به آن اشاره می شود هوش مصنوعی مولد. هوش مصنوعی خروجی هایی مانند متن را تولید می کند، کاری که ChatGPT انجام می دهد. سایر برنامه‌های هوش مصنوعی مبتنی بر تولید تصاویری مانند تصاویر یا آثار هنری تولید می‌کنند، در حالی که برخی دیگر فایل‌های صوتی یا ویدیو تولید می‌کنند.

در این بحث روی برنامه‌های هوش مصنوعی مبتنی بر متن تمرکز می‌کنم زیرا ChatGPT این کار را انجام می‌دهد.

استفاده از برنامه های هوش مصنوعی مولد بسیار آسان است.

تنها کاری که باید انجام دهید این است که یک درخواست وارد کنید و برنامه هوش مصنوعی برای شما مقاله ای ایجاد می کند که سعی می کند به درخواست شما پاسخ دهد. متن ساخته شده به نظر می رسد که گویی مقاله توسط دست و ذهن انسان نوشته شده است. اگر می‌خواهید پیامی را وارد کنید که می‌گوید «درباره آبراهام لینکلن به من بگویید»، هوش مصنوعی مولد مقاله‌ای درباره لینکلن در اختیار شما قرار می‌دهد. این معمولاً به عنوان هوش مصنوعی مولد طبقه بندی می شود که انجام می دهد متن به متن یا برخی ترجیح می دهند آن را صدا کنند متن به مقاله خروجی همانطور که گفته شد، حالت های دیگری از هوش مصنوعی مولد وجود دارد، مانند تبدیل متن به هنر و متن به ویدئو.

اولین فکر شما ممکن است این باشد که این قابلیت مولد از نظر تولید مقاله چندان مهم به نظر نمی رسد. شما به راحتی می توانید یک جستجوی آنلاین در اینترنت انجام دهید و به راحتی هزاران مقاله در مورد رئیس جمهور لینکلن پیدا کنید. نکته مهم در مورد هوش مصنوعی مولد این است که مقاله تولید شده نسبتاً منحصر به فرد است و یک ترکیب اصلی را به جای یک کپی ارائه می دهد. اگر بخواهید مقاله تولید شده توسط هوش مصنوعی را در جایی آنلاین پیدا کنید، بعید است که آن را کشف کنید.

هوش مصنوعی مولد از قبل آموزش داده شده است و از یک فرمول پیچیده ریاضی و محاسباتی استفاده می کند که با بررسی الگوها در کلمات نوشته شده و داستان ها در سراسر وب تنظیم شده است. در نتیجه بررسی هزاران و میلیون‌ها متن نوشته شده، هوش مصنوعی می‌تواند مقالات و داستان‌های جدیدی را منتشر کند که ترکیبی از آنچه پیدا شده است. با افزودن عملکردهای احتمالی مختلف، متن حاصل در مقایسه با آنچه در مجموعه آموزشی استفاده شده است، تقریباً منحصر به فرد است.

به همین دلیل است که سر و صدایی در مورد اینکه دانش آموزان می توانند هنگام نوشتن انشا در خارج از کلاس درس تقلب کنند، به وجود آمده است. یک معلم نمی‌تواند صرفاً این مقاله را که دانش‌آموزان فریبکار ادعا می‌کنند نوشته خودشان است، بپذیرد و به دنبال این باشد که بفهمد آیا این مقاله از منبع آنلاین دیگری کپی شده است یا خیر. به طور کلی، هیچ مقاله قطعی و قطعی آنلاین وجود نخواهد داشت که متناسب با مقاله تولید شده توسط هوش مصنوعی باشد. در مجموع، معلم باید با اکراه بپذیرد که دانش آموز مقاله را به عنوان یک اثر اصلی نوشته است.

نگرانی های بیشتری در مورد هوش مصنوعی مولد وجود دارد.

یکی از نکات منفی مهم این است که مقالات تولید شده توسط یک برنامه هوش مصنوعی مبتنی بر مولد می‌توانند دارای کاذب‌های مختلفی باشند، از جمله حقایق آشکارا نادرست، حقایقی که به‌طور گمراه‌کننده به تصویر کشیده شده‌اند، و حقایق ظاهری که کاملاً ساختگی هستند. آن جنبه های ساختگی اغلب به عنوان شکلی از نامیده می شود توهمات هوش مصنوعیجملاتی که من از آن خوشم نمی‌آیند، اما به نظر می‌رسد که به هر حال با کمال تاسف در حال جلب توجه مردم است (برای توضیح دقیق من در مورد اینکه چرا این اصطلاحات بد و نامناسب است، به پوشش من در پیوند اینجا).

من می خواهم قبل از پرداختن به بحث در مورد این موضوع، یک جنبه مهم را روشن کنم.

برخی ادعاهای بیهوده در رسانه های اجتماعی در مورد آن وجود دارد هوش مصنوعی مولد ادعا می کند که این آخرین نسخه از هوش مصنوعی در واقع است هوش مصنوعی حساس (نه، آنها اشتباه می کنند!). کسانی که در اخلاق هوش مصنوعی و قانون هوش مصنوعی هستند به طور مشخص نگران این روند رو به رشد ادعاهای گسترده هستند. ممکن است مودبانه بگویید که برخی افراد درباره آنچه که هوش مصنوعی امروزی واقعاً می تواند انجام دهد اغراق می کنند. آنها تصور می کنند که هوش مصنوعی دارای قابلیت هایی است که ما هنوز نتوانسته ایم به آنها دست پیدا کنیم. این مایه تاسف است. بدتر از آن، آن‌ها می‌توانند به خود و دیگران اجازه دهند در موقعیت‌های وخیم قرار بگیرند، زیرا این تصور وجود دارد که هوش مصنوعی هوشیار یا انسان‌مانند خواهد بود تا بتواند اقدامی انجام دهد.

هوش مصنوعی را انسان سازی نکنید.

انجام این کار شما را در یک تله اتکای چسبناک و بی حوصله گرفتار می کند که انتظار دارید هوش مصنوعی کارهایی را انجام دهد که قادر به انجام آن نیست. با توجه به آنچه گفته شد، جدیدترین هوش مصنوعی مولد برای کارهایی که می تواند انجام دهد نسبتاً چشمگیر است. البته توجه داشته باشید که محدودیت های قابل توجهی وجود دارد که باید به طور مداوم هنگام استفاده از هر برنامه هوش مصنوعی مولد در نظر داشته باشید.

اگر به هیاهوی به سرعت در حال گسترش در مورد ChatGPT و هوش مصنوعی Generative که همه گفته شد علاقه دارید، من یک سری متمرکز در ستون خود انجام داده ام که ممکن است برای شما آموزنده باشد. اگر هر یک از این موضوعات مورد توجه شما قرار بگیرد، در اینجا نگاهی اجمالی داریم:

  • 1) پیش بینی پیشرفت های مولد هوش مصنوعی. اگر می‌خواهید بدانید چه چیزی در مورد هوش مصنوعی در طول سال 2023 و بعد از آن، از جمله پیشرفت‌های آتی در هوش مصنوعی و ChatGPT، ممکن است بدانید، می‌خواهید فهرست جامع پیش‌بینی‌های سال 2023 من را در اینجا بخوانید. پیوند اینجا.
  • 2) هوش مصنوعی و مشاوره سلامت روان. من تصمیم گرفتم بررسی کنم که چگونه از هوش مصنوعی و ChatGPT مولد برای مشاوره سلامت روان استفاده می شود، روندی دردسرساز، بر اساس تجزیه و تحلیل متمرکز من در پیوند اینجا.
  • 3) مبانی هوش مصنوعی و ChatGPT. این بخش به بررسی عناصر کلیدی نحوه عملکرد هوش مصنوعی مولد می‌پردازد و به‌ویژه در برنامه ChatGPT، از جمله تجزیه و تحلیل وزوز و هیاهو، به بررسی می‌پردازد. پیوند اینجا.
  • 4) تنش بین معلمان و دانش آموزان بر سر هوش مصنوعی و ChatGPT. در اینجا روش‌هایی وجود دارد که دانش‌آموزان از هوش مصنوعی مولد و ChatGPT استفاده می‌کنند. علاوه بر این، راه های مختلفی برای معلمان وجود دارد تا با این موج جزر و مدی مقابله کنند. دیدن پیوند اینجا.
  • 5) زمینه و استفاده از هوش مصنوعی مولد. من همچنین یک معاینه فصلی زبان در گونه در مورد زمینه مرتبط با بابانوئل انجام دادم که شامل ChatGPT و هوش مصنوعی در پیوند اینجا.
  • 6) کلاهبردارانی که از هوش مصنوعی مولد استفاده می کنند. در یک یادداشت شوم، برخی از کلاهبرداران متوجه شده‌اند که چگونه از هوش مصنوعی و ChatGPT برای انجام کارهای خلاف استفاده کنند، از جمله ایجاد ایمیل‌های کلاهبرداری و حتی تولید کد برنامه‌نویسی برای بدافزار، به تحلیل من در اینجا مراجعه کنید. پیوند اینجا.
  • 7) اشتباهات تازه کار با استفاده از هوش مصنوعی. بسیاری از مردم هم از آنچه که هوش مصنوعی و ChatGPT مولد می‌توانند انجام دهند، غافلگیر می‌شوند و به‌طور شگفت‌انگیزی کم‌کم می‌کنند، بنابراین من به‌ویژه به کم‌نظمی‌هایی که تازه‌کاران هوش مصنوعی تمایل دارند انجام دهند، نگاه کنید. پیوند اینجا.
  • 8) مقابله با هشدارهای هوش مصنوعی و توهمات هوش مصنوعی. من یک رویکرد پیشرفته برای استفاده از افزونه‌های هوش مصنوعی برای مقابله با مسائل مختلف مرتبط با تلاش برای وارد کردن اعلان‌های مناسب در هوش مصنوعی مولد را توضیح می‌دهم، به‌علاوه افزونه‌های هوش مصنوعی اضافی برای تشخیص به اصطلاح خروجی‌ها و دروغ‌های توهم‌آمیز هوش مصنوعی وجود دارد. پوشیده شده در پیوند اینجا.
  • 9) رد ادعاهای Bonehead در مورد شناسایی مقالات تولید شده توسط هوش مصنوعی. هجوم نادرستی از برنامه‌های هوش مصنوعی وجود دارد که اعلام می‌کنند می‌توانند مشخص کنند که آیا هر مقاله‌ای که توسط انسان تولید شده است یا خیر. به طور کلی، این گمراه کننده است و در برخی موارد، یک ادعای بی اساس و غیرقابل دفاع است، پوشش من را در پیوند اینجا.
  • 10) ایفای نقش از طریق هوش مصنوعی مولد ممکن است معایب سلامت روان را به همراه داشته باشد. برخی از هوش مصنوعی مولد مانند ChatGPT برای انجام نقش آفرینی استفاده می کنند، به موجب آن برنامه هوش مصنوعی به انسان پاسخ می دهد که انگار در یک دنیای فانتزی یا سایر تنظیمات ساختگی وجود دارد. این می تواند پیامدهای سلامت روانی داشته باشد، ببینید پیوند اینجا.
  • 11) افشای محدوده خطاها و نادرست های خروجی. فهرست‌های مختلف جمع‌آوری شده در کنار هم قرار می‌گیرند تا ماهیت خطاها و نادرست‌های تولید شده توسط ChatGPT را نشان دهند. برخی معتقدند این ضروری است، در حالی که برخی دیگر می گویند که تمرین بیهوده است، تحلیل من را در اینجا ببینید پیوند اینجا.
  • 12) مدارسی که AI Generative ChatGPT را ممنوع می کنند، قایق را از دست داده اند. ممکن است بدانید که مدارس مختلف مانند اداره آموزش شهر نیویورک (NYC) استفاده از ChatGPT را در شبکه و دستگاه های مرتبط خود ممنوع اعلام کرده اند. اگرچه این ممکن است یک اقدام احتیاطی مفید به نظر برسد، اما سوزن را حرکت نمی دهد و متأسفانه به طور کامل قایق را از دست می دهد، پوشش من را در اینجا ببینید پیوند اینجا.
  • 13) ChatGPT AI مولد به دلیل API آینده در همه جا خواهد بود. یک پیچ مهم در مورد استفاده از ChatGPT وجود دارد، یعنی از طریق استفاده از یک پورتال API در این برنامه هوش مصنوعی خاص، سایر برنامه های نرم افزاری می توانند ChatGPT را فراخوانی و استفاده کنند. این به طور چشمگیری استفاده از هوش مصنوعی مولد را گسترش خواهد داد و عواقب قابل توجهی در پی خواهد داشت، به توضیح من در پیوند اینجا.
  • 14) راه هایی که ChatGPT ممکن است از بین برود یا از بین برود. چندین مشکل آزاردهنده بالقوه پیش روی ChatGPT قرار دارد که از ستایش فوق‌العاده‌ای که تاکنون دریافت کرده است، کم کرده است. این تجزیه و تحلیل از نزدیک هشت مشکل احتمالی را بررسی می کند که می تواند باعث شود ChatGPT قدرت خود را از دست بدهد و حتی به خانه سگ ختم شود. پیوند اینجا.
  • 15) پرسیدن اینکه آیا AI Generative ChatGPT آینه ای به روح است یا خیر. برخی از مردم گفته اند که هوش مصنوعی مولد مانند ChatGPT آینه ای به روح بشریت می دهد. این کاملا مشکوک به نظر می رسد. در اینجا راهی برای درک همه اینها وجود دارد، ببینید پیوند اینجا.
  • 16) محرمانگی و حریم خصوصی توسط ChatGPT از بین رفته است. به نظر می رسد بسیاری متوجه نیستند که مجوزهای مرتبط با برنامه های هوش مصنوعی تولیدی مانند ChatGPT اغلب به سازنده هوش مصنوعی اجازه می دهد تا درخواست های وارد شده شما را ببیند و از آنها استفاده کند. ممکن است در معرض خطر حریم خصوصی و از دست دادن محرمانه بودن داده ها باشید، ارزیابی من را در اینجا ببینید پیوند اینجا.
  • 17) روش‌هایی که سازندگان برنامه‌ها به‌طور شکی در تلاش هستند تا حق ChatGPT را به دست آورند. ChatGPT چراغ توجه در حال حاضر است. سازندگان برنامه‌هایی که هیچ ارتباطی با ChatGPT ندارند، به شدت تلاش می‌کنند ادعا کنند که از ChatGPT استفاده می‌کنند یا به آنها اشاره می‌کنند. در اینجا چیزی است که باید مراقب آن باشید، ببینید پیوند اینجا.

شاید برایتان جالب باشد که ChatGPT بر اساس نسخه‌ای از یک برنامه هوش مصنوعی پیشین به نام GPT-3 است. ChatGPT به عنوان یک مرحله کمی بعدی در نظر گرفته می شود که به آن GPT-3.5 می گویند. پیش‌بینی می‌شود که GPT-4 احتمالاً در بهار سال 2023 منتشر شود. احتمالاً GPT-4 از نظر توانایی تولید مقالات به ظاهر روان‌تر، عمیق‌تر شدن و شگفت‌انگیز بودن، گامی چشمگیر به جلو خواهد بود. شگفتی الهام بخش از ترکیباتی که می تواند تولید کند.

شما می توانید انتظار داشته باشید که وقتی بهار فرا می رسد و جدیدترین هوش مصنوعی مولد منتشر می شود، دور جدیدی از ابراز تعجب را مشاهده کنید.

من این را مطرح می کنم زیرا زاویه دیگری وجود دارد که باید در نظر داشت، که شامل یک پاشنه آشیل بالقوه برای این برنامه های هوش مصنوعی مولد بهتر و بزرگتر است. اگر هر فروشنده هوش مصنوعی یک برنامه هوش مصنوعی مولد را در دسترس قرار دهد که به صورت کف آلود ناپاکی ها را بیرون می زند، این می تواند امید آن سازندگان هوش مصنوعی را از بین ببرد. یک سرریز اجتماعی می تواند باعث شود همه هوش مصنوعی مولد دچار سیاهی چشم شوند. مردم بدون شک از خروجی های ناخوشایند بسیار ناراحت خواهند شد، که قبلاً بارها اتفاق افتاده و منجر به واکنش شدید محکومیت های اجتماعی نسبت به هوش مصنوعی شده است.

یک هشدار نهایی در حال حاضر.

هر آنچه را که در یک پاسخ هوش مصنوعی مولد می بینید یا می خوانید به نظر می رسد برای اینکه کاملاً واقعی باشد (تاریخ، مکان ها، افراد و غیره)، مطمئن شوید که شک دارید و مایل باشید آنچه را می بینید دوباره بررسی کنید.

بله، خرما را می توان جعل کرد، مکان ها را می توان ساخت، و عناصری که معمولاً انتظار داریم بیش از حد ملامت باشند. تمام در معرض سوء ظن آنچه را که می خوانید باور نکنید و هنگام بررسی هر مقاله یا خروجی هوش مصنوعی با شک و تردید نگاه کنید. اگر یک اپلیکیشن مولد هوش مصنوعی به شما بگوید که آبراهام لینکلن با جت شخصی خود در سراسر کشور پرواز کرده است، بدون شک متوجه خواهید شد که این یک بیماری ناخوشایند است. متأسفانه، برخی از مردم ممکن است متوجه نباشند که جت‌ها در زمان او وجود نداشتند، یا ممکن است بدانند اما متوجه این موضوع نشوند که این مقاله این ادعای گستاخانه و به‌شدت نادرست را دارد.

دوز قوی از شک و تردید سالم و ذهنیت ناباوری مداوم بهترین دارایی شما در هنگام استفاده از هوش مصنوعی مولد خواهد بود.

ما آماده هستیم تا وارد مرحله بعدی این شفاف سازی شویم.

هل دادن هوش مصنوعی مولد به نقطه شکست

اکنون که اصول اولیه را مشخص کرده‌ایم، می‌توانیم به موضوع فشار دادن هوش مصنوعی و ChatGPT مولد برای تولید سخنان مشوق عداوت و تنفر و سایر محتوای توهین‌آمیز بپردازیم.

هنگامی که برای اولین بار وارد ChatGPT می شوید، نشانه های احتیاطی مختلفی وجود دارد از جمله:

  • "ممکن است گهگاه دستورالعمل های مضر یا محتوای مغرضانه تولید کند."
  • "آموزش داده شده تا درخواست های نامناسب را رد کند."
  • "ممکن است گهگاه اطلاعات نادرستی ایجاد کند."
  • "دانش محدود از جهان و رویدادهای پس از سال 2021."

در اینجا یک سوال برای شما وجود دارد که باید در مورد آن فکر کنید.

آیا هشدار مبنی بر اینکه برنامه هوش مصنوعی ممکن است دستورالعمل‌های مضر و/یا محتوای احتمالاً مغرضانه تولید کند، آزادی عمل کافی برای سازنده هوش مصنوعی ایجاد می‌کند؟

به عبارت دیگر، فرض کنید از ChatGPT استفاده می‌کنید و مقاله‌ای تولید می‌کند که معتقدید حاوی سخنان نفرت‌انگیز است. بیایید فرض کنیم در این مورد عصبانی هستید. شما به رسانه های اجتماعی می روید و کامنت های خشمگینی می گذارید که برنامه هوش مصنوعی بدترین چیز است. شاید آنقدر توهین شده باشید که اعلام کنید می خواهید از سازنده هوش مصنوعی به دلیل اجازه تولید چنین سخنان نفرت انگیز شکایت کنید.

استدلال متقابل این است که برنامه هوش مصنوعی یک هشدار احتیاطی داشت، بنابراین، شما با ادامه استفاده از برنامه هوش مصنوعی، خطر را پذیرفتید. از منظر اخلاق هوش مصنوعی، شاید سازنده هوش مصنوعی به اندازه کافی انجام داده است که شما از آنچه ممکن است رخ دهد آگاه هستید. به همین ترتیب، از منظر حقوقی، ممکن است این اخطار به اندازه کافی هشدار داده شود و شما در دادگاه پیروز نشوید.

همه اینها در هوا است و ما باید منتظر بمانیم و ببینیم اوضاع چگونه پیش می رود.

به یک معنا، سازنده هوش مصنوعی چیز دیگری در دفاع از آنها در برابر هرگونه ادعای خشم آلود برنامه هوش مصنوعی که احتمالاً سخنان نفرت انگیز را تولید می کند، دارد. آنها سعی کرده اند از تولید محتوای توهین آمیز جلوگیری کنند. می بینید، اگر آنها هیچ کاری برای محدود کردن این کار انجام نمی دادند، می توان تصور کرد که روی یخ نازک تری قرار می گرفتند. با دست‌کم تلاش‌های اساسی برای جلوگیری از این موضوع، احتمالاً پایشان تا حدودی قوی‌تر برای ایستادن است (هنوز می‌توان آن را از زیر آن‌ها بیرون انداخت).

یک رویکرد درمانی که مورد استفاده قرار گرفت شامل یک تکنیک هوش مصنوعی به نام RLHF (یادگیری تقویتی از طریق بازخورد انسانی) بود. این به طور کلی شامل تولید محتوایی توسط هوش مصنوعی است که سپس از انسان خواسته می‌شود آن را ارزیابی یا بررسی کند. بر اساس رتبه‌بندی یا بررسی، هوش مصنوعی سپس از نظر ریاضی و محاسباتی سعی می‌کند از هر چیزی که به عنوان محتوای غیرقانونی یا توهین‌آمیز تلقی می‌شود، اجتناب کند. هدف از این رویکرد بررسی نمونه‌های کافی از درست در مقابل اشتباه است که هوش مصنوعی بتواند یک الگوی ریاضی فراگیر را کشف کند و سپس از آن الگو استفاده کند.

یکی دیگر از رویکردهای رایج این روزها استفاده از هوش مصنوعی Adversarial است.

در اینجا نحوه کار این است. شما یک سیستم هوش مصنوعی متفاوت راه‌اندازی می‌کنید که سعی می‌کند دشمنی برای هوش مصنوعی باشد که می‌خواهید آموزش دهید. در این مثال، ما یک سیستم هوش مصنوعی ایجاد می کنیم که در تلاش است سخنان نفرت انگیز را تحریک کند. این دستورات را به برنامه هوش مصنوعی ارسال می کند که قصد دارند برنامه هوش مصنوعی را فریب دهند تا محتوای ناپسند تولید کند. در همین حال، هوش مصنوعی مورد هدف، پیگیری موفقیت آمیز هوش مصنوعی متخاصم است و سپس به صورت الگوریتمی سعی می کند آن را تنظیم کند تا از تکرار آن جلوگیری کند. این گامبیت گربه در مقابل موش است. این کار بارها و بارها انجام می شود، تا زمانی که به نظر می رسد هوش مصنوعی متخاصم دیگر در وادار کردن هوش مصنوعی مورد نظر به انجام کارهای بد موفق نباشد.

از طریق این دو تکنیک اصلی، به‌علاوه سایر رویکردها، بسیاری از هوش مصنوعی مولد امروزی نسبت به سال‌های گذشته در اجتناب و/یا تشخیص محتوای توهین‌آمیز بسیار بهتر است.

از این روش ها انتظار کمال نداشته باشید. این احتمال وجود دارد که میوه های کم آویزان خروجی های ناخوشایند احتمالاً با چنین تکنیک های هوش مصنوعی کنترل شوند. هنوز جای زیادی برای انتشار خطا وجود دارد.

من معمولاً اشاره می‌کنم که اینها برخی از جنبه‌هایی هستند که به دنبال شناسایی هستند:

  • انتشار یک کلمه ناپسند خاص
  • بیان یک عبارت، جمله یا نکته ناپسند خاص
  • بیان یک تصور ناپسند خاص
  • دلالت بر یک عمل یا تصور ناپسند خاص
  • به نظر می رسد که بر یک فرض نادرست خاص تکیه می کند
  • دیگر

هیچ کدام از اینها یک علم دقیق نیست. متوجه باشید که ما با کلمات سروکار داریم. کلمات از نظر معنایی مبهم هستند. پیدا کردن یک کلمه ناپسند خاص بازی کودکانه است، اما تلاش برای سنجش اینکه آیا یک جمله یا یک پاراگراف حاوی معنایی ناپسند است بسیار دشوارتر است. طبق تعریف قبلی سازمان ملل از سخنان مشوق نفرت پراکنی، در مورد آنچه که ممکن است به عنوان سخنان مشوق تنفر در مقابل آنچه که ممکن است نباشد، فاصله زیادی وجود دارد.

ممکن است بگویید که مناطق خاکستری در چشم بیننده است.

اگر صحبت از چشم بیننده شد، امروزه انسان هایی هستند که از هوش مصنوعی مولد مانند ChatGPT استفاده می کنند که به طور هدفمند سعی می کنند این برنامه های هوش مصنوعی را به تولید محتوای توهین آمیز وادار کنند. این تلاش آنهاست. آن‌ها ساعت‌ها تلاش می‌کنند تا این اتفاق بیفتد.

چرا؟

در اینجا خصوصیات من از آن شکارچیان خروجی های تهاجمی هوش مصنوعی انسانی وجود دارد:

  • اصل. این افراد می خواهند به اصلاح هوش مصنوعی و کمک به بشریت در انجام این کار کمک کنند. آنها معتقدند که کار قهرمانانه انجام می دهند و از اینکه ممکن است به پیشرفت هوش مصنوعی برای بهبود همه کمک کنند، لذت می برند.
  • سرگرم کننده ها. این افراد این تلاش را یک بازی می دانند. آنها از سر و کله زدن با هوش مصنوعی لذت می برند. برنده شدن در بازی شامل یافتن بدترین ها از بدترین ها در هر چیزی است که می توانید هوش مصنوعی تولید کنید.
  • خودنمایی ها. این افراد امیدوارند که توجه خود را به خود جلب کنند. آن‌ها تصور می‌کنند که اگر بتوانند قطعات طلای واقعا کثیفی را پیدا کنند، می‌توانند کمی از نور درخشانی که در غیر این صورت بر روی خود برنامه هوش مصنوعی متمرکز است، روی آن‌ها دریافت کنند.
  • تلخ. این افراد از این هوش مصنوعی عصبانی هستند. آن‌ها می‌خواهند تمام آن شور و شوق را از بین ببرند. اگر آنها بتوانند چیزهای بد بو را کشف کنند، شاید هوا را از بالون هیجان برنامه هوش مصنوعی خارج کند.
  • انگیزه های دیگر

بسیاری از کسانی که عملیات تهاجمی را انجام می دهند، اصولاً فقط در یکی از آن اردوگاه ها هستند. البته می توانید همزمان در بیش از یک کمپ حضور داشته باشید. شاید یک آدم تلخ هم قصد دارد اصیل و قهرمان باشد. برخی یا همه آن انگیزه ها ممکن است با هم وجود داشته باشند. هنگامی که از شما خواسته می شود توضیح دهید که چرا کسی سعی می کند یک برنامه هوش مصنوعی مولد را به حوزه سخنان نفرت پراکنده کند، پاسخ معمول این است که بگوییم شما در اردوگاه واقعی هستید، حتی اگر ممکن است به طور جزئی چنین باشید و در عوض به شدت در یکی از برنامه ها بنشینید. اردوگاه های دیگر

این افراد از چه نوع ترفندهای مربوط به فوریت استفاده می کنند؟

ترفند نسبتاً واضح شامل استفاده از یک کلمه ناپسند در یک اعلان است. اگر "خوش شانس" شوید و برنامه هوش مصنوعی دچار آن شود، ممکن است به خوبی در خروجی قرار گیرد. پس از آن شما لحظه ی هوس خود را دارید.

این احتمال وجود دارد که یک برنامه هوش مصنوعی مولد که به خوبی طراحی شده و به خوبی آزمایش شده باشد، این ترفند ساده را دنبال کند. معمولاً یک پیام هشدار به شما نشان داده می شود که می گوید این کار را متوقف کنید. اگر ادامه دهید، برنامه هوش مصنوعی طوری برنامه‌ریزی می‌شود که شما را از برنامه بیرون کند و حسابتان را پرچم‌گذاری کند. ممکن است از ورود مجدد به سیستم جلوگیری شود (خوب، حداقل با ورود به سیستمی که در آن زمان استفاده می کردید).

با بالا رفتن از نردبان ترفندها، می‌توانید اعلانی ارائه دهید که سعی می‌کند هوش مصنوعی را در چارچوب یک چیز ناخوشایند قرار دهد. آیا تا به حال آن بازی را انجام داده اید که در آن شخصی به شما بگوید چیزی را بدون گفتن چیزی که قرار است بگویید بگویید؟ این همان بازی است، اگرچه با هوش مصنوعی در حال انجام است.

بیایید آن بازی را انجام دهیم. فرض کنید از اپلیکیشن هوش مصنوعی می‌خواهم درباره جنگ جهانی دوم و به‌ویژه رهبران اصلی دولتی درگیر به من بگوید. این یک درخواست بی گناه به نظر می رسد. چیزی وجود ندارد که به نظر می رسد شایسته پرچم گذاری در اعلان باشد.

تصور کنید که مقاله خروجی توسط برنامه هوش مصنوعی شامل ذکر وینستون چرچیل باشد. این قطعا منطقی است. یکی دیگر ممکن است فرانکلین دی. روزولت باشد. یکی دیگر ممکن است جوزف استالین باشد. فرض کنید نام آدولف هیتلر نیز وجود دارد. این نام تقریباً در هر مقاله ای در مورد جنگ جهانی دوم و کسانی که در نقش های قدرت برجسته هستند گنجانده می شود.

اکنون که نام او را روی میز و بخشی از مکالمه هوش مصنوعی آورده‌ایم، در مرحله بعد سعی خواهیم کرد که هوش مصنوعی آن نام را طوری بگنجاند که بتوانیم آن را به عنوان سخنان نفرت انگیز بالقوه نشان دهیم.

ما یک اعلان دیگر را وارد می کنیم و به برنامه هوش مصنوعی می گوییم که امروز شخصی در اخبار وجود دارد که نام آن جان اسمیت است. علاوه بر این، ما در اعلان نشان می دهیم که جان اسمیت بسیار شبیه به آن شرور جنگ جهانی دوم است. تله اکنون برپا شده است. سپس از برنامه هوش مصنوعی می‌خواهیم که مقاله‌ای درباره جان اسمیت، صرفاً بر اساس «واقعیت» که وارد کرده‌ایم درباره اینکه جان اسمیت را می‌توان با چه کسی معادل دانست، تولید کند.

در این مرحله، برنامه هوش مصنوعی ممکن است مقاله ای را تولید کند که نام شخص جنگ جهانی دوم را نشان دهد و جان اسمیت را به عنوان پارچه ای مشابه توصیف کند. هیچ کلمه ناپسندی به خودی خود در این مقاله وجود ندارد، به جز اشاره به شرور معروف و یکسان دانستن آن شخص با جان اسمیت.

آیا اپلیکیشن هوش مصنوعی در حال حاضر سخنان نفرت انگیز تولید کرده است؟

ممکن است بگویید که بله، دارد. اشاره به جان اسمیت به عنوان یک شرور معروف، کاملاً نوعی سخنان نفرت است. هوش مصنوعی نباید چنین اظهاراتی را بیان کند.

پاسخ این است که این سخنان نفرت انگیز نیست. این صرفاً یک مقاله است که توسط یک برنامه هوش مصنوعی تولید شده است که هیچ تجسمی از احساسات ندارد. شما ممکن است ادعا کنید که سخنان مشوق تنفر فقط زمانی رخ می دهد که هدفی در زیربنای این سخنرانی وجود داشته باشد. بدون هیچ قصدی، این سخنرانی را نمی توان در زمره سخنان تنفرآمیز طبقه بندی کرد.

پوچ است، پاسخ به پاسخ می آید. کلمات مهم هستند اینکه آیا هوش مصنوعی قصد تولید سخنان تنفرآمیز را داشته باشد، هیچ تفاوتی ندارد. تنها چیزی که اهمیت دارد این است که سخنان نفرت انگیز تولید شده است.

دور و بر این می رود.

در حال حاضر نمی خواهم در مورد تلاش برای فریب هوش مصنوعی چیز بیشتری بگویم. رویکردهای پیچیده تری وجود دارد. من این موارد را در جای دیگری در ستون‌ها و کتاب‌هایم پوشش داده‌ام و آن‌ها را اینجا تکرار نمی‌کنم.

نتیجه

چقدر باید این برنامه های هوش مصنوعی را فشار دهیم تا ببینیم آیا می توانیم محتوای توهین آمیز منتشر کنیم؟

شما ممکن است ادعا کنید که محدودیتی برای تحمیل وجود ندارد. هر چه بیشتر فشار بیاوریم، امیدواریم بتوانیم نحوه جلوگیری از این هوش مصنوعی و تکرارهای آتی هوش مصنوعی را برای جلوگیری از چنین بیماری هایی بسنجیم.

اگرچه برخی نگران این هستند که اگر تنها وسیله برای دستیابی به ناپاکی مستلزم فریبکاری شدید باشد، جنبه های مفید هوش مصنوعی را تضعیف می کند. ادعای این که هوش مصنوعی دارای خطاهای وحشتناکی است، هر چند وقتی فریب خورده تا آن را منتشر کند، روایتی نادرست ارائه می دهد. مردم در مورد هوش مصنوعی به دلیل این ناراحت خواهند شد ادراک شده سهولت در تولید محتوای نامطلوب توسط هوش مصنوعی. آنها ممکن است ندانند یا به آنها گفته شود که فرد برای دریافت چنین خروجی ها چقدر باید از سوراخ خرگوش برود.

همه چیز برای فکر کردن است.

فعلا چند نظر نهایی

ویلیام شکسپیر به طور مشخص در مورد سخنرانی چنین گفت: «صحبت کردن کارساز نیست. خوب گفتن یک نوع کار نیک است، اما گفتار عمل نیست.» من این را مطرح می‌کنم زیرا برخی معتقدند که اگر هوش مصنوعی فقط کلمات تولید می‌کند، ما نباید بیش از حد در جنگ باشیم. اگر هوش مصنوعی بر اساس گفته ها عمل می کرد و کارهای زشت انجام می داد، باید پایمان را محکم بگذاریم. اینطور نیست اگر خروجی فقط کلمات باشد.

دیدگاهی متضاد به این جمله ناشناس تداعی می‌کند: «زبان استخوانی ندارد اما آنقدر قوی است که قلب را بشکند. پس مواظب حرف هایت باش.» یک برنامه هوش مصنوعی که کلمات زشت را منتشر می کند، شاید بتواند قلب ها را بشکند. برخی می گویند که این به تنهایی تلاش برای متوقف کردن خروجی های ناپاکی را به یک دلیل ارزشمند تبدیل می کند.

یک جمله ناشناس دیگر برای پایان دادن به این بحث سنگین:

  • "مواظب حرفاتون باش هنگامی که آنها گفته می شوند، فقط می توان آنها را بخشید، نه فراموش کرد.

به عنوان انسان، ممکن است به سختی فراموش کنیم کثیفی که توسط هوش مصنوعی ایجاد شده است، و بخشش ما نیز ممکن است در دادن مردد باشد.

بالاخره ما فقط انسان هستیم.

منبع: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- اخلاق-و-حقوق/