روش جدید به طور موثر از دادههای آموزشی حساس هوش مصنوعی محافظت میکند

به گزارش گروه دانشگاه خبرگزاری دانشجو، حفظ حریم خصوصی دادهها هزینه دارد. تکنیکهای امنیتی وجود دارد که از دادههای حساس کاربر، مانند آدرسهای مشتری، در برابر مهاجمانی که ممکن است سعی کنند آنها را از مدلهای هوش مصنوعی استخراج کنند محافظت میکند –، اما اغلب این مدلها را دقیقتر میکنند.
محققان MIT اخیراً چارچوبی را بر اساس معیار حریم خصوصی جدید به نام PAC Privacy توسعه دادهاند که میتواند عملکرد یک مدل هوش مصنوعی را حفظ کند و در عین حال اطمینان حاصل کند که دادههای حساس مانند تصاویر پزشکی یا سوابق مالی در برابر مهاجمان در امان هستند. اکنون، آنها این کار را با کارآمدتر کردن تکنیک خود از نظر محاسباتی، بهبود معاوضه بین دقت و حریم خصوصی، و ایجاد یک الگوی رسمی که میتواند برای خصوصی کردن تقریباً هر الگوریتم بدون نیاز به دسترسی به عملکرد درونی آن الگوریتم مورد استفاده قرار گیرد، یک قدم جلوتر برداشتهاند.
این تیم از نسخه جدید PAC Privacy برای خصوصی سازی چندین الگوریتم کلاسیک برای تجزیه و تحلیل دادهها و وظایف یادگیری ماشینی استفاده کرد.
آنها همچنین نشان دادند که الگوریتمهای پایدارتر با روش آنها خصوصیسازی آسانتر است. پیشبینیهای یک الگوریتم پایدار حتی زمانی که دادههای آموزشی آن اندکی تغییر کرده باشد، ثابت میمانند. پایداری بیشتر به الگوریتم کمک میکند تا پیشبینیهای دقیقتری روی دادههای دیده نشده قبلی انجام دهد.
محققان میگویند افزایش کارایی چارچوب جدید PAC Privacy و الگوی چهار مرحلهای که میتوان برای پیادهسازی آن دنبال کرد، استقرار این تکنیک را در موقعیتهای دنیای واقعی آسانتر میکند.
"ما تمایل داریم استحکام و حریم خصوصی را با ساختن یک الگوریتم با کارایی بالا بی ربط یا حتی در تضاد با آن در نظر بگیریم. ابتدا یک الگوریتم کارآمد میسازیم، سپس آن را قوی میکنیم و سپس خصوصی میکنیم. نشان دادهایم که همیشه چارچوب بندی مناسبی نیست. اگر الگوریتم خود را در تنظیمات مختلف، میتوانید به صورت رایگان Sprivihar دریافت کنید، میتوانید به صورت رایگان، یک الگوریتم کارآمد را بسازید. " دانشجو و نویسنده اصلی مقاله در مورد این چارچوب حریم خصوصی.
دکتر Hanshen Xiao '۲۴ که به عنوان استادیار در دانشگاه پوردو در پاییز کار خود را آغاز خواهد کرد، در مقاله به او پیوست؛ و نویسنده ارشد سرینی دواداس، ادوین سیبلی وبستر استاد مهندسی برق در MIT. این تحقیق در سمپوزیوم IEEE در مورد امنیت و حریم خصوصی ارائه خواهد شد.
تخمین نویز
برای محافظت از دادههای حساسی که برای آموزش یک مدل هوش مصنوعی استفاده میشد، مهندسان اغلب نویز یا تصادفی عمومی را به مدل اضافه میکنند تا حدس زدن دادههای آموزشی اصلی برای حریف سختتر شود. این نویز دقت یک مدل را کاهش میدهد، بنابراین هر چه صدای کمتری اضافه شود، بهتر است.
PAC Privacy به طور خودکار کمترین میزان نویزی را که برای دستیابی به سطح مطلوبی از حریم خصوصی باید به یک الگوریتم اضافه شود، تخمین میزند.
الگوریتم اصلی PAC Privacy مدل هوش مصنوعی کاربر را بارها بر روی نمونههای مختلف یک مجموعه داده اجرا میکند. واریانس و همچنین همبستگی بین این خروجیهای زیاد را اندازهگیری میکند و از این اطلاعات برای تخمین میزان نویز برای محافظت از دادهها استفاده میکند.
این نوع جدید از PAC Privacy به همین روش کار میکند، اما نیازی به نمایش کل ماتریس همبستگی دادهها در میان خروجیها ندارد. فقط به واریانسهای خروجی نیاز دارد.
سریدار توضیح میدهد: «از آنجایی که چیزی که شما تخمین میزنید بسیار بسیار کوچکتر از کل ماتریس کوواریانس است، میتوانید آن را بسیار بسیار سریعتر انجام دهید. این بدان معنی است که میتوان مجموعه دادههای بسیار بزرگتری را مقیاس کرد.
اضافه کردن نویز میتواند به سودمندی نتایج آسیب برساند و مهم است که از دست دادن ابزار به حداقل برسد. به دلیل هزینه محاسباتی، الگوریتم اصلی PAC Privacy محدود به اضافه کردن نویز همسانگرد بود که به طور یکنواخت در همه جهات اضافه میشود. از آنجایی که نوع جدید نویز ناهمسانگرد را تخمین میزند، که بر اساس ویژگیهای خاص دادههای آموزشی تنظیم شده است، کاربر میتواند نویز کلی کمتری را برای دستیابی به همان سطح از حریم خصوصی اضافه کند و دقت الگوریتم خصوصی سازی شده را افزایش دهد.
حریم خصوصی و ثبات
سریدار با مطالعه حریم خصوصی PAC، این فرضیه را مطرح کرد که خصوصی سازی الگوریتمهای پایدارتر با این تکنیک آسانتر است. او از نوع کارآمدتر PAC Privacy برای آزمایش این نظریه بر روی چندین الگوریتم کلاسیک استفاده کرد.
الگوریتمهایی که پایدارتر هستند، زمانی که دادههای آموزشی آنها کمی تغییر میکند، واریانس کمتری در خروجیهای خود دارند. PAC Privacy یک مجموعه داده را به قطعات تقسیم میکند، الگوریتم را روی هر تکه داده اجرا میکند و واریانس بین خروجیها را اندازه گیری میکند. هر چه واریانس بیشتر باشد، نویز بیشتری باید برای خصوصی سازی الگوریتم اضافه شود.
او توضیح میدهد که استفاده از تکنیکهای پایداری برای کاهش واریانس در خروجیهای الگوریتم، میزان نویز مورد نیاز برای خصوصیسازی آن را نیز کاهش میدهد.
او میگوید: در بهترین موارد، ما میتوانیم این سناریوهای برد-برد را دریافت کنیم.
تیم نشان داد که این ضمانتهای حفظ حریم خصوصی علیرغم الگوریتمی که آزمایش کردهاند، قوی باقی ماندهاند و نوع جدید PAC Privacy به آزمایشهای درجهای کمتر برای تخمین نویز نیاز دارد. آنها همچنین این روش را در شبیه سازی حمله آزمایش کردند و نشان دادند که تضمینهای حریم خصوصی آن میتواند در برابر حملات پیشرفته مقاومت کند.
دواداس میگوید: ما میخواهیم بررسی کنیم که چگونه الگوریتمها را میتوان با PAC Privacy طراحی کرد، بنابراین الگوریتم از ابتدا پایدارتر، ایمنتر و قویتر است. محققان همچنین میخواهند روش خود را با الگوریتمهای پیچیدهتر آزمایش کنند و معاوضه حریم خصوصی و سودمندی را بیشتر بررسی کنند.
اکنون سؤال این است: این موقعیتهای برد-برد چه زمانی اتفاق میافتند، و چگونه میتوانیم آنها را بیشتر تکرار کنیم؟
سریدار میگوید: استادیار بخش تحلیل دادههای کامپیوتری در دانشگاه Yu میگوید: من فکر میکنم مزیت کلیدی PAC Privacy در این تنظیمات نسبت به سایر تعاریف حریم خصوصی این است که یک جعبه سیاه است - برای خصوصیسازی نتایج، نیازی به تجزیه و تحلیل دستی هر پرسوجو ندارید. میتوان آن را کاملاً خودکار انجام داد. ما به طور فعال در حال ساخت یک پایگاه داده با قابلیت PAC با توسعه موتورهای SQL برای پشتیبانی عملی، خودکار و کارآمد هستیم. دانشگاه ویسکانسین در مدیسون، که در این مطالعه شرکت نداشت.
این تحقیق تا حدی توسط سیسکو سیستمز، کپیتال وان، وزارت دفاع ایالات متحده و بورسیه MathWorks پشتیبانی میشود.