
هوش مصنوعی کرهای، تصاویر را تا بینهایت زوم میکند!

به گزارش گروه دانشگاه خبرگزاری دانشجو، سه نفر از محققان هوش مصنوعی در KAIST AI در کره، چارچوبی به نام Chain-of-Zoom توسعه دادهاند که امکان تولید تصاویر با وضوح فوقالعاده بالا را با استفاده از مدلهای با وضوح فوقالعاده بالا و بدون نیاز به آموزش مجدد فراهم میکند.
در مطالعهی خود که در سرور پیشچاپ arXiv منتشر شد، برایان سنگوو کیم، جئونگسول کیم و جونگ چول یه فرآیند بزرگنمایی روی یک تصویر را تجزیه و تحلیل کردند و سپس در هر مرحله از یک مدل فوقرزولوشن موجود برای اصلاح تصویر استفاده کردند که منجر به بهبودهای تدریجی در وضوح تصویر شد.
تیم کرهای با توجه به این نکته شروع کرد که چارچوبهای موجود برای بهبود وضوح تصاویر، هنگام بزرگنمایی، تمایل به استفاده از درونیابی یا رگرسیون دارند که منجر به تصاویر تار میشود. برای غلبه بر این مشکلات، آنها رویکرد جدیدی را در پیش گرفتند - با استفاده از یک فرآیند بزرگنمایی گام به گام، که در آن مراحل بعدی نسبت به مراحل قبلی بهبود مییابند.
محققان چارچوب جدید خود را زنجیرهای از بزرگنمایی (CoZ) مینامند، به دلیل زنجیرهای از فرآیندهایی که برای بهبود وضوح استفاده میشوند.
برای هر مرحله، چارچوب جدید از یک مدل با وضوح فوقالعاده (SR) که از قبل وجود دارد برای شروع فرآیند اصلاح استفاده میکند. همزمان با انجام چنین پردازشی، یک مدل زبان بینایی (VLM) دستورالعملهای توصیفی تولید میکند که به مدل SR در انجام فرآیند تولید کمک میکند. نتیجه، تولید بخشی بزرگنمایی شده از تصویر اول است.
(الف) SR مرسوم. وقتی یک ستون فقرات SR که برای یک ضریب بزرگنمایی ثابت (مثلاً ۴ برابر) آموزش دیده است، به بزرگنماییهای بسیار بزرگتری فراتر از رژیم آموزشی خود منتقل میشود، تاری و مصنوعات ایجاد میشوند. (ب) زنجیره بزرگنمایی (زنجیره بزرگنمایی ما). با شروع از یک ورودی LR، یک VLM از پیش آموزش دیده یک راهنمای توصیفی تولید میکند که - همراه با تصویر - به همان ستون فقرات SR داده میشود تا حالت مقیاس HR بعدی را تولید کند. این چرخه راهنمای بزرگنمایی و بزرگنمایی تکرار میشود و به یک مدل آماده اجازه میدهد تا با حفظ جزئیات دقیق و وفاداری معنایی، به وضوحهای بسیار بالا (۱۶ x-۲۵۶ x) برسد.
سپس این چارچوب، با استفاده از نشانههای مفید VLM، این فرآیند را بارها و بارها تکرار میکند و هر بار وضوح تصویر بزرگنمایی شده را بهبود میبخشد تا در نهایت به نسخه نهایی برسد. برای اطمینان از مفید بودن دستورالعملهای ارائه شده توسط VLM، تیم تحقیقاتی از تکنیکهای یادگیری تقویتی استفاده کرد. آزمایش این چارچوب نشان داد که قادر است از تصاویر تولید شده توسط معیارهای استاندارد، بهتر عمل کند.
محققان خاطرنشان میکنند که چارچوب آنها برای بهبود کیفیت تصویر نیازی به آموزش مجدد ندارد، که به گفته آنها، آن را قابل حملتر میکند. آنها همچنین اظهار میکنند که کاربران باید در مورد نحوه استفاده از چارچوب خود مراقب باشند. تصویر بزرگنمایی شده واقعی نیست - با استفاده از هوش مصنوعی تولید شده است.
بنابراین، اگر قرار باشد از آن برای تشخیص حروف و/یا اعداد روی پلاک ماشین فراری که در جریان سرقت از بانک استفاده شده است، استفاده شود، ممکن است حروف و اعداد بسیار واضحی را نشان دهد -، اما ممکن است با اعداد و حروف روی ماشین واقعی مطابقت نداشته باشند.