به گزارش گروه دانشگاه خبرگزاری دانشجو، مدلهای پیشرفته هوش مصنوعی که در آزمونهای پزشکی نتایج خوبی کسب میکنند، هنوز در یکی از مهمترین وظایف پزشکان یعنی گفتوگو با بیماران برای جمعآوری اطلاعات پزشکی مرتبط و ارائه تشخیص دقیق ناکام میمانند.
به گزارش نیو ساینتیس، پراناو راجپورکار، پژوهشگر دانشگاه هاروارد، در این خصوص گفت: در حالی که مدلهای زبان بزرگ نتایج چشمگیری در آزمونهای چند گزینهای دارند، دقت آنها در مکالمات پویا به طور قابل توجهی کاهش مییابد. این مدلها به ویژه در استدلال تشخیصی باز با مشکلات زیادی مواجه هستند.
این امر زمانی نمایان شد که محققان روشی برای ارزیابی قابلیتهای استدلال مدلهای هوش مصنوعی در محیطهای شبیهسازیشده پزشک بیمار توسعه دادند. بیماران در این مطالعات از ۲۰۰۰ پرونده پزشکی که عمدتاً از آزمونهای پزشکی هیئتمدیره آمریکا استخراج شده بودند، الهام گرفته شده بودند.
شریا جوهری، پژوهشگر دیگر دانشگاه هاروارد، اظهار داشت: شبیهسازی تعاملات بیمار به ارزیابی مهارتهای جمعآوری تاریخچه پزشکی کمک میکند که جزو اجزای حیاتی عمل بالینی است و نمیتوان آن را با استفاده از داستانهای کوتاه پزشکی ارزیابی کرد.
مدل GPT-۴ اپنایآی نقش بیمار هوش مصنوعی را در مکالمه با هوش مصنوعی بالینی که در حال آزمایش بود، ایفا کرد. این مدل همچنین به ارزیابی نتایج کمک کرد و تشخیص هوش مصنوعی بالینی را با پاسخ صحیح هر پرونده مقایسه کرد. کارشناسان پزشکی انسانی این ارزیابیها را دوباره بررسی کردند تا دقت بیماران هوش مصنوعی را تایید کرده و ببینند که آیا هوش مصنوعی بالینی توانسته اطلاعات پزشکی مربوطه را جمعآوری کند یا خیر.
نتایج آزمایشهای متعدد نشان داد که چهار مدل پیشرفته زبان بزرگ مدلهای GPT-۳.۵ و GPT-۴ اپنایآی، مدل Llama-۲-۷ b متا و مدل Mistral-v ۲-۷ b میستالایآی در مقایسه با تشخیصهایی که بر اساس خلاصههای مکتوب پروندهها انجام میشد، عملکرد به مراتب ضعیفتری در معیار مبتنی بر مکالمات داشتند.
این مدلها همچنین در جمعآوری تاریخچه پزشکی کامل بیماران درصد بالایی از زمانها شکست خوردند. برای مثال، مدل پیشرفته GPT-۴ تنها در ۷۱ درصد از مکالمات شبیهسازیشده بیماران توانست تاریخچه پزشکی مربوطه را جمعآوری کند. حتی زمانی که مدلها تاریخچه پزشکی بیمار را جمعآوری کردند، همیشه تشخیصهای صحیحی ارائه ندادند.