به گزارش خبرنگار علمی «خبرگزاری دانشجو»، پیكره متنی زبان فارسی با استفاده از منابعی مانند روزنامهها و سایتها و مستندات از قبل تایپ شده قادر است تا متون گفتاری و نوشتاری زبان فارسی را سازماندهی كند.
پیكره متنی استاندارد زبان فارسی به عبارتی یك زبان گفتگوی هوشمند محسوب میشود كه می تواند در تعلیم مدلهای زبانی مورد استفاده قرار گیرد.
این سامانه مجموعهای متون نوشتاری و گفتاری زبان فارسی به صورت رسمی است كه از منابع واقعی همچون روزنامهها سایتها و مستندات از قبل تایپ شده جمعآوری تصویر شده و برچسب خورده است.
حجم این دادگان 100 میلیون كلمه بوده و از منابع مختلف به دست آمده و دارای قابلیتهای جمعآوری و سازماندهی متون نوشتاری و گفتاری زبان فارسی را دارد و قادر است تا موضوعات مختلف سیاسی اجتماعی فرهنگی و بسیاری موضوعات دیگر را پوشش دهد.
این سامانه در دومین نمایشگاه فناوری اطلاعات و رسانههای دیجیتال عرضه شده است.