موتور جستجوی «پارسی جو» با پوشش 120 میلیون صفحه فارسی در حال سرویسدهی به بیش از 20 هزار کاربر فارسیزبان در روز است و تیم تحقیقاتی این طرح امیدوارند بتوانند با افزودن سرویسهای ایمیل و اشتراکگذاری دادهها خدمات بهتری به کاربران ارائه دهند.
گروه علمی «خبرگزاری دانشجو»؛ زمزمههای استفاده از موتور جستجوی بومی از اواسط سال 89 در دستور کار وزارت ارتباطات و فناوری اطلاعات قرار گرفت و مقرر شد که موتور جستجوی ملی در بستر شبکه ملی اطلاعات شروع بهکار کند. یک سال پس از تصویب این موضوع وزارت ارتباطات و فناوری اطلاعات به منظور ایجاد فضای رقابتی در میان نخبگان کشوری مصوب کرد تا راهاندازی چندین موتور جستجوی بومی در دستور کار قرار گیرد.
در همین راستا موتور جستجوی «پارسیجو» جزء اولین موتورهای جستجوی بومی قرار گرفت که وزارت ارتباطات آن را تایید کرد.
جزئیات موتور جستجوی بومی
پارسیجو موتور جستجوی مستقل و بومی است که شامل سه بخش اصلی خزشگر، نمایه ساز و بخش بازیابی و جستجو است.
خزشگر پارسیجو که Parsijoo نام دارد به صورت هوشمند وب را پیمایش کرده و صفحات را جمع آوری میکند. در حال حاضر خزشگر پارسیجو، قادر به خزش 200 میلیون صفحه وب به صورت متوالی است و نسخه جدید آن که به زودی بر روی وب قرار میگیرد، قادر است بیش از یک میلیارد صفحه وب را جمعآوری کند.
در این بخش اسناد وب فارسی با یک سیاست مناسب بر مبنای پوشش و تازگی از وب جمعآوری میشوند. یکی از اقدامات مهم این بخش کشف صفحات مهم فارسی است که این عمل با استفاده از الگوریتم جدید هوشمند به نام «ایساتیس» انجام میگیرد.
روش ایساتیس توسط طراحان پارسی جو ارائه شده که قادر است صفحات مهم فارسی را کشف و سپس بارگذاری کند. همچنین این الگوریتم قادر به تشخیص صفحات فریب آمیز (اسپم) است.
در بخش نمایه ساز متن خالص از اسناد فارسی مانند HTML، DOC و PDF بارگذاری شده، توسط خزشگر استخراج شده و با توجه به خصوصیات زبان فارسی نرمال سازی شده و سپس عمل نمایه سازی انجام میگیرد.
در این بخش از یک پردازشگر فارسی برای پردازش کلمات و عبارات فارسی استفاده میشود که این پردازشگر قادر است عملیات فاصله گذاری و یکسان سازی کدینگهای استفاده شده را انجام دهد. همچنین تصاویر و بقیه اسناد در این بخش پردازش میشوند. کل این مجموعه عملیات بر روی یک بستر توزیع شده اجرا میشود.
بخش بازیابی و جستجو پارسیجو نیز که به صورت برخط عمل میکند و با کاربر در ارتباط است، در ابتدا پرس و جو را از کاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمایهساز بازیابی میکند. در نهایت اسناد با استفاده از روشهای هوشمند رتبه بندی جدید که به صفحات فریب آمیز (اسپم) حساسیت پایینی دارند، رتبهبندی شده و به کاربر ارائه میشوند.
الگوریتم رتبه بندی ارائه شده بیش از 50 ویژگی سایتهای فارسی را با هم به صورت هوشمند ترکیب میکند تا نتایج ارائه شده مورد رضایت کاربران باشد. این الگوریتم نوین توسط تیم پارسیجو طراحی و ارائه شده است. همچنین پردازشگر پرسوجوی این بخش قادر است عملیات فاصله گذاری، یکسان سازی کدینگها، ریخت شناسی صرفی و خطایابی را انجام دهد.
خدمات پارسی جو
این موتور جستجو با پوشش 120 میلیون صفحه فارسی، در حال سرویسدهی به بیش از 20 هزار کاربر فارسیزبان در روز است و خدماتی از قبیل وب، تصویر، اسناد علمی، ترجمه ماشینی و دانلود را ارایه میدهد.
جستجوی وب از جمله خدمات این موتور جستجو است. این خدمت در بین 200 میلیون صفحه فارسی جستجو میکند. با توجه به اینکه صفحات وب از طریق گذرگاه رسمی شبکه کشور دریافت شدهاند، دارای محتویات امن و مطمئن هستند. بهزودی نسخه جدیدی از پارسیجو به بهرهبرداری میرسد که امکان جستجو در بیش از 300 میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم میسازد و در ضمن کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبهبندی بهبود قابل توجهی یافته است.
جستجوی تصویر این موتور در بین 40 میلیون تصویر صورت میگیرد. این تصاویر عمدتا از صفحات وب فارسی استخراج شدهاند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن است.
در بخش جستجوی اسناد علمی نیز این موتور قادر به جستجو در بین یک میلیون مقاله انگلیسی و فارسی است.
ترجمه ماشینی نیز از دیگر خدمات پارسی جو است. این سرویس قابلیت ترجمه دو زبانه متن از فارسی به انگلیسی، انگلیسی به فارسی و فینگلیش به فارسی به همراه فرهنگ لغت انگلیسی به فارسی را دارد. نسخه آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی است.
خدمت ترجمه مبتنی بر روش ترجمه ماشینی هوشمند آماری عمل کرده و از ترجمه ماشینی که توسط دانشگاه صنعتی امیرکبیر پیادسازی شده است، استفاده میکند.
نسخه موبایل پارسیجو نیز به بهرهبرداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشیهای هوشمند تلفن همراه در دسترس است.
تشریح آخرین وضعیت موتور جستجو پارسیجو
علی اکبر تدین عضو هیات علمی دانشگاه یزد و از محققان تیم طراحی موتور جستجو پارسی جو، در گفتگو با خبرنگار علمی «خبرگزاری دانشجو»، با بیان اینکه موتورهای جستجو یکی از پرکاربردترین ابزارهای اینترنتی هستند، خاطرنشان کرد: در اکثر کشورها موتورهای جستجو رتبه اول تعداد بازدید کننده را داشته ضمن آنکه بالاترین درآمدها در بین سایتهای اینترنتی و شرکتهای حوزه اینترنت از طریق موتورهای جستجو بوده است.
وی افزود: کمپانی گوگل با 60 میلیارد دلار درآمد و 96 درصد تبلیغات توانسته است 70 درصد سهم جستجو خود را در آمریکا و 4 میلیارد رکورد در روز را نصیب خود کند.
تدین با اشاره به تعداد پرس و جوهای ارسال شده به گوگل از طرف ایران، یادآور شد: طبق برآوردهای صورت گرفته آمار پرس و جوهای ارسال شده از ایران روزانه 100 میلیون (یک درصد جستجوهای جهان) بوده است و 4 موتور جستجوی جهانی در ایران دارای رتبه زیر 20 هستند.
عضو هیات علمی دانشگاه یزد صرفه اقتصادی، بازار بی رقیب، تبلیغات هدفمند، ارزش افزوده اطلاعاتی، ارائه سرویسهای بومی متناسب با نیاز جامعه و تصمیم گیری مبتنی بر دانش را از مزیتهای موتورهای جستجوی بومی نام برد و افزود: کشور چین در عرض سالهای 2010 تا 2012 تبلیغات هدفمند متنی خود در موتورهای جستجو را 12 برابر کرده است؛ چرا که موتورهای جستجوی بومی به دلیل شناخت بهتر زبان و فرهنگ که موجب فهم و پردازش بهتر زبان میشود، میتواند دسترسی کاربران محلی را به اطلاعات بیشتر و بهتر کند.
وی هدف از ایجاد پارسی جو را ارائه متون بومی با سرویسهای متنوع برای ایرانیان عنوان کرد و یاداور شد: موتور جستجوی پارسیجو باید بتواند قدرت جستجوی خود را در بیش از یک میلیارد سند فارسی افزایش داده و به 4 میلیون پرس و جو در روز دست پیدا کند.
این محقق با اشاره به آخرین وضعیت موتور جستجو پارسی جو، خاطر نشنن کرد: اجرای فاز تحقیقاتی موتور جستجوی پارسیجو در مرکز تحقیقات مهندسی دانشگاه یزد و شرکت پارسیجو در شهریور 87 شروع و طراحی و پیاده سازی آن در مهر 88 آغاز شد و نسخه اول این موتور دراردیبهشت 89 با پوشش یک میلیون صفحه روی وب قرار گرفت. هم اکنون نسخه 3 پارسی جو با پوشش 200 میلیون صفحه روی وب قرار دارد.
تدین با تاکید بر اینکه: درآمدزایی از طریق تبلیغات موجبات خودکفایی و استقلال کشور را در عرصه علمی فراهم میکند به بیان توضیحاتی درباره ویژگیهای پارسیجو پرداخت و خاطرنشان کرد: استفاده بیش از 10 سرویس متنوع برای ارتقاء کیفیت نتایج جستجو، پوشش 200 میلیون سند فارسی، قدرت پاسخگویی به 300 هزار پرس و جو در روز با حداقل سخت افزار و پهنای باند، استفاده از خزشگر ایساتیس با خزش 2 میلیارد سند (هوشمند در تشخیص اسناد مهم) از جمله ویژگیهای پارسیجو است.
عضو هیات علمی دانشگاه یزد به سرویسهای جدید موتور جستجوی پارسیجو اشاره کرد و توضیح داد: سرویس خبر هوشمند، جستجوی آوا در یک میلیون فایل صوتی، سرویسهای نقشه و سرویس تبلیغات هدفمند جزء جدیدترین بخشهای این موتور جستجو هستند.
به گفته تدین، 40 درصد ترافیک موتورهای جستجوی چینی در بخش جستجوی آوا است همچنین سرویسهای گوشیهای هوشمند نیز 40 درصد درآمدهای گوگل را شامل میشود که در این زمینه نیز میتوانیم فعالتر عمل کنیم.
وی تعداد 65 هزار جستجوی وب، 45 هزار تصویر و 30 هزار مابقی جستجوها (آوا، خبر، موبایل، دانلود) را جزء آمار گرفته شده از کاربران استفاده کننده از پارسیجو عنوان کرد و اظهار داشت: اضافه کردن سرویسهای بومی و محلی، ایجاد ایمیل و پروفایل سازی و افزایش تعداد کاربران جزء چشمانداز توسعه موتور جستجوی پارسیجو است.