تحليل چالش هاي پيوسته نويسي و جدا نويسي واژگان فارسي در ذخيره و بازيابي اطلاعات در پايگاه هاي اطلاعاتي

Hits: 1011
User rating: / 
PoorBest 

Review

چكيده

مقدمه: ويژگيهاي خاصّ دستوري و نگارشي زبان و خط فارسي، دشواريهايي را در ذخيره و بازيابي اطلاعات در محيط رايانهاي پديد آورده است. رسم‌الخط فارسي نيز از يك‌سو به علت اختلاف نظر پديدآورندگان متون و از سوي ديگر پيچيدگيهاي ذاتي خود، بههنگام ذخيره، جستجو و بازيابي چالشهاي متعددي را براي طراحان و نمايهسازان پايگاه‌ها، كاربران و پديدآورندگان منابع به‌وجود آورده است.

روش بررسي: اين پژوهش به روش تحليل محتوا انجام شد.100 عنوان از پاياننامههاي موجود رشته كتابداري و اطلاع‌رساني به منزله نمونه‌اي از متون فارسي در پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاع‌رساني علوم و فناوري و از هر پايگاه 50 عنوان بهصورت تصادفي انتخاب شد. با استفاده از دستور خط فارسي مصوب فرهنگستان زبان، كلماتي كه درست يا نادرست نوشته شده بود، از يكديگر تفكيك و در مرحله بعد، عنوانهاي مورد نظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو گرديد و در نهايت، نتايج بازيابي در پايگاه‌ها، ارزيابي و مقايسه شد.

يافتهها: نتايج اين بررسي نشان داد 2/71% از كلمات عنوانها به صورت درست و 8/28% نادرست نگارش شدهاند. همچنين، مشخص شد 6/51% اين كلمات، دو جزئي و 5/47% سه جزئي هستند و اغلب نويسندگان پاياننامهها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق ميباشند، دچار خطا شدهاند. در پايگاه اطلاعاتي مركز منطقهاي اطلاع‌رساني علوم و فناوري، تنها حالت ثبت شده عنوانها به بازيابي عنوان مورد نظر انجاميد و در پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، تنها 58% عنوانها با تغيير رسم‌الخط همچنان بازيابي شدند.

نتيجهگيري: اين پژوهش نشان داد پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران نسبت به پايگاه اطلاعاتي مركز منطقهاي اطلاع‌رساني علوم و فناوري، در بازيابي عنوان پايان نامه‌ها در حالتهاي مختلف پيوسته و جدا نوشته شده، بهتر عمل ميكند. همچنين، بايد به نويسندگان پاياننامه‌ها، استفاده از قواعد يكدست ملي بويژه در نگارش كلمات 2 جزئي و مشتق تأكيد شود.

كليدواژهها: خط فارسي، ذخيره و بازيابي، پايگاه‌هاي اطلاعاتي، رسم‌الخط، پيوسته‌نويسي، جدانويسي.

 

در اين جستار كوتاه سعي شده با نگاه به ويژگي پيوستهنويسي و جدانويسي واژگان فارسي در محدودة عنوانهاي پاياننامههاي كتابداري و اطلاع‌رساني و بررسي اين مشكل در دو پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاع‌رساني علوم و فناوري، وضعيت توجه نويسندگان و همچنين پايگاه‌هاي مورد نظر به اين بخش از رسم‌الخط بررسي و راهكارهايي براي حلّ اين مشكلات ارائه شود.

مقدمه

به استناد مركز آمار جهاني اينترنت، هرچند زبان انگليسي هنوز هم جزء ده زبان اول دنياي اينترنت است[1]، تعداد مدارك غير انگليسي و كاربران غير انگليسي زبان در وب در حال افزايش است. اين وضعيت، مطالعه و طراحي سيستمهاي بازيابي براي اين زبانهاي مختلف را ناگزير ساخته است. چنان‌كه «آل احمد و ديگران»[2] (2008) نيز به اين مسئله اشاره كرده‌اند، زبان فارسي بهعنوان زبان رسمي ايران، افغانستان و تاجيكستان سبب شده منابع زيادي از وب به اين زبان توليد شود و كاربران فارسي زبان به دلايل مختلفي در جستجوهاي خود از اين زبان استفاده كنند، اما به دليل غالب بودن زبان انگليسي در اينترنت، جستجو به زبانهاي غيرانگليسي از جمله فارسي، مسائل و مشكلات مختلفي جدا از مشكلات عمومي اينترنت به همراه دارد (راثي، 1384). مشكلات زبان فارسي از يك سو و اهميت يافتن روزافزون موضوع رايانه و خط و زبان فارسي، كه در همه زمينههاي كاربردي و تحقيقاتي و حتي در زندگي عموم مردم رسوخ يافته، از سوي ديگر، همانطور كه «صامتي و بيجنخان» (1389، نوزده) نيز بيان ميكنند، سبب شكلگيري پژوهشهاي زيادي در اين حوزه شده است.

دشواريهاي زبان فارسي در ارتباط با حوزة ذخيره و بازيابي اطلاعات را ميتوان از نظرگاه‌هاي مختلفي دستهبندي نمود. مقالة حاضر كه با ديدگاه ساختاري به مسائل رسم‌الخط فارسي پرداخته است، به‌طور مشخص بر ويژگي پيوسته و جدانويسي كلمات فارسي تأكيد دارد. كلماتي كه به دو شكل پيوسته و جدا نوشته ميشوند، هر چند مشكلات كمي در خواندن متن به وجود مي‌آورند و هر آشناي به زبان فارسي به راحتي مي‌تواند آنها را بخواند، در نظامهاي ذخيره و بازيابي اطلاعات، مشكلات زيادي ايجاد ميكنند. از اين رو، نيازمند توجه از سوي پديدآورندگان متون و منابع و نيز طراحان و نمايهسازان پايگاه‌هاي اطلاعاتي ميباشند.

پيوستهنويسي و جدانويسي در رسم‌الخط فارسي

فرهنگستان زبان و ادب فارسي در باب پيوسته‌نويسي و يا جدانويسي تركيبات در زبان فارسي، سه فرض را متصور است (دستور خط فارسي، 1388، ص 38) كه در ادامه به آنها اشاره شده است. در پژوهش حاضر بر مبناي اين دستورالعملهاي فرهنگستان عمل شده است.

1.      تدوين قواعدي براي جدانويسي همه كلمات مركب و تعيين موارد استثنا.

2.      تدوين قواعدي براي پيوسته‌نويسي همه كلمات مركب و تعيين موارد استثنا.

3. تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوسته‌نويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان.

فرهنگستان در تدوين و تصويب دستور خط فارسي، فرض سوم را برگزيده و تنها موارد الزامي جدانويسي و يا پيوستهنويسي را مشخص كرده است:

الف)كلمات مركبي كه الزاماً پيوسته نوشته ميشوند. به عنوان مثال، مركبهاي بسيطگونه مانند يكشنبه و كلماتي كه جزء دومشان با «آ» آغاز ميشود و تك هجايي هستند و موارد ديگر كه در متن دستور خط فارسي بهطور كامل توضيح داه شدهاند.

ب) كلمات مركبي كه الزاماً جدا نوشته ميشوند. مانند تركيبهاي اضافي، مصدر مركب و غيره... .

در عين حال، چنان‌كه اشاره شد، نويسندگان، ويراستاران و ناشران آثار فارسي تاكنون از شيوه‌ها و رسم الخط‌هاي مختلفي استفاده كرده‌اند و متون موجود فارسي با همين گوناگوني در پايگاه‌هاي اطلاعاتي و در وب ذخيره شده است. به همين سبب، جستجو و بازيابي متون فارسي با چالشهاي فراوان همراه است.

ضرورت و هدفهاي پژوهش

نظام نحوي يا ساختاري هر زبان، مهم‌ترين شاخص استقلال و تمايز يك زبان از زبانهاي ديگر است كه بر پاية واژگان زبان شكل مي‌گيرد (نوبهار، 1388). زبان فارسي، در مقايسه با ساير زبانهاي دنيا، ماهيت متفاوت و ويژه (Oroumchian , et al. , 2007) و نيز نظام ساختاري پيچيدهاي دارد. به همين دليل، طراحي سيستمهاي ذخيره و بازيابي براي آن نيازمند ملاحظات ويژهاي است. اين تفاوتها نه تنها در ساختار زبان، بلكه در خط فارسي نيز وجود دارد (دستور خط فارسي، 1388، ص.1). متأسفانه، نبود استاندارد و تنوع رسم‌الخط و مفاهيم در زبان فارسي (شهيدي و ديگران 1384) سبب پراكندگي سبك و سياق نگارشي براي اين زبان شده است. بي‌توجهي برخي از پديدآورندگان به اين ويژگيهاي خط فارسي بويژه در متون و منابع علمي و گاه بيتوجهي طراحان پايگاه‌هاي اطلاعاتي و موتورهاي جستجو، اغلب به ناكارآمدي اين پايگاه‌ها در جستجو و بازيابي منجر شده است. آنچه ضرورت پرداختن به اين پژوهش را آشكار ميسازد، شناسايي مسائل مربوط به پيوسته و جدانويسي در نگارش فارسي و ميزان توجه به اين مسائل در ذخيره و بازيابي اطلاعات و متون فارسي است. براساس اين ضرورت، هدف از پژوهش حاضر، شناسايي كاستيهايي است كه از نظر رسم‌الخط فارسي و از جنبه ويژگيهاي تركيب و جدانويسي كلمات در زبان فارسي، در عنوانهاي پاياننامههاي كتابداري انعكاس يافته است. همچنين، ميزان توجه طراحان و نمايهسازان پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاع‌رساني علوم و فناوري به اين ويژگيهاي كلمات فارسي به منظور تلاش براي بهينهسازي اين پايگاه‌هاي اطلاعاتي، از ديگر هدفهايي است كه اين پژوهش دنبال ميكند.

مسئله پژوهش

رسم‌الخط فارسي، چنان‌كه «حرّي» (1376) نيز اشاره ميكند، يكي از متغيرهاي عمده در ذخيره و بازيابي اطلاعات به زبان فارسي است و در دهههاي اخير نيز مسبب بيشترين اختلاف نظر در مورد شيوه املاي كلمات بوده است (شهيدي و ديگران، 1384). دشواريهاي حاكم بر نحوة نگارش واژههاي فارسي، علاوه بر اين‌كه سبب ناهماهنگي متون ميشود، براي جستجوگران محيط وب نيز مسائلي را پيش روي مينهد. بي‌توجهي كاربران (راثي، 1384)، پديدآورندگان متون و منابع و نيز طراحان و نمايهسازان پايگاه‌هاي اطلاعاتي فارسي به ويژگيهاي پيوستهنويسي و جدانويسي واژگان در كنار ساير مسائل رسم‌الخط فارسي، ميتواند سبب بروز مشكلات زيادي در ذخيره و بازيابي اطلاعات شود. بر اين اساس، پژوهش حاضر در پي آن است تا ميزان رعايت اصول رسم‌الخط فارسي از جنبة پيوستهنويسي و جدانويسي را با محدود نمودن به حوزة كتابداري و اطلاع‌رساني و صرفاً به پاياننامههايي كه بهعنوان نمونه براي اينكار انتخاب شدهاند، بررسي كند. همچنين، روشهايي را كه ممكن است برخي پايگاه‌هاي اطلاعاتي در اين زمينه اتخاذ نموده باشند، شناسايي و بر مبناي يافتههاي حاصل، ضمن نشان دادن وضعيت حال حاضر، پيشنهادها و راهكارهايي عملي ارائه نمايد.

پيشينة پژوهش

بررسي پژوهشهاي انجام گرفته در حوزة بازيابي اطلاعات به زبان فارسي بيانگر اين است كه اين مقوله از ديرباز مورد توجه صاحب‌نظران و پژوهشگران علوم كتابداري و اطلاع‌رساني، رايانه و زبانشناسي بوده است. نگاه به فعاليتهايي كه در اين زمينه صورت گرفته، از گستردگي مشكلات و دشواريهاي زبان فارسي و ابعاد مختلف آن حكايت دارد كه در حوزة بازيابي بهعنوان مسئله رخ نموده و لزوم تلاش براي رفع آنها را ضروري ميسازد[3]. در ادامه، برخي از اين پژوهشها در حوزههاي ريشهيابي، پيوستهنويسي و جدانويسي و نيز شكلهاي مختلف نوشتاري واژگان فارسي، دستهبندي و بيان مي‌شود.

جدانويسي و پيوسته‌نويسي: مرور پيشينه در اين حوزه، نشان از فعاليتهاي اندك صورت گرفته دربارة مشكلات جدانويسي و پيوستهنويسي دارد. اغلب اين پژوهشها، مسائل مطرح در اين زمينه را شناسايي نموده‌اند؛ مانند پژوهشي كه «شهيدي و همكارانش» (1384) براي يافتن روشي براي رفع چالشهاي محتوا كاوي در وبهاي فارسي زبان انجام دادند و در نهايت، برخي از مهم‌ترين چالشهاي خط فارسي را برشمردند كه در بين آنها ميتوان اشارههايي به ويژگيها و مسائل تركيب و جدانويسي واژگان را نيز ملاحظه نمود. عمدهترين راه حلهايي كه اين پژوهشگران ارائه دادند، عبارت است از: انتخاب مناسب سرعنوانهاي موضوعي در وب‌سايتهاي فارسي، استمداد از علم اصطلاح‌شناسي در نمايه‌سازي ماشيني، تعريف يك استاندارد براي مفاهيم و رسم‌الخط فارسي در وب، استفاده از مفرد و جمع در نمايه‌سازي و استفاده از يك واسط كاوش فارسي براي رفع چالشهاي رسم‌الخطي.

البته در اين زمينه، پژوهشي را «كاشفي و همكارانش» (Kashefi, et al., 2010) با عنوان بهينهسازي‌يابش مدارك مشابه در بازيابي اطلاعات به زبان فارسي انجام دادند و در آن به شناسايي بيش از 300 پسوند و تركيبهاي كلمات و كارآمدي حذف پيشوندها از متون فارسي به هنگام بازيابي آنها پرداختند. در اين پژوهش، از چهار روش استفاده شد؛ نمايه‌سازي معاني پنهان، مدل فضاي برداري، همآيندي و شينگلينگ[4]. نتيجه نشان داد با حذف پيشوندها، ميزان بازيابي مدارك مشابه، بهبود و بازيافت اين منابع بهطور قابل ملاحظهاي افزايش مييابد.

ريشهيابي واژگان: ريشهيابي، كه عبارت است از قرار دادن واژههاي يك زبان در دستههاي معنايي يكسان، در بسياري از زمينههاي پردازش زبان طبيعي. همچنين پردازش زبان فارسي، مدنظر است. پژوهشي كه «رحيم طرقي و همكارانش» (Rahimtoroghi, et al., 2010) در زمينة ريشهيابي مبتني بر قواعد دستوري براي زبان فارسي انجام دادند نيز شاهد اين مدعاست. اين پژوهشگران، برمبناي قواعد دستور زبان، الگوريتم ريشه‌يابي را طراحي نمودند كه از ساختار كلمات و قواعد املايي آنها براي شناسايي ريشه هر كلمه استفاده مي‌كند. بر اين اساس، 33 قاعدة دستوري شناسايي شد. نتايج نشان داد استفاده از اين ريشهياب در سيستمهاي بازيابي اطلاعات در مورد زبان فارسي، دقت نتايج بازيابي شده را به ميزان 8/4% افزايش و اندازة فايل نمايهسازي شده را تا 6% كاهش ميدهد.

توجه به ريشهيابي گاه در كنار ساير بررسيهاي زبانشناختي قرار گرفته است. بهعنوان مثال، ميتوان به پژوهش «كريمپور و ديگران»(Karimpour, et al., 2009) اشاره نمود. دراين پژوهش، از مدل بازيابي Idri و از برچسب‌زن اجزاي جملة TNT با استفاده از 40 برچسب پيكرة «بيجنخان»[5] استفاده شد. بر اين اساس، بهبود عملكرد الگوريتمهاي بازيابي ارزيابي گرديد. همچنين، تأثير ريشهيابي بهعنوان يكي ديگر از بخشهاي كار اين پژوهشگران، بررسي شد. يافتههاي اين تحقيق نشان داد هرچند استفاده از برچسب زني اركان سخن ممكن است تأثير اندكي در اثر بخشي نتايج بازيابي شده داشته باشد، زمانيكه اين روش همراه با ريشهيابي به كار ميرود، دقت نتايج بازيابي شده بهميزان قابل توجهي افزايش مييابد.

در مورد تأثير ريشهيابي در متون زبان فارسي، پژوهش ديگري توسط «دلاميك و ساووي» (Delamic and Savoy, 2009) انجام گرفته كه با هدف ارزيابي راهبردهاي مختلف نمايهسازي و ريشهيابي، استفاده از سياهة واژگان بازدارنده و يك ريشه‌يابي سبك را پيشنهاد ميكنند. در اين پژوهش، از مدلهاي بازيابي متعدد از جمله Okapi, DFR, LM و نيز دو مدل كلاسيك فضاي برداري يعني tf idf  و نيز Lnu-ltc براي ارزيابي راه حلهاي ارائه شده، استفاده گرديد. آنچه در اين پژوهش مورد توجه است، نگاه ويژه به رسم‌الخط فارسي و پيشنهاد يك ريشه ياب براي اين خط است كه رايج‌ترين پسوندهاي مورد استفاده و حالتهاي جمع لغتها را استخراج و در نهايت سياهة واژگان بازدارندهاي شامل 881 كلمه را پيشنهاد ميكند كه مديريت و كنترل آنها مي‌تواند در بازيابي به زبان فارسي، كمك قابل توجهي باشد.

شكلهاي مختلف نوشتاري واژگان: توجه به اين‌كه واژههاي فارسي شكلهاي مختلف نگارشي دارند، و مسائلي كه وجود اين اشكال پيش روي بازيابي اطلاعات در وب مينهد، در پژوهش «عبدالهي نورعلي» (1386) نيز تأكيد شد. وي مسائل ريختشناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب را بررسي كرد و با استفاده از جستجوگرهاي گوگل، آلتاويستا و ياهو، جستجوهايي را به زبان فارسي انجام داد و دريافت كه اين جستجوگرها، به دشواريهاي زبان فارسي در بازيابي اطلاعات نپرداخته و تلاشي براي بهبود نتايج انجام ندادهاند.

برخي نيز بهطور مشخص، مسائل زبان و خط فارسي در ذخيره و بازيابي اطلاعات را بررسي كردند. از آن جمله، «مرتضايي» (1381) است كه نمونههايي از دشواريهاي زبان و خط فارسي را در بازيابي اطلاعات بر ميشمارد. همچنين، وي به مهم‌ترين دشواريهاي زبان فارسي كه سبب كندي مراحل ذخيره و بازيابي و نيز كاهش بازيافت ميشوند نيز پرداخته و معتقد است راهكارهايي از قبيل يكسان سازي واژهها، كاربرد دستورالعملهايي يكدست در تمامي واحدهاي چاپ و نشر و هوشمند‌سازي جستجو ميتواند به حلّ اين مسائل كمك كند.

برخي ديگر نيز بهعنوان جزئي از پژوهش خود، توجه به اين بُعد را نيز از نظر دور نداشتهاند. از آن جمله، تحقيقي است كه «گل تاجي و بذرگر» (1389) در زمينة بررسي مشكلات ريخت‌شناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقهاي علوم اطلاع‌رساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي انجام دادند و با انتخاب و جستجوي كليدواژههايي كه هركدام بيانگر نوعي از چالشهاي زبان فارسي بود، اين كليدواژهها را در پايگاه‌هاي موردنظر جستجو كردند. نتايج اين پژوهش نشان داد هيچيك از اين سه پايگاه، به شيوهاي جامع و قابل ملاحظه به حل مسائل ريختشناسي واژگان فارسي نپرداختهاند. موارد مورد توجه پايگاه‌هاي مورد بررسي در اين پژوهش، به ترتيب زير ذكر شده است: پايگاه مركز منطقه‌اي اطلاع‌رساني علوم و فناوري: تنوين، تشديد، پيوسته‌نويسي و بي‌‌فاصله‌نويسي؛ پژوهشگاه اطلاعات و مدارك علمي ايران: جدانويسي و بي فاصله‌نويسي، خط تيره، نقطه بين سرنام‌ها؛ پايگاه جهاد دانشگاهي:همزه به صورتهاي مختلف.

نگاهي به پيشينة پژوهشهايي كه بيان شد، نشان مي‌دهد مسائل خط و زبان فارسي در پيوند با ذخيره و بازيابي اطلاعات را ميتوان از ابعاد مختلف بررسي كرد. ويژگيهاي خاص حاكم بر نگارش خط فارسي سبب شده تا بررسي دقيقتر هركدام از آنها و مسائلي كه در ذخيره و بازيابي پديد ميآورند، بيش از پيش اهميت يابد. به نظر ميرسد آگاهي از اين ضرورت در بين متخصصان حوزههاي مرتبط، بويژه متخصصان علم كتابداري و اطلاع‌رساني، به وجود آمده است و زمان آن فرا رسيده تا راهحلهايي دقيق و موشكافانه براي هريك از اين دشواريها ارائه شود. پژوهش حاضر با اين رويكرد و با هدف قرار دادن يكي از اين معضلات، كه عبارت است از ويژگيهاي تركيب و جدانويسي واژگان فارسي، و به منظور يافتن راهي براي گذر از چالشهاي آن در حوزة كتابداري و اطلاع‌رساني، انجام يافته است.

سؤالهاي پژوهش

پژوهش حاضر در پي يافتن پاسخ سؤالهاي زير انجام شده است:

1.اصول پيوستهنويسي و جدانويسي بهعنوان يكي از مسائل رسم‌الخط فارسي، تا چه ميزان در عنوانهاي پاياننامههاي حوزه كتابداري و اطلاع‌رساني رعايت شده است؟

2.به لحاظ شكل دستوري، كليدواژههاي جدا يا پيوسته نوشته شده، جزء كدام نوع (اسم، صفت، قيد، فعل) هستند؟

3.پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاع‌رساني علوم و فناوري با توجه به ويژگيهاي پيوستهنويسي و جدانويسي واژگان در عنوانهاي پاياننامهها چگونه عمل ميكنند؟

طرح پژوهش

در اين پژوهش كه به روش تحليل محتوا انجام شده است، 100 عنوان از پاياننامههاي موجود رشته كتابداري و اطلاع‌رساني به منزلة نمونه‌اي از متون فارسي در پايگاه‌هاي موردنظر و از هر پايگاه 50 عنوان بهصورت تصادفي انتخاب شد. به اين ترتيب كه ابتدا سياههاي از دانشگاه‌هاي مجري رشتة كتابداري و اطلاع‌رساني در مقاطع تحصيلات تكميلي در ايران جمعآوري و پس از آن از طريق جستجوي نام استادان راهنما، به عنوانهاي پاياننامهها دست يافته شد. همچنين، عنوانهايي كه در يك پايگاه يافت ميشدند، بهمنظور جلوگيري از تكرار يافتهها بههنگام جستجو در پايگاه دوم، در صورت بازيابي از سياهه كنار گذاشته شدند. جستجوي اسمها با هدف شناسايي كلمات مركبي كه قابليت پيوسته و جدانويسي داشتند، انجام شد. تمام كلمات عنوانهاي اين پاياننامهها بررسي و سياههاي از كلماتي كه ويژگي مورد نظر را به لحاظ رسم‌الخطي دارا بودند، فراهم شد. پس از اين مرحله، بر اساس دستور خط فارسي مصوب فرهنگستان (1388) كلماتي كه درست يا نادرست نوشته شده بودند از يكديگر تفكيك، و از نظر تعداد اجزا و نوع (مركب، مشتق و مركب- مشتق) تحليل شدند. گفتني است، تعداد كلماتي كه قاعدهاي براي آنها در فرهنگستان وجود نداشت و در مورد آنها اختيار به نويسنده داده شده بود، بسيار ناچيز بود، با اينحال، به هنگام جستجو، بهعنوان كلمة خنثي در نظر گرفته شدند. روايي اين كار با مشورت استاد راهنما تأييد گرديد. در مرحلة سوم، عنوانهاي موردنظر در هر دو پايگاه و با حالتهاي متفاوت كلمات مركب، جستجو شد. نتايج بازيابي در پايگاه‌هاي اطلاعاتي پژوهشگاه‌هاي علوم و فناوري اطلاعات ايران و مركز منطقهاي اطلاع‌رساني علوم و فناوري، ارزيابي و مقايسه و در نهايت نتايجي حاصل شد كه پاسخ سؤالهاي تحقيق را شكل داد.

يافتههاي پژوهش

با بررسي عنوانهاي مورد نظر، مشخص شد اين عنوانها در كل شامل 1547 كلمه ميباشند. در پي دستيابي به هدفهاي پژوهش مبني بر شناسايي كاستيهاي نگارشي از ديدگاه رسم‌الخطي مورد توجه در عنوانهاي پاياننامههاي كتابداري و اطلاع‌رساني، پس از بررسي كلمات و مطابقت آنها با دستور خط فارسي مصوب فرهنگستان زبان، آنهايي كه از نظر رسم‌الخطي قابليت پيوسته و جدانويسي را داشتند، در سياههاي جداگانه تنظيم شدند كه تعداد آنها، 316 كلمه، حدود 4/20% كلّ كلمات عنوانها بود. پس از آن، با توجه به قواعد فرهنگستان، به تفكيك كلماتي پرداخته شد كه بر اين اساس درست و نادرست نوشته شده بودند.

نتايج اين بررسي براي يافتن پاسخ سؤال اول اين پژوهش، نشان داد نگارش 225 كلمه (2/71%) درست، 91 كلمه ديگر (8/28%) نادرست است. اين وضعيت در جدول 1 نيز آورده شده است.

 
جدول 1. فراواني كلمات عنوانها و داراي ويژگي پيوسته و جدانويسي
تعداد كلّ كلمه‎هاي عنوانها
كلمه‎هاي داراي ويژگي مورد نظر
كلمه‎هاي درست
كلمه‎هاي نادرست
فراواني
درصد
فراواني
درصد
فراواني
درصد
فراواني
درصد
1547
100
316
42/20
225
2/71
91
8/28
 

در شكل 1 نيز نسبت كلمات درست و نادرست از كل كلماتي كه مركب بودند، نشان داده شده است.

 

شكل 1. نسبت كلمات با رسم‌الخط درست و نادرست
 

در مورد سؤال دوم، بررسي كلمات موردنظر نشان داد اغلب اين كلمات (بيش از 95%) اسم و حدود 5% ديگر، ضمير ميباشند. از آنجا كه در عنوان فعل بهكار نميرود و نيز متون علمي بندرت داراي قيد يا صفت هستند، نبود چنين كلماتي كه ويژگي پيوسته و جدانويسي را نيز داشته باشند، قابل توجيه است. همچنين براي بررسي بهتر، كلمات داراي ويژگي پيوسته و جدانويسي به لحاظ ساختاري نيز تفكيك و به سه دسته تقسيم شدند:

1-كلمات مشتق: آنهايي هستند كه يك جزء آنها معناي قاموسي و اجزاي ديگر معناي دستوري دارند.

2-كلمات مركب: آنهايي هستند كه از دو جزء يا بيشتر تشكيل شده‌اند و تمامي اجزا داراي معناي قاموسي ميباشند.

3-كلمات مشتق - مركب: آنهايي هستند كه دو جزء يا بيشتر از آنها معناي قاموسي و بقية اجزايشان معناي دستوري دارد.

بر اين اساس، حدود 35% كلمات، مشتق، بيش از 18% مركب و نزديك به 42% نيز مشتق- مركب بودند كه جدول 2 و شكل 2 بيانگر اين وضعيت است.

 
جدول 2. تفكيك كلمات از نظر ساختاري
نوع كلمه
فراواني
درصد
مشتق
111
1/35
مركب
59
7/18
مشتق - مركب
146
2/46
مجموع
316
100
 

شكل 1. نسبت كلمات مورد بررسي از نظر ساختاري

 

همچنين، تعداد اجزاي اين كلمات نيز بررسي شد. چنان‌كه جدول 3 و شكل 3 نيز نشان ميدهند، مشخص شد بيشتر اين كلمات، دو جزئي (6/51%) و سه جزئي (5/47%) هستند و كلمات چهار جزئي، درصد بسيار اندكي از كلمات موردنظر را تشكيل ميدهند.

 
جدول 3. تعداد اجزاي كلمات مورد بررسي
جدول اجزاي كلمه
فراواني
درصد
2 جزئي
163
6/51
3 جزئي
150
5/47
4 جزئي و بيشتر
3
0/9
مجموع
316
100

 

شكل 3. نسبت اجزاي كلمات مورد بررسي
 

با بررسي كلمات استخراج شده از عنوانهاي بررسي شده، همان‌طور كه جدول 4 نيز نشان ميدهد، مشخص شد اغلب نويسندگان پاياننامهها، در مورد نحوة نگارش كلماتي كه 2 جزئي و مشتق ميباشند، دچار خطا شدهاند.

 
جدول 4. ميزان اشتباه نويسندگان در رسم‌الخط كلمات به تفكيك اجزا و نوع كلمه
تعداد اجزاي كلمه
درصد نادرستي (فراواني نسبي)
2 جزئي
03/38
3 جزئي
33/17
4 جزئي و بيشتر
66/66
نوع كلمه
درصد نادرستي (فراواني نسبي)
مشتق
58/67
مركب
56/13
مشتق - مركب
49/18
 

در مرحلة بعد، بهمنظور دستيابي به هدف دوم اين پژوهش و پاسخگويي بهسؤال سوم، عنوانهاي مربوط به هر پايگاه، با «جستجوي عنواني» به طور عمدي در حالتهاي درست و نادرست از سوي پژوهشگر جستجو شد؛ به اين ترتيب كه در عنوانهايي كه كلمات به صورت نادرست نوشته شده بود، جستجو با شكل صحيح رسم‌الخطي و همچنين در عنوانهايي كه كلمات به‌طور درست بهكار رفته بود، جستجو با شكل اشتباه رسم‌الخطي نيز انجام شد. گفتني است، اين روش براي هر دو پايگاه اطلاعاتي و در مورد تمامي عنوانها انجام گرفت. چنان‌كه جدول5 نيز نشان ميدهد، در پايگاه اطلاعاتي مركز منطقهاي اطلاع‌رساني علوم و فناوري، با اعمال هريك از تغييرات مورد اشاره به هنگام جستجو، عنوان مورد نظر بازيابي نشد و تنها حالت ثبت شدة[1] عنوانها به بازيابي عنوان مورد نظر ميانجاميد. در انجام همين جستجوها در مورد 50 عنوان مورد نظر از پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران، 29 عنوان (58%) با تغيير رسم‌الخط (درست به نادرست و برعكس) همچنان بازيابي شد، اما 21 عنوان ديگر كه 42% باقيمانده را تشكيل ميداد، با اين تغييرات، بازيابي نشدند. علت تغيير نوع رسم‌الخط از درست به نادرست و برعكس، اين بود كه ممكن است كاربر هنگام جستجوي عنواني در هر حالتي به صورت پيوسته يا تركيبي، واژه را جستجو كند و پايگاه‌هاي اطلاعاتي بايد توانايي جستجوي مورد نظر از سوي كاربر را بدون توجه به ميزان اطلاع وي از نحوة نگارش صحيح كلمات، داشته باشند.

بر اين اساس، ميتوان عملكرد ذخيره و بازيابي پايگاه اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران را در مقايسه با پايگاه اطلاعاتي مركز منطقهاي اطلاع‌رساني علوم و فناوري، مناسب‌تر قلمداد نمود؛ هرچند يافتهها نشان داد اين پايگاه نيز در زمينه ذخيرهسازي و بازيابي كلمات فارسي با ويژگيهاي پيوسته و جدانويسي، يكپارچه عمل‌نكرده است. نتايج حاصل از جستجوهاي عنواني در دو پايگاه، در جدول 5 آورده شده است.

 

جدول 5. نتايج حاصل از جستجوي عنوانهاي پاياننامهها در حالتهاي مختلف رسم‌الخطي در دو پايگاه مورد بررسي

پايگاه
 
نتيجه
پژوهشگاه علوم و فناوري اطلاعات ايران

مركز منطقه‎اي اطلاع‌رساني علوم و فناوري

فراواني
درصد
فراواني
درصد
بازيابي نشده
21
42
50
100
بازيابي شده
29
58
0
0
مجموع
50
100
50
100

بحث و نتيجهگيري

پيچيدگيهاي رسم‌الخط فارسي، از يك‌سو سبب‌ساز آشفتگيهايي در ذخيره و بازيابي (صامتي و بيجن خان، 1389، ص. نوزده؛ شهيدي و ديگران، 1384 وOroumchian, et al., 2007) و همچنين جستجوي اطلاعات به زبان فارسي در اينترنت شده و از سوي ديگر به دليل تأثيرهاي هم‌فرسايي مشكلات بر يكديگر، چالشهاي اين حوزه را چند برابر ساخته است. بهعنوان نمونه، تأثير تركيب و جدانويسي را بر مرزبندي و تعيين حدود كلمه ميتوان مثال زد. اگر در رسم‌الخط فارسي، مطابق قواعد استاندارد عمل نشود، مشكل مرزبندي كلمات فارسي دو چندان ميشود، زيرا به دليل مشكلات عدم شناسايي مرز دقيق كلمات، چالشهاي عمدهاي براي ريشهيابي كلمات و الگوريتمهاي ريشهيابي پديد ميآيد كه با استفاده از دستورالعملهاي استاندارد براي تركيب و جدانويسي كلمات، بخشي از اين چالشها حل و در صورت آشفتگي رسم‌الخط، مشكلات ديگري كه به آنها اشاره شد، افزون خواهد شد. اين پژوهش با هدف شناسايي بخشي از مشكلات خط فارسي كه بر ذخيره و بازيابي اطلاعات از پايگاه‌هاي اطلاعاتي تأثير ميگذارند، در محدوده كوچكي انجام شد. در بازنگري دوباره نتايج اين پژوهش با بخشي از پيشينه كه ارتباط نزديكتري با موضوع دارند، ميتوان به نتايج قابل توجهي رسيد.

نتايج پژوهش حاضر با پژوهش «عبداللهي نورعلي» (1386) همخوان است. در آن پژوهش نشان داده شد كه به مسائل ريخت‌شناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي گوگل، ياهو و آلتاويستا پرداخته نشده است و در اين‌جا مشخص شد كه يك نمونه از اين مسائل ريخت‌شناسي، يعني پيوسته و جدانويسي، در پايگاه‌هاي اطلاعاتي فارسي نيز مورد بيتوجهي قرار گرفته است. بهعبارت ديگر، به مسائل ريختشناسي زبان فارسي نه تنها در جستجوگرهاي غير فارسي، بلكه در پايگاه‌هاي اطلاعاتي فارسي نيز پرداخته نشده است. البته در سالهاي اخير، حركتهايي از سوي طراحان جستجوگرهاي وب مبني بر پيشنهاد عبارتهاي جستجو و نيز پيشنهاد شكلهاي مختلف نگارشي كلمه و عبارت مورد جستجو، صورت گرفته است كه تا اندازهاي ميتواند برخي از مشكلات خط فارسي را از بين ببرد و پايگاه‌هاي اطلاعاتي فارسي زبان نيز ميتوانند از اين ايدهها بهرة لازم را ببرند.

چنان‌كه نتايج اين پژوهش نشان داد، جستجو در حالتهاي مختلف پيوسته و جداي واژگان عنواني هرچند در پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران به طور كامل به جامعيت بازيابي نميانجامد، همراه نمودن كلمة مورد نظر با تعداد بيشتري از واژههاي عنوان از سوي جستجوگر، در برخي موارد به بازيابي عنوان مورد نظر ميانجامد. بر مبناي اين يافتهها كه در بخش قبل نيز شرح داده شد، هرچند نتايج پژوهش «گل تاجي و بذرگر» (1389) در مورد بي‌توجهي برخي پايگاه‌هاي اطلاعاتي فارسي به مسائل ريخت‌شناسي زبان فارسي تأييد ميشود، نتايج پژوهش حاضر نشان از آن دارد كه برخلاف آنچه در پژوهش «گل تاجي و بذرگر» آمده است، پايگاه‌هاي اطلاعاتي پژوهشگاه علوم و فناوري اطلاعات ايران و نيز مركز منطقهاي اطلاع‌رساني علوم و فناوري، به ويژگي پيوسته و جدانويسي كلمات توجه نشان ندادهاند.

همچنين، اين پژوهش تأييدي است بر آنچه «مرتضايي» (1381) مبني بر تأثير استاندارد نبودن شكل نوشتاري كلمات در عدم مطلوبيت و جامعيت جستجو، ذكر مي‌كند.

با توجه به مشكلات نگارش خط فارسي كه به برخي از آنها اشاره شد، ضرورت انديشيدن در مورد راهكارهاي برطرف كردن آن بويژه در محيطهاي الكترونيكي جديد، بيش از پيش آشكار است. بديهي است، نميتوان به بهانة اين دشواريها، خط غني فارسي را به همين شكل از وب كنار گذاشت، بلكه بايد موشكافانه ابعاد مختلف خط و نيز زبان فارسي را بررسي و راه حلهاي مناسبي طراحي نمود. در مورد مشكل تركيب و جدانويسي، مانند ساير پيچيدگيهاي اين خط، نميتوان يك راهكار منحصر ارائه داد. تلفيقي از آنچه در ادامه آمده است، ميتواند به رفع بخشي از پيچيدگيها كمك كند. اين راهكارها در دو بخش قابل ارائه است.

1- راهكارهايي براي رعايت فراگير قواعد يكدست ملي

- توجه و حساسيت نويسندگان و پديدآورندگان متون و منابع به زبان فارسي، در رعايت قواعدي كه فرهنگستان زبان و ادب فارسي تدوين نموده است. چنان‌كه اشاره شد، رعايت اين قواعد، دستِ كم در مواردي كه قاعدهاي مشخص و از پيش تعيين شده وجود دارد، همان‌طور كه «حرّي» (1372) نيز خاطر نشان ميسازد، نه تنها كاري پايهاي است، بلكه به سبب يكدستي حاكم، بههنگام طرح‌ريزي در نمايه‌سازي و طراحي الگوريتمهاي ذخيره و بازيابي، به حلّ عالمانهتر مسائل نيز خواهد انجاميد. البته، بايد توجه داشت حتي با فرض اينكه رعايت اين قواعد، ضمانت اجرايي لازم را داشته باشد، بيقاعده بودن برخي حالتهاي رسم‌الخطي و اختيار نويسندگان، بخش عمدهاي از مشكلات را حل نشده باقي ميگذارد. البته بايد توجه داشت، با توجه به اينكه زبان فارسي در كشورهايي مانند افغانستان و تاجيكستان هم كاربرد دارد، با رعايت قواعد رسم‌الخط ملي بهنظر ميرسد برخي مشكلات براي ساير جستجوگران فارسي زبان در خارج از ايران كه با اين قواعد نا آشنا هستند، همچنان باقي خواهد ماند.

- پيشفرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است. چنان‌كه در ابتداي مقاله اشاره شد، سه مفروضه براي مواجهه با مشكلات نوشتاري خط فارسي قابل طرح است. سومين آنها، يعني«تدوين قواعدي براي جدانويسي الزامي بعضي از كلمات مركب و پيوسته‌نويسي بعضي ديگر و دادن اختيار در خصوص ساير كلمات به نويسندگان»، هرچند با ارائه قواعد - و البته با شرط رعايت آنها از سوي نويسندگان - كمك قابل توجهي به يكدستي خط فارسي و رفع مشكلات جستجو و بازيابي مي‌كند، با توجه به اينكه راهحلهاي بينابيني ارائه داده و موارد زيادي را به نويسنده ميسپارد، به ابهام و چند دستگي در اين زمينه منجر مي‌گردد. حتي با تصور اينكه تمام پديدآورندگان متون و منابع در وب مطابق با قواعد استاندارد رسم‌الخط فارسي بنويسند، باز هم زمانيكه انتخاب شكل نگارش كلمه رسماً به سليقة نويسنده سپرده شود، مشكلات پردازشي زبان آغاز خواهد شد. اين دشواريها نه تنها در مورد كلماتِ با ويژگيهاي تركيب و جدانويسي وجود دارد، بلكه ساير چالشهايي را كه نگارش خط فارسي با آن مواجه است، شامل شده و بر ابهام و پيچيدگي نمايهسازي، جستجو و بازيابي اطلاعات به زبان فارسي ميافزايد. رويكرد پيشنهادي پيشفرض نهادن جدانويسي در مواردي كه اختيار به نويسندگان داده شده است، ميتواند برخي از مشكلات پيوسته و جدانويسي را برطرف كند. نمونههايي از اين مشكلات، عبارتند از: شروع شدن جزء دوم با الف، هم مخرج بودن جزء اول با حرف آغازين جزء دوم، نامأنوس بودن كلمه در حالت پيوسته‌نويسي، بسامد زياد جزء آغازين كلمه و ابهام در اجزاي تركيب به هنگام پيوسته‌نويسي.

2- راهكارهاي ذخيره و پردازش واژگان

- در اين زمينه، متخصصان زبانشناسي، علوم رايانه و علوم كتابداري و اطلاع‌رساني ميتوانند انواع رويكردها و روشهاي پردازش هوشمند واژگان فارسي را برگزينند كه به ذخيره و پردازش بهينه به قصد بازيابي جامع‌تر و در عين حال دقيق‌تر كه كاستيهاي ناشي از نبود يكدستي در جدانويسي و پيوسته‌نويسي است، كمك كند. برخي راه حلها در قسمت پاياني پژوهش حاضر ارائه شده است. استفاده از يافته‌هاي پژوهشي و رويكردهاي عملي كه در مورد ساير زبانها بويژه زبان عربي اعمال شده، ميتواند به اين هدف كمك كند.

پيشنهادهاي پژوهش

پيشنهادهاي پژوهش به تفكيك در دو بخش آمدهاند: پيشنهادهاي عملي و پيشنهادهاي پژوهشي.

الف) پيشنهادهاي عملي

- پيشنهاد ميشود نويسندگان و پديدآورندگان منابع، خود را ملزم به رعايت قواعد رسم‌الخط فارسي كنند[2]. به نظر ميرسد پايگاه‌هاي اطلاعات علمي فارسي، نمايهسازي را بر اساس كلمات استخراج شده از متون انجام ميدهند. بر همين اساس، رعايت اين قاعدهها حداقل در مورد عنوانها، چكيده و كليدواژههاي متون علمي، ضرورت بيشتري دارد. اين كار گذشته از آن‌كه تلاشي براي حفظ پويايي و يكدستي خط فارسي به‌شمار مي‌رود، براي طراحان و نمايهسازان پايگاه‌هاي اطلاعاتي مشكلات كمتري را پديد ميآورد.

- به نمايهسازان پايگاه‌هاي اطلاعاتي فارسي زبان و بخصوص پايگاه‌هاي اطلاع‌رساني مركز منطقهاي اطلاع‌رساني علوم و فناوري و پژوهشگاه علوم و فناوري اطلاعات ايران توصيه مي‌شود با بهرهمندي از نتايج پژوهشهاي انجام شده در شوراي عالي اطلاع‌رساني ايران در زمينه خط و زبان فارسي، الگوريتمهاي نمايهسازي خود را متناسب سازند و در جهت بهينهسازي نتايج جستجو و كمك به كاربران پايگاه، از امكانات كمكي مانند قابليتهاي پيشنهاد واژگان[3] استفاده كنند.

- به پايگاه‌هاي اطلاعاتي توصيه ميشود براي بازيابي كلماتي كه ويژگيهاي تركيب و جدانويسي را دارند، از الگوريتمهاي N-Geram استفاده كنند.

ب) پيشنهادهاي پژوهشي

- انجام پژوهشي به روش تحليل محتوا در زمينة بسامد شكلهاي مختلف جدانويسي و پيوسته نويسي در حوزههاي موضوعي مختلف در متون زبان فارسي تا مشخص شود شكل رايج در هر حوزة موضوعي چگونه است و چه راه حلي را مي‌توان براي ذخيرة بهتر واژگان زبان فارسي در پيش گرفت.

- تفكيك مهم‌ترين چالشهاي سطوح آوايي، واژگاني و ساختاري در زبان و خط فارسي و انجام پژوهشهايي مشابه براي يافتن مشكلات موجود در پايگاه‌هاي اطلاعاتي.

- شناسايي و دستهبندي نوع واژگان مورد جستجو در پايگاه‌هاي اطلاعاتي فارسي بهمنظور بررسي پربسامدترين اشتباه‌هاي رايج كاربران به هنگام پرس و جو در اين پايگاه‌ها با هدف طراحي نظامي هوشمند براي بازيابي.

- شناسايي مشكلات مشابه رسم‌الخط فارسي و عربي بهمنظور مقايسة ميزان توجه، استفاده از راهكارهاي احتمالي و نيز الگوبرداري از پايگاه‌هاي اطلاعاتي زبان عربي.

منابع

حري، ع. (1372). كامپيوتر و رسم‌الخط فارسي. مجله پيام كتابخانه. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

دستور خط فارسي (1388). مصوب فرهنگستان زبان و ادب فارسي. تهران: فرهنگستان زبان و ادب فارسي (نشر آثار).

راثي، م. (1384). مشكلات جستجو و بازيابي اطلاعات به زبان فارسي در اينترنت، مطالعه موردي كاربران مركز اينترنت دانشگاه آزاد اسلامي واحد شبستر. تاريخ بازيابي: 25/9/1390. قابل بازيابي در:

http://www.aqlibrary.org/index.php?module=TWArticles&;file=index&func=view_ pubarticles&did=885&pid=10
شهيدي، م، م، صديقي و ك، زمانيفر (1384). روشي براي رفع چالشهاي محتواكاوي در وبهاي فارسي زبان. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:
www4.irandoc.ac.ir/etela-art/21/shahidi.pdf

-      صامتي، ح و م، بيجنخان (1389). پيشگفتار. زبان فارسي و رايانه: برگزيده مقالات كنفرانس بين‌المللي سالانه انجمن كامپيوتر ايران، كنفرانس مهندسي برق ايران، همايش زبانشناسي اسران، كارگاه زبان فارسي و رايانه (تا خرداد 1386). تهران: سازمان مطالعه و تدوين كتب علوم انساني دانشگاه‌ها (سمت).

عبدالهي نورعلي، م. (1386). كندوكاو مسائل ريخت‌شناسي زبان فارسي در بازيابي اطلاعات از جستجوگرهاي وب. پايان‌نامه كارشناسي ارشد كتابداري و اطلاع‌رساني، دانشگاه شيراز.

گل تاجي، م و س، بذرگر (1389). بررسي مشكلات ريخت‌شناسي زبان فارسي در سه پايگاه اطلاعاتي مركز منطقه‌اي اطلاع‌رساني علوم و فناوري، پژوهشگاه اطلاعات و مدارك علمي ايران و جهاد دانشگاهي. تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

http://www.aqlibrary.ir/index.php?module=TWArticles&;file=index&func=view_ pubarticles&did=885&pid=10

مرتضايي، ل (1381). مسائل زبان و خط فارسي در ذخيره‌سازي و بازيابي اطلاعات. فصلنامه اطلاع‌رساني. دوره 17شماره2و1؛ پاييز و زمستان 1380.

-       نوبهار، (1388). آيا بايد جدا نوشت؟ تاريخ بازيابي: 3/9/1390. قابل بازيابي در:

-      AleAhmad, A., Amiri, H., Rahgozar, M., Oroumchian, F. (2008). Experiments with English-Persian Text Retrieval. Retrieved: Retrieved 9 July 2012. Available in: khorshid.ut.ac.ir/~a.aleahmad/Files/inews22.pdf

-      Dolamic, L.,Savoy, J., (2009). Persian Language, is Stemming Efficient.Retrieved9 July 2012Available in:

-      Kashefi, O., Mohseni, N., Minaei, B. (2010). Optimizing Document Similarity Detection in Persian Information Retrieval.Journal of Convergence Information Technology. Retrieved 9 July 2012. Available in: www.aicit.org/jcit/ppl/11_april.pdf

-      Karimpour, R., (2008) .Using Part of Speech Tagging in Persian Information Retrieval.Retrieved 9 July 2012.Available in:

-      Oroumchian, F., AleAhmad, A., Hakimian, P., Mahdikhani., F., (2007).F N-Geram and Local Context Analysis for Persian Text Retrieval.Retrieved 9 July 2012. Available in:

-      Rahimtoroghi, E., Faili, H., Shakeri, A., (2010). A Structural Rule-based Stemmer for Persian. Retrieved 9 July 2012Available in:

http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&;arnumber=5734090



[1].  حالت ثبت شده، نحوة درج عنوان پايان‌نامه در پايگاه مربوط است. حين اين پژوهش، عنوانهايي كه با غلطهاي املايي و تايپي ثبت شده بودند در پايگاه اطلاعاتي مركز منطقه‌اي اطلاع‌رساني علوم و فناوري نيز وجود داشت كه نگارنده ناگزير اين عنوانها را با همان اشتباه‌هاي ثبتي جستجو نمود.

[2].  دستور خط فارسي مصوب فرهنگستان زبان و ادب فارسي را مي‌توانيد در http://www.persianacademy.ir/fa/das.aspx  مشاهده نماييد.

[3].  اين قابليت هم اكنون در برخي موتورهاي جستجو از جمله گوگل و ياهو و نيز پايگاه‌هاي اطلاعاتي وجود دارد.

 



[1].  براي اطلاعات بيشتر نگاه كنيد به: http://www.internetworldstats.com/stats7.htm

[2]. AleAhmad, et al.

[3].  براي اطلاعات بيشتر، نگاه كنيد به: نشاط،نرگس (1379). «مسائل رسم‌الخط فارسي در رويارويي با فنّاوري نوين اطلاعاتي». در مجموعه مقالات فهرستهاي رايانه‌اي: كاربرد و توسعه. به كوشش رحمت الله فتاحي. مشهد: دانشگاه فردوسي: تهران: مركز اطلاع‌رساني جهاد.

[4].  الگوريتم شينگلينگ (Shingling) يكي از روشهاي موجود در زمينة شناسايي متون تقريباً يكسان است كه براي شناسايي كلماتي كه حجم زيادي از آنها جزئيات بي‌اهميت است، به‌كار مي‌رود. برگرفته از:

[5].  پيكره‌اي برچسب گذاري شده كه براي تحقيقات پردازش زبان طبيعي در زبان فارسي مناسب است. اين مجموعه از اخبار روزانه و متون رايج، از 4300 موضوع مختلف جمع‌آوري شده و شامل 2.6 ميليون واژة برچسب‌گذاري شده است. برگرفته از:

فصلنامه كتابداري و اطلاع رساني (اين نشريه در
59 _ شماره سوم,جلد 15  www.isc.gov.ir نمايه مي شود)
Date insert: سه شنبه, 26 فروردين 1393

Add comment


Security code
Refresh

تمامی حقوق مطالب محفوظ است

2013-2020©