۲-۱۵ نتیجه گیری ۵۲
فصل سوم: معماری خزنده وب و استراتژی های خزش ۵۳
۳-۱ مقدمه ۵۴
۳-۲ معماری خزنده های وب ۵۴
۳-۳ انتخاب صفحه ۵۶
۳-۴ اهمیت صفحه ۵۷
۳-۵ چالش های اجرای یک خزنده ۵۷
۳-۵-۱ انتخاب صفحات برای دانلود ۵۷
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۳-۵-۱ انتخاب صفحات برای دانلود ۵۷
۳-۶ پیچیدگی های فرایند خزیدن ۵۸
۳-۶-۱ استراتژی های سنجش انتخاب صفحات ۵۸
۳-۶-۱-۱ معیار مبتنی بر گرایشات کاربران ۵۸
۳-۶-۱-۲ معیار مبتنی بر شهرت صفحات ۵۸
۳-۶-۱-۳ معیار مبتنی بر محل قرار گرفتن صفحات ۵۸
۳-۷ چگونگی آغاز و ختم فرایند استخراج و ذخیره سازی صفحات وب ۵۹
۳-۷-۱ خزش و توقف ۵۹
۳-۷-۲ خزش و توقف مبتنی بر مقدار آستانه ۵۹
۳-۸ استراتژی های روزآمدسازی صفحات ۶۰
۳-۸-۱ سیاست روزآمد سازی یکپارچه ۶۰
۳-۸-۲ سیاست روزآمد سازی نسبی ۶۰
۳-۹ به حداقل رساندن بار روی وب سایت های بازدید شده ۶۰
۳-۱۰ موازی سازی روند خزنده ۶۰
۳-۱۱ ساختار وب ۶۱
۳-۱۲ استراتژی های خزش ۶۲
۳-۱۲-۱ جستجوی ناآگاهانه ۶۲
۳-۱۲-۱-۱ حرکت اول عمق ۶۲
۳-۱۲-۱-۲ حرکت اول سطح ۶۳
۳-۱۲-۱-۳ جستجو با هزینه یکنواخت ۶۵
۳-۱۲-۲ جستجوی آگاهانه یا اکتشافی ۶۶
۳-۱۲-۲-۱ حرکت بهترین-شروع ۶۷
A 69
۳-۱۲-۳ جستجوی محلی ۶۹
۳-۱۲-۳-۱ جستجوی تپه نوردی ۷۰
۳-۱۲-۳-۲ جستجوی پرتو محلی ۷۰
۳-۱۲-۳-۳ جستجوی شبیه سازی حرارت ۷۱
۳-۱۲-۳-۴ الگوریتم آستانه پذیرش ۷۲
۳-۱۲-۳-۲ جستجوی پرتو محلی ۷۰
۳-۱۳ نتیجه گیری ۷۳
فصل چهارم: تجزیه و تحلیل نتایج حاصل از تحقیق ۷۴
۴-۱ مقدمه ۷۵
۴-۲ مرحله اول: بررسی روش اول سطح ۷۵
۴-۳ مرحله دوم: بررسی روش اول عمق ۸۰
۴-۴ مرحله سوم: بررسی روش ترکیبی ۸۶
۴-۴-۱ ترکیب اول: پیمایش اولین سطح به صورت BFS 86
۴-۴-۲ ترکیب دوم: پیمایش اولین و دومین سطح به صورت BFS 86
۴-۴-۳ ترکیب سوم: پیمایش اولین و دومین و سومین سطح به صورت BFS 86
۴-۵ مرحله چهارم: بررسی روش بهترین-شروع ۸۶
۴-۶ مرحله پنجم: بررسی روش تپه نوردی ۸۷
۴-۷ نتایج تجربی بدست آمده ۸۸
۴-۸ تعداد صفحات دانلود شده برای هر پرس و جو ۹۰
۴-۹ نتیجه گیری ۹۱
فصل پنجم: نتیجه گیری و ارائه پیشنهادات ۹۷
۵-۱ نتیجه گیری و جمع بندی نهایی ۹۳
۵-۲ پیشنهادات و کارهای آینده ۱۰۰
منابع ۱۰۱
فهرست جداول
عنوان صفحه
جدول ۴-۱ میزان مرتبط بودن صفحات با بهره گرفتن از روش های اول سطح، اول عمق، بهتـرین- شروع و تپه نوردی ۸۸
جدول ۴-۲ میزان مرتبط بودن صفحات با بهره گرفتن از روش های ترکیبی اول، دوم و سوم ۸۹
جدول ۴-۳ تعداد صفحات خزش شده برای هر پرس و جو در الگوریتم های مختلف ۹۰
فهرست اشکال
عنوان صفحه
شکل ۲-۱ درصد تغییرات صفحه ۸
شکل ۲-۲ متوسط تغییرات صفحه در هر ۱۰ روز ۸
شکل ۲-۳ موتور جستجوی یاهو ۱۶
شکل ۲-۴ معماری موتورهای جستجو ۲۰
شکل۲-۵ کدهای HTML سازنده یک صفحه وب ۲۳
شکل۲-۶ خزش در وب ۲۴
شکل۲-۷ ماتریس اطلاعات کلیدواژه ها ۲۵
شکل ۲-۸ نحوه استخراج و شاخص دهی ۳۲
شکل ۳-۱ معماری خزنده وب ۵۵
شکل ۳-۲ الگوریتم پایه خزنده وب ۵۶
شکل۳-۳ نمایی کلی از ساختار وب ۶۱
شکل۳-۴ ساختار گراف وب ۶۱
شکل۳-۵ حرکت خزنده در بین صفحات با بهره گرفتن از الگوریتم اول عمق ۶۲
شکل۳-۶حرکت خزنده در بین صفحات با بهره گرفتن از الگوریتم اول سطح ۶۳
شکل۳-۷ یک خزنده با استراتژی اول سطح ۶۳
شکل ۳-۸ الگوریتم خزنده با استراتژی اول سطح ۶۴
شکل ۳-۹ محاسبه پیچیدگی زمانی یک درخت جستجوی دودویی با بهره گرفتن از جستجوی اول سطح ۳۳
شکل ۳-۱۰ مراحل رسیدن به هدف با بهره گرفتن از روش UCS 66
شکل ۳-۱۱ یک خزنده با استراتژی بهترین-شروع ۶۸
شکل ۳-۱۲ الگوریتم خزنده با استراتژی بهترین-شروع ۶۹
شکل ۳-۱۳ شبه کد جستجوی تپه نوردی ۷۰
شکل ۳-۱۴ شبه الگوریتم پرتومحلی ۷۱
شکل ۳-۱۵ شبه الگوریتم شبیه سازی حرارت ۷۲
شکل ۴-۱ لینک های استخراج شده سطح اول با بهره گرفتن از تکنیک BFS ۷۵
شکل ۴-۲ لینک های استخراج شده سطح دوم با بهره گرفتن از تکنیک BFS 76
شکل ۴-۳ لینک های استخراج شده سطح سوم با بهره گرفتن از تکنیک BFS 77
شکل ۴-۴ مسیر طی شده در اولین هسته از پرس و جوی Computer networks در روش اول سطح ۷۷
شکل۴-۵ مسیر طی شده در دومین هسته از پرس و جوی Computer networks در روش اول سطح ۷۸
شکل۴-۶ مسیر طی شده در سومین هسته از پرس و جوی Computer networks در روش اول سطح ۸۰
۸۱
شکل ۴-۸ محتوای a1 S1 ۸۱
۸۱
۸۲
۸۲
شکل ۴-۱۲ مسیر طی شده در اولین مرحله از روش اول عمق ۸۲
شکل ۴-۱۳ مسیر طی شده در nامین مرحله از روش اول عمق در هسته اول ۸۴
شکل ۴-۱۴ مسیر طی شده در اولین مرحله از روش اول عمق ۸۴
شکل ۴-۱۵ مسیر طی شده در nامین مرحله از روش اول عمق ۹۰
شکل۵-۱ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Computer networks“ ۹۴
شکل ۵-۲ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Artificial Intelligence“ ۹۴
شکل ۵-۳ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی“Web crawler“ ۹۵
شکل ۵-۴ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Search engine“ ۹۵
شکل ۵-۵ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Cloud Computing“ ۹۶
شکل ۵-۶ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Software engineering“ ۹۶
شکل ۵-۷ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Data mining“ ۹۷
شکل۵-۸ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی ”Computer architecture“ ۹۷
شکل ۵-۹ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Operatin system “ ۹۸
شکل۵-۱۰ نمودار ستونی درصد مرتبط بودن صفحات در پرس و جوی”Wi-Fi“ ۹۸
فهرست نشانه ها(فرمول ها)
…………………………………………………………………………………………………………………………………………… ۶۷
Sim(q , p) = ………………………………………………………………………………………………………………… 68
h(n)≤h*(n)
h(n)≥۰ …………………………………………………………………………………………………… ۶۹
۰ ≤h(n) ≤h*(n)
فهرست اختصارات
BFS Best First Search
DFS Depth First Search
DNS Domain Name System
FTP File Transfer Protocol
HTTP Hyper Text Transfer Protocol
IP Internet Protocol
PPC Pay Per Click
SA Simulated Annealing
TA Threhsold Acceptance
URL Uniform Resource Locator
TFIDF ………………………….………………Term Frequency Inverse Document Frequency
چکیده
در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزارهای ارتباطات و تعـامل میان انسان ها بدل شده است. موتورهای جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعـه ای از اسناد و مـدارک بروز موجـود را دریافـت می کننـد. فرآینـد دریافت، ذخیره سازی، رده بندی و شاخص دهی بر اساس الگوریتم های نیمه هوشمند به صورت خودکار انجـام می شود. اگر چه بسیاری از حقایق در مورد ساختار این برنامه های کاربردی به عنـوان اسـرار تجاری پنهان باقی مانـده است، ادبیات تحقیق در شاخه ی موتورهای جستجو و ابزارهای بازیابی اطلاعات تلاش در یافتن بهترین راهکارها برای عملکرد بهینه ی هر ماژول در ساختار موتورهای جستجو دارد. با توجه به زمان محدود کاربران وب امروزی، ارائه مرتبط ترین و تازه ترین اسناد به آنها اغلب مهمترین چالشی برای موتورهای جستجو می باشد. برای انجام این مهم، هر ماژول در معماری موتور جستجو باید به گونه ای هوشمند طراحی شود که نه تنها اسناد مرتبط را ارائه دهد بلـکه به پاسخگویی در سریع ترین زمان ممکن بپردازد. در میـان این ماژول ها بخش حساس و حیاتی به نام خزنده وجود دارد. یکی از مسائل قابل بحث در بهینه سازی عملکرد موتورهای جستجو این است که، سیاست خزیدن پیکربندی مجـدد گردد به طریقی که لینک های خارجی مرتبطی که به محتوای مرتبط با صفحات منبع پیوند می خورند دنبال گردد. ماژول خزنده مسئول واکشی صفحات برای ماژول رتبه بندی است. اگر صفحات با کیفیت بالاتر با انحراف موضوع کمتر توسط خزنده نمایه سازی شوند، رتبه بندی سریع تر انجام خواهد شد.
با در نظر گرفتن ساختار وب به صورت گراف، نحوه ی پیمایش وب به صورت روش های جستجوی گرافی می باشد. در این پژوهش، با بکار بردن تجربی روش های مختلف جستجوی گراف و ترکیبات مختلف آنها و با صدور پرس و جوهایی به موتور جستجوی گوگل جهت اندازه گیری کیفیت صفحات دریافتی و با ثابت در نظر گرفتن فاکتور عمق پیمایش به شناسایی بهترین روش با پیچیدگی زمانی و فضایی معقول به منظور بکار گیری در بخش خزنده در معماری موتور جستجو پرداخته خواهد شد.
کلمات کلیدی: خزنده وب، پیمایش گراف، موتورهای جستجو، انحراف موضوع.
فصل اول
کلیات
۱-۱ مقدمه
بدون وجود موتورهای جستجوگر تقریباً وب جهان گستر بدون فایده است. اما سؤال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا می کنند. اینترنت بسیار وسیع است و کاربران وب در حدود دو میلیارد برآورد می شوند. در این میان حداقل ۲۵۰ میلیون وب سایت اینترنتی وجـود دارد که در مجمـوع چیزی در حدود ۳۰ میلیارد صفحه وب را در خود جـای داده اند. گشتن در محیط وب[۱] زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولاً اختصاص به پژوهشگران و اساتید دانشگاه داشت و می توان گفت که کار دشواری نیز به شمار می رفت[۹].
با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس می شد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر به نام آرچی[۲] پا به عرصه حضور گذاشتند. یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب[۳] انجام می شود[۵۳].
این برنامه ها به صورت خودکار در وب به جستجو پرداخته و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره می کنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از این رو این کار در مقیاس بسیار بزرگی انجام می شود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف مخزن بسیار بزرگی را در صفحات وب ایجاد کـرده اند اما خزندگان جدیدتر باید این کار را از صفر شـروع کنند. خزنده ها برای شروع معمولاً به سراغ دایرکتوری های معروف می روند چون از طریق آنها می توانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو می رود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در مخزن ذخیره می شوند تا بعداً مورد تجزیه و تحلیل قرار گیرند[۴۴].
یک خزنده با طراحی خوب می تواند محتوای صفحـات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب می کنند تا این عمل دوباره تکرار نشود. این هماهنگ کننده باعث می شود که فاکتور تازگی صفحات حفظ شود تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد[۴۶].
پس از آنکه خزندگان اطلاعات را در صفحات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده ذخیره شوند. ذخیره و ایندکس کردن صفحات فراوان و بی شمار در وب یک چالش بزرگ است اما از آن مهم تر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایـش داده شده توسط یک موتـور جستجو با عبارت جستجـو شده توسـط کاربر منطبق تر باشد، موتور جستجو عملکرد و محبوبیت بهتری دارد.
اما آنچه که یک وب سایت را در نتایج جستجوی یک موتور جستجوگر در رتبه ی بالاتری قرار می دهد در واقع نوع الگوریتم موتور جستجوگر در رتبه بندی صفحات یافت شده است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چقدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه می دهد و از همین رو ضامن موفقیت یک موتور جستجوگر همان معماری و نوع الگوریتم جستجوی آن است. موتورهای جستجو همگی کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار می دهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند، موتور جستجو با وزن دهی[۴] متوجه می شود که آن صفحه مهم است و به آن صفحه توجه بیشتری می کنـد. هر چه تعـداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبرتر است.
حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت[۳۵].
۱-۲ بیان مسأله
یک خـزنده وب برنامـه ای است که صفحـات وب را عمـوماً برای یـک موتور جستجـوی وب دانلـود می کند. خزنده های موتورهای جستجوی بزرگ مانند گوگل، آلتاویستا و … از بخش قابل توجهی از صفحات وب متنی به منظور ساخت شاخص های محتوا استفاده می کنند. خزنده های دیگر همچنین ممکن است صفحات زیادی را مشاهده کنند و تنها برای نوع خاصی از اطلاعات مانند آدرس ایمیل مورد استفاده قرار گیرند. در انتهای دیگر این طیف، خزنده های شخصی سازی شده وجود دارد که صفحات مورد علاقه یک کاربر خاص را به منظور ساخت یک حافظه نهان در دسترس سریع پیمایش می کنند. طراحی یک خزنده خوب چالش های بسیاری را به دلیل گسترده بودن وب به همراه دارد و به طور دائم باید بروز باشد. بر طبق مطالعـات مختلف بیش از یک میلیون صفحه در دسترس در وب وجود دارد و پیش بینی می شود که این نرخ رشد همچنان ادامه یابد. گذشته از این، صفحاتی که به تازگی ایجاد شده اند به طـور مداوم در
حال بروز رسانی می باشند[۵].
دشـواری پیاده سـازی خزنده وب کارآمد به روشنـی بیان می کند کـه پهنای باند برای انجام عمـل خزیدن نه بی نهایت است و نه آزاد. بنابراین، ضروری است که عمل خزیدن در وب را نه تنها در یک مقیاس، بلکه به صورت یک روش کارآمد انجام دهیم به طوریـکه میزان قابل قبولی از کیفیت و یا تازگی صفحـات وب حفظ شود پس مجری یک خزنده وب باید رفتارش را تعریف کند. بنابراین خزنده باید مشخص کند که از چه الگوریتمی جهت دانلود صفحات با کیفیت بالاتر استفاده می نماید و چگونه صفحات، جهت بروز رسانی و جلوگیری از ایجاد سربار در وب سایت ها انتخاب می شوند.
با توجه به اندازه فعلی وب، ضروری است که خزنده روی کسری از وب که از کیفیت محتوایی بالاتری برخوردارند عمل خزیدن را انجام دهد. حتی موتورهای جستجوی بزرگ امروزی نیز عمل خزیدن را فقط روی کسری از صفحات موجـود در وب انجام می دهند اما خزنده باید عمل خزیدن را روی کسری از صفحات که با موضوع موردنظر مرتبط هستند انجام دهد نه فقط روی صفحات تصادفی یعنی صفحات باید بستـه به اهمیتشـان انتخاب شـوند. اهمیـت یک صفحـه وب وابسته به تعداد لینک ها یا ملاقات ها آنها می باشد [۲۳].
خزنده وب برای اینکه بتواند صفحات را با توجه به اهمیتشان ملاقات کند باید بتواند از یک استراتژی خوب و قوی جهت تشخیص کیفیت صفحات بهره ببرد. در این پژوهش، برای انتخاب یک استراتژی مناسب، کلیه استراتژی های پیمایش گراف و خزش مورد آزمایش قرار داده شد. این تحقیق ضمن بررسی روش هـای مختلـف موجود در تشخیص اهمیـت پیونـدها به ارائه ی راهـکار و الگوریتمـی به منظور بهینه سازی روش های شناخت اهمیت پیوندها پرداخته است.
۱-۳ اهمیت و ضرورت انجام تحقیق
شبکه اینترنت در سایه وب جهان گستر، به یکی از قدرتمندترین و سریعترین ابزارهای ارتباط و تعامل میان انسانها تبدیل گشته است. اینترنت به عنوان شاخص ترین نماد عصر اطلاعات با سرعتی حیرت انگیز در طی دهه اخیر رشد کرده است. یکی از امکانات وسیع اینترنت که سریع ترین رشد را نسبت به سایر امکانات اینترنت داشته است، وب است که بی تردید یکی از اصلی ترین عوامل رشد این شبـکه به شمار می آید.
با توجه به اینکه بهترین موتورهای جستجو دارای پایگاه داده ای حدوداً ۵۰ درصد صفحات موجود در وب هستند از این رو مستقر شدن پیوندهای با اهمیت بیشتر و الگوشناسایی و کشف آنها در کارایی موتورهای
جستجو و تامین رضایت کاربران بسیار حیاتی است[۱۵].
یکی از راههایی که موتورهای جستجو، برای کاهش زمان جستجو به کار می برند، پیش پرداش محتوای وب سایت هاست. به این ترتیب که وقتی کاربر درخواست یک پرس و جو را می دهد. به جای این که این پرس وجو به میلیون ها وب سایت فرسـتاده شـود، با داده از پیـش پردازش شـده در یـک سـایت مقایسـه می شـود و مطابقت صـورت می پذیـرد. پیش پـردازش به کمـک برنامه نرم افزاری به نام خـزنده انجام می گیرد. خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص در یک روال منظم، سریع و جامع استخراج کرده و تحویل انباره صفحات بدهد[۱۰].
با توجه به مطالب ذکر شده، بررسی و بهینه نمودن موتورهای جستجو و به خصوص چگونگی دانلود صفحات و نوسازی آنها و هم چنین کم کردن بار به وجود آمده بر روی وب سایت ها و غیره، همگی مواردی هستند که ضرورت بحث را به طور واضح نشان می دهند.
۱-۴ ساختار پایان نامه
در این پایان نامه، در فصل دوم به بیان مبانی و مفاهیم پایه ای درباره انواع موتورهای جستجو، معماری و اجزای آن ها، همچنین نحوه ی عملکرد هر یک از اجزا خواهیم پرداخت و در ادامه مراحل کار موتورهای جستجو، الگوریتم های رتبه بندی و دسته بندی موتورهای جستجو از لحاظ کاربرد مورد بررسی قرار خواهند گرفت. در فصل سوم، معماری خزشگرهای وب، سیاست ها و استراتژی های انتخاب صفحات، چالش های اجرای یک خزنده وب بیان خواهد شد و در ادامه استراتژی های خزیدن به همراه الگوریتم های هر یک از آنان به طور کامل تشریح خواهد شد. در فصل چهارم نیز نتایج تجربی که بر روی برخـی از الگوریتـم های خـزش مورد کاربـرد در موتورهای جستجوی امروزی صورت گرفته، بیان و نمودارهای هر یک ترسیم و توضیح داده شده است و در آخر در فصل پنجم نیز نتایج حاصل شده بیان می گردد.
فصل دوم
مبانی و مفاهیم پایه
۲-۱ مقدمه
دنیای امروز دنیای اطلاعات است و سریع ترین راه انتقال اطلاعات استفاده از فضای وب می باشد. با وجود آن که پیدایش وب موجب تحول شگرفی در فراگیری اخبار و اطلاعات علمی شده است اما همانطور که در شکل های ۲-۱ و ۲-۲ مشاهده می شود افزایش زیاد حجم اطلاعات در جهان مشکل یافتن اطلاعات ارزشمند و معتبر را از میان میلیون ها صفحه اطلاعاتی در سراسر جهان به دنبال داشته است به همین دلیل امروزه مسئله بازیابی اطلاعات از مهم ترین مباحث مورد توجه در حوزه مطالعات فضای وب است. برای حل این مسئله ابزارهای مختلفی به وجود آمده است، کارآمدترین و محبوب ترین ابزار بازیابی اطلاعات، موتورهای جستجو می باشد. موتورهای جستجو، طبقه بندی و دسترسی به اطلاعات را ساده میسازند. وب منبع عظیمیاز اطلاعات است که روز به روز بر حجم آن افزوده شود. وب محلی برای ترافیک و رد و بدل اطلاعات در موضوعات مختلف است. با عمومی شدن استفاده از صفحات وب نیاز به پیدا کردن این صفحات یک مساله جدی برای کاربران اینترنت شده است. در حال حاضر میلیونها صفحه که اطلاعات فراوانی از موضوعات مختلف را در بر دارند بر روی سرویس دهنده های مختلف وجود دارند و این در حالی است که هر روز نیز بر حجم این اطلاعات افزوده میشود. [۴۴]
شکل۲-۲ متوسط تغیرات صفحه در هر ۱۰ روز]۶۱[
شکل۲-۱ درصد تغیرات صفحه]۹[
جنبه مثبت وب این است که اطلاعات فراوانی را در موضوعاتی بسیار گسترده، ارائه میدهد اما جنبه منفی آن این است که اگر کاربری دنبال موضوعی خاص باشد، کدام صفحه را بخواند و از میان میلیونها صفحه موجود، کدام صفحه و یا صفحات نیاز او را برآورده میکند. در چنین مواقعی کاربران سراغ موتورهای جستجوگر میروند. آمارهای رسمینشان میدهد که افراد بسیاری سفر در دنیای وب را با موتورهای جستجوگر آغاز میکنند.
شبکه جهانی اینترنت در اواخر دهه ۱۹۶۰ پا به عرصه ظهور گذاشت، اما تا سال ۱۹۹۰ ابزارهایی برای کاوش اطلاعات موجـود در آن وجـود نداشت. با مروری اجمالی بر تاریخچـه ابزارهـای کاوش در وب می توان دریافت که تقریباً کلیه پیشرفتها در این زمینه توسط دانشجویان و طرحهای پژوهشی آنها صورت گرفته است. در سـال ۱۹۹۰ اولیـن ابـزار کاوش تـوسـط آلان اِمتیـج[۵] در دانشـگاه مـک گـیل[۶] تحـت عنـوان آرچـی[۷] توسعه یافت. این ابزار کاوش تنها می توانست فایلهای اینترنتی، نه متن و اسناد موجود در اینترنت را بازیابی کند[۵۳].
در سال ۱۹۹۳ در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر[۸] نظامی موتور جستجویی مشابه آرچی طراحی شد که ورونیکا[۹] نام داشت. در واقع ورونیکا برای اولین بار امکان جستجو و بازیابی متن و اسناد ساده بدون تصویر یا پیوندهای فرامتنی را در اینترنت فراهم کرد[۵۰].
آرچی و ورونیکا، پدر و مادر تمام ابزارهای کاوش امروزی به شمار می آیند. بعدها دو ابزار کاوش برای جستجوی اطلاعات در محیط وب توسعه یافتند که عبارت بودند از آلی وب[۱۰] و شبکه جهانی وب واندر[۱۱]. شبکه جهانی وب واندر که توسط ماتئوگری[۱۲] در دانشگاه ام آی تی توسعه یافت از روبات ها به تعبیر دیگر برنامه های کامپیوتری برای جستجو و نمایه سازی صفحات وب استفاده می کرد. به این ترتیب اولین موتور کاوش پا به ظهور گذاشت و پایگاه موتور کاوش تحت عنوان وندکس[۱۳] شکل گرفت[۵۳].
در اوایل سال ۱۹۹۴ دو دانشجوی دوره دکتری مهندسی برق دانشگاه استانفورد به نامهای دیوید فیلو[۱۴] و جری[۱۵] یانگ فهرستی از سایتهای وب مورد علاقه و منتخب را تهیه و در محیط وب ارائه کردند . سپس به منظور جستجو در پایگاه اطلاعاتی گرد آوری شده از سایتها، نرم افزار کاوشی به آن افزودند و آن را یاهو نام نهادند. پس از مدتی، حجم اطلاعات موجود در یاهو افزایش یافت و روزانه هزاران نفر به آن مراجعه کردند[۱۸].
در دسامبر ۱۹۹۵ آلتا ویستا[۱۶] به عنوان یکی از شناخته شده ترین موتور های کاوش ظهور پیدا کرد و به دلیل ویژگیها و نوآوری هایی که در آن پیش بینی شده بود، به سرعت به عنوان یکی از بهترین ابزارهای کاوش اینترنت مطرح شد به طوری که توانایی انجام روزانه میلیون ها جستجو را بدون کاهش سرعت بازیابی اطلاعات به همراه داشت[۵۳]. آلتا ویستا اولین موتور کاوشـی بـود که از زبان طبیعی «مانند جستجوی جمله آب و هوای تهران چطور است؟» و عملگرهای بولی برای بازیابی اطلاعات در محیط وب استفاده کرد.
در مـاه مـی ۱۹۹۶ هات بات[۱۷] بــه عنــوان یـکی دیـگـر از ابـزارهـای مهــم کـاوش ابـداع شـد که روبات آن قـادر بـود روزانـه حـدود ۱۰ میلیـون صفحـه در محیـط وب را در پایــگاه خـود نمایه کنـد. در سـال ۱۹۹۵ اولیــن متا کراولر[۱۸] توسـط سلبـرگ ظهـور پیـدا کرد. این ابـر موتـور کاوش می توانست در پایگاه شش موتور کاوش و راهنمای موضوعی به طور هم زمان به جستجو بپردازد. در اواخر سال ۱۹۹۷ یکی از بزرگترین و مهمترین ابزارهای کاوش امروزی یعنی موتور جستجوی گوگل[۱۹] از طریق طرح تحقیقاتی دانشگاه استانفورد ظهور یافت. گوگل تلاش کرد که در نظام رتبه بندی نتایج کاوش خود مبتنی بر میزان ارتباط آنها با کلید واژه های جستجو، تحول اساسی به وجود آورد که از طریق استفاده از معیار میزان استناد به یک سایت مشخص توسط سایت های دیگر صورت می گیرد[۵۳].
پیرولی[۲۰] در سال ۱۹۹۷ به مطالعاتی درباره ی رابطه بین “شرایط مطلوب” یک صفحه و طول عمر آن پرداختند. از آنجا که بسیاری از خزنده[۲۱] ها تنها می توانند زیر مجموعه کوچکی از وب را دانلود کنند، خزنده باید به دقت تصمیم بگیرید که کدام صفحات را دانلود کند. بنابراین بررسی می کنیم که چطور یک خزنده می تواند پیوند “مهـم” را خـیلی زود کشـف و شناسایی کند[۱۸].
ادوارد[۲۲]، ریچارد[۲۳] و دوستانشان در سـال ۱۹۹۸ مطالعـاتی در مورد «چگونگی زمانبندی یک خزنده وب برای بهبود نوسازی صفحه» انجام دادند. نتیجه این مطالعات به این صورت بود که در آن خزنده های وب به منظور حفظ صفحات به روز شـده، صفحات دانلـود شـده را به صـورت دوره ای به روز می کنند.
فرد[۲۴]، آنجا فلدمن[۲۵] و بالاچاندر[۲۶] در سال ۱۹۹۹ مطالعات تجربی درباره چگونگی تغییر صفحات وب را انجام دادند. کمیته علوم کامپیوتر دانشگاه استانفورد در سال ۲۰۰۱ پژوهشی را با عنوان «پیمایش وب: کشف و نگهداری مقیاس بزرگی از داده های وب» انجام دادند[۵۳].
موتور جستـجوگر با گرفتن عبارتـی مختصـر، کاربر را با لیستـی از سایتها روبه رو میکنـد که به موضـوع مـورد عـلاقه او مرتبـط اسـت. موتـور جستجـوگـر برای کمـک به کاربـران در یافتـن اطلاعات موجـود در سایـر سایتهـا طراحی شده اسـت. بسیاری از آن ها در ابتـدا تنهـا پـروژه های دانشـگاهی بـوده اند نظیـر: Google, Inktomi, Yahoo.
وقتی یک کاربر عبارتی را جستجو میکند، موتور جستجوگر لیستی از سایتها را نشان میدهد که تعداد آنها از چند مورد تا میلیونها صفحه متغیر است. سایتهایی که موتور جستجوگر به عنوان نتایج جستجویشان نشان میدهند بر حسب میزان ارتباط با موضوع جستجو شده به ترتیب نزولی لیست میشوند. به عبارت دیگر سایتی که به عنوان اولین نتیجه جستجو معرفی میشود، مرتبط ترین سایت به عبارت جستجو شده از دید آن موتور جستجوگر بوده است[۵۹].
هر چه بر محبوبیت وب افزوده میگردد نیاز به بایگانی کردن اطلاعات آن نیز بیشتر میشود. افرادی که دستی در تجارت الکترونیک دارند اذعان میکنند که آوردن بیننده به سایت ضروری ترین شرط موفقیت برای سایتهای تجارت الکترونیک است. فرقی نمیکند که سایت چه کالا و خدماتی را ارائه میکند، هر سایت اگر خواهان کسب در آمد و محبوبیت است، باید بیننده داشته باشد. موتور جستجو نیز باید اطلاعات را به سرعت در اختیار کاربران قرار دهد. بدون موتور جستجوگر، وب تنها به بخش کوچکی از موفقیت امروزی خود دست مییافت، زیرا موتور جستجوگر وب را به رسانه ای قابل استفاده برای همه تبدیل کرده است چرا که از هیچ کس توقع نمیرود که آدرسهای بسیاری از سایتهای مختلف را به یاد داشته باشند. آنچه که تمام موتورهای جستجو گر با درجات متفاوتی از موفقیت انجام میدهند، فراهم آوردن یک وسیله جستجوی ساده است[۱۲ و ۴۵].
موتورهای جستجـو همیشـه به عنوان بخشی از طرح های تجـاری شرکت ها پدید می آیند و فلسفه تأسیس این شرکت ها در اصل ایجاد نظام های جستجوی رایگان برای کاربران اینترنت نیست. شرکت های مذکور این موتورهای جستجو را به دلایل مختلفی از جمله برای تبلیغ نام یک محصول، فروش فضای تبلیغـاتی، تبلیغ یک محصول نرم افزاری یا سخـت افزاری، ارتقاء یک خـدمت اطلاعاتی پیوستـه یا مشـتری یابی برای یک سایت وب تهیه می کنند. لازم به ذکر است به طور مستقیم از یک موتور جستجو سودی به دست نمی آید، بلکه سود حاصل، ناشی از مشتری هایی است که آنها به خود جلب می کنند.
ممکن است در نگاه اول این امر برای افراد عادی به راحتی قابل هضم نباشد و به دلیل رایگان بودن جستجو، افراد دیگر ضرورتی نمی بینند که به نیات واقعی فراهم کنندگان خدمات جستجوی اطلاعات توجه نمایند. برای جلب توجه بیشتر مشتریان و در نتیجه رقابت میان موتورهای جستجو، آنها به طور دائم در تلاش هستند که خدمات خود را ارتقا بخشند و اطلاعات خود را بروز نمایند اما کاربران باید به این نکته توجه نمایند که نیت واقعی فراهم کنندگان خدمات جستجو، کسب سود بیشتر است، اگر در کوتاه مدت هـم این مدنظر نباشـد، به طور حتم در دراز مدت هـدف همین است. تنها موتورهای جستجـویی می توانند کسب سود مناسب را در دراز مدت تضمین نمایند که قابلیت جوابدهی بیشتر و مناسب تر را به سؤالات مختلف کاربران داشته باشند[۴۵].
تعداد بینندگان هر سایت، در برگیرنده آن در دنیای وب است. سایتی که بیننـده ندارد بدون شک مرگی آنلاین را تجربه میکند. آمارهای رسمی به خوبی نشان میدهند که موتورهای جستجوگر ابزار مناسبی هستند که کاربران آنها خدمات و اطلاعات مورد نیاز خود را مییابند. البته تنها رتبه های بالای نتایج جستجو است که مورد توجه کاربران قرار دارد و آنها به سایتهای لیست شده در این رتبه ها مراجعه میکنند. کاربران هنوز هم علاقه دارند که ده سایت اول در نتایج جستجو را مرور کرده از بقیه سایتها صرف نظر کنند. این رفتار کاربران پیام بسیار واضحی دارد: «سایتهایی که در رتبه های بالا قرار نمیگیرند، بینندگان چندانی هم نخواهند داشت»[۳۱].
با دقت در این رفتار کاربران اهمیت کسب رتبه های بالا در موتورهای جستجوگر روشن تر میشود. نکته دیگر آنکه بینندگانی که بدین ترتیب از طـریق موتورهای جستجـوگر روانه سایت ها میشوند عمـوماً علاقه مندان به آن سایت هستند و این در حالی است که هزینه چندانی صرف آوردن آنها به سایت نشده است. امورزه تجارت الکترونیک خود را با مسئله رتبه بندی در موتورهای جستجوگر هماهنگ کرده است زیرا رتبه های بالاتر مستقیماً به فروش بیشتر تعبیر میشوند. طبق آمارهای ارائه شده در ابتدای سال میلادی ۲۰۰۳ نزدیک به ۹۳ درصد بینندگان سایتهای فعال در زمینه ارائه هدایای کریسمس را موتورهای جستجوگر فراهم کرده اند که در این بین گوگل با ۲۷ درصد در صدر ایستاده است. هر روزه سایت های بسیاری در وب منتشر میشوند که دارندگان آنها به امید کسب در آمد و موفقیت به این تجارت نوین وارده شده اند اما تنها تعداد معدودی از آنها با بهره گرفتن از تکنیک های موثر کسب درآمد و با تکیه بر تخصص خود در این بین به موفقیت دست مییابند[۳۱ و ۴۵].
امروزه بازاریابی در اینترنت روش های بسیاری را برای کسب در آمد هر چه بیشتر در اختیار سایت های قرار داده است اما انتخاب اول تمامیسایت ها رتبه های بالا در موتـورهای جستجوگر است. موتورهای جستجوی اولیه به کاربـران امکان می دادند که فقط بخشی از وب را جستجـو نمایند اما امـروزه با پیشرفت های اخیر و افزایش قابلیت های آنها، می توانند دیگر بخش های اینترنت را نیز کاوش نمایند. به طور خلاصه می توان گفت که موتور جستجوگر ابزاری است که کاربران اینترنت به کمک آنها سایت ها و اطلاعات مورد علاقه خود را مییابند. نتایج جستجوی تمام موتورهای جستجوگر دقیق نیست. بسیاری از کاربران دریافته اند که در اغلب موارد ۱۰ رتبه اول نتایج جستجوی موتورهای جستجوگر میتواند خواسته آن ها را برآورده کند. تجارت الکترونیک به شدت خود را با مسائل رتبه بندی در موتورهای جستجوگر هماهنـگ کـرده است و همه سایـت ها برای کسب رتبه های بالا تلاش میکنند[۴۵].
در بخـش اول این فصـل، جهت آشـنایی بیشتـر با مـوتورهای جستجـو و اجـزای آن، مفاهیم اولیه مـربوط به موتورهای جستجو و انواع آن را بیان نموده و نحوه عملکرد هر یک شرح داده می شود.
۲-۲ انواع موتورهای جستجو
موتورهای جستجو از لحاظ نحوه عملکرد و نوع انجام جستجو به چندین دسته زیر تقسیم می شوند:
- موتورهای جستجوی کلید واژه ای[۲۷]
- موتورهای جستجو بر اساس فهرست راهنمای موضوعی[۲۸]
- موتورهای جستجوی مبتنی بر خزنده[۲۹]
- موتورهای جستجوی ترکیبی[۳۰]
- موتورهای جستجوی متا[۳۱]
- موتورهای جستجوی هوشمند [۳۲]
- موتورهای جستجوگر مبتنی بر پرداخت[۳۳]
۲-۲-۱ موتورهای کلید واژه ای
این جستجوگرها دارای کادر مشخصی برای تایپ کلمه یا عبارت مورد جستجو هستند. کاربران با تایپ عبارت مربوط به موضوع از طریق موتور جستجو، کلیه سایت ها و صفحاتی که آن کلمـه یا عبارت را در بر دارند بازیابی می کنند. این موتورها با سرعت زیاد، حجم انبـوهی از منابع مرتبـط با موضوع مشـخص شده را به ترتیـب ارائه می کنند. این موتورها به دلیل دقیق و تخصصی نبودن سایت های بازیابی شده، گاهی اوقات نتایج نامرتبط به موضوع مورد نظر را به کاربر برمی گرداند و معمولاً برای جستجوی عمومی یک موضوع خاص مورد استفاده قرار می گیرند[۷ و ۵۰].
۲-۲-۲ موتورهای جستجو بر اساس فهرست راهنمای موضوعی
این موتورها تنها سرفصلها و عناوین موضوعات را جستجو میکنند مانند یاهو. این جستجو، شبیه جستجو در فهرست یک کتاب است. این جستجوگرها دارای فهرست موضوعی خاص خود می باشند. با کلیک کردن بر روی هر موضـوع، زیر مجمـوعه آن موضـوع در اختیار کاربـر قـرار می گیـرد و به همین ترتیب تا دقیـق ترین سایت های مربوط به موضوع مورد جستجو مشخص می شوند.
این نوع جستجو با دخالت مستقیم و نظارت صاحبان اسناد و مستندات وب ثبت و سازماندهی می شود. به
طور مثال کلیه اسناد در چندین شاخه از قبیل: هنر، ورزش، تفریح، خبر و … تقسیم بندی شده و تمامی این شاخه ها نیز به چندین زیر شاخه تقسیم می شوند. مثلاً شاخه هنر به زیرشاخه های موسیقی، سینما، نقاشی و… تقسـیم می شود و خود این زیرشاخه ها نیز به زیرشاخه های دیگری تقسیم می شوند.
صاحب یک سند موظف است آن را با توضیحـات کافی که در ویراستارهـای ویژه درج می شود در فهرسـت دایرکتوری متناسب با آن سند درج کند. در این روش، کاربران شانس بیشتری برای یافتن نتیجه مطلوب خواهند داشت. این روش ممکن است برای برخی کاربران آماتور راضی کننده نباشد زیرا این کاربران علاقه ای به جلو رفتن در میان شاخه ها و زیرشاخه ها را ندارند[۷].
برخی از مزیت های موتورهای جستجو بر اساس فهرست راهنمای موضوعی عبارتند از[۷ و ۵۰]:
- کیفیت بهتر اطلاعات به علت نمایه سازی آنها توسط انسان
- دسترسی بهتر به اطلاعات مرتبط
- صرف زمان کمتر برای دسترسی به اطلاعات
- سهولت مرور و بازیابی اطلاعات
این موتورهای جستجو دارای نقاط ضعفی نیز می باشند که می توان به موارد زیر اشاره نمود[۷ و ۵۰]:
- در سازماندهی اختیاری منابع که روش اصلی موتورهای راهنما است، یک موتور راهنما ممکن است منابع را به گونهای طبقهبندی کند که متفاوت از موتور راهنمای دیگر باشد. به این ترتیب نمیتوان از یک الگوی واحد در همه موتورهای راهنما برای ارزیابی استفاده کرد.
- انتخاب، رتبهبندی و طبقهبندی صفحات وقتگیر و هزینه زیادی را تحمیل میکند. به این ترتیب نهتنها نمیتوان منابع جدید را به سرعت اضافه نمود، در نتیجه منابع بازیابی شده از موتورهای جستجو روزآمد نیستند.
- افراد با ذهینت خود در رابطه با مفید بودن یا نبودن منابع تصمیمگیری میکنند، به این ترتیب آنچه که از طرف یک نفر ممکن است مفید باشد از طرف شخص دیگر ممکن است مفید نبوده و در راهنما قرار نگیرد.
- پایگاه های اطلاعاتی آنها اندک است.
- روز آمدی آنها نسبتا دیر انجام می شود.
- پوشش کم اطلاعات موجود در وب.
- نیاز به آگاهی از ساختار سلسله مراتب موضوعی علوم.
تعداد موتورهای راهنما در مقایسه با سایر موتورهای جستجو زیاد نمیباشد ولی مهم ترین آنها عبارتند از:
۲-۲-۳ موتورهای جستجوی مبتنی بر خزنده
در این نوع از موتورهای جستجوگر، کار جمع آوری اطلاعات بر عهده خزنده ها است. در حالت کلی زمانی که صحبت از موتور جستجو میشود مقصود این نوع آن است. این نوع از موتورهای جستجو در واقع به صورت هوشمند پهنه وب را پیمایش، مجموعه اسناد و پرونده ها را دریافت و رده بندی می کنند. بررسی آیتـم های مـورد جستجـو کاربران بر اسـاس شاخـص های تهیه شده صـورت می گیرد. فرایند های دریافـت، ذخیـره، رده بنـدی و شاخص دهی بر اسـاس الگوریتـم ها و به صـورت خودکار انجـام می شود.
پایگاه داده این نوع از موتورهای جستجوگر بزرگتر از سایر انواع است و اطلاعاتی را که آنها ارائه میدهند معمولاً بروزتر میباشد. عملیات بروز رسانی و گستـرش پایگاه داده موتور جستجـوگر از یک هفتـه تا چند ماه به طول می انجامد. خزنده ها، هیچ گاه از کار نمیایستند و به طور مداوم به جمع آوری اطلاعات مشغول هستند. ممکن است اطلاعات جمع آوری شده توسط آن ها از صفحات جدیدی باشد و یا اطلاعات بروز شده از صفحاتی باشد که قبلا هم به آنها مراجعه کرده اند[۵۰ و ۳۱].
موتورهای جستجوی مبتنی بر خزنده در مقایسه با راهنماهای موضوعی دارای پایگاه های اطلاعاتی بزرگی هستند. این نوع از موتورهای جستجو، بهترین گزینه برای جستجوهای ترکیبی محتوا/کلیدواژه هستند و اطلاعات روزآمدی را در اختیار کاربران قرار می دهد. محدودیت جستجو بر اساس تاریخ، نوع قالب، رشته و …، جستجوی حجم عظیمی از اطلاعات در مدت زمان اندک و کنترل در طول جستجو که در موارد لزوم بتوان عبارات جستجو را ترکیب نمود، را می توان از دیگر مزایای این نوع از موتورهای جستجو به شمار آورد.
موتورهای جستجوی مبتنی بر خزنده دارای معایبی نیز می باشند که می توان به مواردی از قبیل: دشواری یافتن موارد موردنـظر به دلیل نداشتن دسته بنـدی های موضوعـی، بازیابی های نامرتبـط، متفـاوت