۲۸

۳۵

SE1

۳۰

۴۰

۵۰

SE2

۵

۱۰

۱۵

۲۰

۲۵

SE3

بنابراین، به نظر می‌رسد اولین نتیجه در این رتبه، نتیجه اول موتور جستجوی SE2 است.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

۳-۴-۲-۲ -۱-۲-۲ طبقه‌بندی سلسله مراتبی صفحات وب بازیابی شده
همانطور که قبلا ذکر شد، Captain nemo موضوعات مرتبط مورد نظر را برای طبقه‌بندی صفحات بازیابی شده، با بهره گرفتن از تکنیک های K همسایه نزدیک توصیه می نماید. سایر الگوریتم های طبقه‌بندی را می توان به آسانی اتخاذ نمود. با این حال، تلاش های ما روی ارائه چارچوب مناسب متمرکز شده‌است و نه آزمایش الگوریتم های طبقه‌بندی های مختلف، که به طور گسترده ای توسط بسیاری از محققان بررسی شده‌است. بنابراین، در عین حال روش ساده طبقه‌بندی موثر K همسایه نزدیک انتخاب می‌گردد[۵۲].
صفحات وب بازیابی شده توسط k-NN پردازش می شود و در سلسله مراتب موضوعی طبقه‌بندی می شود. بخشی از یک صفحه وب که برای طبقه‌بندی استفاده می‌شود شامل عنوان آن و بخشی از محتوای استخراج شده آن توسط موتورهای جستجو می شود. مورد دوم معمولا به شدت به پرس‌و‌جو تحمیل مربوط می‌باشد. تمام محتوای صفحات وب می‌تواند برای دقت بیشتر استفاده می‌شود، اما این زمان پاسخ راخراب کند[۵۲].

  • طبقه بندیK-NN : روش طبقه‌بندی k-NN فرض می کند که یک گروه از رده ها برای مجموعه داده‌ها و مجموعه ای از اسناد آموزشی مربوط به هر موضوع تعریف می شود. با توجه به یک سند وارده، این روش تمام مدارک آموزشی را با توجه به ارزش شباهت میان این اسناد و پرونده های دریافتی رتبه بندی می نماید. سپس، روش رده های k سند رتبه‌بندی شده عالی را برای تصمیم گیری طبقه‌بندی مناسب برای سند ورودی با اضافه کردن مقادیر مشابهت در هر همسایه برای هر یک از این مجموعه ها استفاده می نماید که در فرمول (۳-۸) بیان می‌گردد[۵۲].

Eq.(3-8)

جایی که:

  • x یک سند ورودی است، dj یک سند آموزش است، CJ یک رده است.
  • در صورتی که di به cj متعلق باشد یا ۰ در غیراینصورت
  • مقدار تشابه بین سند ورودی x و سند آموزشی di است.

با بهره گرفتن از آستانه ها در این نمرات، k-NN تکالیف رده باینری را به‌دستمی آورد و به سیستم اجازه می‌دهد تا یک سند را به بیش از یک دسته اختصاص دهند. در عوض فقط می‌تواند از رده ای با بالاترین امتیاز به عنوان یک مورد صحیح برای سند ورودی استفاده نماید. Captain nemo از روش دوم پیروی می کند[۵۲].

  • طبقه‌بندی k-NN سلسله مراتبی: الگوریتم های طبقه‌بندی k-NN سلسله مراتبی معمولا در یک رویکرد از بالا به پایین اجرا می شوند. این سند مورد نظر برای اولین بار در یکی از مقوله های سطح اول طبقه‌بندی شده‌است. به طور بازگشتی، طبقه‌بندی در زیر درخت ریشه دار در رده در انتخاب شده مرحله قبل همچنان ادامه دارد. این فرایند زمانی متوقف می‌شود که رده انتخاب شده یا یک برگ یا بیشتر شبیه به سند از زیر شاخه های آن است. در این روش، همه رده ها در سلسله مراتب باید با جزئیات برای جذب اسنادی تعریف شوند که متعلق به یکی از زیر شاخه های آن‌ها است. برای جلوگیری از این مشکل، در Captain nemo، که در آن توصیف موضوع توسط کاربران داده می‌شود، یک روش ترکیبی استفاده شده‌است[۵۲].
  • رویکرد ترکیبی : این روش یک روش ترکیبی است. موضوعات مورد علاقه در یک سلسله مراتب موضوعی سازمان یافته‌است. هر موضوع سلسله مراتب به عنوان یک گروه مجزای دارای اطلاعات آموزش آن‌ها (توضیحات کلمه کلیدی خود را)، همانند مدل مسطح در نظر گرفته می شود. با این حال، مجموعه داده‌های آموزش یک موضوع توسط داده‌ها از زیر موضوعات آن غنی می شود. به عنوان مثال، رده های سلسله مراتب، همانطور که در شکل ۳-۱۹ نشان داده شده‌است، غنی شده‌است. در نتیجه تصمیم اینکه آیا یک صفحه وب متعلق به یک رده است به شدت به نسل های آن بستگی دارد[۵۲].

شکل ۳-۱۹ سلسله مراتب غنی شده[۵۲]
در Captain nemo، توصیفات موضوع تعیین شده توسط کاربر به جای آموزش اسناد در k-NN استفاده می شوند. برای مشخص تر شدن، Captain nemo نیاز به محاسبه شباهت میان شرح هر صفحه وب بازیابی شده و شرح هر موضوع مورد علاقه شخصی دارد. اندازه گیری شباهت به کارگرفته‌شده یک است. که D شرح یک موضوع مورد توجه و R شرح یک صفحه وب بازیابی شده‌است. شباهت بین موضوع مورد علاقه و صفحه وب بازیابی شده، sim (R,D) به صورت فرمول (۳-۹) تعریف می‌شود:

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...