۳-۴-۱-۱۰ -۳ -۲ مزایای استفاده از شاخص محکم متن
این شاخص برای غنی سازی صفحاتی معرفی شد که توصیف متنی خوبی را ندارد و یا متعلق به مرز وب به‌دستآمده توسط عنکبوت ها است. در شکل ۳-۱۰ ، مقادیر مختلف از P @ N ، برای پرس‌و‌جوی “یاهو” و بدون استفاده از شاخص محکم متن گزارش شده‌است. یک پدیده زیبای رایج برای بسیاری از پرس‌و‌جوها مشاهده می‌شود( افزایش متون -محکمP @ N برای مقادیر پایین تر از N)[34].

( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

شکل۳-۱۰. P @ N با بهره گرفتن از شاخص محکم[۲۱]
۳-۴-۱-۱۰ -۳ -۳ مزایای استفاده از موتورهای چندگانه
موتورهای چندگانه، پوشش بهتر از وب را به دلیل هم پوشانی کمتر از موتورهای جستجوی کنونی ارائه می‌دهد. معمولا این مورد به عنوان یک محدودیت دیده می‌شود، نه یک منبع که دلیل ان مشکل در ترکیب لیست های متعدد رتبه‌بندی شده ان است. شکل۳-۱۱، گزارش یک دیدگاه متفاوت در مورد این موضوع است. استفاده از نتایج پرس‌و‌جوی آمده از بسیاری از موتورهای جستجو، یک سلسله مراتب پوشه با برچسب دقیق تر و معنی دار را ایجاد می کند. این امر به کاربر در استفاده از اشکال مختلف از شخصی‌سازی ارائه شده توسط اسنکت بهتر کمک می کند[۱۵,۱۳].

شکل ۳-۱۱. تعداد سطوح پوشه بالا[۲۱]
۳-۴-۱-۱۰ -۳ -۴ مزایای استفاده از جملات فاصله دار به عنوان برچسب‌های پوشه
از آنجا که برخی از نرم افزارها از جملات به هم پیوسته به عنوان برچسب پوشه استفاده می نمایند، سعی به بررسی تاثیر جملات فاصله دار اسنکت در معنی دار بودن برچسب‌های انتخاب شده، شده‌است. توزیع شکاف ها برای این جفت کلمات مربوطه در کدهای آماده از مجموعه داده‌های خود مورد مطالعه قرارگرفته‌است. شکل۳-۱۲ گزارش توزیع، در مقیاس لگاریتمی، برای چهار جفت کلمه مربوط برای پرس‌و‌جوی “اجاره اتومبیل” با شکاف های متن مختلف است. با توجه به این مشاهدات تجربی، اسنکت ، حداکثرچهار شکاف را برای تولید جملات فاصله دار اتخاذ می کند[۲۱].
دقت برچسب روی مجموعه داده‌ها، برای همه ۷۷ پرس‌و‌جوی تشکیل دهنده مجموعه داده‌ها، دقت متوسط ​​را روی برچسب‌های پوشه سطح بالا از P @ 3 = 91٪، P @ 5 =٪ ۸۳، P @ 7 = 78٪ و P @ 10 = 79٪، به‌دست‌آورده است که در شکل۳-۱۳ نشان داده شده‌است[۲۱].
تعداد برچسب‌های سطح بالا اسنکت تنها برای تولید برچسب‌های سطح بالا معنی دار و صرفه نظر کردن از آن‌هایی که در زیر یک رتبه ثابت هستند تنظیم شده‌است. بنابراین همه پرس‌و‌جوها، ده برچسب سطح بالا (و از این رو ده پوشه سطح بالا) را تولید نمی‌کنند. در شکل ۳-۱۴ ، تعداد دقیق برچسب‌های سطح بالای تولید شده (پوشه‌ها) برای همه ۷۷ پرس‌و‌جو از مجموعه داده‌های خود گزارش شده‌است. تمام پرس‌و‌جوها، حداقل سه و بسیاری از آن‌ ها تا ده برچسب سطح بالا را تولید می نمایند[۲۱].

شکل ۳-۱۲. توزیع-ورود جفت کلمات مرتبط [۲۱]

شکل ۳-۱۳. P @ N در مجموعه داده [۲۱]

شکل۳-۱۴. تعداد پرس‌و‌جوهای تولیدکنندهN برچسب سطح بالا در مجموعه داده‌ها(TopLabels @ N)[21]
در شکل۳-۱۵،P @ Nsnippets را برای نتایج شخصی شده در مقابل شخصی نشده در پرس‌و‌جو “divx” مقایسه شده‌است.
۳-۴-۱-۱۰ -۳ -۵ تعداد کدهای آماده وب موجود در پوشه‌ها
وزن یک پوشه، تعداد کدهای آماده در آن است. یک سلسله مراتب در صورتی با وزن متعادل تعریف می‌شود که گره ها در یک سطح دارای وزن های قابل مقایسه باشند.توزیع وزن ها برای پوشه‌های سطح بالای تولید شده برای “داده کاوی” پرس‌و‌جو گزارش شده‌است. برای محدودیت‌های فضایی، تنها “نرم افزار” پوشه بالا گسترش داده شده‌است.سلسله مراتب اسنکت متعادل است، و این پدیده در بسیاری از پرس‌و‌جوها از مجموعه داده‌های ما رخ می‌دهد. یک تعادل خوب برای شخصی‌سازی بسیار مهم است زیرا سلسله مراتب پوشه را به همان اندازه با جزئیات تمام مفاهیم پشت پرس‌و‌جو اجرا می کند[۲۱].

شکل ۳-۱۵. P @ N روی کدهای آماده برای “divx’’ [۲۱]
۳-۴-۲ مدل سازی کاربر
کارهای انجام شده برای مدل سازی کاربر به صورت زیر است:
۳-۴-۲-۱مدل سازی صریح کاربر
در رویکرد اول اطلاعات شخصی کاربر به صورت صریح از او پرسیده می‌شود و بر اساس پاسخ هایی که کاربر به سیستم اعلام می‌کند پروفایل شخصی او ساخته می‌شود[۶].

    • از یک کلاسترینگ سلسله مراتبی استفاده می کند که اسنکت نامیده می شود که نتایج حاصل از۱۶ موتور جستجوی کالا در پوشه‌های بر چسب زده سلسله مراتبی مرتب می شوند. حالت سلسله مراتبی دید کاملی از نتایج مرتب شده موتورهای جستجو ارائه می دهد.که کاربران با این حالت سلسه مراتبی به نیازهای جستجوی خودشان هدایت می شوند.ابتدا کاربر یک پرس وجو را به اسنکت می فرستد و اسنکت نیز پس از خوشه‌بندی سلسله مراتبی نتایج جستجو و برچسب گذاری خوشه ها با جملات با طول متغیر، یک سلسله مراتب برچسب گذاری شده را به کاربر ارائه می دهد. کاربر نیزگروه هایی را که برچسب آن‌ ها بیشترین تناسب با اطلاعاتی مورد نیازش را دارد انتخاب می کند .سپس اسنکت با فیلترکردن نتایج جستجوی متعلق به سایرخوشه ها، نتایج جستجوی شخصی سازی شده را به کاربر ارائه می دهد.( این روش در دیدگاهی دیگر برای مرحله شناخت کاربر می‌باشد)[۲۱].
    • از یک پایگاه دانش استفاده شده که از رفتار کاربران به‌دست آمده است سیستم رفتار کاربران را مانیتور می کند سپس کاربر خودش حیطه علایقش را معین می کند و بر این اساس مدل علایق کاربر به‌دستمی آید. در این سیستم ابتدا با کمک فایل Result.htm که نتایج حاصل از موتور جستجو رالیست می‌کند صفحات لیست می‌شود سپس کاربر صفحاتی را که مورد علاقه اش است انتخاب می‌کند که به آن Hit می گویند و صفحاتی که انتخاب نمی‌کند Miss گفته می‌شود و سپس در یک Rerank صفحات Hit .و صفحاتی که بیشتر مشابه این صفحات هستند لیست می شوند.به این صورت سعی می‌شود نتایج نزدیک به علاقه و نیاز کاربر باشد.همانطور که دیده می‌شود در این روش نیز کاربر دخالت صریح دارد[۶].
    • روند کار به این صورت است که ابتدا همه صفحات بازیابی شده در کلاس بد قرار می‌گیرند. پس ازاینکه کاربر بر روی یکی از نتایج موجود در لیست بردا[۷۲]کلیک نمود، با این فرض که صفحه کلیک شده موردعلاقه کاربر می باشد، آن را به کلاس خوب منتقل می کند و با بهره گرفتن از طبقه بندی کننده Naive Bayesian یک نمره به هر صفحه در لیست بردا اختصاص می‌دهد. سپس لیست بر اساس نمرات اختصاص یافته رتبه بندی شده و به کاربر ارائه می شود تا کاربر صفحه دیگری را به عنوان صفحه مورد علاقه انتخاب نماید و مراحل قبلی مجددا تکرار می شود. Excalibur سمت سرور کار می کند و پروفایل کاربر را به صورت یک کوکی روی سیستم او ذخیره می کند .در این سیستم نیز چون کاربر باید درحین جستجو هر بار صفحات مورد علاقه خود را انتخاب نماید و سیستم چندین بار با توجه به علاقه کاربر Rerank می‌شود حالت ضمنی وجود ندارد[۶].

کاربران معمولا به انتشار علایقشان در اینترنت بد بین هستند و همچنین این کار برایشان وقت گیر و هزینه بر است و ممکن است که در بیان علایقشان دچار اشتباه شوند یا به خاطر عدم اعتمادی که به فضای وب دارند اطلاعات صحیحی را به سیستم ندهند, مجموع این دلایل باعث می‌شود که جمع آوری پروفایل کاربر به صورت اتومات نتایج بهتری را به‌دست‌آورد[۶].
۳-۴-۲-۲ مدل سازی ضمنی کاربر
در رویکرد دوم سعی شده که دخالت کاربر به حداقل برسد و پروفایل او به صورت ضمنی از روی تعاملاتی که سیستم با کاربر دارد مثل مرورهای کاربر،پرس وجوهای گذشته او،ایمیل هایی که مشاهده کرده و…شناخته می شود[۲,۵۶].

    • در اینجا سعی شده که کمترین دخالت کاربر وجود داشته باشد. پروفایل کاربران بر اساس سابقه جستجویشان در موتور جستجوساخته می‌شود.منابع مختلف پروفایل، پرس‌و‌جو ها و نتایج جستجو ها است.این پروفایل با کلاس بندی اطلاعات در محتویات پروژه دایرکتوری ساخته می شود و سپس برای دوباره مرتب‌کردن نتایج جستجو استفاده می شود از بازخورد های کاربر استفاده می شود تا ترتیب نتایج گوگل با ترتیب جدید مقایسه شود وتا حدی نتایج بهبود یابد. پایه این کار بر ساختن پروفایل کاربر از تعاملات کاربر با یک موتور جستجوی خاص است.در این کار از Google wrapper استفاده شده‌است یعنی یک لفافه حول موتور جستجوی گوگل برای ثبت کردن پرس وجو ها و نتایج جستجوها وکلیک ها بر پایه هر کاربر قرار می گیرد.ایراد این کار این است که اولا فقط یک موتور جستجوی خاص را بررسی می‌کند و ثانیا سمت سرور است و به غیر از جستجوهای کاربر از وب گردی ها ورفتار کلی او در وب اطلاعاتی در دسترس نیست[۶,۵۶].
    • به منظور دستیابی به بازخورد ضمنی، نصب یکسری نوارابزار و افزونه بر روی مرورگر یا در سیستم کاربر ,وجود دارد به عنوان مثال می توان به Seruku Toolbar و Surf Saver اشاره کرد که اطلاعات صفحات مشاهده شده کاربر و URL آن‌ ها را در مخزنی نگهداری می‌کنند[۶].
    • Furl نمونه دیگری از این روش است که صفحات و عناوین مورد علاقه کاربر را ذخیره می‌کند.[۶]
    • سایت آمازون از تکنیکی به نام a9 استفاده می‌کند که بر اساس کوکی ها سلایق کاربر را شناسایی می‌کند[۶].
    • همچنین در موتور جستجوی Ujiko.com ، کاربران از طریق کوکی های ثبت ساده قابل شناسایی هستند[۶].
    • روش دیگر استفاده از تاریخچه جستجو در میان سرورهای پراکسی یا فعالیت های دسکتاب با نصب Bot در سیستم کاربر است که مشکل کوکی در ثبت اطلاعات یک سایت خاص را مورد بررسی قرار داده و با این روش می‌تواند تمام فعالیت های وب را ثبت نماید. در این روش برای مسئله امنیت اطلاعات کاربران، برای هر فرد شماره منحصر به فردی در کوکی ذخیره می‌شود که از دسترس همگان خارج است. تمام این اطلاعات به صورت جداگانه ذخیره می‌شود و از فایل هویت کاربران و پرس وجوی وارد شده مستقل است و تنها از طریق آن شماره، این دو فایل نگاشت می‌شود. همچنین از روی پروفایل کاربر می توان به بخشی از سلایق او دست یافت مانند موتور جستجوی ترجیح داده شده، نوع اسناد دریافتی و علاقه‌مندی های خاص کاربر مثلا در یک ورزش یا رشته خاص تحصیلی. در واقع می توان از پرس وجویی که کاربر وارد می‌کند به عنوان یکی از موضوعات مورد علاقه او نام برد که در بسیاری از تکنیک ها از این شیوه استفاده می‌شود[۶].

در سالهای اخیر روش غیرمستقیم یا بازخورد ضمنی تحت عنوان کلیک از گذر داده بیان می‌شود که دارای هزینه پایین تر ولی نویزدار است. در واقع،در این روش اطلاعات مهمی که در لاگهای موتور جستجو در حین عمل جستجوی کاربر و مشاهده صفحات مختلف ثبت می‌شود، مورد استفاده قرارمی‌گیرد. این اطلاعات شامل نحوه کلیک کاربر بر روی لیست نتایج ارائه شده، مدت زمان توقف در یک صفحه، متن پرس وجوی کاربر و بسیاری ازاطلاعات مفید دیگر است. فرض بر این است که کاربر در صورتی روی لینکی کلیک می‌کند که دارای اطلاعات مرتبط با پرس وجوی او باشد، در واقع کسی به صورت تصادفی کلیک نمی‌کند. همچنین می توان از ترکیب دو روش فوق یعنی بازخورد مستقیم و ضمنی در رتبه‌بندی استفاده نمود که در این صورت نیز نتایج قابل قبولی بدست می آید. در واقع می توان با بهره گرفتن از اطلاعات کلیک کاربران، ضریب اطمینان‌ها در موتور جستجو را محاسبه نمود[۲].
تاکنون مطالعات وسیعی در بررسی تاثیر رفتار کاربر در فرایند جستجو صورت گرفته و الگوریتم های مختلفی مطرح شده‌است .

    • Captain nemo: یک ابرجستجوگر با فضای جستجوی سلسله مراتبی شخصی شده برای مدل سازی است[۵۲].

۳-۴-۲-۲-۱ Caption Nemo

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...