مجموعه ویژگی ۱

۳۶/۶۷

۶۲/۸۲

۲۱/۷۴

مجموعه ویژگی ۲

۳۸/۸۰

۱۵/۷۷

۷۳/۷۸

مجموعه ویژگی ۳

۹۱/۸۷

۳۶/۸۵

۶۱/۸۶

مجموعه ویژگی ۴

۵۸/۹۱

۹۸/۸۶

۲۲/۸۹

همانطور که از جدول ۵-۲ می‌توان دید هر کدام از مجموعه ویژگی‌های انتخاب شده تأثیر مثبتی در افزایش کارآیی طبقه‌بند آنتروپی بیشینه دارند، که این مفید بودن بودن تمام ویژگی‌های معرفی شده را می‌رساند. البته در این بین، مجموعه ویژگی ۳ تأثیر بیشتری در افزایش کارآیی طبقه‌بند داشته است (به ترتیب ۷٫۸۸%، ۸٫۲۱% و ۷٫۵۳% افزایش در معیارF، بازخوانی و دقت). ویژگی‌هایی که به این مجموعه ویژگی نسبت به مجموعه ویژگی قبلی اضافه شده‌اند، عبارتند از ویژگی‌های تعداد کلمات همتراز نشده در دو جمله و نسبت آنها به طول جمله.
نکته دیگر که می‌توان از جدول ۵-۲ برداشت کرد، میزان تأثیری است که ویژگی کلمات مشترک به تنهایی بر روی کارآیی طبقه‌بند دارد. گرچه ممکن است به نظر به رسد این ویژگی به نوعی در بین ویژگی‌های همترازی کلمه گنجانده شده است، اما این ارزیابی نشان می‌دهد استفاده از ویژگی کلمات مشترک بین دو جمله می‌تواند ویژگی خوبی برای تشخیص موازی یا غیر موازی بودن یک جفت جمله شود.

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

حساسیت به دامنه
ما در طول استفاده از طبقه‌بند آنتروپی بیشینه با داده‌های آزمایشی مختلف، متوجه شدیم که نتیجه طبقه‌بند به میزان زیادی به دامنه داده‌های آموزشی و آزمایشی بستگی دارد. جدول ۵-۳ کارآیی طبقه‌بند را در برابر سه مجموعه داده آزمایشی که از دامنه‌های متفاوتی هستند نشان می‌دهد.
داده‌های آزمایشی با عنوان «جمع آوری شده از وب» از متون دو زبانه موجود در وب گرفته شده است و شامل ۱۵۰ جفت جمله موازی و ۱۵۰ جفت جمله غیر موازی است. داده‌های آزمایشی با عنوان «بطور دستی ترجمه شده» شامل ۵۰۰ جمله موازی و ۵۰۰ جمله غیر موازی است که از ترجمه دستی متون تخصصی فنی به دست آمده‌اند. داده‌های آزمایشی تحت عنوان «میزان» شامل ۵۰۰۰ جمله موازی و ۵۰۰۰ جمله غیر موازی گرفته شده از پیکره میزان است. دامنه پیکره میزان ادبیات کلاسیک می‌باشد. داده‌های آموزشی در تمام موارد، شامل ۱۹۰۰۰۰ جفت جمله موازی از پیکره میزان است.
حساسیت کارآیی طبقه‌بند به دامنه داده‌های آموزشی و آزمایشی

داده آموزشی

داده آزمایشی

دقت

بازخوانی

معیار F

میزان

جمع آوری شده از وب

۳۱/۵۹

۷۸/۷۶

۹۲/۶۶

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...