فایل شماره 6004 |
مجموعه ویژگی ۱
۳۶/۶۷
۶۲/۸۲
۲۱/۷۴
مجموعه ویژگی ۲
۳۸/۸۰
۱۵/۷۷
۷۳/۷۸
مجموعه ویژگی ۳
۹۱/۸۷
۳۶/۸۵
۶۱/۸۶
مجموعه ویژگی ۴
۵۸/۹۱
۹۸/۸۶
۲۲/۸۹
همانطور که از جدول ۵-۲ میتوان دید هر کدام از مجموعه ویژگیهای انتخاب شده تأثیر مثبتی در افزایش کارآیی طبقهبند آنتروپی بیشینه دارند، که این مفید بودن بودن تمام ویژگیهای معرفی شده را میرساند. البته در این بین، مجموعه ویژگی ۳ تأثیر بیشتری در افزایش کارآیی طبقهبند داشته است (به ترتیب ۷٫۸۸%، ۸٫۲۱% و ۷٫۵۳% افزایش در معیارF، بازخوانی و دقت). ویژگیهایی که به این مجموعه ویژگی نسبت به مجموعه ویژگی قبلی اضافه شدهاند، عبارتند از ویژگیهای تعداد کلمات همتراز نشده در دو جمله و نسبت آنها به طول جمله.
نکته دیگر که میتوان از جدول ۵-۲ برداشت کرد، میزان تأثیری است که ویژگی کلمات مشترک به تنهایی بر روی کارآیی طبقهبند دارد. گرچه ممکن است به نظر به رسد این ویژگی به نوعی در بین ویژگیهای همترازی کلمه گنجانده شده است، اما این ارزیابی نشان میدهد استفاده از ویژگی کلمات مشترک بین دو جمله میتواند ویژگی خوبی برای تشخیص موازی یا غیر موازی بودن یک جفت جمله شود.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
حساسیت به دامنه
ما در طول استفاده از طبقهبند آنتروپی بیشینه با دادههای آزمایشی مختلف، متوجه شدیم که نتیجه طبقهبند به میزان زیادی به دامنه دادههای آموزشی و آزمایشی بستگی دارد. جدول ۵-۳ کارآیی طبقهبند را در برابر سه مجموعه داده آزمایشی که از دامنههای متفاوتی هستند نشان میدهد.
دادههای آزمایشی با عنوان «جمع آوری شده از وب» از متون دو زبانه موجود در وب گرفته شده است و شامل ۱۵۰ جفت جمله موازی و ۱۵۰ جفت جمله غیر موازی است. دادههای آزمایشی با عنوان «بطور دستی ترجمه شده» شامل ۵۰۰ جمله موازی و ۵۰۰ جمله غیر موازی است که از ترجمه دستی متون تخصصی فنی به دست آمدهاند. دادههای آزمایشی تحت عنوان «میزان» شامل ۵۰۰۰ جمله موازی و ۵۰۰۰ جمله غیر موازی گرفته شده از پیکره میزان است. دامنه پیکره میزان ادبیات کلاسیک میباشد. دادههای آموزشی در تمام موارد، شامل ۱۹۰۰۰۰ جفت جمله موازی از پیکره میزان است.
حساسیت کارآیی طبقهبند به دامنه دادههای آموزشی و آزمایشی
داده آموزشی
داده آزمایشی
دقت
بازخوانی
معیار F
میزان
جمع آوری شده از وب
۳۱/۵۹
۷۸/۷۶
۹۲/۶۶
فرم در حال بارگذاری ...
[یکشنبه 1401-04-05] [ 10:36:00 ب.ظ ]
|