خرید و دانلود فایلهای علمی

انواع تحقیق پروژه پاورپوینت مقاله و سایر فایلهای مجاز

خرید و دانلود فایلهای علمی

انواع تحقیق پروژه پاورپوینت مقاله و سایر فایلهای مجاز

سمینار بررسی روش های یادگیری ماشین به فیلتر هرزنامه

سمینار بررسی روش های یادگیری ماشین به فیلتر هرزنامه

.چکیده

در این مقاله ،ما یک بازنمایی جامع از توسعه های اخیر در روش های فیلنرینگ اسپم ها با الگوریتم های یاد گیری ماشینی ارائه کرده ایم که به هر دو جنبه متنی و روش های تصویری می پردازد .به جای اینکه فیلترینگ اسپم را به عنوان یک مسئله استاندارد طبقه بندی شده در نظر بگیریم ،اهمیت در نظر گرفتن برخی ویژگی های ان مانند مفهوم جمع شدن [1] در طراحی فیلتر های جدید نشان داده ایم .دو جنبه نسبتا مهم که کمتر در این مقوله مورد بحث قرار گرفته است عبارتند از : سختی به روز کردن کلاسیفایر بر اساس نمایش کیسه کلمات [2] و یک تفاوت بزرگ بین دو مدل اخیر بیز .در نهایت ،ما نتیجه گیری کرده ایم که با این که پیشرفت های مهمی در سال اخیر صورت گرفته است ،جنبه های بسیاری هستند که هنوز کشف نشده باقی مانده اند ،به خصوص تحت تنظیمات ارزیابی واقعی تر .

کلمات کلیدی : اسپم فیلترینگ ،یادگیری انلاین ،کیسه کلمات ،بیز ،اسپم تصویر

2.مقدمه

در سال های اخیر افزایش استفاده از ایمیل منجر به افزایش مشکلات ناشی از حجمی از پیام های ایمیل ناخواسته ،که معمولا به آن اسپم گفته می شود ،گردیده است . شامل یک آزار کوچک تا یک نگرانی بزرگ ،به دلیل حجم زیاد و توهین آمیز برخی از اسن پیام ها ، اسپم ها شروع به کاهش قابلیت اعتماد ایمیل ها کردند . کاربران شخصی و کمپانی ها ،با هدر رفتن پهنای باند به دلیل دریافت این پیام ها و زمانی که به وسیله کاربران برای تفکیک انها از پیام های نرمال یا قانونی صرف می کنند ، تحت تاثیر قرار گرفتند . یک مدل تجاری بر اساس بازار اسپم ها مفید است زیرت هزینه ها برای فرستنده کم است ، بنابراین تعداد زیادی از این پیام ها می توتنند ارسال شوند ، خروجی انها حداکثر می شود ، این رفتار متجاوزانه یکی از ویژگی های اسپمر ها را بیان می کند (کسانی که پیام های اسپم را ارسال می کنند ) (Martin-Herran ,Rubrl,& Zaccour ,2008 ) . تاثیرات اقتصای اسپم ها برخی کشور ها را به سمت وضع قوانینی بر علیه انها سوق داد ( e.g ,Carpinter & Hunt ,2006 ; Hoanca ,2006;Stern,2008 ) ، اگرچه این قوانین با به وسیله این واقعیت که این پیام ها از سایر کشودها نیز ارسال می شوند محدود می شوند .(Talbot ,2008 ) .بعلاوه ، سختی های رد گیری فرستندگان واقعی این پیام ها عملکرد این قوانین را محدود می کند .علاوه بر قانون گذاری ، برخی نویسندگان تغییرات پروتکل ها و مدل های عملیاتی را نیز پیشنهاد داده اند ( در Hoanca بحث شده است ) .

روش دیگری که بکار گرفته شده است استفاده از فیلترینگ اسپم است ، که بر اساس انالیز محتوای پیام . اطلاعات اضافه ،سعی بر شناسایی پیام های اسپم دارد .زمانی که انها را شناسایی کرد بر اساس تنظیماتی که در فیلتر در نظر گرفته شده است عمل مناسب را انجام می دهد . اگر فیلتر برای یک کاربر یکتا اعمال می شود ، پس از شناسایی انرا به بک فولدر که شامل پیام هایی با برچسب اسپم است ارسال می شود ،که این کار شناسایی انهارا ساده تر می کند .اما اگر فیلتر بر روی یک سرور ایمیل که ایمیل های کاربران مختلف را اداره می کند اعمال شود ، یا ممکن است به عنوان اسپم بر چسب زده شود یا پاک شود .یک احتمال دیگر می تواند تنظیمات همکاری باشد ، به این صورت که فیلتر هایی که روی ماشین های مختلف اجرا می شوند اطلاعاتی را که از پیام های دریافتی بدست می اورند را به اشتراک بگذارند و کارایی شان را بهبود ببخشند .


[1] Concept drift

[2] Bag-of-word



خرید فایل


ادامه مطلب ...

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی

تشخیص هرزنامه وب به کمک تکنیک های داده کاوی بصورت ورد ودر86صفحه چکیده: امروزه هرزنامه ها یکی از مشکلات اصلی موتورهای جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیکهای ضد هرزنامه بهبود یابد. یک مساله عادی که ما با آن در این زمینه مواجه می شویم این است که خیلی از اسناد رتبه بالایی را توسط موتور جستجو بدست آورده اند در حالی که سزاوار آن نبوده اند. با توجه به گسترش روزافزون وب و همچنین ظهور تکنیک های جدید هرزنامه توسط هرزنامه نویسان، هدف از این پایان نامه بررسی روش های مبتنی بر داده کاوی جهت شناسایی هرچه بهتر صفحات هرزنامه از غیرهرزنامه است. الگوریتم ها و نرم افزارهای داده کاوی از جمله ابزارهای مورد ...


ادامه مطلب ...