آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع
خلاصه:
در این بخش، به گوگل خواهم پرداخت، یک نمونة اصلی از یک موتور جستجوی در مقیاس وسیع که استفاده وسیعی از ساختار اراده شده در فوق متنی می کند. گوگل برای جستجو و یافتن (Crawl) و شاخص بندی وب به طور مؤثر و تولید نتایج هرچه رضایت بخش تر نسبت به سیستم های موجود طراحی شده است. این نمونه اصلی با پایگاه داده ای متشکل متن و فوق پیوند کامل 24 میلیون صفحه در http://google.standard.edi/ موجود می باشد. مهندسی یک موتور جستجو یک وظیفة چالش آور است. موتورهای جستجو دهها تا صدها میلیون صفحه وب متشکل از تعداد قابل ملاحظه ای موضوعهای متفاوت را شاخص بندی می کنند و پاسخ گوی دهها میلیون پرس و جو به صورت روزانه هستند. بر خلاف اهمیت بالای موتورهای جستجوی برروی وب تحقیقات آکادمیک بسیار اندکی برروی آنها صورت گرفته است (در کشور عزیز ما دقیقاً هیچ مطالعه و تحقیقی صورت نگرفته است). علاوه بر این به دلیل سرعت پیشرفت تکنولوژی وب، امروزه ساخت یک موتور جستجو مسبت به سه سال پیش بسیار متفاوت است. این بخش به بررسی و توصیف عمقی این موتور جستجوی وب در مقیاس وسیع می پردازد. جدای از مشکلات تغییر مقیاس تکنیکهای جستجوی قدیمی داده با این وسعت، چالشهای تکنیکی جدیدی در زمینه استفاده از اطلاعات اضافی ارائه شده در فوق متن برای تولید نتایج جستجوی بوجود آمده است. این بخش به این که چگونه می توان یک سیستم در مقیاس وسیع عملی که بتواند اطلاعات اضافی ارائه شده در فقو متن را استخراج کند را تولید کرد، پاسخ خواهد گفت. همچنین ما به این مشکل که چگونه می توان با مجموعه های فوق متن کنترل نشده (هر کسی می تواند هر چه خواست بنیسد) کنار آمد، نیز دقت خواهیم کرد.
معرفی
وب چالشهای جدیدی برای بازیابی اطلاعات ایجاد می کند. حجم اطلاعات موجود برروی وب به سرعت در حال افزایش است و به همان نسبت تعداد کاربران جدید که در جستجوی وب بی تجربه هستند افزایش می یابد. مردمی که احتمالاً وب را از طریق گراف پیوند آن مرور می کنند، اغلب کار خود را با شاخصهای ذخیره شده با کیفیت بالای انسانی مانند یاهو! یا موتورهای جستجو شروع می کنند. لیتهاس ذخیره و نگهداری شده توسط انسانی موضوعهای معروف را به طور موثری پوشش می دهند اما شخصی بودن، گران و پرهزینه بودن برای ساخت و نگهداری، کندی در پیشرفت و ناتوانی در پوشش موضوعهای مبهم و پیچیده از عیبتهای عمده آنها محسوب می شود.
موتورهای جستجوی وب – گسترش یافتن: 1994-2001
تکنولوژی موتورهای جستجو باید به میزان زیادی تغییر پیدا می کرد تا بتواند هماهنگی خود را با گسترش وب حفظ کند. در 1994، یکی از اولین موتورهای جستجوی وب یعمی کرم وب گسترة جهانی (WWWW) شاخصی از000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی از 2 میلیون (WebCrawler) تا 100 میلیون (از (Search Engine Watch صفحه وب و سند را داشتند. قابل پیش بینی است که تا سال 2001 یک شاخص جامع از وب شامل بیش از دو میلیارد سند باشد. در همان زمان تعداد پرس و جوهایی که موتورهای جستجو اداره می کنند به طور شگفت آوری افزایش می یابد.
گوگل: تغییر دادن وب
این موتور جستجوایی که در سطح وب امروز باشد چالشهای بسیاری را پدید می آورد. تکنولوژی جستجو و یافتن سریع برای جمع آوری و به روز رسانی سندهای وب لازمی می باشد. فضای ذخیره سازی بهید به طور کارآمدی برای ذخیره شاخصها و به طور اختیاری خود سندها بکار گرفته شود. سیستم شاخص بندی باید صدها گیگا بایت داده را به طور کارآمد پردازش کند. پرس و جحوها باید به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانیه).
تحقیقات موتور جستجوی آکادمیک
جدای از گسترش بسیار زیاد، وب به طور افزایشی در طول زمان حالت تجاری به خود گرفته است، در سال 1993، %5/1 از سرویس دهندگان وب بر دامنه .com قرار داشتند. این مقدار در سال 1998 به %60 رسید. در همان زمان، موتورهای جستجو از حوزة آکادمیک به تجاری کوچ کردند. تا امروز اغلب پیشرفتهای موتورهای جستجو در شرکتهایی صورت می گیرد که حداقل میزان انتشار جزئیات را دارند. این باعث می شود تکنولوژی موتور جستجو تا حد زیادی مثل جادوی سیاه مخفی باقی بماند و گرایش تبلیغاتی پیدا کند. با گکوگل، سعی شده است تا پیشرفت و فهم بیشتری در قلمرو آکادمیک صورت گیرد.
پاورپوینت روش های جستجو در شبکه های Peer-to-peer
خلاصه
مقدمه
روش های جستجو در شبکه های P2P
ساختار PeerWare و نتایج آن
مقدمه
ویژگی های شبکه های p2p
تعداد زیاد نودها
رفتار کاملا پویا
غیر قابل پیش بینی
اشتراک اطلاعات در محیط توزیع شده بسیار بزرگ
عدم وجود هماهنگ کننده مرکزی
چکیده مقاله:
با توجه به افزایش روز افزون و گسترش رسانه ها و تصاویر دیجیتال
توسط شهروندان الکترونیک، جستجو و بازیابی آ نها از اهمیت بالایی برخوردار است.
در این تحقیق، روشی جدید برای بازیابی مبتنی بر محتوای تصویر معرفی شده است.
روش مطرح شده میتواند به منظور جستجو و بازیابی تصاویر از کتابخانه ها
و بانکهای اطلاعاتی تصاویر شهر الکترونیک به کار گرفته شود.
راهکار ارائه شده، یک روش بدون ناظر و بر پایه ی قطعه بندی و
شاخص گذاری خودکار تصاویر است که بر روی انواع تصاویر ناهمگون
و بدون برچسب قابل اعمال می باشد. این روش همچنین نسبت به شرایط مختلف
تصویر از قبیل هر گونه چرخش و روشنایی مقاوم است. در مرحله ی آموزش این روش،
ابتدا تصویر از فضای رنگی RGB به فضای رنگی YCbCr تبدیل میشود،
سپس با استفاده از الگوریتم خوشه بندی Mean Shift قطعه بندی می گردد.
به ازای هر قطعه، تعدادی ویژگی از تصویر اصلی که به فضای رنگی HSI
منتقل شده است، استخراج میگردد. سپس این ویژگیها با استفاده از الگوریتم
K-means به K کلاس خوشه بندی میشوند و در نهایت، یک دسته بند
برای ایجاد پایگاه داده ی شاخص گذاری شده به کار گرفته میشود.
برای ارزیابی این روش، از پایگاه داده ی تصاویر ZuBuD استفاده شده است.
نرخ بازشناسی برای اولین تصویر بازیابی شده 43%.96 به دست آمده است.
کلیدواژهها:
شهر الکترونیک، کتابخانه الکترونیک، بازیابی مبتنی بر محتوای تصاویر،
قطعه بندی تصویر، خوشه بندی Mean Shift، خوشه بندی K-means و دسته بند .1-NN
در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود
پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (باشباغی, سامان؛ مصطفی پرچمی و حسن ختن لو، ۱۳۹۰)
برای بار دوم به بعد: (باشباغی؛ پرچمی و ختن لو، ۱۳۹۰)