چکیده

جمع آوری و پردازش اطلاعات در وب نیاز به استفاده از تکنولوژی های مختلفی چون ساخت خزنده، ذخیره سازی داده ها و پردازش اطلاعات دارد.

واژه های کلیدی: طراحی، ساخت، خزنده وب، موتور جستجوی وب، ایرانی

مبانی نظری و پیشینه پژوهش

استفاده از اینترنت به عنوان ابزار دسترسی سریع، امروزه بیشتر مورد توجه کاربران قرار گرفته و برای شناخت و دستیابی به وب سایتهای مختلف نیازمند به استفاده از موتورهای جستجو می باشیم. همانطور که میدانیم موتورهای جستجوی مختلفی کمک اصلی را بدست گرفته اند که امروزه، Google در حدود 73 درصد، Baidu در حدود 13 درصد، Bing در حدود 8 درصد، Yahoo در حدود 4 درصد، Yendex در حدود 1 درصد و به ترتیب مابقی، Ask، DuckDuckGo، Naver و چندی دیگر زیر یک درصد سهم موتورهای جستجوی دنیا را بدست گرفته اند. [1] از این آمار میتوان نتایج جالبی گرفت:

  • گوگل بزرگترین موتور جستجو، کنجکاوی های 73 درصد مردم دنیا رو جواب می دهد؛ پس این شرکت میداند که مردم دنیا بیشتر دنبال چی هستن، مثلا گوگل دریافت بشتر مردم به یک سیستم عامل راحت برای گوشیهای همراهشان نیاز دارند و به راحتی با استفاده از پلتفرم اندروید این سیستم عامل را در بین بیشترین گوشیهای همراه دنیا رواج داد. پس حالا از طریق تلفن های همراه اطلاعات مورد نیاز را جمع آوری می کند که دوباره مثلا اطلاعات ترافیکی کوچه و خیابان ها را به راحتی به ما نمایش می دهد! حالا این سوال پیش می آید که گوگل الان در حال نتیجه گیری چیست؟
  • دومین موتور جستجوی دنیا موتور جستجوی Baidu می باشد. 73 درصد از مردم چین از این موتور جستجو استفاده می کنند در حالی که در میان کاربران چینی گوگل تنها در حدود 2 درصد مورد استفاده قرار می گیرد. [2] پس این سوال پیش می آید که چرا مردم چین از موتور جستجو بومی استفاده می کنند؟
  • سومین موتور جستو Bing که مربوط به شرکت مایکروسافت است، موتور جستجوی Yahoo رو هم ازان خود کرده، در واقع فرقی بین بینگ و یاهو وجود ندارد. باز این سئوال پیش می آید که مایکروسافت چرا تلاش برای معروف کردن موتور جستجوی خود دارد؟
  • پنجمین موتور جستجو Yendex، برای کشور روسیه می باشد که در حدود 40 درصد در میان مردم روسیه مورد توجه قرار گرفته و گوگل در حدود 60 درصد در بین کاربران روسیه طرفدار دارد. [3] آیا این مسئله مهمی در میان سیاست مردان روسیه بوده؟

و سوال آخر؛ آیا ما در ایران موتور جستجو کاربر پسند و کاربردی داریم؟

جمع آوری و پردازش اطلاعات در وب نیاز به استفاده از تکنولوژی های مختلفی چون ساخت خزنده، ذخیره سازی داده ها و پردازش اطلاعات دارد.

ویکی پدیا

یادآوری: حجم بالای سایتها و لینکها که هر کدام خیلی نیاز به چک کردن با خزنده دارن

quality or freshness

Junghoo Cho

الگوریتم On-line Page Importance Computation
http://www2003.org/cdrom/papers/refereed/p007/p7-abiteboul.html

انواع خزنده

خزنده و ساختواره وب
  • تشبیه وب به گراف جهت دار
  • خزنده:
    1. گردآورنده Fetcher
    2. واحد کنترل Controller
    3. واحد سازه یابی Parsing Unit
      1. جداسازی لينکها
      2. نمايه سازی
    4. واحد کار Workload Unit
  • الگوریتم های خزش گراف ها:
    1. Depth-First
    2. Breadth-First
    3. Best-First
Web Crawler Architecture

A web crawler is a program that, given one or more seed URLs, downloads the web pages associated with these URLs, extracts any hyperlinks contained in them, and recursively continues to download the web pages identified by these hyperlinks [4]

روش پژوهش

تجزیه و تحلیل یافته ها

نتیجه گیری و پیشنهاد ها

معرفی پژوهش

منابع

[1] November, 2018 market share reports are now live. Link by:
https://netmarketshare.com/search-engine-market-share.aspx

[3] By East-West Digital News / August 1, 2018 , link by:
http://www.ewdn.com/2018/08/01/yandex-consolidates-leadership-on-russian-search-market

[4] Najork, M., 2009. Web Crawler Architecture.