خزنده وب

"وب کراولر یا خزنده وب یک ربات اینترنتی است که معمولا توسط موتورهای جستجو، وب جهانی را به منظور ایندکس کردن صفحات وب مرور می‌کنند."

خزنده وب یا وب کراولر چیست؟

خزنده وب یا وب کراولر چیست؟

خزنده وب (Web Crawler) که گاهی اوقات ربات عنکبوتی نامیده می‌شود، یک ربات اینترنتی است که به صورت سیستماتیک وب جهانی را مرور می‌کند و معمولا توسط موتورهای جستجو به منظور ایندکس کردن صفحات وب اداره می‌شود. خزنده وب یا وب کراولر توسط یک موتور جستجو صفحات را کپی و فهرست می‌کنند تا کاربران بتوانند جستجوی کارآمدتری داشته باشند.

خزنده وب به چندین شکل مختلف تعریف می‌شود که برخی از آن‌ها عبارتند از:

  • عنکبوت‌های وب (Web Spider)
  • فهرست‌سازان خودکار (Automatic Indexer)
  • ربات‌های نرم‌افزاری خودکار (Web Robots)
  • نرم‌افزار هستی‌شناسی (FOAF)
  • ...

فایل robot.txt

ربات‌های خزنده وب معمولا از وب‌سایت‌ها بدون درخواست بازدید می‌کند و از منابع آن‌ها استفاده می‌کند. مسائل مربوط به ایندکس صفحات وب زمانی که به مجموعه بزرگی از صفحات وب دسترسی پیدا می‌کنید، مطرح می‌شود. وب‌سایت‌هایی که مایل به خزیدن ربات‌ها نیستند، در فایل robots.txt می‌توانند از ربات‌ها درخواست کنند که فقط بخش‌هایی از سایت را ایندکس کنند یا هیچ‌ یک از صفحات ایندکس نشود.

نمونه‌ها

  • Googlebot
  • FAST Crawler: یک خزندهٔ توزیع‌شده.
  • GM Crawl: یک خزندهٔ بسیار مقیاس‌پذیر که به شیوهٔ نرم‌افزار اجاره‌ای قابل استفاده است.
  • Bingbot: نام خزندهٔ مربوط به موتور جستجوی بینگ متعلق به شرکت مایکروسافت. جایگزین Msnbot.
  • PolyBot
  • RBSE
  • Swiftbot
  • WebCrawler
  • WebRACE
  • WebFountain
  • World Wide Web Worm
  • Yahoo! Slurp

نمونه‌های متن باز

  • Frontena
  • GNU Wget
  • GRUB
  • Heritrix
  • ht://Dig
  • HTTrack
  • mnoGoSearch
  • news-please
  • Apache Nutch
  • Open Search Server
  • PHP-Crawler
  • Scrapy
  • Seeks
  • Sphinx
  • StormCrawler
  • Xapian
  • YaCy
  • Octoparse
B/webcrawler