خزنده وب
"وب کراولر یا خزنده وب یک ربات اینترنتی است که معمولا توسط موتورهای جستجو، وب جهانی را به منظور ایندکس کردن صفحات وب مرور میکنند."
خزنده وب یا وب کراولر چیست؟
خزنده وب (Web Crawler) که گاهی اوقات ربات عنکبوتی نامیده میشود، یک ربات اینترنتی است که به صورت سیستماتیک وب جهانی را مرور میکند و معمولا توسط موتورهای جستجو به منظور ایندکس کردن صفحات وب اداره میشود. خزنده وب یا وب کراولر توسط یک موتور جستجو صفحات را کپی و فهرست میکنند تا کاربران بتوانند جستجوی کارآمدتری داشته باشند.
خزنده وب به چندین شکل مختلف تعریف میشود که برخی از آنها عبارتند از:
- عنکبوتهای وب (Web Spider)
- فهرستسازان خودکار (Automatic Indexer)
- رباتهای نرمافزاری خودکار (Web Robots)
- نرمافزار هستیشناسی (FOAF)
- ...
فایل robot.txt
رباتهای خزنده وب معمولا از وبسایتها بدون درخواست بازدید میکند و از منابع آنها استفاده میکند. مسائل مربوط به ایندکس صفحات وب زمانی که به مجموعه بزرگی از صفحات وب دسترسی پیدا میکنید، مطرح میشود. وبسایتهایی که مایل به خزیدن رباتها نیستند، در فایل robots.txt میتوانند از رباتها درخواست کنند که فقط بخشهایی از سایت را ایندکس کنند یا هیچ یک از صفحات ایندکس نشود.
نمونهها
- Googlebot
- FAST Crawler: یک خزندهٔ توزیعشده.
- GM Crawl: یک خزندهٔ بسیار مقیاسپذیر که به شیوهٔ نرمافزار اجارهای قابل استفاده است.
- Bingbot: نام خزندهٔ مربوط به موتور جستجوی بینگ متعلق به شرکت مایکروسافت. جایگزین Msnbot.
- PolyBot
- RBSE
- Swiftbot
- WebCrawler
- WebRACE
- WebFountain
- World Wide Web Worm
- Yahoo! Slurp
نمونههای متن باز
- Frontena
- GNU Wget
- GRUB
- Heritrix
- ht://Dig
- HTTrack
- mnoGoSearch
- news-please
- Apache Nutch
- Open Search Server
- PHP-Crawler
- Scrapy
- Seeks
- Sphinx
- StormCrawler
- Xapian
- YaCy
- Octoparse