پرش به مطلب اصلی

بات‌های شناخته‌شده

ربات‌های خزنده، که به نام‌ بات‌ (Bots) یا عنکبوت‌ (Spiders) نیز شناخته می‌شوند، برنامه‌های خودکاری هستند که موتورهای جست‌وجو و خدمات آنلاین دیگر از آن‌ها برای اسکن و فهرست‌بندی صفحات وب استفاده می‌کنند. آشنایی با این ربات‌ها و آدرس IP آن‌ها برای وب‌مسترها، توسعه‌دهندگان و متخصصان IT اهمیت بسیاری دارد؛ چرا که این اطلاعات به آن‌ها کمک می‌کند تا ترافیک مجاز را تشخیص دهند، از دسترسی غیرمجاز جلوگیری کنند و عملکرد سایت خود را بهبود دهند.

در این راهنما، فهرستی از ارایه‌دهندگان اصلی مانند Google ،Meta (Facebook) ،Bing ،Apple ،OpenAI و Yandex به همراه لینک‌هایی از منابع رسمی برای تایید آدرس‌های IP ربات‌ها گردآوری شده است. این منابع برای تشخیص و اطمینان از این که ترافیک مربوط به این ربات‌ها واقعی است و به‌وسیله‌ی دیگر منابع مخرب جعل نمی‌شود، ضروری هستند.

به‌ کمک این مستند، می‌توانید:

  • اصالت ربات‌های خزنده‌ای را که به وب‌سایت‌تان دسترسی دارند بررسی کنید.

  • IPهای مهاجم را مسدود کنید یا ربات‌های مجاز را به فهرست سفید (whitelist) بیفزایید.

  • با شناسایی و مسدود کردن ربات‌های غیرمجاز، امنیت سایت خود را بهبود دهید.

  • با دسترسی به آخرین آدرس‌های IP ارایه‌شده به‌وسیله‌ی موتورهای جست‌وجو و خدمات آنلاین به‌روز بمانید.

منابع دسترسی

  • گوگل (Google)

    • لینک رسمی:

      https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot#automatic 
  • متا (Meta) / فیسبوک (Facebook)

    • لینک رسمی:

      https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/ 
  • بینگ (Bing)

    • لینک رسمی:

       http://www.bing.com/toolbox/bingbot.json
  • اپل (Apple)

    • لینک رسمی:

      https://search.developer.apple.com/applebot.json
  • OpenAI

    • لینک رسمی:

       https://platform.openai.com/docs/bots
  • Internet Archive

    • لینک غیر رسمی (Cloudflare Docs):

      https://developers.cloudflare.com/cache/troubleshooting/always-online/ 
  • یاندکس (Yandex)

    • لینک رسمی (ASN):

      https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html?lang=en
    • لینک غیر رسمی (IP2Location):

       https://www.ip2location.com/free/robot-whitelist 

      در CDN آروان‌کلاد از لیست IP2Location استفاده می‌شود.

  • یاهو (Yahoo)

    • لینک غیر رسمی (IP2Location):

      https://www.ip2location.com/free/robot-whitelist
  • بایدو (Baidu)

    • لینک غیر رسمی (IP2Location):

       https://www.ip2location.com/free/robot-whitelist
  • Ahrefs

    • لینک رسمی:

       https://api.ahrefs.com/v3/public/crawler-ip-ranges

پیکربندی در CDN

برای غیرفعال کردن Whitelist این ربات‌ها در دامنه‌ی خود و پیکربندی دل‌خواه دامنه می‌توانید از API زیر و فیلد skip_global_whitelist‍ استفاده کنید.

https://www.arvancloud.ir/api/cdn/4.0#tag/Firewall/operation/firewall.settings.update 

برای نمونه:

curl --location --request PATCH 'https://napi.arvancloud.ir/cdn/4.0/domains/example.com/firewall' \
--header 'authority: napi.arvancloud.ir' \
--header 'accept: application/json, text/plain, */*' \
--header 'authorization: API KEY' \
--header 'content-type: application/json' \
--header 'accept: application/json' \
--data '{"skip_global_firewall":true}'

توجه داشته باشید که با استفاده از skip_global_whitelist ممکن است موتورهای جست‌وجو و دیگر ربات‌ها در روند خزش (Crawl) وب‌سایت شما با مشکل مواجه شوند.