باتهای شناختهشده
رباتهای خزنده، که به نام بات (Bots) یا عنکبوت (Spiders) نیز شناخته میشوند، برنامههای خودکاری هستند که موتورهای جستوجو و خدمات آنلاین دیگر از آنها برای اسکن و فهرستبندی صفحات وب استفاده میکنند. آشنایی با این رباتها و آدرس IP آنها برای وبمسترها، توسعهدهندگان و متخصصان IT اهمیت بسیاری دارد؛ چرا که این اطلاعات به آنها کمک میکند تا ترافیک مجاز را تشخیص دهند، از دسترسی غیرمجاز جلوگیری کنند و عملکرد سایت خود را بهبود دهند.
در این راهنما، فهرستی از ارایهدهندگان اصلی مانند Google ،Meta (Facebook) ،Bing ،Apple ،OpenAI و Yandex به همراه لینکهایی از منابع رسمی برای تایید آدرسهای IP رباتها گردآوری شده است. این منابع برای تشخیص و اطمینان از این که ترافیک مربوط به این رباتها واقعی است و بهوسیلهی دیگر منابع مخرب جعل نمیشود، ضروری هستند.
به کمک این مستند، میتوانید:
-
اصالت رباتهای خزندهای را که به وبسایتتان دسترسی دارند بررسی ک نید.
-
IPهای مهاجم را مسدود کنید یا رباتهای مجاز را به فهرست سفید (whitelist) بیفزایید.
-
با شناسایی و مسدود کردن رباتهای غیرمجاز، امنیت سایت خود را بهبود دهید.
-
با دسترسی به آخرین آدرسهای IP ارایهشده بهوسیلهی موتورهای جستوجو و خدمات آنلاین بهروز بمانید.
منابع دسترسی
-
گوگل (Google)
-
لینک رسمی:
https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot#automatic
-
-
متا (Meta) / فیسبوک (Facebook)
-
لینک رسمی:
https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/
-
-
بینگ (Bing)
-
لینک رسمی:
http://www.bing.com/toolbox/bingbot.json
-
-
اپل (Apple)
-
لینک رسمی:
https://search.developer.apple.com/applebot.json
-
-
OpenAI
-
لینک رسمی:
https://platform.openai.com/docs/bots
-
-
Internet Archive
-
لینک غیر رسمی (Cloudflare Docs):
https://developers.cloudflare.com/cache/troubleshooting/always-online/
-
-
یاندکس (Yandex)
-
لینک رسمی (ASN):
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html?lang=en
-
لینک غیر رسمی (IP2Location):
https://www.ip2location.com/free/robot-whitelist
در CDN آروانکلاد از لیست IP2Location استفاده میشود.
-
-
یاهو (Yahoo)
-
لینک غیر رسمی (IP2Location):
https://www.ip2location.com/free/robot-whitelist
-
-
بایدو (Baidu)
-
لینک غیر رسمی (IP2Location):
https://www.ip2location.com/free/robot-whitelist
-
-
Ahrefs
-
لینک رسمی:
https://api.ahrefs.com/v3/public/crawler-ip-ranges
-
پیکربندی در CDN
برای غیرفعال کردن Whitelist این رباتها در دامنهی خود و پیکربندی دلخواه دامنه میتوا نید از API زیر و فیلد skip_global_whitelist
استفاده کنید.
https://www.arvancloud.ir/api/cdn/4.0#tag/Firewall/operation/firewall.settings.update
برای نمونه:
curl --location --request PATCH 'https://napi.arvancloud.ir/cdn/4.0/domains/example.com/firewall' \
--header 'authority: napi.arvancloud.ir' \
--header 'accept: application/json, text/plain, */*' \
--header 'authorization: API KEY' \
--header 'content-type: application/json' \
--header 'accept: application/json' \
--data '{"skip_global_firewall":true}'
توجه داشته باشید که با استفاده از
skip_global_whitelist
ممکن است موتورهای جستوجو و دیگر رباتها در روند خزش (Crawl) وبسایت شما با مشکل مواجه شوند.