بات‌های شناخته‌شده

ربات‌های خزنده، که به نام‌ بات‌ (Bots) یا عنکبوت‌ (Spiders) نیز شناخته می‌شوند، برنامه‌های خودکاری هستند که موتورهای جست‌وجو و خدمات آنلاین دیگر از آن‌ها برای اسکن و فهرست‌بندی صفحات وب استفاده می‌کنند. آشنایی با این ربات‌ها و آدرس IP آن‌ها برای وب‌مسترها، توسعه‌دهندگان و متخصصان IT اهمیت بسیاری دارد؛ چرا که این اطلاعات به آن‌ها کمک می‌کند تا ترافیک مجاز را تشخیص دهند، از دسترسی غیرمجاز جلوگیری کنند و عملکرد سایت خود را بهبود دهند.

در این راهنما، فهرستی از ارایه‌دهندگان اصلی مانند Google ،Meta (Facebook) ،Bing ،Apple ،OpenAI و Yandex به همراه لینک‌هایی از منابع رسمی برای تایید آدرس‌های IP ربات‌ها گردآوری شده است. این منابع برای تشخیص و اطمینان از این که ترافیک مربوط به این ربات‌ها واقعی است و به‌وسیله‌ی دیگر منابع مخرب جعل نمی‌شود، ضروری هستند.

به‌ کمک این مستند، می‌توانید:

اصالت ربات‌های خزنده‌ای را که به وب‌سایت‌تان دسترسی دارند بررسی کنید.
IPهای مهاجم را مسدود کنید یا ربات‌های مجاز را به فهرست سفید (whitelist) بیفزایید.
با شناسایی و مسدود کردن ربات‌های غیرمجاز، امنیت سایت خود را بهبود دهید.
با دسترسی به آخرین آدرس‌های IP ارایه‌شده به‌وسیله‌ی موتورهای جست‌وجو و خدمات آنلاین به‌روز بمانید.

منابع دسترسی

گوگل (Google)

لینک رسمی:

https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot#automatic 

متا (Meta) / فیسبوک (Facebook)

لینک رسمی:

https://developers.facebook.com/docs/sharing/webmasters/web-crawlers/

بینگ (Bing)

لینک رسمی:

 https://www.bing.com/toolbox/bingbot.json

اپل (Apple)

لینک رسمی:

https://search.developer.apple.com/applebot.json

OpenAI
- لینک رسمی:
```
 https://platform.openai.com/docs/bots
```

Internet Archive

لینک غیر رسمی (Cloudflare Docs):

https://developers.cloudflare.com/cache/troubleshooting/always-online/

یاندکس (Yandex)
- لینک رسمی (ASN):
```
https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html?lang=en
```
- لینک غیر رسمی (IP2Location):
```
 https://www.ip2location.com/free/robot-whitelist 
```
  در CDN آروان‌کلاد از لیست IP2Location استفاده می‌شود.
یاهو (Yahoo)
- لینک غیر رسمی (IP2Location):
```
https://www.ip2location.com/free/robot-whitelist
```
بایدو (Baidu)
- لینک غیر رسمی (IP2Location):
```
 https://www.ip2location.com/free/robot-whitelist
```

Ahrefs

لینک رسمی:

 https://api.ahrefs.com/v3/public/crawler-ip-ranges

Statuscake

لینک رسمی:

https://www.statuscake.com/kb/knowledge-base/what-are-your-ips

Webengage

آی‌پی‌ها:

192.48.6
82.121.36
202.184.225
154.107.85
235.37.92
234.183.246
166.40.238
166.74.125

پیکربندی در CDN

برای غیرفعال کردن Whitelist این ربات‌ها در دامنه‌ی خود و پیکربندی دل‌خواه دامنه می‌توانید از API زیر و فیلد skip_global_whitelist‍ استفاده کنید.

https://www.arvancloud.ir/api/cdn/4.0#tag/Firewall/operation/firewall.settings.update 

برای نمونه:

curl --location --request PATCH 'https://napi.arvancloud.ir/cdn/4.0/domains/example.com/firewall/settings' \
--header 'authority: napi.arvancloud.ir' \
--header 'accept: application/json, text/plain, */*' \
--header 'authorization: API KEY' \
--header 'content-type: application/json' \
--header 'accept: application/json' \
--data '{"skip_global_firewall":true}' 

توجه داشته باشید که با استفاده از skip_global_whitelist ممکن است موتورهای جست‌وجو و دیگر ربات‌ها در روند خزش (Crawl) وب‌سایت شما با مشکل مواجه شوند.

منابع دسترسی​

پیکربندی در CDN​

منابع دسترسی

پیکربندی در CDN