فایل Robots.txt چیست و نحوه نصب آن

اسفند ۱۵, ۱۴۰۳

فایل Robots.txt چیست ؟ تا حالا فکر کردید وقتی گوگل یا بقیه‌ ی موتورهای جستجو سایتتون رو بررسی میکنن، دقیقاً چطور تصمیم میگیرن که کدوم صفحات رو ببینن و کدوم‌ ها رو نادیده بگیرن؟ اینجاست که فایل robots.txt وارد بازی طراحی سایت میشه. این فایل کوچیک و ساده مثل یه راهنما برای ربات‌ های خزنده‌ست و بهشون میگه که کجاها می‌تونن سرک بکشن و کجاها حق ورود ندارن. اگه یه سایت بدون robots.txt باشه، ربات‌ ها هرجایی که بخوان میرن و ممکنه چیزایی که نمی‌ خواید ایندکس بشه و توی نتایج جستجو نمایش داده بشه. اما اگه بدونید چطور از این فایل استفاده کنید، می‌ تونید کنترل کاملی روی دسترسی ربات‌ ها به سایت تون داشته باشید و حتی توی سئوی سایت تون تأثیر مثبت بذارید.

تو این مقاله، قراره کامل بهتون بگیم robots.txt چیه، چطور کار میکنه و چرا برای سئو مهمه. پس اگه می‌ خواید سایت تون بهتر توی نتایج جستجو دیده بشه و از ورود ناخواسته‌ ی ربات‌ های مزاحم جلوگیری کنید، این مطلب رو از دست ندید.🤩

فایل Robots.txt چیست؟

فایل robots.txt یه فایل متنی ساده‌ ست که توی ریشه‌ ی سایت قرار میگیره و هر کسی میتونه از آدرس yourwebsite.com/robots.txt بهش دسترسی داشته باشه. این فایل روی سرور سایت ذخیره میشه، درست مثل بقیه فایل‌ ها، و یه نقش خیلی مهم توی هدایت ربات‌ های موتور جستجو داره. به زبون ساده، این فایل به ربات‌ های مختلف میگه که چه قسمت‌ هایی از سایت رو بخزن و بررسی کنن و چه قسمت‌ هایی رو نبینن.

تقریباً بیشتر سایت‌ ها یه فایل robots.txt دارن، یا به‌ صورت پیش‌ فرض، یا اینکه مدیر سایت خودش ایجادش کرده. این فایل بخشی از یه استاندارد به اسم Robots Exclusion Protocol (REP) هست که مشخص میکنه ربات‌ ها چطور صفحات وب رو بخزن، به محتوا دسترسی پیدا کنن، اون رو توی نتایج جستجو نشون بدن و چطور با لینک‌ ها رفتار کنن برای مثال لینک های نوفالو و دو فالو.

به‌طور کلی، فایل robots.txt تعیین می‌کنه که یه سری ربات‌های خزنده‌ ی وب (Web Crawlers) حق دارن به چه قسمت‌ هایی از سایت دسترسی داشته باشن و چه قسمت‌ هایی براشون ممنوعه. این دستور ها از طریق دو تا قانون مشخص میشن:

Disallow: یعنی اجازه‌ ی دسترسی به یه بخش خاص از سایت داده نشه.
Allow: یعنی ربات‌ ها اجازه دارن اون بخش رو بررسی کنن.

این فایل برای کنترل رفتار موتورهای جستجو خیلی کاربرد داره، ولی بقیه ربات‌ ها (مثل ربات‌ های تبلیغاتی) هم می‌ تونن ازش پیروی کنن.

فرمت پایه‌ ی فایل robots.txt به زبان ساده

فایل robots.txt یه ساختار ساده داره که شامل چند تا دستور اصلیه:

makefileCopyEditUser-agent: [اسم ربات]  
Disallow: [آدرسی که نباید بررسی بشه]

این یعنی دارید به یه ربات خاص میگید که اجازه نداره یه بخش مشخص از سایتتون رو بررسی کنه.

نمونه‌ ی عملی

makefileCopyEditUser-agent: Googlebot  
Disallow: /example-subfolder/

این دو خط یه فایل کامل robots.txt محسوب میشن. ولی معمولاً این فایل شامل چندین خط دستور برای ربات‌های مختلفه، مثل اجازه‌ی دسترسی (Allow)، ممنوعیت دسترسی (Disallow)، یا تاخیر در خزیدن (Crawl-delay).

نحوه‌ی نوشتن چندین دستور در robots.txt

وقتی چند تا دستور برای ربات‌های مختلف دارید، هر گروه از دستورات باید با یه خط خالی از هم جدا بشن. مثلا:

makefileCopyEditUser-agent: Googlebot  
Disallow: /example-subfolder/  

User-agent: Bingbot  
Disallow: /private/

اینجا:

به Googlebot گفتیم که نباید پوشه‌ ی example-subfolder رو بررسی کنه.
به Bingbot گفتیم که اجازه نداره وارد پوشه‌ ی private بشه.

نحوه‌ ی اعمال قوانین روی ربات‌ های مختلف

اگه توی یک گروه از دستورات چند تا قانون برای یه ربات خاص تعریف شده باشه، همون ربات فقط به دقیق‌ ترین دستوراتی که براش تعریف شده توجه میکنه و بقیه رو نادیده میگیره.

دستور برای همه‌ ی ربات‌ ها

اگه بخواید یه قانون برای همه‌ ی ربات‌ ها بذارید، به‌ جای اسم ربات، از ستاره (*) استفاده کنید:

makefileCopyEditUser-agent: *  
Disallow: /admin/

این یعنی همه‌ ی ربات‌ ها اجازه ندارن به پوشه‌ ی admin/ بروند. ولی اگه یه ربات توی فایل دستور خاص خودش رو داشته باشه، فقط به همون دستور گوش میده و این قانون کلی رو نادیده میگیره.

نکته‌ ی مهم درباره‌ ی بعضی از ربات‌ ها

بعضی از ربات‌ ها فقط به دستوراتی که مخصوص خودشون توی فایل robots.txt نوشته شده توجه میکنن و بقیه‌ ی قوانین رو نادیده میگیرن. پس اگه می‌ خواید مطمئن بشید که یه ربات خاص طبق دستوراتتون عمل کنه، باید اسمش رو دقیقاً توی فایل robots.txt بنویسید و دستورات مورد نظرتون رو براش مشخص کنید.

اما بقیه‌ ی ربات‌ ها (که اسمشون توی فایل نیومده) از *قوانینی که برای “User-agent: ” نوشته شده پیروی میکنن.

چند نمونه از فایل robots.txt و نحوه‌ ی کارکردش

با استفاده از دستورات خاص توی فایل robots.txt، می‌ تونید مشخص کنید که چه بخش‌ هایی از سایت تون توی نتایج جستجوی گوگل نمایش داده بشن و چه بخش‌ هایی مخفی بمونن. این کار میتونه به بهینه‌ سازی سایت برای دیده شدن بهتر توی موتورهای جستجو کمک کنه.

آدرس فایل robots.txt و سایت‌ مپ

آدرس فایل robots.txt معمولاً این شکلیه: www.example.com/robots.txt

۱. مسدود کردن همه‌ ی ربات‌ ها از کل سایت

makefileCopyEditUser-agent: *  
Disallow: /

🔹 این دستور یعنی هیچ رباتی حق نداره هیچ صفحه‌ ای از سایت رو بررسی کنه، حتی صفحه‌ ی اصلی!
🔹 این گزینه زمانی کاربرد داره که بخواید کل سایت تون رو از دسترس موتورهای جستجو خارج کنید (مثلاً وقتی سایت هنوز آماده نیست).

۲. اجازه دادن به همه‌ ی ربات‌ ها برای دسترسی به کل سایت

makefileCopyEditUser-agent: *  
Disallow:

🔹 این یعنی همه‌ ی ربات‌ ها اجازه دارن همه‌ ی صفحات سایت (از جمله صفحه اصلی) رو بخزند و بررسی کنن.
🔹 این حالت برای سایت‌ هایی مناسبه که میخوان کاملاً در دسترس موتورهای جستجو باشن.

۳. مسدود کردن یک ربات خاص از یک پوشه خاص

makefileCopyEditUser-agent: Googlebot  
Disallow: /example-subfolder/

🔹 این یعنی فقط ربات گوگل (Googlebot) حق نداره به آدرس‌ های داخل پوشه‌ ی example-subfolder دسترسی داشته باشه.
🔹 برای مثال، اگر این دستور رو توی فایل robots.txt سایت www.example.com بذارید، گوگل اجازه نداره صفحات داخل این آدرس رو بخزه:

bashCopyEditwww.example.com/example-subfolder/

🔹 ولی بقیه‌ ی ربات‌ ها هنوز میتونن اون پوشه رو بررسی کنن.

۴. مسدود کردن یک ربات خاص از یک صفحه خاص

makefileCopyEditUser-agent: Bingbot  
Disallow: /example-subfolder/blocked-page.html

🔹 این یعنی فقط ربات بینگ (Bingbot) اجازه نداره به این صفحه خاص دسترسی داشته باشه:

bashCopyEditwww.example.com/example-subfolder/blocked-page.html

🔹 ولی بقیه‌ ی ربات‌ ها هنوز میتونن اون صفحه رو بررسی کنن.

“/” بعد از Disallow یعنی کل سایت قفل بشه.
هیچ چیزی بعد از Disallow نیاد یعنی کل سایت آزاد باشه.
اسم ربات + Disallow روی یک پوشه یعنی فقط اون ربات نمی‌تونه اون پوشه رو ببینه.
اسم ربات + Disallow روی یک صفحه یعنی فقط اون ربات نمی‌تونه اون صفحه رو ببینه.

اینجوری میتونید دقیقاً تعیین کنید که چه بخش‌ هایی از سایت تون در دسترس ربات‌ های مختلف باشه.

فایل robots.txt چطور کار میکنه؟

موتورهای جستجو دو تا کار اصلی دارن:

خزیدن (Crawling): توی وب برای پیدا کردن محتوا
ایندکس کردن (Indexing): اون محتوا برای نمایش به کاربرها توی نتایج جستجو

خزیدن (Crawling) چطوری انجام میشه؟

وقتی یه موتور جستجو مثل گوگل میخواد سایت‌ ها رو بررسی کنه، از یه صفحه به صفحه‌ ی دیگه لینک میشه. این فرایند که مثل حرکت یه عنکبوت بین تارهاست، بهش Spidering یا «خزیدن» میگن.

🔹 یعنی موتور جستجو مثل یه ربات میاد، لینک‌ ها رو دنبال میکنه و همین‌ طوری صفحات جدید رو کشف میکنه.

نقش فایل robots.txt یعنی چه؟

وقتی یه موتور جستجو به یه سایت میرسه، قبل از اینکه شروع کنه به خزیدن توی صفحات، دنبال فایل robots.txt میگرده. این فایل یه جور راهنما برای موتور جستجوئه که بهش میگه کجاها میتونه بره و کجاها رو نباید ببینه.

اگه robots.txt پیدا بشه، موتور جستجو اول اون رو میخونه و طبق دستوراتی که اونجا نوشته شده، رفتار میکنه.
اگه توی فایل robots.txt محدودیتی نباشه یا اصلاً این فایل وجود نداشته باشه، موتور جستجو همه‌ ی سایت رو بررسی میکنه.

به زبون ساده، robots.txt مثل یه تابلو راهنما برای موتور جستجوئه که مشخص میکنه کجاها ورود آزاد و کجاها ورود ممنوعه.

مدیریت User Agent و ربات‌ های خزنده (Crawler Management)

مدیریت یوزر ایجنت‌ ها (User Agent) و خزنده‌ های وب (Crawlers) یکی از بخش‌ های مهم برای داشتن یه سایت بهینه و سالمه.

یوزر ایجنت (User Agent) چیه؟
یوزر ایجنت یه برنامه‌ ی نرم‌ افزاریه که از طرف کاربر عمل میکنه، مثل یه مرورگر وب (مثلاً کروم یا فایرفاکس) یا یه ربات موتور جستجو (مثل Googlebot یا Bingbot).

ربات‌ های خزنده (Crawlers) چیا هستن؟
ربات‌ های خزنده (که بهشون بات Bot یا اسپایدر Spider هم میگن) برنامه‌ های خودکاری هستن که صفحات وب رو بررسی و ایندکس میکنن تا موتور های جستجو بتونن اونا رو توی نتایج جستجو نمایش بدن.

چجوری باید یوزر ایجنت‌ ها و ربات‌ های خزنده رو مدیریت کنیم؟

شناسایی یوزر ایجنت‌ ها:
هر یوزر ایجنت یه شناسه‌ ی خاص User Agent String داره که مشخص میکنه این درخواست از طرف کدوم مرورگر یا رباته. با شناخت این شناسه‌ ها، می‌ تونید فایل robots.txt رو طوری تنظیم کنید که روی ربات‌ های خاصی کنترل داشته باشید.

رفتار ربات‌های خزنده:
هر رباتی یه روش متفاوت برای خزیدن توی سایت داره. بعضیا خیلی آروم هستند، بعضیا خیلی تهاجمی.
اگه یه ربات زیادی سریع بیاد صفحات سایت تون رو بخزه، ممکنه باعث کندی سرور بشه. برای همین می‌ تونید توی فایل robots.txt قوانینی مثل Crawl Delay (تأخیر بین درخواست‌ های خزیدن) تعیین کنید.

فایل robots.txt:
این فایل ابزار اصلی مدیریت خزنده‌ هاست.
با این فایل می‌ تونید مشخص کنید کدوم قسمت‌ های سایت برای کدوم ربات‌ ها بازه و کدوم قسمت‌ ها ممنوعه. مثلاً می‌ تونید بگید:

Googlebot حق نداره یه فولدر خاص رو ببینه.

Bingbot فقط بعضی از صفحات رو بررسی کنه.

نقش XML Sitemap:
فایل نقشه‌ ی سایت (XML Sitemap) به موتورهای جستجو نشون میده که سایت شما چه ساختاری داره و کدوم صفحات مهم‌ تر هستند.
اگه آدرس XML Sitemap رو توی robots.txt بزارید، موتورهای جستجو راحت‌ تر سایت شما رو ایندکس میکنن.

چرا مدیریت ربات‌ های خزنده مهمه؟

باعث میشه موتورهای جستجو صفحات مهم شما رو راحت‌ تر پیدا کنند.
از ورود ربات‌ های مزاحم و خزیدن غیر ضروری توی بخش‌ های حساس سایت جلوگیری میکنه.
باعث افزایش سرعت ایندکس شدن صفحات شما توی گوگل و سایر موتورهای جستجو میشه.

پس اگه robots.txt و مدیریت خزنده‌ ها رو درست تنظیم کنید، سایتتون هم سریع‌ تر، هم بهینه‌ تر و هم توی نتایج جستجو قوی‌ تر میشه.

چند نکته مهم درباره robots.txt که باید بدونید

فایل robots.txt شاید کوچیک و ساده به نظر بیاد، ولی اگه درست تنظیم نشه، میتونه روی کل سایتتون تأثیر بذاره. توی این بخش، چند تا نکته مهم فنی رو که باید بدونید توضیح میدم.

۱. فایل robots.txt باید توی پوشه اصلی سایت قرار بگیره

اگه این فایل توی جای درست نباشه، ربات‌ های خزنده پیداش نمیکنن.
robots.txt باید توی ریشه‌ ی سایت (Root Directory) ذخیره بشه، یعنی دقیقاً توی همون مسیری که صفحه اصلی سایت قرار داره. مثلاً:

www.example.com/robots.txt

کجا نباید باشه؟

www.example.com/folder/robots.txt ❌
www.example.com/home/robots.txt ❌

۲. فایل robots.txt به حروف کوچک و بزرگ حساسه

فقط باید با اسم دقیق robots.txt ذخیره بشه
اسم‌ های اشتباه که کار نمیکنن:

Robots.txt ❌
robots.TXT ❌
ROBOTs.Txt ❌

۳. بعضی از ربات‌ ها فایل robots.txt رو نادیده میگیرن

ربات‌ های مخرب (مثل بدافزارها و اسپمرها) ممکنه اصلاً به robots.txt توجه نکنن.
ربات‌های خوب (مثل Googlebot و Bingbot) این فایل رو رعایت میکنن، ولی بدافزارها و اسکریپرهای ایمیل معمولاً اونو نادیده میگیرن.

۴. فایل robots.txt عمومی و قابل مشاهده است

هر کسی میتونه ببینه که کدوم صفحات سایتتون رو برای ربات‌ ها مسدود کردید. چطور؟
فقط کافیه که /robots.txt رو به انتهای آدرس یه سایت اضافه کنید:

www.example.com/robots.txt

اگه اون سایت فایل robots.txt داشته باشه، همه میتونن ببیننش.

پس هیچوقت از robots.txt برای پنهان کردن اطلاعات حساس کاربران استفاده نکنید. (چون اطلاعات خصوصی رو نمیشه واقعاً با این فایل قایم کرد)

۵. هر ساب‌ دامین نیاز به یه robots.txt جدا داره

اگه یه سایت چند تا ساب‌ دامین (Subdomain) داشته باشه، هر کدوم باید فایل robots.txt جداگانه داشته باشن.
مثال:

robots.txt برای دامنه اصلی:
www.example.com/robots.txt
robots.txt برای بلاگ:
blog.example.com/robots.txt
robots.txt برای فروشگاه:
shop.example.com/robots.txt

هر ساب‌ دامین به عنوان یه سایت جداگانه در نظر گرفته میشه، پس باید تنظیماتش مستقل باشه.

۶. بهتره آدرس نقشه‌ی سایت (Sitemap) رو توی robots.txt بزارید

آخر فایل robots.txt، آدرس نقشه‌ ی سایت رو مشخص کنید تا موتورهای جستجو راحت‌ تر صفحات مهم سایت رو پیدا کنن.
مثال:

txtCopyEditSitemap: https://www.example.com/sitemap.xml

🔹 اگه چند تا نقشه‌ ی سایت دارید، می‌ تونید همه‌ شون رو اضافه کنید.

txtCopyEditSitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml

چرا این نکات مهم هستند؟

باعث میشه ربات‌ های موتور های جستجو بهتر سایتتون رو درک کنن و ایندکس کنن.
از ورود ربات‌ های ناخواسته جلوگیری میکنه.
کمک میکنه سئو سایت بهینه بشه و صفحات مهم سریع‌ تر دیده بشن.

اگه robots.txt رو اصولی تنظیم کنید، سایتتون حرفه‌ ای‌ تر، امن‌ تر و سریع‌ تر توی نتایج جستجو دیده میشه.

آموزش ساده و کامل زبان robots.txt

وقتی می‌ خواید به ربات‌ های موتور جستجو بگید کجا برن و کجا نرن، باید از یه زبان خاص توی فایل robots.txt استفاده کنید. این زبان یه سری دستورات داره که خیلی هم پیچیده نیستن.

تو این متن، پنج تا از رایج‌ ترین دستورات robots.txt رو به زبون ساده توضیح میدیم.

۱. User-agent (مشخص کردن رباتی که دستور براش صادر شده)

این دستور مشخص میکنه که تنظیمات robots.txt برای کدوم رباته.
مثال:

txtCopyEditUser-agent: Googlebot

این یعنی تنظیمات بعدی فقط برای ربات گوگل اعمال بشه.
اگه بخواید همه ربات‌ ها رو هدف بگیرید، می‌ تونید اینو بنویسید:

txtCopyEditUser-agent: *

(علامت * یعنی “همه‌ی ربات‌ها”)

۲. Disallow (صفحه‌ هایی که نمی‌ خواید ربات‌ ها بهشون دسترسی داشته باشن)

این دستور به ربات‌ ها میگه که یه صفحه یا مسیر خاص رو بررسی نکنن.
مثال:

txtCopyEditUser-agent: *
Disallow: /private/

این یعنی همه‌ ی ربات‌ ها حق ندارن به پوشه‌ ی “/private/” برن.

می‌ خواید یه صفحه خاص رو مسدود کنید؟

txtCopyEditDisallow: /admin.html

(این یعنی صفحه‌ ی admin.html توی سایت نباید توسط ربات‌ ها بررسی بشه)

نکته: فقط یه “Disallow:” برای هر URL می‌ تونید بنویسید

۳. Allow (فقط برای Googlebot)

این دستور فقط برای گوگل کاربرد داره و میگه که یه صفحه خاص رو میتونه بررسی کنه، حتی اگه فولدر والدش مسدود شده باشه.

مثال:

txtCopyEditUser-agent: Googlebot
Disallow: /blog/
Allow: /blog/public-article.html

این یعنی گوگل نمیتونه کل پوشه‌ ی /blog/ رو بررسی کنه، اما اجازه داره فقط صفحه‌ ی public-article.html رو ببینه.

فقط Googlebot اینو میفهمه. موتورهای جستجوی دیگه این دستور رو نادیده میگیرن.

۴. Crawl-delay (تنظیم زمان انتظار برای خزنده‌ ها )

با این دستور به ربات‌ ها میگیئ چند ثانیه بین هر درخواست صبر کنن، که فشار زیادی به سرورت نیارن.

مثال:

txtCopyEditUser-agent: Bingbot
Crawl-delay: 5

(این یعنی ربات Bingbot باید ۵ ثانیه بین هر درخواست صبر کنه)

ولی گوگل این دستور رو نادیده میگیره.
برای تنظیم سرعت کرال در گوگل باید از Google Search Console استفاده کنید.

۵. Sitemap (معرفی نقشه‌ ی سایت)

با این دستور، به موتورهای جستجو آدرس نقشه‌ ی سایت تون رو معرفی می‌ کنید تا سریع‌ تر صفحات تون رو پیدا کنن.

مثال:

txtCopyEditSitemap: https://www.example.com/sitemap.xml

این یعنی ربات‌ ها بدون دردسر میتونن صفحات سایت تون رو بررسی کنن.

این دستور رو فقط گوگل، بینگ، یاهو و Ask.com پشتیبانی میکنن.

User-agent → مشخص کردن اینکه دستورات برای کدوم رباته.
Disallow → مسدود کردن دسترسی ربات‌ ها به صفحات خاص.
Allow → اجازه دادن به گوگل برای دیدن یه صفحه خاص داخل یه فولدر مسدود شده.
Crawl-delay → تعیین زمان انتظار برای ربات‌ها (به جز گوگل)
Sitemap → معرفی آدرس نقشه‌ی سایت برای ایندکس بهتر صفحات.

اگه robots.txt رو درست بنویسید، هم سئو سایتتون بهتر میشه و هم سرورتون بهینه‌ تر کار میکنه.

آموزش ساده و کامل الگوهای robots.txt

وقتی می‌خواید توی robots.txt مشخص کنید که کدوم صفحات مجاز باشن و کدوم نه، می‌ تونید از الگوهای خاص (Pattern-Matching) استفاده کنید. این الگوها بهتون کمک میکنن تا بدون نیاز به لیست کردن تک‌ تک صفحات، یه سری قوانین کلی برای کرالرها تعریف کنید.

۱. استفاده از الگوهای خاص برای مسدود کردن یا اجازه دادن به URLها

گوگل و بینگ (Bing) از دو کاراکتر خاص پشتیبانی میکنن که میتونن توی robots.txt استفاده بشن:

۱. ستاره (*) → به جای هر رشته‌ ای از کاراکترها میاد.

این یعنی هر چیزی میتونه سر جای ستاره باشه و به کرالرها میگه که هر صفحه‌ ای که این الگو رو داشته باشه، تحت تأثیر این قانون قرار میگیره.

مثال:

txtCopyEditUser-agent: *
Disallow: /private/*

این یعنی همه‌ ی صفحات و پوشه‌ هایی که با /private/ شروع میشن، مسدود بشن.
مثلا هم /private/data.html و هم /private/info/123 مسدود میشن.

۲. علامت دلار ($) → یعنی پایان URL رو مشخص میکنه
وقتی می‌ خواید یه قانون فقط برای URL هایی اعمال بشه که دقیقا با یه چیز خاص تموم میشن، از $ استفاده کنید.

مثال:

txtCopyEditUser-agent: *
Disallow: /*.pdf$

این یعنی همه‌ ی لینک‌ هایی که با .pdf تموم میشن (مثل فایل‌های PDF) نباید ایندکس بشن.
/report.pdf و /files/test.pdf مسدود میشن، ولی /pdf-version.html مشکلی نداره.

۲. آیا میشه با robots.txt جلوی ربات‌ های هوش مصنوعی (AI Bots) رو گرفت؟

اگه نمی‌ خواید ربات‌ های هوش مصنوعی مثل ClaudeBot، GPTbot یا PerplexityBot محتوای سایت تون رو جمع کنن، می‌ تونید اونها رو توی robots.txt مسدود کنید.

مثال:

txtCopyEditUser-agent: GPTBot
Disallow: /

این یعنی GPTbot دیگه نمیتونه سایت رو بررسی کنه.

مثال مسدود کردن چند ربات:

txtCopyEditUser-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
Disallow: /

این یعنی همه‌ ی این ربات‌ ها از سایت بیرون انداخته میشن.

اما یه نکته مهم:
مسدود کردن این ربات‌ ها توی robots.txt به این معنی نیست که حتما از سایت تون دور بمونن. بعضی از ربات‌ ها (مخصوصا اون‌ هایی که اهداف مخرب دارن) میتونن این قوانین رو رعایت نکنن.

تحقیقاتی که انجام داده شده، نشون میده که GPTbot بیشترین میزان بلاک شدن رو داره. خیلی از سایت‌ های خبری و انتشاراتی هم ربات‌ های هوش مصنوعی رو مسدود کردن.

پس، اگه نمی‌ خواید محتوای سایت تون توی مدل‌ های هوش مصنوعی استفاده بشه، بلاک کردن این ربات‌ ها یه قدم مفید هست، ولی تضمینی نیست که همه‌ ی اون‌ ها رعایت کنن.

ستاره (*) → به جای هر تعداد کاراکتر میاد، پس می‌تونی یه دسته‌ی کلی از صفحات رو انتخاب کنی.
دلار ($) → یعنی فقط URL هایی که دقیقا به یه چیز خاص ختم میشن، در نظر گرفته بشن.
می‌ تونید ربات‌ های هوش مصنوعی مثل GPTBot رو مسدود کنید، ولی تضمینی نیست که همه رعایت کنن.

اگه درست از robots.txt استفاده کنید، می‌ تونید کنترل بهتری روی کرال شدن سایتتون توسط موتورهای جستجو و ربات‌ها داشته باشید

ربات‌ های موتور جستجو و هوش مصنوعی رو چطوری با robots.txt مسدود کنیم؟

چطور ربات‌ های هوش مصنوعی رو بلاک کنیم؟

اگه نمی‌ خواین بعضی از ربات‌ های AI (مثل GPTbot یا ClaudeBot) به سایتتون دسترسی داشته باشن، باید توی فایل robots.txt اسم اون ربات و صفحاتی که نمی‌ خواین بهشون دسترسی داشته باشه رو مشخص کنید. مثلا:

makefileCopyEditUser-agent: GPTbot  
Disallow: /blog  
Disallow: /learn/seo

یعنی این ربات اجازه نداره به پوشه‌ های /blog و /learn/seo توی سایت شما سر بزنه.

فایل robots.txt رو کجا بذاریم؟

ربات‌ های جستجو (مثل گوگل‌ بات یا فیس‌ بات) همیشه دنبال فایل robots.txt میگردن تا ببینن چه صفحاتی رو نباید بخزن. این فایل باید حتماً توی ریشه‌ ی سایت باشه، یعنی توی آدرس اصلی (مثلا example.com/robots.txt).

اگه این فایل رو توی یه پوشه‌ ی دیگه بذارید (مثلا example.com/index/robots.txt)، هیچ رباتی پیداش نمیکنه و انگار اصلاً همچین فایلی وجود نداره.

چرا به robots.txt نیاز داریم؟

فایل robots.txt به شما این امکان رو میده که دسترسی ربات‌ ها به بخش‌ های خاصی از سایت رو کنترل کنید. مثلا می‌ تونید:

نذارید محتوای تکراری توی نتایج گوگل بیاد (البته برای این کار تگ meta robots بهتره).
یه بخش از سایت رو خصوصی نگه دارید (مثلا نسخه‌ ی آزمایشی سایت که فقط تیم برنامه‌ نویسی ازش استفاده میکنه).
نذارید صفحه‌ های جستجوی داخلی سایت توی نتایج گوگل نمایش داده بشن.
محل نقشه‌ی سایت (sitemap) رو مشخص کنید.
نذارید بعضی فایل‌های خاص (مثل عکس‌ها یا PDFها) توی نتایج جستجو بیان.
سرعت خزیدن ربات‌ ها رو محدود کنید که فشار زیادی روی سرور سایتتون نیارن.

اگه کنترل خاصی روی خزیدن ربات‌ ها نمی‌خواین، لازم نیست حتماً این فایل رو داشته باشید.

چطور بفهمیم سایت ما فایل robots.txt داره؟

خیلی راحت، آدرس سایتتون رو توی مرورگر وارد کنید و /robots.txt رو به آخرش اضافه کنید. مثلا:

jargeh.com/robots.txt

اگه صفحه‌ ای باز نشد، یعنی سایت شما فایل robots.txt نداره.

چطور یه فایل robots.txt بسازیم؟

اگه فهمیدید که فایل robots.txt ندارید یا می‌ خواین ویرایشش کنید، خیلی ساده می‌تونید یه فایل متنی (txt) درست کنید و توش قوانین لازم رو بنویسید.

چند نکته‌ی مهم:

فایل باید توی پوشه‌ ی اصلی سایت باشه (نه توی یه پوشه‌ ی فرعی).
فرمت فایل باید UTF-8 باشه و با برنامه‌هایی مثل Notepad ساخته بشه.
دقت کنید که قوانین اشتباهی ننویسید که باعث بشه صفحات مهم سایت از نتایج گوگل حذف بشن.
حتماً بعد از ایجاد، تست کنید که درست کار میکنه (با ابزارهای تست گوگل).
بعضی ربات‌ ها به این فایل اهمیت نمیدن، پس برای امنیت بیشتر از روش‌ های دیگه مثل پسورد گذاری استفاده کنید.

تفاوت robots.txt با meta robots و x-robots چیست؟

robots.txt: تعیین میکنه که چه صفحه‌ هایی نباید خزیده بشن.

meta robots: روی خود صفحه قرار میگیره و میگه که آیا اون صفحه توی نتایج گوگل نمایش داده بشه یا نه.

x-robots: همون کار meta robots رو میکنه ولی توی هدر HTTP قرار میگیره.

چطور فایل robots.txt یه سایت دیگه رو ببینیم؟

خیلی ساده. فقط کافیه توی مرورگر این آدرس رو وارد کنید:

http://www.example.com/robots.txt

به جای example.com، آدرس سایت مورد نظرتون رو بذارید.

فایل robots.txt چیست رو در این مطلب بررسی کردیم و یکی از ابزارهای ساده اما بسیار مهم برای مدیریت نحوه دسترسی ربات‌ های موتور جستجو به سایت شماست. با استفاده‌ ی درست از این فایل، می‌ تونید کنترل بیشتری روی ایندکس شدن صفحات داشته باشید، از نمایش بخش‌ های حساس جلوگیری کنید و حتی روی بهبود سئوی سایت‌ تون تأثیر بگذارید. اگه این فایل رو نداشته باشید یا تنظیمات اون رو نادیده بگیرید، ممکن هست ربات‌ ها بدون محدودیت به تمام بخش‌ های سایت دسترسی پیدا کنن و اطلاعاتی که نمی‌ خواید در نتایج جستجو نمایش داده بشه، ایندکس بشوند.

تا حالا فایل robots.txt سایت خودتون رو بررسی کردید؟ آیا مطمئنید که تنظیماتش درست انجام شده؟

دیدگاهتان را بنویسید لغو پاسخ

چگونه URL سئو شده بنویسیم؟ راهنمای کاربردی برای ساخت آدرس‌ های بهینه و حرفه‌ ای

آذر ۱۹, ۱۴۰۴
فاطمه اشرفی

آموزش راه اندازی سایت

نکات مهم طراحی سایت پوشاک | تبدیل بازدیدکننده به خریدار با یک تجربه کاربری حرفه‌ ای

آذر ۱۲, ۱۴۰۴
فاطمه اشرفی

آموزش راه اندازی سایت

ایندکس چیست؟ | همه چیز درباره شاخص‌ ها، کاربرد ها و اهمیت آن در تحلیل داده و اقتصاد

آذر ۸, ۱۴۰۴
فاطمه اشرفی

آموزش راه اندازی سایت

URL چیست و چه کاربردی در دنیای اینترنت دارد؟ + انتخاب URL مناسب

آبان ۲۲, ۱۴۰۴
فاطمه اشرفی

آموزش راه اندازی سایت

راهنمای کامل طراحی سایت دو زبانه و چند زبانه | از ایده تا اجرای حرفه‌ ای

آبان ۱۷, ۱۴۰۴
فاطمه اشرفی

دسته‌بندی نشده

فایل Robots.txt چیست و نحوه نصب آن

فایل Robots.txt چیست؟

فرمت پایه‌ ی فایل robots.txt به زبان ساده

نمونه‌ ی عملی

نحوه‌ی نوشتن چندین دستور در robots.txt

نحوه‌ ی اعمال قوانین روی ربات‌ های مختلف

دستور برای همه‌ ی ربات‌ ها

نکته‌ ی مهم درباره‌ ی بعضی از ربات‌ ها

چند نمونه از فایل robots.txt و نحوه‌ ی کارکردش

آدرس فایل robots.txt و سایت‌ مپ

۱. مسدود کردن همه‌ ی ربات‌ ها از کل سایت

۲. اجازه دادن به همه‌ ی ربات‌ ها برای دسترسی به کل سایت

۳. مسدود کردن یک ربات خاص از یک پوشه خاص

۴. مسدود کردن یک ربات خاص از یک صفحه خاص

فایل robots.txt چطور کار میکنه؟

خزیدن (Crawling) چطوری انجام میشه؟

نقش فایل robots.txt یعنی چه؟

مدیریت User Agent و ربات‌ های خزنده (Crawler Management)

چجوری باید یوزر ایجنت‌ ها و ربات‌ های خزنده رو مدیریت کنیم؟

چرا مدیریت ربات‌ های خزنده مهمه؟

چند نکته مهم درباره robots.txt که باید بدونید

۱. فایل robots.txt باید توی پوشه اصلی سایت قرار بگیره

۲. فایل robots.txt به حروف کوچک و بزرگ حساسه

۳. بعضی از ربات‌ ها فایل robots.txt رو نادیده میگیرن

۴. فایل robots.txt عمومی و قابل مشاهده است

۵. هر ساب‌ دامین نیاز به یه robots.txt جدا داره

۶. بهتره آدرس نقشه‌ی سایت (Sitemap) رو توی robots.txt بزارید

چرا این نکات مهم هستند؟

آموزش ساده و کامل زبان robots.txt

۱. User-agent (مشخص کردن رباتی که دستور براش صادر شده)

۲. Disallow (صفحه‌ هایی که نمی‌ خواید ربات‌ ها بهشون دسترسی داشته باشن)

۳. Allow (فقط برای Googlebot)

۴. Crawl-delay (تنظیم زمان انتظار برای خزنده‌ ها )

۵. Sitemap (معرفی نقشه‌ ی سایت)

آموزش ساده و کامل الگوهای robots.txt

۱. استفاده از الگوهای خاص برای مسدود کردن یا اجازه دادن به URLها

۲. آیا میشه با robots.txt جلوی ربات‌ های هوش مصنوعی (AI Bots) رو گرفت؟

چطور ربات‌ های هوش مصنوعی رو بلاک کنیم؟

فایل robots.txt رو کجا بذاریم؟

چرا به robots.txt نیاز داریم؟

چطور بفهمیم سایت ما فایل robots.txt داره؟

چطور یه فایل robots.txt بسازیم؟

تفاوت robots.txt با meta robots و x-robots چیست؟

چطور فایل robots.txt یه سایت دیگه رو ببینیم؟

نوشته‌های تازه

آخرین دیدگاه‌ها

بایگانی‌ها

دسته‌ها

دیدگاهتان را بنویسید لغو پاسخ

چگونه URL سئو شده بنویسیم؟ راهنمای کاربردی برای ساخت آدرس‌ های بهینه و حرفه‌ ای

نکات مهم طراحی سایت پوشاک | تبدیل بازدیدکننده به خریدار با یک تجربه کاربری حرفه‌ ای

ایندکس چیست؟ | همه چیز درباره شاخص‌ ها، کاربرد ها و اهمیت آن در تحلیل داده و اقتصاد

URL چیست و چه کاربردی در دنیای اینترنت دارد؟ + انتخاب URL مناسب

راهنمای کامل طراحی سایت دو زبانه و چند زبانه | از ایده تا اجرای حرفه‌ ای

خدمات ما

دسترسی سریع

ارتباط با جرگه

آژانس دیجیتال مارکتینگ جرگه