فایل Robots.txt چیست ؟ تا حالا فکر کردید وقتی گوگل یا بقیه ی موتورهای جستجو سایتتون رو بررسی میکنن، دقیقاً چطور تصمیم میگیرن که کدوم صفحات رو ببینن و کدوم ها رو نادیده بگیرن؟ اینجاست که فایل robots.txt وارد بازی طراحی سایت میشه. این فایل کوچیک و ساده مثل یه راهنما برای ربات های خزندهست و بهشون میگه که کجاها میتونن سرک بکشن و کجاها حق ورود ندارن. اگه یه سایت بدون robots.txt باشه، ربات ها هرجایی که بخوان میرن و ممکنه چیزایی که نمی خواید ایندکس بشه و توی نتایج جستجو نمایش داده بشه. اما اگه بدونید چطور از این فایل استفاده کنید، می تونید کنترل کاملی روی دسترسی ربات ها به سایت تون داشته باشید و حتی توی سئوی سایت تون تأثیر مثبت بذارید.
تو این مقاله، قراره کامل بهتون بگیم robots.txt چیه، چطور کار میکنه و چرا برای سئو مهمه. پس اگه می خواید سایت تون بهتر توی نتایج جستجو دیده بشه و از ورود ناخواسته ی ربات های مزاحم جلوگیری کنید، این مطلب رو از دست ندید.🤩
فایل Robots.txt چیست؟
فایل robots.txt یه فایل متنی ساده ست که توی ریشه ی سایت قرار میگیره و هر کسی میتونه از آدرس yourwebsite.com/robots.txt بهش دسترسی داشته باشه. این فایل روی سرور سایت ذخیره میشه، درست مثل بقیه فایل ها، و یه نقش خیلی مهم توی هدایت ربات های موتور جستجو داره. به زبون ساده، این فایل به ربات های مختلف میگه که چه قسمت هایی از سایت رو بخزن و بررسی کنن و چه قسمت هایی رو نبینن.
تقریباً بیشتر سایت ها یه فایل robots.txt دارن، یا به صورت پیش فرض، یا اینکه مدیر سایت خودش ایجادش کرده. این فایل بخشی از یه استاندارد به اسم Robots Exclusion Protocol (REP) هست که مشخص میکنه ربات ها چطور صفحات وب رو بخزن، به محتوا دسترسی پیدا کنن، اون رو توی نتایج جستجو نشون بدن و چطور با لینک ها رفتار کنن برای مثال لینک های نوفالو و دو فالو.
بهطور کلی، فایل robots.txt تعیین میکنه که یه سری رباتهای خزنده ی وب (Web Crawlers) حق دارن به چه قسمت هایی از سایت دسترسی داشته باشن و چه قسمت هایی براشون ممنوعه. این دستور ها از طریق دو تا قانون مشخص میشن:
- Disallow: یعنی اجازه ی دسترسی به یه بخش خاص از سایت داده نشه.
- Allow: یعنی ربات ها اجازه دارن اون بخش رو بررسی کنن.
این فایل برای کنترل رفتار موتورهای جستجو خیلی کاربرد داره، ولی بقیه ربات ها (مثل ربات های تبلیغاتی) هم می تونن ازش پیروی کنن.
فرمت پایه ی فایل robots.txt به زبان ساده
فایل robots.txt یه ساختار ساده داره که شامل چند تا دستور اصلیه:
makefileCopyEditUser-agent: [اسم ربات]
Disallow: [آدرسی که نباید بررسی بشه]
این یعنی دارید به یه ربات خاص میگید که اجازه نداره یه بخش مشخص از سایتتون رو بررسی کنه.
نمونه ی عملی
makefileCopyEditUser-agent: Googlebot
Disallow: /example-subfolder/
این دو خط یه فایل کامل robots.txt محسوب میشن. ولی معمولاً این فایل شامل چندین خط دستور برای رباتهای مختلفه، مثل اجازهی دسترسی (Allow)، ممنوعیت دسترسی (Disallow)، یا تاخیر در خزیدن (Crawl-delay).
نحوهی نوشتن چندین دستور در robots.txt
وقتی چند تا دستور برای رباتهای مختلف دارید، هر گروه از دستورات باید با یه خط خالی از هم جدا بشن. مثلا:
makefileCopyEditUser-agent: Googlebot
Disallow: /example-subfolder/
User-agent: Bingbot
Disallow: /private/
اینجا:
- به Googlebot گفتیم که نباید پوشه ی example-subfolder رو بررسی کنه.
- به Bingbot گفتیم که اجازه نداره وارد پوشه ی private بشه.
نحوه ی اعمال قوانین روی ربات های مختلف
اگه توی یک گروه از دستورات چند تا قانون برای یه ربات خاص تعریف شده باشه، همون ربات فقط به دقیق ترین دستوراتی که براش تعریف شده توجه میکنه و بقیه رو نادیده میگیره.
دستور برای همه ی ربات ها
اگه بخواید یه قانون برای همه ی ربات ها بذارید، به جای اسم ربات، از ستاره (*) استفاده کنید:
makefileCopyEditUser-agent: *
Disallow: /admin/
این یعنی همه ی ربات ها اجازه ندارن به پوشه ی admin/ بروند. ولی اگه یه ربات توی فایل دستور خاص خودش رو داشته باشه، فقط به همون دستور گوش میده و این قانون کلی رو نادیده میگیره.
نکته ی مهم درباره ی بعضی از ربات ها
بعضی از ربات ها فقط به دستوراتی که مخصوص خودشون توی فایل robots.txt نوشته شده توجه میکنن و بقیه ی قوانین رو نادیده میگیرن. پس اگه می خواید مطمئن بشید که یه ربات خاص طبق دستوراتتون عمل کنه، باید اسمش رو دقیقاً توی فایل robots.txt بنویسید و دستورات مورد نظرتون رو براش مشخص کنید.
اما بقیه ی ربات ها (که اسمشون توی فایل نیومده) از *قوانینی که برای “User-agent: ” نوشته شده پیروی میکنن.
چند نمونه از فایل robots.txt و نحوه ی کارکردش
با استفاده از دستورات خاص توی فایل robots.txt، می تونید مشخص کنید که چه بخش هایی از سایت تون توی نتایج جستجوی گوگل نمایش داده بشن و چه بخش هایی مخفی بمونن. این کار میتونه به بهینه سازی سایت برای دیده شدن بهتر توی موتورهای جستجو کمک کنه.
آدرس فایل robots.txt و سایت مپ
آدرس فایل robots.txt معمولاً این شکلیه: www.example.com/robots.txt

۱. مسدود کردن همه ی ربات ها از کل سایت
makefileCopyEditUser-agent: *
Disallow: /
🔹 این دستور یعنی هیچ رباتی حق نداره هیچ صفحه ای از سایت رو بررسی کنه، حتی صفحه ی اصلی!
🔹 این گزینه زمانی کاربرد داره که بخواید کل سایت تون رو از دسترس موتورهای جستجو خارج کنید (مثلاً وقتی سایت هنوز آماده نیست).
۲. اجازه دادن به همه ی ربات ها برای دسترسی به کل سایت
makefileCopyEditUser-agent: *
Disallow:
🔹 این یعنی همه ی ربات ها اجازه دارن همه ی صفحات سایت (از جمله صفحه اصلی) رو بخزند و بررسی کنن.
🔹 این حالت برای سایت هایی مناسبه که میخوان کاملاً در دسترس موتورهای جستجو باشن.
۳. مسدود کردن یک ربات خاص از یک پوشه خاص
makefileCopyEditUser-agent: Googlebot
Disallow: /example-subfolder/
🔹 این یعنی فقط ربات گوگل (Googlebot) حق نداره به آدرس های داخل پوشه ی example-subfolder دسترسی داشته باشه.
🔹 برای مثال، اگر این دستور رو توی فایل robots.txt سایت www.example.com بذارید، گوگل اجازه نداره صفحات داخل این آدرس رو بخزه:
bashCopyEditwww.example.com/example-subfolder/
🔹 ولی بقیه ی ربات ها هنوز میتونن اون پوشه رو بررسی کنن.
۴. مسدود کردن یک ربات خاص از یک صفحه خاص
makefileCopyEditUser-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
🔹 این یعنی فقط ربات بینگ (Bingbot) اجازه نداره به این صفحه خاص دسترسی داشته باشه:
bashCopyEditwww.example.com/example-subfolder/blocked-page.html
🔹 ولی بقیه ی ربات ها هنوز میتونن اون صفحه رو بررسی کنن.
- “/” بعد از Disallow یعنی کل سایت قفل بشه.
- هیچ چیزی بعد از Disallow نیاد یعنی کل سایت آزاد باشه.
- اسم ربات + Disallow روی یک پوشه یعنی فقط اون ربات نمیتونه اون پوشه رو ببینه.
- اسم ربات + Disallow روی یک صفحه یعنی فقط اون ربات نمیتونه اون صفحه رو ببینه.
اینجوری میتونید دقیقاً تعیین کنید که چه بخش هایی از سایت تون در دسترس ربات های مختلف باشه.
فایل robots.txt چطور کار میکنه؟
موتورهای جستجو دو تا کار اصلی دارن:
خزیدن (Crawling): توی وب برای پیدا کردن محتوا
ایندکس کردن (Indexing): اون محتوا برای نمایش به کاربرها توی نتایج جستجو
خزیدن (Crawling) چطوری انجام میشه؟
وقتی یه موتور جستجو مثل گوگل میخواد سایت ها رو بررسی کنه، از یه صفحه به صفحه ی دیگه لینک میشه. این فرایند که مثل حرکت یه عنکبوت بین تارهاست، بهش Spidering یا «خزیدن» میگن.
🔹 یعنی موتور جستجو مثل یه ربات میاد، لینک ها رو دنبال میکنه و همین طوری صفحات جدید رو کشف میکنه.
نقش فایل robots.txt یعنی چه؟
وقتی یه موتور جستجو به یه سایت میرسه، قبل از اینکه شروع کنه به خزیدن توی صفحات، دنبال فایل robots.txt میگرده. این فایل یه جور راهنما برای موتور جستجوئه که بهش میگه کجاها میتونه بره و کجاها رو نباید ببینه.
- اگه robots.txt پیدا بشه، موتور جستجو اول اون رو میخونه و طبق دستوراتی که اونجا نوشته شده، رفتار میکنه.
- اگه توی فایل robots.txt محدودیتی نباشه یا اصلاً این فایل وجود نداشته باشه، موتور جستجو همه ی سایت رو بررسی میکنه.
به زبون ساده، robots.txt مثل یه تابلو راهنما برای موتور جستجوئه که مشخص میکنه کجاها ورود آزاد و کجاها ورود ممنوعه.
مدیریت User Agent و ربات های خزنده (Crawler Management)
مدیریت یوزر ایجنت ها (User Agent) و خزنده های وب (Crawlers) یکی از بخش های مهم برای داشتن یه سایت بهینه و سالمه.
یوزر ایجنت (User Agent) چیه؟
یوزر ایجنت یه برنامه ی نرم افزاریه که از طرف کاربر عمل میکنه، مثل یه مرورگر وب (مثلاً کروم یا فایرفاکس) یا یه ربات موتور جستجو (مثل Googlebot یا Bingbot).
ربات های خزنده (Crawlers) چیا هستن؟
ربات های خزنده (که بهشون بات Bot یا اسپایدر Spider هم میگن) برنامه های خودکاری هستن که صفحات وب رو بررسی و ایندکس میکنن تا موتور های جستجو بتونن اونا رو توی نتایج جستجو نمایش بدن.
چجوری باید یوزر ایجنت ها و ربات های خزنده رو مدیریت کنیم؟
شناسایی یوزر ایجنت ها:
هر یوزر ایجنت یه شناسه ی خاص User Agent String داره که مشخص میکنه این درخواست از طرف کدوم مرورگر یا رباته. با شناخت این شناسه ها، می تونید فایل robots.txt رو طوری تنظیم کنید که روی ربات های خاصی کنترل داشته باشید.
رفتار رباتهای خزنده:
هر رباتی یه روش متفاوت برای خزیدن توی سایت داره. بعضیا خیلی آروم هستند، بعضیا خیلی تهاجمی.
اگه یه ربات زیادی سریع بیاد صفحات سایت تون رو بخزه، ممکنه باعث کندی سرور بشه. برای همین می تونید توی فایل robots.txt قوانینی مثل Crawl Delay (تأخیر بین درخواست های خزیدن) تعیین کنید.
فایل robots.txt:
این فایل ابزار اصلی مدیریت خزنده هاست.
با این فایل می تونید مشخص کنید کدوم قسمت های سایت برای کدوم ربات ها بازه و کدوم قسمت ها ممنوعه. مثلاً می تونید بگید:
Googlebot حق نداره یه فولدر خاص رو ببینه.
Bingbot فقط بعضی از صفحات رو بررسی کنه.
نقش XML Sitemap:
فایل نقشه ی سایت (XML Sitemap) به موتورهای جستجو نشون میده که سایت شما چه ساختاری داره و کدوم صفحات مهم تر هستند.
اگه آدرس XML Sitemap رو توی robots.txt بزارید، موتورهای جستجو راحت تر سایت شما رو ایندکس میکنن.
چرا مدیریت ربات های خزنده مهمه؟
- باعث میشه موتورهای جستجو صفحات مهم شما رو راحت تر پیدا کنند.
- از ورود ربات های مزاحم و خزیدن غیر ضروری توی بخش های حساس سایت جلوگیری میکنه.
- باعث افزایش سرعت ایندکس شدن صفحات شما توی گوگل و سایر موتورهای جستجو میشه.
پس اگه robots.txt و مدیریت خزنده ها رو درست تنظیم کنید، سایتتون هم سریع تر، هم بهینه تر و هم توی نتایج جستجو قوی تر میشه.
چند نکته مهم درباره robots.txt که باید بدونید
فایل robots.txt شاید کوچیک و ساده به نظر بیاد، ولی اگه درست تنظیم نشه، میتونه روی کل سایتتون تأثیر بذاره. توی این بخش، چند تا نکته مهم فنی رو که باید بدونید توضیح میدم.
۱. فایل robots.txt باید توی پوشه اصلی سایت قرار بگیره
اگه این فایل توی جای درست نباشه، ربات های خزنده پیداش نمیکنن.
robots.txt باید توی ریشه ی سایت (Root Directory) ذخیره بشه، یعنی دقیقاً توی همون مسیری که صفحه اصلی سایت قرار داره. مثلاً:
کجا نباید باشه؟
۲. فایل robots.txt به حروف کوچک و بزرگ حساسه
فقط باید با اسم دقیق robots.txt ذخیره بشه
اسم های اشتباه که کار نمیکنن:
- Robots.txt ❌
- robots.TXT ❌
- ROBOTs.Txt ❌
۳. بعضی از ربات ها فایل robots.txt رو نادیده میگیرن
ربات های مخرب (مثل بدافزارها و اسپمرها) ممکنه اصلاً به robots.txt توجه نکنن.
رباتهای خوب (مثل Googlebot و Bingbot) این فایل رو رعایت میکنن، ولی بدافزارها و اسکریپرهای ایمیل معمولاً اونو نادیده میگیرن.
۴. فایل robots.txt عمومی و قابل مشاهده است
هر کسی میتونه ببینه که کدوم صفحات سایتتون رو برای ربات ها مسدود کردید. چطور؟
فقط کافیه که /robots.txt رو به انتهای آدرس یه سایت اضافه کنید:
اگه اون سایت فایل robots.txt داشته باشه، همه میتونن ببیننش.
پس هیچوقت از robots.txt برای پنهان کردن اطلاعات حساس کاربران استفاده نکنید. (چون اطلاعات خصوصی رو نمیشه واقعاً با این فایل قایم کرد)
۵. هر ساب دامین نیاز به یه robots.txt جدا داره
اگه یه سایت چند تا ساب دامین (Subdomain) داشته باشه، هر کدوم باید فایل robots.txt جداگانه داشته باشن.
مثال:
- robots.txt برای دامنه اصلی:
www.example.com/robots.txt - robots.txt برای بلاگ:
blog.example.com/robots.txt - robots.txt برای فروشگاه:
shop.example.com/robots.txt
هر ساب دامین به عنوان یه سایت جداگانه در نظر گرفته میشه، پس باید تنظیماتش مستقل باشه.
۶. بهتره آدرس نقشهی سایت (Sitemap) رو توی robots.txt بزارید
آخر فایل robots.txt، آدرس نقشه ی سایت رو مشخص کنید تا موتورهای جستجو راحت تر صفحات مهم سایت رو پیدا کنن.
مثال:
txtCopyEditSitemap: https://www.example.com/sitemap.xml
🔹 اگه چند تا نقشه ی سایت دارید، می تونید همه شون رو اضافه کنید.
txtCopyEditSitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml
چرا این نکات مهم هستند؟
- باعث میشه ربات های موتور های جستجو بهتر سایتتون رو درک کنن و ایندکس کنن.
- از ورود ربات های ناخواسته جلوگیری میکنه.
- کمک میکنه سئو سایت بهینه بشه و صفحات مهم سریع تر دیده بشن.
اگه robots.txt رو اصولی تنظیم کنید، سایتتون حرفه ای تر، امن تر و سریع تر توی نتایج جستجو دیده میشه.
آموزش ساده و کامل زبان robots.txt
وقتی می خواید به ربات های موتور جستجو بگید کجا برن و کجا نرن، باید از یه زبان خاص توی فایل robots.txt استفاده کنید. این زبان یه سری دستورات داره که خیلی هم پیچیده نیستن.
تو این متن، پنج تا از رایج ترین دستورات robots.txt رو به زبون ساده توضیح میدیم.
۱. User-agent (مشخص کردن رباتی که دستور براش صادر شده)
این دستور مشخص میکنه که تنظیمات robots.txt برای کدوم رباته.
مثال:
txtCopyEditUser-agent: Googlebot
- این یعنی تنظیمات بعدی فقط برای ربات گوگل اعمال بشه.
- اگه بخواید همه ربات ها رو هدف بگیرید، می تونید اینو بنویسید:
txtCopyEditUser-agent: *
(علامت * یعنی “همهی رباتها”)
۲. Disallow (صفحه هایی که نمی خواید ربات ها بهشون دسترسی داشته باشن)
این دستور به ربات ها میگه که یه صفحه یا مسیر خاص رو بررسی نکنن.
مثال:
txtCopyEditUser-agent: *
Disallow: /private/
- این یعنی همه ی ربات ها حق ندارن به پوشه ی “/private/” برن.
- می خواید یه صفحه خاص رو مسدود کنید؟
txtCopyEditDisallow: /admin.html
(این یعنی صفحه ی admin.html توی سایت نباید توسط ربات ها بررسی بشه)
نکته: فقط یه “Disallow:” برای هر URL می تونید بنویسید
۳. Allow (فقط برای Googlebot)
این دستور فقط برای گوگل کاربرد داره و میگه که یه صفحه خاص رو میتونه بررسی کنه، حتی اگه فولدر والدش مسدود شده باشه.
مثال:
txtCopyEditUser-agent: Googlebot
Disallow: /blog/
Allow: /blog/public-article.html
این یعنی گوگل نمیتونه کل پوشه ی /blog/ رو بررسی کنه، اما اجازه داره فقط صفحه ی public-article.html رو ببینه.
فقط Googlebot اینو میفهمه. موتورهای جستجوی دیگه این دستور رو نادیده میگیرن.
۴. Crawl-delay (تنظیم زمان انتظار برای خزنده ها )
با این دستور به ربات ها میگیئ چند ثانیه بین هر درخواست صبر کنن، که فشار زیادی به سرورت نیارن.
مثال:
txtCopyEditUser-agent: Bingbot
Crawl-delay: 5
(این یعنی ربات Bingbot باید ۵ ثانیه بین هر درخواست صبر کنه)
ولی گوگل این دستور رو نادیده میگیره.
برای تنظیم سرعت کرال در گوگل باید از Google Search Console استفاده کنید.
۵. Sitemap (معرفی نقشه ی سایت)
با این دستور، به موتورهای جستجو آدرس نقشه ی سایت تون رو معرفی می کنید تا سریع تر صفحات تون رو پیدا کنن.
مثال:
txtCopyEditSitemap: https://www.example.com/sitemap.xml
این یعنی ربات ها بدون دردسر میتونن صفحات سایت تون رو بررسی کنن.
این دستور رو فقط گوگل، بینگ، یاهو و Ask.com پشتیبانی میکنن.
- User-agent → مشخص کردن اینکه دستورات برای کدوم رباته.
- Disallow → مسدود کردن دسترسی ربات ها به صفحات خاص.
- Allow → اجازه دادن به گوگل برای دیدن یه صفحه خاص داخل یه فولدر مسدود شده.
- Crawl-delay → تعیین زمان انتظار برای رباتها (به جز گوگل)
- Sitemap → معرفی آدرس نقشهی سایت برای ایندکس بهتر صفحات.
اگه robots.txt رو درست بنویسید، هم سئو سایتتون بهتر میشه و هم سرورتون بهینه تر کار میکنه.
آموزش ساده و کامل الگوهای robots.txt
وقتی میخواید توی robots.txt مشخص کنید که کدوم صفحات مجاز باشن و کدوم نه، می تونید از الگوهای خاص (Pattern-Matching) استفاده کنید. این الگوها بهتون کمک میکنن تا بدون نیاز به لیست کردن تک تک صفحات، یه سری قوانین کلی برای کرالرها تعریف کنید.
۱. استفاده از الگوهای خاص برای مسدود کردن یا اجازه دادن به URLها
گوگل و بینگ (Bing) از دو کاراکتر خاص پشتیبانی میکنن که میتونن توی robots.txt استفاده بشن:
۱. ستاره (*) → به جای هر رشته ای از کاراکترها میاد.
این یعنی هر چیزی میتونه سر جای ستاره باشه و به کرالرها میگه که هر صفحه ای که این الگو رو داشته باشه، تحت تأثیر این قانون قرار میگیره.
مثال:
txtCopyEditUser-agent: *
Disallow: /private/*
- این یعنی همه ی صفحات و پوشه هایی که با
/private/
شروع میشن، مسدود بشن. - مثلا هم
/private/data.html
و هم/private/info/123
مسدود میشن.
۲. علامت دلار ($) → یعنی پایان URL رو مشخص میکنه
وقتی می خواید یه قانون فقط برای URL هایی اعمال بشه که دقیقا با یه چیز خاص تموم میشن، از $
استفاده کنید.
مثال:
txtCopyEditUser-agent: *
Disallow: /*.pdf$
- این یعنی همه ی لینک هایی که با
.pdf
تموم میشن (مثل فایلهای PDF) نباید ایندکس بشن. /report.pdf
و/files/test.pdf
مسدود میشن، ولی/pdf-version.html
مشکلی نداره.
۲. آیا میشه با robots.txt جلوی ربات های هوش مصنوعی (AI Bots) رو گرفت؟
اگه نمی خواید ربات های هوش مصنوعی مثل ClaudeBot، GPTbot یا PerplexityBot محتوای سایت تون رو جمع کنن، می تونید اونها رو توی robots.txt مسدود کنید.
مثال:
txtCopyEditUser-agent: GPTBot
Disallow: /
این یعنی GPTbot دیگه نمیتونه سایت رو بررسی کنه.
مثال مسدود کردن چند ربات:
txtCopyEditUser-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
Disallow: /
این یعنی همه ی این ربات ها از سایت بیرون انداخته میشن.
اما یه نکته مهم:
مسدود کردن این ربات ها توی robots.txt به این معنی نیست که حتما از سایت تون دور بمونن. بعضی از ربات ها (مخصوصا اون هایی که اهداف مخرب دارن) میتونن این قوانین رو رعایت نکنن.
تحقیقاتی که انجام داده شده، نشون میده که GPTbot بیشترین میزان بلاک شدن رو داره. خیلی از سایت های خبری و انتشاراتی هم ربات های هوش مصنوعی رو مسدود کردن.
پس، اگه نمی خواید محتوای سایت تون توی مدل های هوش مصنوعی استفاده بشه، بلاک کردن این ربات ها یه قدم مفید هست، ولی تضمینی نیست که همه ی اون ها رعایت کنن.
- ستاره (*) → به جای هر تعداد کاراکتر میاد، پس میتونی یه دستهی کلی از صفحات رو انتخاب کنی.
- دلار ($) → یعنی فقط URL هایی که دقیقا به یه چیز خاص ختم میشن، در نظر گرفته بشن.
- می تونید ربات های هوش مصنوعی مثل GPTBot رو مسدود کنید، ولی تضمینی نیست که همه رعایت کنن.
اگه درست از robots.txt استفاده کنید، می تونید کنترل بهتری روی کرال شدن سایتتون توسط موتورهای جستجو و رباتها داشته باشید
ربات های موتور جستجو و هوش مصنوعی رو چطوری با robots.txt مسدود کنیم؟
چطور ربات های هوش مصنوعی رو بلاک کنیم؟
اگه نمی خواین بعضی از ربات های AI (مثل GPTbot یا ClaudeBot) به سایتتون دسترسی داشته باشن، باید توی فایل robots.txt اسم اون ربات و صفحاتی که نمی خواین بهشون دسترسی داشته باشه رو مشخص کنید. مثلا:
makefileCopyEditUser-agent: GPTbot
Disallow: /blog
Disallow: /learn/seo
یعنی این ربات اجازه نداره به پوشه های /blog
و /learn/seo
توی سایت شما سر بزنه.
فایل robots.txt رو کجا بذاریم؟
ربات های جستجو (مثل گوگل بات یا فیس بات) همیشه دنبال فایل robots.txt میگردن تا ببینن چه صفحاتی رو نباید بخزن. این فایل باید حتماً توی ریشه ی سایت باشه، یعنی توی آدرس اصلی (مثلا example.com/robots.txt).
اگه این فایل رو توی یه پوشه ی دیگه بذارید (مثلا example.com/index/robots.txt)، هیچ رباتی پیداش نمیکنه و انگار اصلاً همچین فایلی وجود نداره.
چرا به robots.txt نیاز داریم؟
فایل robots.txt به شما این امکان رو میده که دسترسی ربات ها به بخش های خاصی از سایت رو کنترل کنید. مثلا می تونید:
- نذارید محتوای تکراری توی نتایج گوگل بیاد (البته برای این کار تگ meta robots بهتره).
- یه بخش از سایت رو خصوصی نگه دارید (مثلا نسخه ی آزمایشی سایت که فقط تیم برنامه نویسی ازش استفاده میکنه).
- نذارید صفحه های جستجوی داخلی سایت توی نتایج گوگل نمایش داده بشن.
- محل نقشهی سایت (sitemap) رو مشخص کنید.
- نذارید بعضی فایلهای خاص (مثل عکسها یا PDFها) توی نتایج جستجو بیان.
- سرعت خزیدن ربات ها رو محدود کنید که فشار زیادی روی سرور سایتتون نیارن.
اگه کنترل خاصی روی خزیدن ربات ها نمیخواین، لازم نیست حتماً این فایل رو داشته باشید.
چطور بفهمیم سایت ما فایل robots.txt داره؟
خیلی راحت، آدرس سایتتون رو توی مرورگر وارد کنید و /robots.txt
رو به آخرش اضافه کنید. مثلا:
jargeh.com/robots.txt
اگه صفحه ای باز نشد، یعنی سایت شما فایل robots.txt نداره.
چطور یه فایل robots.txt بسازیم؟
اگه فهمیدید که فایل robots.txt ندارید یا می خواین ویرایشش کنید، خیلی ساده میتونید یه فایل متنی (txt) درست کنید و توش قوانین لازم رو بنویسید.
چند نکتهی مهم:
- فایل باید توی پوشه ی اصلی سایت باشه (نه توی یه پوشه ی فرعی).
- فرمت فایل باید UTF-8 باشه و با برنامههایی مثل Notepad ساخته بشه.
- دقت کنید که قوانین اشتباهی ننویسید که باعث بشه صفحات مهم سایت از نتایج گوگل حذف بشن.
- حتماً بعد از ایجاد، تست کنید که درست کار میکنه (با ابزارهای تست گوگل).
- بعضی ربات ها به این فایل اهمیت نمیدن، پس برای امنیت بیشتر از روش های دیگه مثل پسورد گذاری استفاده کنید.
تفاوت robots.txt با meta robots و x-robots چیست؟
robots.txt: تعیین میکنه که چه صفحه هایی نباید خزیده بشن.
meta robots: روی خود صفحه قرار میگیره و میگه که آیا اون صفحه توی نتایج گوگل نمایش داده بشه یا نه.
x-robots: همون کار meta robots رو میکنه ولی توی هدر HTTP قرار میگیره.
چطور فایل robots.txt یه سایت دیگه رو ببینیم؟
خیلی ساده. فقط کافیه توی مرورگر این آدرس رو وارد کنید:
http://www.example.com/robots.txt
به جای example.com
، آدرس سایت مورد نظرتون رو بذارید.
فایل robots.txt چیست رو در این مطلب بررسی کردیم و یکی از ابزارهای ساده اما بسیار مهم برای مدیریت نحوه دسترسی ربات های موتور جستجو به سایت شماست. با استفاده ی درست از این فایل، می تونید کنترل بیشتری روی ایندکس شدن صفحات داشته باشید، از نمایش بخش های حساس جلوگیری کنید و حتی روی بهبود سئوی سایت تون تأثیر بگذارید. اگه این فایل رو نداشته باشید یا تنظیمات اون رو نادیده بگیرید، ممکن هست ربات ها بدون محدودیت به تمام بخش های سایت دسترسی پیدا کنن و اطلاعاتی که نمی خواید در نتایج جستجو نمایش داده بشه، ایندکس بشوند.
تا حالا فایل robots.txt سایت خودتون رو بررسی کردید؟ آیا مطمئنید که تنظیماتش درست انجام شده؟