فایل ربات یا همان robots.txt یکی از مهمترین و اصلیترین بخشهای ارتباط خزندههای موتورهای جستجو با وبسایتها است. درواقع این فایل برای رباتهای موتورهای جستجو مشخص میکند که اجازه دارند به کدام بخشهای یک وبسایت دسترسی داشته باشند.
شاید در گذشته وجود یا عدم وجود فایل robots.txt اهمیت زیادی برای وبسایتها نداشت اما در حال حاضر گوگل به عدم وجود فایل robots.txt در وبسایت، واکنش منفی نشان میدهد و وجود یک فایل ربات بهینه، یکی از مهمترین ملزومات سئو محسوب میشود.
چگونه یک فایل robots.txt ایجاد کنیم؟
رباتهای موتورهای جستجو وقتی وارد وبسایت شما میشوند در مرحلۀ اول به دنبال این فایل هستند تا بدانند اجازه Crawl و دسترسی به چه بخشهایی را دارند. طبق قرارداد، این فایل باید در روت وبسایت یعنی فولدر اصلیهاست که تمامی فایلهای وبسایتتان در آن قرار دارد قابلمشاهده باشد؛ یعنی اگر آدرس زیر را باز کردید قادر به مشاهدۀ فایل robots.txt در وبسایتتان باشید:
http://www.domain.com/robots.txt
بنابراین وارد کنترل پنل هاست خود شده و ابتدا چک کنید فایلی به نام robots.txt وجود دارد یا خیر. اگر این فایل را مشاهده نکردید، فایلی به همین نام ایجاد کنید. میتوانید از طریق کنترل پنل هاست و یا اتصال به FTP این کار را انجام دهید.
نحوۀ نوشتن فایل robots.txt
ازآنجاییکه فایل robots.txt یک فایل متنی ساده است، میتوانید با برنامه notepad یا هر نرمافزار دیگری که قابلیت نوشتن متن دارد آن را ایجاد کنید. حتی میتوانید از ادیتور پیشفرض کنترل پنل هاست خود برای نوشتن دستورات این فایل استفاده کنید.
معمولاً در خط اول فایل robots.txt باید مشخص کنیم دستوراتی که مینویسیم برای رباتهای کدام موتور جستجو است. این کار را با نوشتن نام ربات بعد از عبارت user-agent انجام میدهیم. به مثال زیر دقت کنید:
User-agent: Googlebot
Disallow: /img/
در مثال بالا، مخاطب ما گوگل بات یا همان رباتهای گوگل است. اگر بهجای Googlebot، عبارت Bingbot را قرار میدادیم فقط رباتهای موتور جستجوی بینگ به دستوری که نوشتهایم عمل میکردند.
برای اینکه دستوراتمان را برای رباتهای تمامی موتورهای جستجو بنویسیم، دستور بالا را به شکل زیر تغییر میدهیم:
User-agent: *
Disallow: /img/
خط دوم دستورات بالا اشاره به این دارد که رباتها حق ورود به فولدر img و تمامی فایلها و فولدرهای داخل آن را ندارند. پس برای جلوگیری از دسترسی رباتها به یک فایل یا فولدر از دستور Disallow استفاده میکنیم.
نکته: در واردکردن نام فایلها و فولدرها دقت کنید. رباتها حساس به حروف کوچک و بزرگ هستند؛ بنابراین فولدرهای Img و img با یکدیگر کاملاً متفاوت هستند.
اگر بخواهیم دسترسی رباتها به مجموعهای از فولدرها که در ابتدا یا انتهای آنها کاراکترهای مشترکی وجود دارد را مسدود کنیم، از کاراکتر * بهجای حروف غیرمشترک استفاده میکنیم. به مثال زیر توجه کنید:
User-agent: *
Disallow: /*img/
با این دستور، دسترسی به تمامی فولدرهایی که در انتهای نام آنها img وجود داشته باشد مانند freeimg , myimg , bestimg, … مسدود خواهد شد.
در مثال بالا با استفاده از کاراکتر $ میتوانیم پایان الگو را مشخص کنیم. فرض کنید میخواهیم دسترسی به فولدری به نام new در تمامی فولدرهایی که نام آنها با img تمام میشود را مسدود کنیم. برای این کار، مثال بالا به شکل زیر تغییر میکند:
User-agent: *
Disallow: /*img$/new/
همچنین برای مسدود کردن مستقیم آدرسهای مشخص، نام دامنه را حذف کرده و ادامۀ آدرس را همراه با علامت اسلش (/) در ابتدای آن مینویسیم. به مثال زیر توجه کنید:
User-agent: *
Disallow: /post12.html
Disallow: /page1.php
Disallow: /category/old/test/
افزودن نقشه سایت به فایل robots.txt
یکی از استفادههای مفیدی که میتوانیم از فایل robots.txt داشته باشیم، افزودن آدرس نقشه سایت به انتهای این فایل است. با این کار رباتهای موتورهای جستجو بهسادگی به Sitemap دسترسی پیداکرده و لیستی از تمامی لینکهای مفید وبسایت شما را در اختیار خواهند داشت. مثال:
User-agent: *
Disallow: /wp-admin/
Sitemap: http://www.domain.com/sitemap.xml
مراقب حساسیتهای گوگل باشید
هنگام مسدود کردن دسترسی رباتها از طریق فایل robots.txt بسیار مراقب باشید تا ناخواسته دسترسی به فایلهای جاوا اسکریپت با پسوند js. و سیاساس با پسوند css. را مسدود نکنید.
گوگل بسیار زیاد بر روی این مسئله تأکید دارد که باید تمامی سورسهای استفادهشده در قالب سایت بهخصوص فایلهای جاوا اسکریپت برای رباتهای گوگل قابلخواندن باشند. به این مسئله دقت کنید زیرا وبسایتهای بسیاری به همین دلیل توسط گوگل جریمه یا پنالتی شدهاند.
سلام برای من داخل خط دوم نوشته Disallow: /wp-admin/ به نظرتون مشکلی برای ایندکس شدن ایجاد میکنه؟
سلام و عرض ادب
خیر مشکلی نیست؛ این خط برای جلوگیری از ایندکسشدن بخش ادمین در وردپرس است و تأثیری بر ایندکسشدنِ صفحات دیگر سایت ندارد.