راهنمای ساختن فایل robots.txt و تاثیر آن بر سئو

فایل روبات یا همان robots.txt یکی از مهم‌ترین و اصلی‌ترین بخش‌های ارتباط موتورهای جستجو با وب سایت‌ها می‌باشد. در واقع این فایل برای ربات‌های موتورهای جستجو مشخص می‌کند که اجازه دسترسی به کدام قسمت‌های وب سایت را دارند و اجازه‌ی ورود به کدام قسمت‌ها را ندارند. شاید در گذشته وجود یا عدم وجود این فایل اهمیت زیادی برای وب سایت‌ها نداشت اما در حال حاضر گوگل به عدم وجود فایل robots.txt در وب سایت، واکنش منفی نشان می‌دهد و وجود یک فایل روبات بهینه، یکی از مهمترین فاکتورهای سئو محسوب می‌شود.

 

چگونه یک فایل robots.txt ایجاد کنیم؟

روبات‌های موتورهای جستجو وقتی وارد وب سایت شما می‌شوند در مرحله اول به دنبال این فایل هستند تا بدانند اجازه Crawl و دسترسی به چه بخش‌هایی را دارند. طبق قراردارد، این فایل باید در روت وب سایت (فولدر public_html ، wwwroot و یا httpdocs) قرار داشته باشد. یعنی اگر آدرس زیر را باز کردید (به جای domain.com آدرس وب سایت خود را قرار دهید) قادر به مشاهده فایل robots.txt باشید:

بنابراین وارد کنترل پنل هاست خود شده و ابتدا چک کنید فایلی به نام robots.txt وجود دارد یا خیر. اگر این فایل را مشاهده نکردید، فایلی به همین نام ایجاد کنید. البته می‌توانید از طریق اتصال به FTP نیز این کار را انجام دهید (تفاوتی ندارد)

 

نحوه‌ی نوشتن فایل robots.txt

از آنجایی که فایل robots.txt یک فایل متنی ساده است، می‌توانید با برنامه notepad یا هر نرم افزار دیگری که قابلیت نوشتن متن دارد آن را ایجاد کنید. حتی می‌توانید از ادیتور پیشفرض کنترل پنل هاست خود (معمولا سی پنل و یا دایرکت ادمین می‌باشد) برای نوشتن دستورات این فایل استفاده کنید.

معمولا در خط اول فایل robots.txt باید مشخص کنیم دستوراتی که می‌نویسیم برای روبات‌های کدام موتور جستجو است. این کار را با نوشتن نام روبات بعد از عبارت user-agent انجام می‌دهیم. به مثال زیر دقت کنید:

در مثال بالا، مخاطب ما گوگل بات (روبات‌های گوگل) می باشد. اگر به جای Googlebot ، عبارت Bingbot را قرار می‌دادیم فقط روبات‌های موتور جستجوی بینگ به دستوری که نوشته‌ایم عمل می‌کردند.

برای اینکه دستوراتمان را برای روبات‌های تمامی موتورهای جستجو بنویسیم، دستور بالا را به شکل زیر تغییر می‌دهیم:

خط دوم دستورات بالا اشاره به این دارد که روبات‌ها حق ورود به فولدر img و تمامی فایل‌ها و فولدرهای داخل آن را ندارند. پس برای جلوگیری از دسترسی روبات‌ها به یک فایل یا فولدر از دستور Disallow استفاده می‌کنیم.

نکته: در وارد کردن نام فایل‌ها و فولدرها دقت کنید. روبات‌ها حساس به حروف کوچک و بزرگ هستند. بنابراین فولدرهای Img و img کاملا با یکدیگر متفاوت هستند.

اگر بخواهیم دسترسی روبات‌ها به مجموعه‌ای از فولدرها که در ابتدا یا انتهای آن‌ها کاراکترهای مشترکی وجود دارد را مسدود کنیم، از کاراکتر * به جای حروف غیر مشترک استفاده می‌کنیم. به مثال زیر توجه کنید:

با این دستور، دسترسی به تمامی فولدرهایی که در انتهای نام آن‌ها img وجود داشته باشد مانند freeimg , myimg , bestimg , … مسدود خواهد شد.

در مثال بالا با استفاده از کاراکتر $ می‌توانیم پایان الگو را مشخص کنیم. فرض کنید می‌خواهیم دسترسی به فولدری به نام new در تمامی فولدرهایی که نام آن‌ها با img تمام می‌شود را مسدود کنیم. برای این کار، مثال بالا به شکل زیر تغییر می‌کند:

همچنین برای مسدود کردن مستقیم آدرس‌های مشخص، نام دامنه را حذف کرده و ادامه‌ی آدرس را همراه با علامت اسلش (/) در ابتدای آن می‌نویسیم. به مثال زیر توجه کنید:

 

افزودن نقشه سایت به فایل robots.txt

یکی از استفاده‌های مفیدی که می‌توانیم از فایل robots.txt داشته باشیم، افزودن آدرس نقشه سایت به انتهای این فایل است. با این کار روبات‌های موتورهای جستجو به سادگی به Sitemap دسترسی پیدا کرده و لیستی از تمامی لینک‌های مفید وب سایت شما را در اختیار خواهند داشت. مثال:

 

مراقب حساسیت‌های گوگل باشید

هنگام مسدود کردن دسترسی روبات‌ها از طریق فایل robots.txt بسیار مراقب باشید تا ناخواسته دسترسی به فایل‌های جاوااسکریپت (با پسوند js.) سی اس اس (با پسوند css.) را مسدود نکنید. گوگل بسیار زیاد بر روی این مساله تاکید دارد که باید تمامی سورس‌های استفاده شده در قالب سایت (به خصوص فایل‌های جاوااسکریپت) برای روبات‌های گوگل قابل خواندن باشند. به این مساله دقت کنید زیرا وب سایت‌های بسیاری به همین دلیل توسط گوگل جریمه (یا پنالتی) شده‌اند.