به خاطر داشته باشید هر سایت نیازمند فایل robots.txt خاص خودش است. Robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند. فایل Robots.txt یک فایل متنی و ساده است که با ساخت آن میتوانید از ایندکس شدن برخی صفحات در وب سایت خود جلوگیری نمایید. ساخت فایل ربات ساز تاثیرات مثبتی بر سئو وب سایت دارد و از ایندکس شدن و قرار گرفتن صفحات غیرضروری سایت در نتایج جستجو کاربران جلوگیری خواهد کرد. استفاده از فایل Robots.txt تاثیر بسزایی بر عملکرد بهینه سایت و سئو آن دارد و به همین دلیل است که تمامی وب سایتها باید دارای فایل ربات ساز باشند.
اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. با مشخص کردن یک یا چند فیلتر مختلف، مقالههای جذاب و مناسب خودتان را پیدا کنید. علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید. در صفحه ظاهر شده تنها یک گزینه وجود دارد که می توانید آن را تغییر دهید و این گزینه Crawl rate می باشد. با استفاده از اسلایدری که در کنار آن قرار دارد شما می توانید مقدار دلخواه خود را روی این ویژگی تنظیم کنید. Wildcard را نه تنها می توان برای تعریف user-agent مورد استفاده قرار داد بلکه می توان از آن برای تطبیق لینک ها نیز استفاده کرد.
برخی از موارد استفاده رایج از فایل Robots.txt
علاوه بر اینها، گوگل رباتهای مختلف دیگری را هم دارد که لیست کامل نام و وظیفه آنها را میتوانید در مقاله “مرور خزندههای موتور جستجو گوگل” که توسط خود گوگل منتشر شده است ببینید. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.
کنترل دسترسی رباتهای جستجوگر
فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است کدهایی را که بخشی از محدوده UTF-8 نیستند نادیده مجله خبری سئو بگیرد و قوانین robots.txt را نامعتبر کند. شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید.
- قطعاً استفاده از Robots.txt برای سایت یک سری مزایایی را به همراه خواهد داشت، برای مثال یکی از این مزایا عبارت است از بهینهسازی بودجه خزش یا همان Crawl Budget.
- این رباتها صفحات وب را «خزش» میکنند و محتوای آن را فهرستبندی میکنند تا در نتایج موتورهای جستجو نمایش داده شوند.
- فایل Robots.txt در حقیقت به رباتها اطلاع میدهد که کجا میتوانند فایل یا فایلهای نقشه سایت XML را پیدا کنند و در این میان کدام صفحات نباید کراول شوند.
- یک ربات بد یا فایل robots.txt را نادیده میگیرد یا آن را پردازش میکند تا صفحات وب ممنوعه را پیدا کند.
- Wildcard را نه تنها می توان برای تعریف user-agent مورد استفاده قرار داد بلکه می توان از آن برای تطبیق لینک ها نیز استفاده کرد.
- این کار فقط به خزنده بینگ (نام عامل کاربر Bing) میگوید که از خزیدن صفحه خاص در /example-subfolder/blocked-page.html اجتناب کند.
بدین ترتیب و با نوشتن این دستورالعملهای ساده میتوانید فعالیت رباتها در وب سایت خود را محدود کرده و کنترل کاملی بر آن داشته باشید. با این کد آدرس صفحه ای را که می خواهید ربات ها به آن دسترسی نداشته باشند، پنهان می کنید. به عنوان مثال می توانید دسترسی به پوشه تصاویر و ویدیو ها را و یا صفحه ادمین سایت را با این کد ببندید. گوگل این فرمان را نمیشناسد، اگرچه موتورهای جستجوی دیگر آن را تشخیص میدهند. برای Google، مدیران میتوانند فرکانس خزیدن را برای وبسایت خود در کنسول جستجوی Google تغییر دهند. فایلهای Robots.txt دسترسی خزنده به ناحیه های خاصی از سایت شما را کنترل میکنند.
باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم ربات خاصی را مشخص کنیم. البته میتوانیم تمامی رباتهای موتورهای جستوجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم. اگر بتوانید فایل robots.txt خوبی ایجاد کنید، میتوانید به موتورهای جستجو (به خصوص Googlebot) بگویید که کدام صفحات را مشاهده نکند. در واقع با این کار به رباتها میگویید کدام صفحهها اصلاً در اولویت شما نیستند. حتماً شما هم نمیخواهید که ربات خزنده گوگل برای مشاهده و ایندکس محتوای تکراری و کم ارزش، سرورهای شما را اشغال کند.