این پروتکلی است که به رباتها میگوید از بررسی کدام صفحات وب و منابع آن اجتناب کنند. دستورالعملهای فرمت شده برای این پروتکل در فایل robots.txt گنجانده میشود. فایل روبوتکست، یک فایل و یک پل ارتباطی بین رباتهای گوگل و وب سایت ما است، با استفاده از دستورالعمل هایی که در فایل ربات مینویسیم به رباتهای گوگل میفهمانیم که به کدام قسمت سایت ما بخزند و کدام مناطق ممنوعه است. موتورهای جستجو محتوای فایل robts.txt را کش کرده و معمولا روزی یک بار آن را بروزرسانی می نمایند.
اگر دستورات متناقضی در فایل وجود داشته باشد، ربات از دستور granular بالاتر پیروی میکند. مجموعه وب جوان از سال 1397 تا سال 1399 در 4 پروژه سئو و بهینه سازی کامل ( 0 تا 100 ) اثر گذار بوده و در 12 پروژه نیز به عنوان مشاور وارد عرصه کاری شده است. استفاده از این مدل دستور در فایل robots.txt به خزندههای وب میگوید که تمام صفحات از جمله صفحه اصلی را بخزند. در این دستورات به ربات ها می گویید که کدام یک از صفحات شما اجازه ایندکس شدن دارند یا ندارند. برای اجازه دادن به خزش توسط ربات مورد نظر از دستور Allow و برای جلوگیری از خزش از دستور Disallow استفاده می شود.
در غیر اینصورت احتمالا متا تگ نوایندکس مجله خبری سئو گزینه بهتری برای شما باشد.
فایل Robots.txt برای وردپرس
خیر .در اینصورت نیازی به معرفی نقشه سایت به گوگل با این فایل نیست ولی در هر صورت باید این فایل موجود باشد. فایل robots.txt در وب سایت های بزرگی که دارای صفحات زیادی می باشند از اهمیت بسیار بیشتری برخوردار می باشد چرا که می تواند یک راهنمای کامل برای نحوه جستجو و خزیدن در صفحات وب سایت را برای موتورهای جستجو فراهم کند. برخی موتورهای جستجو از چند نوع ربات برای بررسی سایتها استفاده میکنند؛ مثلاً گوگل دارای ربات Googlebot برای جستجوی ارگانیک در بین سایتها است.
مزایای استفاده از فایل Robots.txt چیست؟
البته من اطلاعی از روند انتقال سایت تون ندارم، در هر صورت واضحه که ریدایرکت 301 به خوبی اعمال نشده. اگر آدرس صفحات قدیمی رو دارید یک بار همه رو به آدرس جدید ریدایرکت کنید. پیشنهاد اونا استفاده از افزونه ریدایرکت بود و حالا اینکه اینا درست میگن یا نه تا حد زیادی به نظر خودم درسته .
همچنین بهتر است دستورالعملهای هر موتور جستجو را بخوانید تا مطمئن شوید دستوراتی که مینویسید برای همه موتورهای جستجو کار میکنند. فایل Robots.txt یک فایل متنی بسیار ساده است که ایندکس کردن صفحات سایت توسط رباتها و خزندههای وب را محدود میسازد. این فایل در واقع صفحات مجاز و غیرمجاز وب سایت جهت ایندکس شدن را به رباتها نشان میدهد و فعالیت آنها را مدیریت میکند.
- خوشبختانه دسترسی رباتها به صفحهها یا فایلها را میتوانیم کنترل کنیم.
- ربات Email Harvesters و Spambots Malware و یا ربات هایی که وظیفه تامین امنیت را بر عهده دارند، جزء این موارد می باشند.
- اگرچه برخی از رباتها به دستورات موجود در این فایل توجهی نمیکنند.
- همانطور که گفتیم، هاست و منابع سرور سایت ما برای پاسخ دادن به درخواستهای رباتها دقیقا همانند پاسخگویی به درخواستهای کاربران واقعی مشغول میشود.
پس فایل ربات صرفا برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول میکنند اما با فایل ربات به آنها اطلاع میدهید که این صفحات را در نتایج جستجو نمایش ندهد. اعمال تغییرات ناخواسته در این فایل میتواند کل سایت یا بخش بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند. با تنظیم صحیح این فایل میتوانید فرایند خزش در سایت خود را بهینه سازی کنید و از فهرست شدن صفحات با محتوای تکراری جلوگیری کنید. بهطورکلی توصیه میشود که همیشه دستور فرعی ‘Sitemap’ را در کنار URL نقشه سایت در فایل robots.txt قرار دهید. اما در برخی موارد مشاهدهشده است که این کار باعث بروز خطاهایی میشود.