گوگل به عنوان بزرگترین مرجع و گستردهترین شبکه در این زمینه، رباتهای اختصاصی و عمومی زیادی گسترش داده است. وبمسترهای موفق همواره عملکرد و تغییرات این رباتها را دنبال کرده و مطابق با استانداردهای آنان پیشروی میکنند. اگر نیاز به مشاوره و رفع مشکلات سایت وردپرسی خود داشتید می توانید با کارشناسان یاس وب تماس گرفته و از خدمات سئو و بهینه سازی و خدمات پشتیبانی سایت استفاده کنید. نقش اصلی فایل Robots.txt در محدود کردن دسترسی رباتهای موتور جستجوی گوگل به محتوای سایت شما است.
وقتی رباتها میخواهند صفحههایی از سایت را بررسی کنند، اول فایل Robots.txt را میخوانند. در این فایل با چند دستور ساده مشخص میکنیم که ربات اجازه بررسی کدام صفحهها را دارد و کدام صفحهها را نباید بررسی کند. نمی خواهید که موتورهای جستجو مجله خبری سئو صفحات مربوط به تگ ها و نویسنده ها در وب سایت شما بخزند. نمی خواهید که موتورهای جستجو صفحات جستجوی داخلی وب سایت شما را بخزند. با استفاده از این فایل شما می توانید از دسترسی موتورهای جستجو به بخش های خاصی از سایت خود جلوگیری کنید.
چگونه دستورات ‘Disallow’ در فایل robots.txt کار میکنند؟
زمانی که میخواهید یک URL را مسدود یا اجازه ورود دهید، فایلهای Robots.txt کمی پیچیده میشوند چون با استفاده از تطبیق الگوها (Pattern-matching) میتوانند طیف وسیعی از URLها را پوشش دهند. برای کامنت بعدی من نام، ایمیل، و وبسایت من را در این مرورگر ذخیره کن. همانطور که می بینید، ما عنکبوت ها را از خزیدن صفحه مدیریت WP منع می کنیم. اما اگر تعداد صفحات فراتر از حد انتظار بود (به URL صفحاتی که فهرست بندی شده اند که شما نمی خواهید توجه نمایید) زمان آن است که از Robots.txt استفاده نمایید. و صفحاتی را که تشخیص دهد که مهم نیستند، یا کپی از صفحات دیگر هستند را فهرست بندی نمی کند. اگر به دنبال این فایل هستید خیالتان راحت کار چندان پیچیده ای برای پیدا کردن آن ندارید.
- جلوگیری از ظاهرشدن محتوای تکراری در SERP (توجه داشته باشید که متا رباتها اغلب انتخاب بهتری برای این کار هستند).
- مجموعه وب جوان از سال 1397 تا سال 1399 در 4 پروژه سئو و بهینه سازی کامل ( 0 تا 100 ) اثر گذار بوده و در 12 پروژه نیز به عنوان مشاور وارد عرصه کاری شده است.
- حالا به راحتی میتوانید محتوای فایل ربات خود را ویرایش کنید و بعد از انجام تغییرات بر روی گزینه ذخیره تغییرات کلیک کنید.
- علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید.
- طرز پیادهسازی این کار به این شکل است که، برخی از صفحات بیاهمیت و یا کم اهمیت سایت را روی حالت نو ایندکس قرار میدهیم و با پیادهسازی این حرکت، بودجه خزش ما خرج صفحات اصلی سایت میشود.
داشتن چند نقشه سایت ضرورتی ندارد ولی در برخی از موارد با توجه به تعداد زیاد صفحات و موضوعات یک سایت ساخت چند نقشه سایت لازم هست اگر سایت مپ شما بیشتر از آدرس در خود داشته باشد. گوگل توصیه میکند سایت خود را به چند فایل نقشه سایت کوچکتر تقسیم کنید. در اینصورت فایل مربوط به هر سایت مپ باید در یک فایل ایندکس نقشه سایت لیست شود.
موتور جستجوی گوگل چندین نوع روبات مختص به خود را دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را عهدهدار است. روبات Gogglebot-image نیز موظف به بررسی تصاویر سایتها و ایندکس کردن آنها است. اما به طور کلی توصیه می شود در طراحی سایت از یک متا تگ روبات ها با ویژگی “noindex, follow” برای جلوگیری از ایندکس شدن صفحه ای از سایت خود توسط موتورهای جستجو استفاده کنید. در این روش شما رتبه صفحه و یا لینک های آن را از دست نخواهید داد.
چرا ما به یک robots.txt نیاز داریم؟
این موضوع این امکان را در اختیار شما قرار خواهد داد که به کنترل تگ های خود بپردازید. در این بخش متوجه خواهید شد آیا گوگل قصد دارد صفحه ای را با محتوای جاسازی شده فهرست کند یا خیر. از طرفی این موضوع به گوگل اجازه خواهد دهد تا محتوای یک صفحه را در صورتی که در صفحه دیگری از طریق iframe یا تگ های HTML مشابه بارگزاری شده باشد را علیرغم دستور noindex، فهرست بندی کند. برای جلوگیری از این مشکل، بهتر است از تگ noindex در هدر همان صفحاتی که علاقهای به حضور آنها در نتایج گوگل ندارید استفاده کنید و یا با گذاشتن رمز و یا سایر روشهای بلاک کردن، از ایندکس شدن این URLها جلوگیری کنید. به این ترتیب علارقم اینکه شما صراحتا در فایل ربات خود از گوگل خواستهاید که این صفحات را بررسی و ایندکس نکند، اما باز هم مشاهده میکنید که این صفحات در نتایج گوگل ظاهر میشوند. چرا که ممکن است بتوانیم از طریق دیگری به خواستهای که به دنبال آن هستیم برسیم و از روشهای دیگری برای پنهان کردن صفحات سایتمان در نتایج موتورهای جستجو استفاده کنیم.
پروتکل نقشه سایت در robots.txt