این فایل در واقع صفحات مجاز و غیرمجاز وب سایت جهت ایندکس شدن را به رباتها نشان میدهد و فعالیت آنها را مدیریت میکند. فایل Robots.txt شامل URLهایی است که نمیخواهید توسط رباتهای گوگل و یا هر موتور جستجوگر دیگری ایندکس شوند و در معرض دید کاربران قرار گیرند. بنابراین فایل ربات ساز از ورود رباتها به صفحات موردنظر شما جلوگیری کرده و ایندکس شدن آنها را ممنوع خواهد کرد. نقش اصلی فایل Robots.txt در محدود کردن دسترسی رباتهای موتور جستجوی گوگل به محتوای سایت شما است. تمامی این رباتها بهصورت خودکار عمل میکنند بهطوریکه قبل از ورود به هر سایت یا صفحهای از وجود فایل Robots.txt بر روی آن و محدود نبودن دسترسی محتویات اطمینان حاصل میکنند.
دستور User-agent
این صفحه هیچ ارزشی برای ایندکس ندارد و گاهی ممکن است باعث محتوای تکراری هم شود. همانطور که در بالا گفته شد میشود صفحه نتایج جستوجو داخلی سایت را از ایندکس شدن و نمایش در صفحه نتایج جستوجو موتورهای جستوجو مانند گوگل را به وسیله فایل Robots.txt مسدود کرد. در این مثال به راحتی میتوان اینکار را انجام داد تا مشکل حل شود. برخی از موتورهای جستوجو مانند گوگل رباتهای خاص برای خود داند.
فایل Robots.txt برای وردپرس
سپس برای ساخته شدن فایل robots.txt روی دکمه Create New File کلیک کنید. داشتن چند نقشه سایت ضرورتی ندارد ولی در برخی از موارد با توجه به تعداد زیاد صفحات و موضوعات یک سایت ساخت چند نقشه سایت لازم هست اگر سایت مپ شما بیشتر از آدرس در خود داشته باشد. گوگل توصیه میکند سایت خود را به چند فایل نقشه سایت کوچکتر تقسیم کنید. در اینصورت فایل مربوط به هر سایت مپ باید در یک فایل ایندکس نقشه سایت لیست شود. حال که فایل robots.txt خود را ایجاد کردهاید، زمان آن است که از درستی عملکرد آن اطمینان یابید. گوگل در ابزار سرچ کنسول، ابزاری رایگان به نام robots.txt tester را در دسترس وبمسترها قرار داده است.برای آزمایش فایل خود ابتدا وارد اکانت کنسول جستجوی خود شوید.
چنانچه در سایتی صفحات با کیفیت پایین زیادی وجود داشته باشد می تواند از خزیدن ربات های گوگل برای خزیدن صفحات با کیفیت بالا جلوگیری کند. فایل Robots.tx یک فایل بهینه شده است که از جنبه های مختلفی برای سایت مفید خواهد بود؛ به طوری که این فایل می تواند به مدیر سایت در بهینه کردن بودجه خزش کمک نماید. به این دلیل که خزنده های گوگل منابع محدود داشته و در خزش تعداد URLهای یک سایت محدودیت دارند، اگر سهمیه خزش خود در به صفحات کم اهمیت اختصاص دهند احتمال دارد نتوانند صفحات با ارزش تر را بخزند. موتورهای جستجو از خزنده ها برای پیدا کردن محتوای سایت با هدف ایندکس و رتبه بندی استفاده می کنند.
ساخت فایل ربات
اگرچه برخی از رباتها به دستورات موجود در این فایل توجهی نمیکنند. اما خوشبختانه برخلاف این عده خاص، بسیاری از خزندههای مهم سطح وب به این قوانین و دستورات احترام میگذارند و از آنها پیروی میکنند. شرکتهای مختلف با اهداف متفاوتی اقدام به ساخت و استفاده از این رباتها میکنند. همانطور که متوجه شدید، اگر فایل رباتی در کار نباشد، خزندههای موتور جستجو گوگل سرشان را میاندازند پایین و هرچیزی که جلو دستشان برسد را بررسی میکنند. Robots.txtx کاربرد فایل از نگاهی دیگر محدود کردن دسترسی ها به محتوای سایت شما می باشد. اکثر ربات ها قبل از اینکه به بررسی و Index صفحات سایت بپردازند؛ قوانینی که در این فایل گذاشته اید را نگاه می اندازند و دقیقا به آنها پایبند خواهند بود و تنها به صفحاتی مراجعه می کنند که دسترسی اشان را باز گذاشته اید.
- در اینجا ما به ربات های گوگل می گوییم که در وب سایت ما در تمام فولدرهای مربوط به تصاویر خزش نکنند.
- مهمتر از همه اینکه رباتهای گوگل به خوبی با این استاندارد آشنا هستند و از دستورات آن هم پیروی میکنند.
- در واقع این خزندگان سطح وب، با بررسی این فایل، اطلاعات سایت شما را به ثبت می رسانند.
- همچنین، اگر هزاران صفحه دارید که می خواهید آنها را مسدود کنید، گاهی اوقات راحت تر می توانید کل قسمت آن سایت را با robots.txt مسدود کنید، به جای اینکه به طور جداگانه یک تگ noindex به هر صفحه اضافه کنید.
در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها میباشد. به صورت تعریفی دقیقتر، این فایل راهنمای خزندگان سطح وب که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شدهاند، میباشد. همان طور که گفته شد، خزیدن و کراول صفحات سایت برای سئو و بهینه سازی سایت بسیار اهمیت دارد. مجله خبری سئو اینکه ربات های گوگل به سایت شما زودتر سر بزند و کراول کند می تواند باعث افزایش رتبه شما شود با بهینه سازی فایل robots.txt می توان رفتار ربات ها را کنترل کرد. فایل Robots.txt فایلی برای گزارش ساختار صفحات وب به رباتهای کراولر است تا بدانند کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند.
در صورتی که با داشتن یک فایل ربات سالم و خوب و قرار دادن آن در سایت میتوانید به بهبود رتبه سایت خود بسیار کمک کنید. پروتکل ممانعت از رباتها یک استاندارد وب است که چگونگی خزیدن رباتهای موتورهای جستوجو، دسترسی و ایندکس محتوا و در اختیار گذاشتن محتوا به کاربران را تعیین میکند. این پروتکل همچنین شامل راهنماییهایی مانند متا رباتها و همچنین دستورالعملهای صفحههای اصلی و فرعی وب برای اینکه موتورهای جستوجو چگونه با لینکها (مانند لینکهای فالو یا نوفالو) برخورد کنند، نیز است. در عمل، فایل Robots.txt مشخص میکند برخی رباتهای موتور جستوجو میتوانند یا نمیتوانند به بخشهایی از سایت دسترسی پیدا کنند. همچنین با دستورهای Allow و DisAllow میتوان مشخص کرد که همهی رباتها یا فقط رباتهای خاصی، به بخشهای مختلف سایت دسترسی داشته باشند یا دسترسی نداشته باشند.