فایلهای robots.txt به رباتها میگوید که پس از رسیدن به صفحهای با دستورالعمل که تعریف شده، به آن توجه کند. این کار به این دلیل کار می کند که فایل robots.txt همیشه باید در فهرست اصلی وب سایت قرار گیرد. این فایل به عنکبوت های خزنده گوگل و موتورهای جستجو می گوید که چه صفحاتی را خزش و فهرست بندی نکنند. Robots.txt در واقع یک فایل است با پسوند TXT که به ربات ها و خرنده های موتورهای جستجو این را می گوید که در کدام صفحات یا بخش های یک سایت حق خزیدن ندارند.
اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شدهاند را خزش و ایندکس نمیکند، اما ممکن است از سایر صفحات، لینکهایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. فرض کنید که در وبسایتتان فولدری به نام mypic دارید که در آن یکسری تصاویر را نگهداری میکنید که علاقهای ندارید ربات جستجو تصاویر گوگل آن را بررسی کند و در نتایج خود نشان دهد. ربات AdsBot-Google گوگل با دیدن این دستور متوجه میشود که باید از قواعد خاصی پیروی کند و دستورات نوشته شده در فایل ربات مخصوص او هستند. در دنیای اینترنت، بیش از هزاران نرم افزار برنامه نویسی شده برای خزیدن داخل وب وجود دارند که به آنها رباتهای خزنده یا crawler گفته میشود. به کمک متا تگ noindex در هدر یک صفحه میتوان امیدوار بود که این صفحه به صورت کامل از نتایج گوگل حذف خواهد شد.
روش های مختلفی وجود دارد که شما با پیاده سازی آنها در فایل robots.txt می توانید دسترسی موتورهای جستجو به بخش های مختلف سایت خود را فراهم کنید. در صورتی که فایل robots.txt وب سایت شما با تنظیمات کنسول جستجوی گوگل تناقض داشته باشد گاهی اوقات گوگل ترجیح می دهد که از تنظیمات تعریف شده در کنسول جستجوی گوگل به جای دستورالعمل های فایل robots.txt وب سایت شما استفاده کند. در مثال بالا هیچ یک از موتورهای جستجو به مسیری که شامل پوشه /wp-admin/ است دسترسی ندارند و همینطور دو نقشه سایت را نیز تعریف کرده ایم که در آدرس های بیان شده موجود می باشند. از آنجایی که هر یک از موتورهای جستجو مدت زمان محدودی برای خزیدن در یک وب سایت را دارند، شما باید سعی کنید که این زمان را صرف صفحاتی کنید که نیاز دارید تا در لیست موتورهای جستجو نمایش داده شوند.
بررسی فنی فایل Robots.txt و اصطلاحات رایج آن
صاحبان وبسایت و وبمسترها میتوانند ورود رباتها به وبسایت را از راههای مختلفی کنترل کنند. مثل تصویر زیر که در آن اجازه دسترسی به پوشهای به نام photos و اجازه دسترسی به صفحهای به نام files.html را ندادیم. خوشبختانه دسترسی رباتها به صفحهها یا فایلها را میتوانیم مجله خبری سئو کنترل کنیم. عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد. لطفا توجه داشته باشید که فایل robots.txt شما به صورت عمومی در دسترس خواهد بود. با این حال باید توجه داشت که اولین دستورالعمل همواره در ابتدا مورد بررسی قرار می گیرد.
بدون هیچ مقدمه اضافی به تعریف فایل Robots.txt و تأثیر آن بر سئوی سایت می پردازیم. ادمین سایت با هدف راهاندازی کسبوکار اینترنتی به صورت آسان ایجاد شده. در اینجا میتونی یاد بگیری چطور یک کسبوکار اینترنتی را از صفر راه بندازی و مدیریت کنی. در حال حاضر تولید محتوا در حوزههای مختلف آموزشی، فروش، تبلیغات و موارد دیگر صورت می پذیرد. کیفیت بکلینک موضوعی است که معمولاً بخاطر کمیت آن مورد بی توجهی قرار میگیرد.
برای جلوگیری از ایندکس شدن کافیست یک فایل متنی درست کنید و از دستور زیر استفاده کنید. آخر سر هم حتما فایل robots.txt خودتون رو توی robots.txt tester گوگل تست کنید تا از محدود شدنشون مطمئن بشید. مسدود سازی تمام تصاویر برای ربات Google Imagesگوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند.
- در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است.
- این صفحات برای وب سایت شما ضروری هستند ولی نمی خواهید در گوگل فهرست بندی شوند.
- در واقع اگر example.com یک robots.txt داشته باشد اما a.example.com نداشته باشد قوانینی که بر روی example.com اعمال میشود روی a.example.com اعمال نخواهد شد همچنین هر پروتکل و پورت به robots.txt خودش نیاز دارد.
- با نگاه کردن به فایلهای robots.txt دیگر سایتها میتوانید از آنها برای سایت خودتان الگو بگیرید.
خوشبختانه برای بررسی صحت فایل Robots.txt میتوانید از ابزار تست سرچ کنسول کوگل استفاده نمایید تا از درستی اطلاعات وارد شده اطمینان حاصل کنید. Robots.txt نحوه خزیدن در صفحات مختلف وبسایت را به رباتها اعلام میکند در حالی که متا ربات و ربات X رفتارهای یک صفحه یا محتویات یک صفحه را به رباتهای خزنده اعلام میکنند. به طور خلاصه، فرض کنید که یک قطعه از محتوا را با استفاده از iframe جاسازی کرده ایم. آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت. اما وقتی کدهای مربوطه را در صفحات خود جاسازی می کنید، ممکن است گوگل پیشنهاد دهد که به دلیل اینکه محتوای جایگذاری شده بدون فهرست است، این کار را انجام ندهید.
استفاده از دستور sitemap:
به خاطر داشته باشید هر سایت نیازمند فایل robots.txt خاص خودش است. Robots.txt هر سایت مختص همان سایت است و ممکن است برای سایت شما عملکرد مناسبی نداشته باشد و فرایند ایندکس شدن صفحات سایت را دچار اختلال کند. دستور دیر خزیدن یا crawl-delay، مقداریست که توسط برخی از رباتهای خزنده وب پشتیبانی میشود. از آنجایی که این دستور در استاندارد وب رباتها تعریف نشده است، هر ربات میتواند به شکل خاصی آن را تغبیر کند. برای مثال موتور جستجوی یاندکس، این دستور را به عنوان زمان تاخیر در بین مشاهده و بررسی هر وب سایت تعبیر می کند.
این قابلیت در موتورهای جستجویی مانند گوگل، بینگ، یاهو و Ask پشتیبانی می شود. Wildcard امروزه توسط موتورهای جستجویی مانند گوگل، یاهو، بینگ و Ask پشتیبانی می شود. به طور خلاصه این فایل نشان می دهد که موتورهای جستجو از کدام بخش ها باید دوری کنند. برای بهتر جا افتادن مفهوم و کاربرد فایل robots.txt اجازه دهید تا نگاهی به یک مثال بیندازیم.
فایل Robots.txt یک ابزار بسیار بحرانی برای سئو میباشد و اگر نتوانید به درستی آن را هندل کنید ممکن است در امنیت سایت شما تاثیر منفی داشته باشد. اما اگر اصول و قواعد و تکنیکهای آن را یاد بگیرید میتوانید به راحتی از آن برای بهبود کارایی وبسایت خود استفاده کنید. به طور کلی بهترین مکان قرار دادن نقشه سایت در انتهای فایل Robots.txt تان است. رباتهایی مانند رباتهای مخرب یا رباتهای زداینده آدرس ایمیل این کار را ممکن است انجام دهند. دو دستور User-agent و Disallow برای پیکربندی و تنظیم فایل robots.txt وجود دارد که در ادامه به توضیح هر یک می پردازیم.