مجددا باید تکرار کنیم که استفاده از این دستور صرفا صفحات را از دسترسی رباتها مخفی میکند و ممکن است کاربر با کلیک روی لینک این صفحات امکان بازدید صفحه را داشته باشد و یا حتی این صفحات در نتایج جستجو فهرست شوند. علاوه بر این یک فایل robots.txt به موتورهای جستجو بیان می کند که نقشه سایت XML در کجا واقع شده است. پس از درک مفهوم فایل robots.txt به مجله خبری سئو تاثیر این فایل در سئو و بهینه سازی سایت می پردازیم. ربات یک برنامه کامپیوتری خودکار است که با وب سایت ها و برنامه های کاربردی تعامل دارد. این رباتها صفحات وب را «خزش» میکنند و محتوای آن را فهرستبندی میکنند تا در نتایج موتورهای جستجو نمایش داده شوند. Robots.txt در واقع یک فایل واقعیست، در حالی که robots و x-robots جز داده های متا هستند.
استفاده از فایل robots.txt برای تمام سایتهای متوسط و بزرگ تقریبا اجتناب ناپذیر است. اما در برخی سایتهای کوچک با تعداد صفحههای محدود، میتوان در مواردی حتی قید این فایل را هم زد و به موتورهای جستجو اجازه داد تا تمام صفحات را بررسی کنند. اما نباید فراموش کنید که اگرچه میتوان سایت مپ در داخل فایل ربات سایت به رباتهای موتور جستجو گوگل معرفی کرد اما این روش بهترین روش معرفی سایت مپ به رباتهای گوگل نیست.
تست فایل Robots با ابزار گوگل
اغلب user agent ها از یک موتور جستجو، از همان دستورالعمل کلی برای یکی از user agent ها استفاده کرده و نیازی به تعریف دستورات متنوع برای هر یک نیست. اما در صورتی که نیاز به تعاریف دستورات متفاوت برای user agent های مختلف دارید، میتوانید با فراغ بال آنها را در فایل robots.txt تعریف کنید. موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروفترین آنها بانام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد.
یکی از نکات بسیار مهم در خصوص فایل robots.txt این است که برای هر دستورالعمل یک خط جداگانه را در نظر بگیرید. در واقع در این مثال موتورهای جستجو به لینک گفته شده دسترسی پیدا می کنند. دستورالعمل Allow در داخل فایل robots.txt دقیقا در مقابل دستورالعمل Disallow قرار می گیرد. شاید برای شما جالب باشد که بدانید جلوگیری از ایندکس شدن محتوای تکراری در سایت نیز با استفاده از همین فایل انجام می شود. به همین علت نیز باید قوانینی را تنظیم کنید تا موتورهای جستجو به صفحات تولید شده توسط این فیلتر دسترسی نداشته باشند. شما نمی خواهید که موتورهای جستجو این صفحات تکراری مربوط به فیلتر را ایندکس کنند و وقت خود را با این لینک های تکراری تلف کنند.
در حال حاضر بهترین راه برای حذف صفحهای از نتایج جستجو، اضافه کردن دستور noindex در قسمت head صفحهها است. اگر از وردپرس استفاده میکنید افزونههایی برای این کار وجود دارد و در غیر اینصورت باید از طراحی وبسایت خود بخواهید که امکاناتی برای افزودن این کدها یا دستورات در قسمت هد هر صفحه فراهم کند. در اینجاست که ساخت فایل Robots.txt به کمک شما میآید و این مشکل را به راحتی برطرف میسازد.
برای گذاشتن کامنت و یادداشت در داخل فایل ربات میتوانیم از علامت # استفاده کنیم، به این ترتیب جلوی هشتگ هرچیزی که بنویسیم توسط رباتها و خزندهها نادیده گرفته میشود. در مرحله دوم، بعد از اینکه مشخص کردیم دقیقا با چه رباتی طرف هستیم، حالا باید مشخص کنیم که محدودیتهای این ربات چیست و چه صفحات و منابعی از وبسایت شما را نباید بررسی کند. با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم.
فایل robots.txt چیست؟ راهنمای جامع ساخت و بهینه سازی فایل ربات سایت
اگر روزانه تعداد زیادی ربات برای بررسی و ایندکس صفحات وارد سایت شما شوند قطعا با مشکل افت سرعت مواجه خواهید شد. کاهش سرعت بارگذاری سایت نیز ارتباط مستقیمی با سئو و تجربه کاربران دارد. بنابراین با استفاده از فایل ربات ساز میتوانید از کاهش سرعت سایت خود و ورود تعداد زیادی ربات به آن جلوگیری نمایید. با ایجاد فایل Robots.txt میتوانید از ایندکس شدن صفحات غیرضروری سایت و یا صفحاتی که هنوز دارای محتوای مناسبی نیستند و یا قوانین سئو در آنها پیاده نشده است به راحتی جلوگیری نمایید. انجام این کار تاثیر مستقیمی بر سئو سایت شما دارد و تنها صفحات استاندارد و معتبر را در دسترس رباتها و سپس کاربران قرار خواهد داد. پروتکل نقشه سایت کمک میکند تا مطمئن شوید که ربات های عنکبوتی وب در هنگام خزیدن یک وب سایت چیزی را از دست نمیدهند، اما رباتها همچنان روند خزیدن معمول خود را دنبال میکنند.
- برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید.
- همانطور که قبلاً اشاره کردم، پیاده سازی noindex روی منابع چند رسانه ای، مانند فیلم ها و PDF ها دشوار است.
- استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند.
- فرض پیشفرض این است که یک User-agent میتواند هر صفحه یا دایرکتوری را که توسط قانون غیرمجاز مسدود نشده است بخزد.
- البته در نظر داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف لاتین حساس بوده و آدرس صفحات باید بهدقت وارد شوند.
از این دستور میتوان به دو شکل در فایل robots.txt استفاده کرد. مطمئناً شما هم میخواهید ربات گوگل Crawl Budget سایتتان را به بهترین شکل ممکن مصرف کند. به عبارت دیگر، ربات گوگل باید ارزشمندترین و مهمترین صفحات شما را بهتر و بیشتر بررسی کند.
کدهای دستوری برای استفاده در فایل Robot.txt
همانطور که تا اینجا متوجه شدید، برای حذف کامل یک فایل خاص مانند فایلهای PDF یا تصاویر از نتایج گوگل، میتوان به کمک محدودیتهای فایل robot اینکار را به صورت کامل انجام داد. به عنوان مثال در بسیاری از سایتها بخشی تحت عنوان پروفایل کاربران وجود دارد که نمایش این پروفایلهای کاربری در نتایج گوگل هیچ ترافیکی برای سایت مورد نظر ایجاد نمیکنند. گوگل که به خوبی از این موضوع آگاه است، برای اینکه به تجربه کاربری سایتها کمترین لطمه را وارد کند برای هر سایت یک بودجه خزش مشخص در نظر میگیرد و با توجه به فاکتورهای مختلفی این بودجه را کم یا زیاد میکند. فقط فراموش نکن من بارها در آموزش سئو وبین سئو گفتم که site map سایت مپ ات را هم داخل robots.txt به گوگل معرفی کن. یعنی چی؟ یعنی اینکه یک تایمی ربات های گوگل برای هر سایت در نظر می گیرند تا در داخلش خزش کنند. شما با دسترسی ندادن به صفحات غیر عمومی ات این تایم را بیشتر می کنی برای صفحاتی که باید ببیند.