اما اگر مسیرها و دایرکتوریها را دیسآلو کنید این رباتها صرفا میتوانند صفحهی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وبپیجها وجود ندارد. توجه داشته باشید که حتما از یک صفحهی 404 یا صفحات مشابه برای دایرکتوریهایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید. فایل robots.txt فایلی جهت مشخص کردن دسترسی موتورهای جستجو به وب سایت است.
چگونه فایل robots.txt را به گوگل ارسال کنیم؟
اما به صورت کلی میتوانیم امیدوار باشیم که تمام قوانینی که داخل فایل ربات سایتمان مشخص میکنیم توسط مهمترین خزندههای وب یعنی خزندههای گوگل رعایت میشوند. فایل robots.txt هم دقیقا مانند آیین نامه راهنمایی رانندگی برای رباتها و خزندههای دنیای اینترنت عمل میکند. به کمک این فایل ما میتوانیم محدودیتهایی را در خزش رباتها تعیین کنیم و انتظار داشته باشیم که آنها هم به این محدودیتها پایبند باشند. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. Robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.
یک فایل robots.txt مانند یک درخواست عمل میکند که درواقع چشم پوشی از فایلها یا دایرکتوریهای خاص را هنگام خزیدن یک وبسایت برای رباتها مشخص میکند. فایل روبوتس یک فایل متنی است که در root وب سایت شما قرار میگیرد. در واقع نام این فایل بطور پیش فرض توسط Crawler گوگل در روت سایت جستجو شده و در صورت وجود، کدها و دستورات این فایل با اولویت بالا در نظر گرفته می شود. موتورهای جستجو در مورد محتوای تکراری حساس هستند ، با این حال، برای خزیدن صفحات محتوای تکراری و نمایش آنها در SERP ها، نیازی به ربات ندارید.
آموزش بازاریابی اینترنتی
سرعت صفحه چیست؟ سرعت صفحه ابزاریست که نشان میدهد محتوای شما با چه سرعتی در… برخی وب سایتهای سریع ممکن است عملکرد بدتری نسبت به وب سایت های کند داشته… این بدافزار به شدت به دنبال ایمیلهای سایت شما هستند تا ارسال تعدادی زیادی هرزنامه و اسپم را آغاز کنند. این دو خط اما اجازه بررسی سایت ما را به صورت استثنا به ربات Googlebot میدهد.
در غیر این صورت به پوشه public_html در هاست خود بروید و یک فایل متنی با نام robots.txt ایجاد کنید و محتوای آن را مطابق با نیازهای خود و مطالب ارائه شده در این مقاله اصلاح کنید. در صورتی که قصد این را دارید که بصورت قابل اطمینان یک صفحه را از نتایج جستجو حذف کنید بایستی از تگ noindex در صفحه مورد نظر استفاده کنید. برای مشاهده این تگ بایستی اجازه بررسی صفحه و مشاهده این تگ را به موتور جستجو بدهید پس بهتر است صفحه را در robots.txt بلاک نکنید.
بعد از انتخاب وبسایت به صفحهای هدایت میشوید که آخرین محتوای فایل Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد. میتوانید فایل را در همین صفحه مجله خبری سئو ویرایش کنید و بعد با زدن دکمه submit صفحهای باز میشود. چرا؟ ربات خزنده موتور جستجوی گوگل (همان Googlebot خودمان!) دارای ویژگی به نام Crawl Budget است.
- در مثال زیر تمامی رباتها از دسترسی به دایرکتوری media منع شدهاند اما در عین حال اجازه دسترسی به یک فایل پی دی اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است.
- به همین دلیل با اعمال دستوراتی در فایل ربات می توان این مورد را اصلاح کرد.
- سپس برای ساخته شدن فایل robots.txt روی دکمه Create New File کلیک کنید.
برای جلوگیری از نمایش صحیح URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت کنید ، باز هم تاکید میکنیم از متای noindex برای حذف کامل استفاده کنید. دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشود.دستورالعملهای موجود در فایلهای robots.txt نمیتوانند رفتار خزنده را در سایت شما اعمال کنند. در حالی که Googlebot و سایر خزندههای وب معتبر از دستورالعملهای فایل robots.txt پیروی میکنند، خزندههای دیگر ممکن است این کار را نکنند.
اهمیت فایل Robots.txt در سئو