فایل robots txt چیست؟ راهنمای جامع فایل ربات سایت دگردیسی-سئو

به این دلیل که گوگل خودش به راحتی می تواند کلیه صفحات مهم سایت را پیدا کرده بخزد و فهرست بندی نماید. بله وجود این فایل برای سئو بسیار مهم است و اگر آن را ندارید باید ایجاد کنید. مشخص کنید و از این طریق مقدار بودجه ی خزش سایت خود را بهینه کنید. برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از را‌های دیگری مثل افزونه‌ها برای نوایندکس کردن استفاده کنید. بعد از این که فایل را ساختید آن را باید در سرور میزبان سایت آپلود کنید. با نگاه کردن به فایل‌های robots.txt دیگر سایت‌ها می‌توانید از آنها برای سایت خودتان الگو بگیرید.

بنابراین اگر دستورالعمل هایی را برای همه ربات ها در نظر گرفته اید و به دنبال آن دستورالعمل هایی برای یک ربات خاص مد نظرتان است باید بدانید که تنها این دستورالعمل های خاص توسط موتورهای جستجو مورد توجه قرار می گیرند. در این مثال هیچ یک از موتورهای جستجو از جمله گوگل مجله خبری سئو و بینگ به تمامی پوشه های موجود در مسیر /about/ directory به جز مسیر sub-directory /about/company/ دسترسی ندارند. در مثال بالا هیچ یک از موتورهای جستجو اجازه دسترسی به پوشه /media/ را ندارند به جز فایلی که در مسیر /media/terms-and-conditions.pdf قرار گرفته است.

عامل کاربر چیست؟ «User-agent» به چه معناست؟

برای مثال با یک User-agent می‌توان مشخص کرد چندین آدرس را معرفی نمود و یا برعکس این کار. این دستور به ربات گوگل می‌گوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علی‌رغم اینکه فولدر Photos از دسترس ربات‌ها خارج‌شده است. دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحه‌ای است که می‌خواهید از دید روبات‌ها پنهان بماند. دستور بالا به این معنا است که “دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌کند”. از آنجایی که منبع محدودی از خزیدن دارید، می‌توانید robots.txt را نصب کنید تا از صفحات اضافی از طریق Googlebot جلوگیری کرده و آنها را به موارد مهم معرفی کنید.

با این تکنیک شما می توانید آدرس صفحات را از دید کاربر و موتور جستجو مخفی نگه دارید. در این فایل طبق دستوراتی که در بالا گفته شد، محدودیت و دسترسی ها را برای ربات ها مشخص کنید. هرچند ما اعتقاد داریم بهترین راه برای معرفی نقشه سایت با استفاده از ابزار سرچ کنسول به گوگل است. پیشنهاد می کنم ببینی این ارور 404 از وردپرس میاد یا از سمت وب سرور.

  • در مورد مشکلت فکر نمی کنم robots.txt بتونه بهت کمکی بکنه چون این مشکل باید از یک جای دیگه درست بشه.
  • وقتی صحبت از URL های واقعی در فایل Robots.txt می‌شود، آدرس‌ها و دستورهای کاملاً پیچیده‌ای در این فایل استفاده می‌شوند.
  • گوگل از این دستور پشتیبانی نمی‌کند و شما می‌توانید فرکانس خزش را در گوگل سرچ کنسول تنظیم کنید.
  • در نهایت قسمت allow هم قسمتی است که اجازه می دهد خزنده ها آن ها را دنبال کنند.

به بیانی ساده فایل robots.txt اجازه بررسی سایت و صفحات را به ربات های موتورهای جستجو می دهد. با تایپ دستوراتی در این فایل متنی از دسترسی همه یا تعدادی از ربات های موتورهای جستجو برای بازدید و ایندکس سایت جلوگیری می گردد و یا با مشخص نمودن بخش های غیرضروری سایت، از لیست ایندکس توسط ربات ها خارج می شوند. Robots.txt فایلی است که به ربات‌های موتورهای جستجو می‌گوید که چه صفحات یا بخش‌های خاصی از یک وب سایت را بررسی نکنند و مجاز به بررسی چه صفحاتی هستند.

حال که فایل robots.txt خود را ایجاد کرده‌اید، زمان آن است که از درستی عملکرد آن اطمینان یابید. گوگل در ابزار سرچ کنسول، ابزاری رایگان به نام robots.txt tester را در دسترس وب‌مسترها قرار داده است.برای آزمایش فایل خود ابتدا وارد اکانت کنسول جستجوی خود شوید. موتورهای جستجو در مورد محتوای تکراری حساس هستند ، با این حال، برای خزیدن صفحات محتوای تکراری و نمایش آنها در SERP ها، نیازی به ربات ندارید. با برخی از خدمات میزبانی وب سایت مانند وردپرس یا Wix، تنظیمات خزنده اغلب برای شما انجام می شود.

چه فایل هایی نباید Index بشوند؟

در برخی شرایط، مشکلاتی برای یکی از صفحات شما پیش می آید که باید آن را برطرف کنید؛ قبل از برطرف کردن حتما باید دستور Disallow را در فایل Robot.txt اجرا کنید. بعد از کلی گشتن تو نت دنبال پیدا کردن مشکلم، شما واقعا یه محتوای کاربردی نوشتید، بقیه یه چیز تکراری رو کپی زدن از هم. در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است. اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید. همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.

منتشر شده در
دسته‌بندی شده در اخبار