برای مثال با یک User-agent میتوان مشخص کرد چندین آدرس را معرفی نمود و یا برعکس این کار. این دستور به ربات گوگل میگوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علیرغم اینکه فولدر Photos از دسترس رباتها خارجشده است. دستور Disallow به رباتها میگوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحهای است که میخواهید از دید روباتها پنهان بماند. دستور بالا به این معنا است که “دستورات فایل، برای همه رباتهای جستجوگر یکسان عمل میکند”. از آنجایی که منبع محدودی از خزیدن دارید، میتوانید robots.txt را نصب کنید تا از صفحات اضافی از طریق Googlebot جلوگیری کرده و آنها را به موارد مهم معرفی کنید.
با این تکنیک شما می توانید آدرس صفحات را از دید کاربر و موتور جستجو مخفی نگه دارید. در این فایل طبق دستوراتی که در بالا گفته شد، محدودیت و دسترسی ها را برای ربات ها مشخص کنید. هرچند ما اعتقاد داریم بهترین راه برای معرفی نقشه سایت با استفاده از ابزار سرچ کنسول به گوگل است. پیشنهاد می کنم ببینی این ارور 404 از وردپرس میاد یا از سمت وب سرور.
- در مورد مشکلت فکر نمی کنم robots.txt بتونه بهت کمکی بکنه چون این مشکل باید از یک جای دیگه درست بشه.
- وقتی صحبت از URL های واقعی در فایل Robots.txt میشود، آدرسها و دستورهای کاملاً پیچیدهای در این فایل استفاده میشوند.
- گوگل از این دستور پشتیبانی نمیکند و شما میتوانید فرکانس خزش را در گوگل سرچ کنسول تنظیم کنید.
- در نهایت قسمت allow هم قسمتی است که اجازه می دهد خزنده ها آن ها را دنبال کنند.
به بیانی ساده فایل robots.txt اجازه بررسی سایت و صفحات را به ربات های موتورهای جستجو می دهد. با تایپ دستوراتی در این فایل متنی از دسترسی همه یا تعدادی از ربات های موتورهای جستجو برای بازدید و ایندکس سایت جلوگیری می گردد و یا با مشخص نمودن بخش های غیرضروری سایت، از لیست ایندکس توسط ربات ها خارج می شوند. Robots.txt فایلی است که به رباتهای موتورهای جستجو میگوید که چه صفحات یا بخشهای خاصی از یک وب سایت را بررسی نکنند و مجاز به بررسی چه صفحاتی هستند.
به این دلیل که گوگل خودش به راحتی می تواند کلیه صفحات مهم سایت را پیدا کرده بخزد و فهرست بندی نماید. بله وجود این فایل برای سئو بسیار مهم است و اگر آن را ندارید باید ایجاد کنید. مشخص کنید و از این طریق مقدار بودجه ی خزش سایت خود را بهینه کنید. برای افزودن این کدها یا باید مستقیم کدهای HTML صفحه را ویرایش کنید یا این که از راهای دیگری مثل افزونهها برای نوایندکس کردن استفاده کنید. بعد از این که فایل را ساختید آن را باید در سرور میزبان سایت آپلود کنید. با نگاه کردن به فایلهای robots.txt دیگر سایتها میتوانید از آنها برای سایت خودتان الگو بگیرید.
در برخی شرایط، مشکلاتی برای یکی از صفحات شما پیش می آید که باید آن را برطرف کنید؛ قبل از برطرف کردن حتما باید دستور Disallow را در فایل Robot.txt اجرا کنید. بعد از کلی گشتن تو نت دنبال پیدا کردن مشکلم، شما واقعا یه محتوای کاربردی نوشتید، بقیه یه چیز تکراری رو کپی زدن از هم. در این قسمت پاسخ تعدادی از سوالات متداول در مورد اهمیت robots.txt و نحوه ایجاد آن ارائه شده است. اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید. همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.
بنابراین اگر دستورالعمل هایی را برای همه ربات ها در نظر گرفته اید و به دنبال آن دستورالعمل هایی برای یک ربات خاص مد نظرتان است باید بدانید که تنها این دستورالعمل های خاص توسط موتورهای جستجو مورد توجه قرار می گیرند. در این مثال هیچ یک از موتورهای جستجو از جمله گوگل مجله خبری سئو و بینگ به تمامی پوشه های موجود در مسیر /about/ directory به جز مسیر sub-directory /about/company/ دسترسی ندارند. در مثال بالا هیچ یک از موتورهای جستجو اجازه دسترسی به پوشه /media/ را ندارند به جز فایلی که در مسیر /media/terms-and-conditions.pdf قرار گرفته است.
عامل کاربر چیست؟ «User-agent» به چه معناست؟
حال که فایل robots.txt خود را ایجاد کردهاید، زمان آن است که از درستی عملکرد آن اطمینان یابید. گوگل در ابزار سرچ کنسول، ابزاری رایگان به نام robots.txt tester را در دسترس وبمسترها قرار داده است.برای آزمایش فایل خود ابتدا وارد اکانت کنسول جستجوی خود شوید. موتورهای جستجو در مورد محتوای تکراری حساس هستند ، با این حال، برای خزیدن صفحات محتوای تکراری و نمایش آنها در SERP ها، نیازی به ربات ندارید. با برخی از خدمات میزبانی وب سایت مانند وردپرس یا Wix، تنظیمات خزنده اغلب برای شما انجام می شود.
چه فایل هایی نباید Index بشوند؟