یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. نقشههای سایت، رباتهای خزنده را مجبور نمیکنند تا صفحات وب را متفاوت اولویتبندی کنند. پروتکل نقشه سایت به رباتها کمک میکند تا بدانند چه چیزی را در خزیدن خود در یک وبسایت قرار دهند. برای خزیدن در سایتها، موتورهای جستجو پیوندها را دنبال میکنند تا از یک سایت به سایت دیگر بروند، در نهایت، در میان میلیاردها لینک و وبسایت خزیده میشوند.
- برای صدور دسترسی کامل به کل سایت برای رباتهای خزنده دستور Disallow به شکل زیر خواهد بود.
- دستور” / ” بعداز Disallow به ربات گوگل میگوید باید وارد پوشهای در ریشه فایل شوید.
- با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم.
- فایل روبوتکست، یک فایل و یک پل ارتباطی بین رباتهای گوگل و وب سایت ما است، با استفاده از دستورالعمل هایی که در فایل ربات مینویسیم به رباتهای گوگل میفهمانیم که به کدام قسمت سایت ما بخزند و کدام مناطق ممنوعه است.
- جهت ارتباط با کارشناس فنی یا فروش و ارسال داکیومنت پروژه و دریافت مشاوره رایگان از طریق روش های زیر با ما ارتباط داشته باشید.
میتوانید با ادغام دستورالعملهایی که منجر به ایجاد یک فایل robots.txt بزرگتر میشود، اندازه فایل robots.txt را کاهش دهید. به عنوان مثال، مطالب حذف شده را در یک فهرست جداگانه قرار دهید. دستور Allow دقیقا برعکس دستور Disallow عمل می کند؛ این دستور به ربات های موتور جستجوی گوگل اجازه ایندکس کردن مجله خبری سئو را می دهد. در چند مورد نادر که در یک صفحه همزمان از تگهای نوفالو و ربات دیسآلو استفده میشود ممکن است مشکلاتی به وجود بیاید. چرا که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش میدهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر میگذارد.
این کار باعث حذف ضایعات بودجه خزیدن شما می شود و هم شما و هم گوگل را از نگرانی در مورد صفحات نامربوط نجات می دهد. ما همچنین از robots.txt برای جلوگیری از خزیدن صفحات برچسب ایجاد شده توسط وردپرس (برای محدود کردن محتوای تکراری) استفاده می کنیم. در اینجا ما به ربات های گوگل می گوییم که در وب سایت ما در تمام فولدرهای مربوط به تصاویر خزش نکنند.
فایل Robots.txt برای وردپرس
این ربات نسبت به سایر رباتهای جستجوگر، دستورات بیشتری را متوجه میشود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک میکند. در واقع فایل Robots.txt یک قرارداد بین سایت شما و رباتهای خزنده است که به آنها اعلام میکند چه محتوایی قابل بررسی و چه محتوایی غیرقابل بررسی است.
اصطلاحات مربوط به فایل robots.txt
سرور مجازی ویندوز چیست و چه مزیتها و کاربردهایی دارد؟3 بهمن 1401در این مطلب در حالت کلی به سرور مجازی ویندوز پرداختهایم و کیفیت، انواع و کاربردهای مختلف آن را مورد بررسی قرار دادهایم. سرور مجازی ایران چیست و چه ویژگیهایی دارد؟4 بهمن 1401سرور مجازی ایران چیست؟ چرا برای کاربران اینترنت در ایران کاربردی است؟ برای آشنایی کامل با این سرویس محبوب با ما همراه باشید. همچنین، اگر تعداد زیادی صفحه دارید که میخواهید آنها را مسدود کنید، گاهی اوقات بهجای افزودن دستی یک برچسب noindex به هر صفحه، مسدود کردن کل بخش آن سایت با robots.txt آسانتر می باشد. هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید. این قانون به Googlebot میگوید که پوشه تصویر وبسایت شما را ایندکس نکند.
اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. با مشخص کردن یک یا چند فیلتر مختلف، مقالههای جذاب و مناسب خودتان را پیدا کنید. علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید. در صفحه ظاهر شده تنها یک گزینه وجود دارد که می توانید آن را تغییر دهید و این گزینه Crawl rate می باشد. با استفاده از اسلایدری که در کنار آن قرار دارد شما می توانید مقدار دلخواه خود را روی این ویژگی تنظیم کنید. Wildcard را نه تنها می توان برای تعریف user-agent مورد استفاده قرار داد بلکه می توان از آن برای تطبیق لینک ها نیز استفاده کرد.
فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است کدهایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین robots.txt را نامعتبر کند. شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید.
علاوه بر اینها، گوگل رباتهای مختلف دیگری را هم دارد که لیست کامل نام و وظیفه آنها را میتوانید در مقاله “مرور خزندههای موتور جستجو گوگل” که توسط خود گوگل منتشر شده است ببینید. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.
بنده پیشنهاد می کنم برای این کار از افزونه استفاده نکنید و صفحات را با دستور htaccess ریدایرکت کنید تا یک بار برای همیشه این مشکل را حل کنید چون همونطور که گفتم افزونه ها ممکن است در این تعداد صفحات دچار مشکل شوند. مخصوصا اینکه بقیه مقالات اصلا توضیح نداده بودن که چطوری میشه به این فایل دسترسی داشت و کجای هاست هستش. حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید. حالا این فایل را باز کنید و طبق راهنمایی که گفته شد، دستورات لازم را در آن بنویسید. راههای دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی میکنیم.