فایل robots txt چیست؟ آموزش ساخت فایل ربات سایت-سئو

یک فایلی هست به نام robots.txt، می گذاری اش در روت هاستت و این جوری به آنها دستور می دهی. در این فایل اول با user agent مشخص می کنی که با کدام ربات داری صحبت می کنی و می خواهی به کی دستور بدهی. بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. نقشه‌های سایت، ربات‌های خزنده را مجبور نمی‌کنند تا صفحات وب را متفاوت اولویت‌بندی کنند. پروتکل نقشه سایت به ربات‌ها کمک می‌کند تا بدانند چه چیزی را در خزیدن خود در یک وب‌سایت قرار دهند. برای خزیدن در سایت‌ها، موتورهای جستجو پیوندها را دنبال می‌کنند تا از یک سایت به سایت دیگر بروند، در نهایت، در میان میلیاردها لینک و وب‌سایت خزیده می‌شوند.

  • برای صدور دسترسی کامل به کل سایت برای ربات‌های خزنده دستور Disallow به شکل زیر خواهد بود.
  • دستور” / ” بعداز Disallow به ربات گوگل می‌گوید باید وارد پوشه‌ای در ریشه فایل شوید.
  • با اینکار در حقیقت اعلام می‌کنیم که تمام ربات‌ها مد نظر ما هستند و تمام ربات‌ها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک ربات‌ها را بنویسیم.
  • فایل روبوتکست، یک فایل و یک پل ارتباطی بین ربات‌های گوگل و وب سایت ما است، با استفاده از دستورالعمل هایی که در فایل ربات می‌نویسیم به ربات‌های گوگل می‌فهمانیم که به کدام قسمت سایت ما بخزند و کدام مناطق ممنوعه است.
  • جهت ارتباط با کارشناس فنی یا فروش و ارسال داکیومنت پروژه و دریافت مشاوره رایگان از طریق روش های زیر با ما ارتباط داشته باشید.
می‌توانید با ادغام دستورالعمل‌هایی که منجر به ایجاد یک فایل robots.txt بزرگ‌تر می‌شود، اندازه فایل robots.txt را کاهش دهید. به عنوان مثال، مطالب حذف شده را در یک فهرست جداگانه قرار دهید. دستور Allow دقیقا برعکس دستور Disallow عمل می کند؛ این دستور به ربات های موتور جستجوی گوگل اجازه ایندکس کردن مجله خبری سئو را می دهد. در چند مورد نادر که در یک صفحه همزمان از تگ‌های نوفالو و ربات دیس‌آلو استفده می‌شود ممکن است مشکلاتی به وجود بیاید. چرا که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش می‌دهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر می‌گذارد.

این کار باعث حذف ضایعات بودجه خزیدن شما می شود و هم شما و هم گوگل را از نگرانی در مورد صفحات نامربوط نجات می دهد. ما همچنین از robots.txt برای جلوگیری از خزیدن صفحات برچسب ایجاد شده توسط وردپرس (برای محدود کردن محتوای تکراری) استفاده می کنیم. در اینجا ما به ربات های گوگل می گوییم که در وب سایت ما در تمام فولدرهای مربوط به تصاویر خزش نکنند.

فایل Robots.txt برای وردپرس

این ربات نسبت به سایر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند. در واقع فایل Robots.txt یک قرارداد بین سایت شما و ربات‌های خزنده است که به آن‌ها اعلام می‌کند چه محتوایی قابل بررسی و چه محتوایی غیرقابل بررسی است.

اصطلاحات مربوط به فایل robots.txt

سرور مجازی ویندوز چیست و چه مزیت‌ها و کاربردهایی دارد؟3 بهمن 1401در این مطلب در حالت کلی به سرور مجازی ویندوز پرداخته‌ایم و کیفیت، انواع و کاربردهای مختلف آن را مورد بررسی قرار داده‌ایم. سرور مجازی ایران چیست و چه ویژگی‌هایی دارد؟4 بهمن 1401سرور مجازی ایران چیست؟ چرا برای کاربران اینترنت در ایران کاربردی است؟ برای آشنایی کامل با این سرویس محبوب با ما همراه باشید. همچنین، اگر تعداد زیادی صفحه دارید که می‌خواهید آن‌ها را مسدود کنید، گاهی اوقات به‌جای افزودن دستی یک برچسب noindex به هر صفحه، مسدود کردن کل بخش آن سایت با robots.txt آسان‌تر می باشد. هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید. این قانون به Googlebot می‌گوید که پوشه تصویر وب‌سایت شما را ایندکس نکند.

اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. با مشخص کردن یک یا چند فیلتر مختلف، مقاله‌های جذاب و مناسب خودتان را پیدا کنید. علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید. در صفحه ظاهر شده تنها یک گزینه وجود دارد که می توانید آن را تغییر دهید و این گزینه Crawl rate می باشد. با استفاده از اسلایدری که در کنار آن قرار دارد شما می توانید مقدار دلخواه خود را روی این ویژگی تنظیم کنید. Wildcard را نه تنها می توان برای تعریف user-agent مورد استفاده قرار داد بلکه می توان از آن برای تطبیق لینک ها نیز استفاده کرد.

فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است کدهایی را که بخشی از محدوده UTF-8 نیستند نادیده بگیرد و قوانین robots.txt را نامعتبر کند. شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید.

علاوه بر این‌ها، گوگل ربات‌های مختلف دیگری را هم دارد که لیست کامل نام و وظیفه آن‌ها را می‌توانید در مقاله “مرور خزنده‌های موتور جستجو گوگل” که توسط خود گوگل منتشر شده است ببینید. کاربرد و فایده اصلی آن این است که به افراد متخصص در زمینه سئو این دسترسی را می دهد که به طور همزمان و بدون اینکه نیاز به تغییرات در سورس باشد به راحتی تغییرات لازم را اعمال نمایند و از ایندکس صفحه جلوگیری کنند. در ادامه به توضیح برخی از دستورات متداول در این فایل می پردازیم.

بنده پیشنهاد می کنم برای این کار از افزونه استفاده نکنید و صفحات را با دستور htaccess ریدایرکت کنید تا یک بار برای همیشه این مشکل را حل کنید چون همونطور که گفتم افزونه ها ممکن است در این تعداد صفحات دچار مشکل شوند. مخصوصا اینکه بقیه مقالات اصلا توضیح نداده بودن که چطوری میشه به این فایل دسترسی داشت و کجای هاست هستش. حالا باید این فایل را در سرور میزبان به جای فایل قبلی قرار دهید. حالا این فایل را باز کنید و طبق راهنمایی که گفته شد، دستورات لازم را در آن بنویسید. راه‌های دیگر جایگزین برای حذف صفحه از نتایج جستجئی گوگل را در ادامه معرفی می‌کنیم.

منتشر شده در
دسته‌بندی شده در اخبار