به همین علت نیز در ادامه نحوه عملکرد برخی از مهم ترین این موتورهای جستجو را به شما معرفی میکنم. در حقیقت مشکل اصلی شما این است که وب سایت شما در یک هاست ضعیف اجرا می شود و به شکل نادرستی تنظیم شده است. توجه داشته باشید که لزومی ندارد این لیست دقیقا در همان هاستی که فایل robots.txt در آن است قرار داشته باشد.
- در یک فایل Robots.txt با چندین دستورالعمل، میتوان قوانین مجاز به دسترسی و عدم مجاز به دسترسی را ایجاد کرد.
- باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم ربات خاصی را مشخص کنیم.
- رباتهای موتور جستجوی گوگل مهمترین رباتهایی هستند که در اینترنت میچرخند.
- علاوه بر این، چون رباتهای گوگل اجازه کش کردن محتوای داخل این صفحات را هم ندارند، این URLها به صورت زیر در صفحه نتایج گوگل ظاهر میشوند.
اگر فایل robots.txt یک وب سایت ظاهر نشود، ممکن است خالی یا از دایرکتوری ریشه خالی باشد (که در عوض یک خطای 404 را برمی گرداند). گهگاه بررسی کنید تا مطمئن شوید که robots.txt در وب سایت شما یافت می شود. اینجا جایی است که شما با استفاده از فایل Robots.txt از خزیدن ربات های موتور های جستجو در این صفحات جلوگیری می کنید.
ممکن است در ایجاد یک فایل robots.txt مشکلی رخ داده باشد که ندانید این مشکل از کجاست. روش ساده تست آن این است که آدرس فایل robots.txt را بازکنید و چک کنید؛ اما روش حرفه ای تر آن است که از طریق سرچ کنسول، تست بگیرید. برای این کار وارد سرچ کنسول شوید و روی بخش robots.txt Tester کلیک کنید و test را بزند، اگر مشکلی در فایل وجود نداشته باشد دکمه قرمز Test به دکمه allowed تغییر می کند.
مشخص کردن بخشهای مجاز برای رباتها با Allow
پس برای اینکه به آنها بگویید صفحهای را ایندکس نکنند باید از دستور Disallow و برای اینکه بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید. باید بدانید که موتورهای جستوجو رباتهای متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، میتوانیم مجله خبری سئو ربات خاصی را مشخص کنیم. البته میتوانیم تمامی رباتهای موتورهای جستوجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم. اگر بتوانید فایل robots.txt خوبی ایجاد کنید، میتوانید به موتورهای جستجو (به خصوص Googlebot) بگویید که کدام صفحات را مشاهده نکند.
آموزش بازاریابی اینترنتی
هیچ الزامی وجود ندارد که آدرس نقشه سایت را از این راه به رباتهای گوگل نمایش دهید. بهترین راه ارائه نقشه سایت به گوگل استفاده از ابزار سرچ کنسول است. Robot.txt یک فایل متنی است که برای سئو استفاده میشود و حاوی دستوراتی برای روباتهای فهرستکننده موتورهای جستجو است که صفحاتی را مشخص میکند که میتوانند یا نمیتوانند ایندکس شوند. اگر از تگ نوایندکس استفاده کنید مستقیما به رباتهای کراولر اعلام میکنید که این صفحه نباید در نتایج جستجو نمایش داده شود.
یک خط جداگانه برای هر دستورالعمل در فایل robots.txt