در یک فایل robots.txt با چندین دستورالعمل کاربر، هر قانون غیرمجاز یا مجاز فقط برای عاملهای کاربر مشخص شده در آن مجموعه جدا شده از خط خاص اعمال میشود. اگر فایل robots.txt حاوی هیچ دستورالعملی نباشد، به صورت پیشفرض برای خزندهها اجازه برخی کنجکاوی در وبسایت را ارائه میدهد. برای اکثر مشاغل، چه کوچک چه بزرگ، داشتن یک فروشگاه آنلاین الزامی است و مهمترین گام، سرمایه گذاری در طراحی فروشگاه اینترنتی حرفه ای است. تعرفه طراحی سایت فروشگاهی بسیار متفاوت است اما با هر هزینه ای باید انتظاراتی متناسب داشته باشید.
چگونه فایل ربات robots.txt بسازیم؟
موتور جستجوی گوگل تنها اجازه دسترسی به /not-launched-yet/ را ندارد اما اجازه دسترسی به /secret/ و /test/ برای آن فراهم شده است. به عنوان مثال در موتورهای جستجو گوگل و بینگ در صورتی که تعداد کاراکترهای استفاده شده در دستورالعمل Allow بیشتر باشد اولویت بیشتری نسبت به دستورالعمل Disallow خواهد داشت. توجه داشته باشید که تفسیر آنها از این دستورالعمل اندکی متفاوت می باشد و به همین علت نیز بهتر است که قبل از استفاده حتما اسناد موجود در وب سایت این موتورهای جستجو را مطالعه کنید. اگر موتورهای جستجو قادر باشند تا یک سرور را overload کنند معمولا استفاده از این دستورالعمل در فایل robots.txt یک راه حل موقت برای حل این مشکل خواهد بود. حتی اگر شما در حال حاضر نقشه XML سایت خود را در کنسول جستجوی گوگل یا ابزارهای Webmaster موتور جستجوی بینگ نیز ارسال کرده اید باز هم به شما پیشنهاد می کنیم حتما از این قابلیت بهره مند شوید. این دستورالعمل در واقع مسیر دسترسی را برای موتورهای جستجو تعریف می کند و در صورتی که هیچ مسیری مشخص نشده باشد به طور کامل توسط گوگل و بینگ نادیده گرفته می شود.
فایل robots.txt برای پیاده سازی بخش های ممنوع سایت برای موتورهای جستجو مورد استفاده قرار می گیرد و یک استاندارد برای انجام این کار به شمار می آید. با استفاده از فایل robots.txt می توان نکات مفیدی در خصوص چگونگی عملیات خزیدن در وب سایت خود به موتورهای جستجو ارائه دهید. گوگل در این باره می گوید که تگ indexifembedded “به یک مشکل رایج می پردازد. این مشکل به طور کلی ناشران رسانه ها را نیز تحت تاثیر قرار خواهد داد. در حالی که در برخی مواقع مشاهده خواهید کرد که متقاضیان بخواهند محتوای خود را در زمانی مشخص در صفحات شخص ثالث جایگذاری کنند تا گوگل به ایندکس صفحات بپردازد. از اینرو لزوما نیاز نخواهد بود که صفحات رسانه ای خود را به تنهایی مورد ایندکس گوگل قرار دهید.
ربات گوگل یا باید به صورت مستقیم صفحه را دریافت و بررسی کند (معمولاً به کم نقشه سایت) یا باید از لینکهای دیگری که از صفحهها و سایتهای دیگر به آن صفحه دادهاند آن را پیدا و بررسی کند. رباتهای موتور جستجوی گوگل مهمترین رباتهایی هستند که در اینترنت میچرخند. این رباتها هر روز چندین بار صفحههای سایت شما را بررسی میکنند. اگر وبسایت بزرگی داشته باشید، امکان دارد رباتهای گوگل تا چند ده هزار بار در روز صفحههای سایت را بررسی کنند. حتی اگر فایل robots.txt برای این ساخته شده باشد که به موتورهای جستجو بگوییم که در کدام یک از صفحات وب سایت ما اجازه خزیدن ندارند باز هم می توان از این فایل برای هدایت موتورهای جستجو به نقشه XML سایت استفاده کرد.
داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو می توانند باعث سردرگم شدن آنها شود. حتما باید برای هر موتور جستجو یک گروه از دستورالعمل ها را تعریف کنید. به همین علت نیز در ادامه نحوه عملکرد برخی از مهم ترین این موتورهای جستجو را به شما معرفی میکنم. توجه داشته مجله خبری سئو باشید که لزومی ندارد این لیست دقیقا در همان هاستی که فایل robots.txt در آن است قرار داشته باشد. این قابلیت در موتورهای جستجویی مانند گوگل، بینگ، یاهو و Ask پشتیبانی می شود. Wildcard امروزه توسط موتورهای جستجویی مانند گوگل، یاهو، بینگ و Ask پشتیبانی می شود.
- در صورتی که سایت شما دارای ساب دامین است لازم است هریک از این ساب دامینها دارای فایل robots.txt مختص خود باشند.
- اجازه دهید برای درک آسانتر فایل Robots.txt از یک مثال ساده شروع کنیم.
- با استفاده از گوگل وبمستر یا همان کنسول جستجوی گوگل شما می توانید بررسی کنید که چه تعداد و چه صفحاتی از سایتتان فهرست بندی شده اند.
- گوگل رباتهایی دارد که عکس را جستوجو میکنند و رباتهایی نیز دارند که به سراغ محتواها میروند.
معمولا یکبار قوانین و محدودیتهای فایل robot مشخص میشود و تا زمانی که محدودیتهای این فایل مشکل ساز نشدهاند نیازی به اصلاح و تغییر فایل robots.txt نیست. بعد از انتخاب، صفحهای باز میشود که در آن گوگل آخرین فایل ربات پیدا شده از سایتتان را به شما نمایش میدهد. درصورتی که شما اقدام به ایجاد یک فایل حقیقی به نام robots.txt در ریشه هاست سایت خودتان کنید، فایل ربات مجازی به صورت خودکار از کار میافتد و فایل حقیقی آپلود شده توسط شما جایگزین آن خواهد شد. همچنین برخی از دستورات انحصاری رباتهای خاص هم برای بسیاری از رباتها، ناشناخته و غیر قابل درک است و به همین خاطر ممکن است برخی رباتها از این دستورات پیروی کنند و برخی دیگر به آنها توجهی نکنند. دقیقا همانطوری که حرف زدن به زبان چینی برای بسیاری از مردم جهان کاملا غیر قابل مفهوم و درک است. قبل از اینکه بخواهیم در فایل robots.txt سایتمان تغییراتی ایجاد کنیم، لازم است که با محدودیتهای این فایل آشنا باشیم.
در صورتی که هیچ مسیری در این بخش تعریف نشده باشد این دستورالعمل به طور کامل نادیده گرفته می شود. در واقع این فیلتر همان محتوایی را تولید می کند که در صفحات دیگر وجود داشت. یکی از مواردی که متخصصین بایستی در نظر بگیرند بررسی چک لیست کلیک پذیری یکی… دگردیسی، نخستین پلتفرم آموزش آنلاین دیجیتال مارکتینگ در ایران است که با هدف ایجاد مرجعی کامل از آموزشهای تخصصی دیجیتال مارکتینگ و حوزههای مرتبط ایجاد شده است.
مثال هایی از ارجاع نقشه سایت در فایل robots.txt