فایل Robots.txt چیست و چه کاری انجام می دهد؟

بیایید با یک مثال ساده شروع کنیم تا درک فایل Robots.txt راحت تر شود.

فرض کنید ابتدا برای انجام یک کار اداری وارد یک سازمان بزرگ می شوید. شما هیچ جایی نمی دانید. مدیران این سازمان همچنین می دانند که مشتری ها همه جا را نمی شناسند ، بنابراین یک شمارنده اطلاعات در کنار ورودی ایجاد کرده اند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشته اند. اگر این افراد راهنما و نگهبان نباشند ، کل سازمان دچار هرج و مرج می شود. همه برای انجام کارها از راهرو بالا و پایین می شوند و کارمندان نمی توانند کارها را به درستی انجام دهند.

فایل Robots.txt در وب سایت ها همان راهنماها و نگهبانان را دارد ، اما نه برای کاربرانی که وارد سایت می شوند ، بلکه برای ربات هایی است که می خواهند سایت یا هر چیز دیگری را در قسمت های مختلف سایت مرور کنند.

ربات ؟!

خب بله. فقط افرادی نیستند که از سایت شما بازدید می کنند. ربات هایی وجود دارند که به دلایل مختلف از سایت شما بازدید می کنند.

Robots نرم افزاری است که به طور خودکار صفحات مختلف را باز و بررسی می کند.

خزنده های موتور جستجوی گوگل مهمترین خزنده های اینترنت هستند. این ربات ها چندین بار در روز صفحات سایت شما را بررسی می کنند. اگر وب سایت بزرگی دارید ، ربات های گوگل می توانند صفحات سایت را تا ده ها هزار بار در روز بررسی کنند.

هر یک از این روبات ها کار خاصی را انجام می دهند. به عنوان مثال ، مهمترین ربات گوگل یا Googlebot یافتن صفحات جدید در اینترنت و بارگیری آنها برای بررسی بیشتر با رتبه بندی الگوریتم ها است. بنابراین ربات ها نه تنها برای سایت شما ایمن نیستند ، بلکه بسیار مورد استقبال قرار می گیرند.

اما مراقب باشید که این ربات ها به زبان انسان تبدیل نشوند! یعنی از پایین به سایت نگاه می کنند و از سر تا پا به آن نگاه می کنند. بعضی اوقات ربات های گوگل چیزهایی را که نمی خواهیم کسی ببیند برمی دارند ، آنها را در سرورهای Google ذخیره می کنند و به جهانیان نشان می دهند. بنابراین باید راهی برای جلوگیری از آنها وجود داشته باشد.

خوشبختانه ، ما می توانیم دسترسی ربات ها به صفحات یا پرونده ها را کنترل کنیم.

با نوشتن دستورات ساده در فایلی به نام Robots.txt ، گفتن اینکه اجازه ورود به بخشی از سایت را ندارند یا دادن دستورات خاص می توانید از ورود ربات های ساده به قسمت های سایت جلوگیری کنید ، تا سرور میزبان وب شما ربات ها را اذیت نکند. ، و همچنین وب سایت شما. بهینه سازی سایت سئو.

در ادامه می خواهیم با جزئیات کامل در مورد این پرونده مهم صحبت کنیم. بیایید مرحله به مرحله پیش برویم تا ببینیم چگونه می توان از پرونده Robots.txt استفاده کرد. چگونه می توان ربات ها را محدود کرد ، چگونه از ایندکس شدن صفحات جلوگیری کرد و در آخر یک فایل عالی Robots.txt ایجاد کرد.

ابتدا ببینیم این فایل Robots.txt دقیقاً چیست و چه کاری انجام می دهد.

فایل Robots.txt چیست؟

پرونده Robots.txt مانند مجوز ربات ها است. وقتی ربات ها می خواهند صفحات سایت را مرور کنند ، ابتدا فایل Robots.txt را می خوانند. در این فایل ، با چند دستور ساده مشخص می کنیم که کدام ربات مجاز به بررسی صفحات است و چه صفحاتی را نباید بررسی کند.

مانند تصویر زیر که ما اجازه دسترسی به پوشه ای به نام عکس را نمی دهیم و اجازه دسترسی به صفحه ای به نام files.html را نداریم.

همانطور که گفتیم ، مهمترین رباتهای موجود در اینترنت رباتهای موتور جستجوی گوگل هستند ، بنابراین در ادامه مقاله ، هر جا که می گوییم ربات ، منظور ما ربات های گوگل است.

البته ، ربات های دیگر به ارائه دهندگان خدمات اینترنتی مختلف تعلق دارند. پس از خواندن این مقاله ، می توانید هر نوع ربات را فقط با دانستن نام آن محدود و کنترل کنید.

چرا باید یک پرونده Robots.txt داشته باشیم؟

دارندگان وب سایت و وب مسترها می توانند از راه های مختلف ورود ربات ها به وب سایت را کنترل کنند. دلایل مختلفی برای کنترل وجود دارد.

به عنوان مثال ، همه صفحات یک سایت از اهمیت یکسانی برخوردار نیستند. اکثر مدیران وب سایت ها علاقه ندارند صفحه مدیریت وب سایت خود را در موتورهای جستجو ایندکس کرده و در دسترس عموم قرار دهند ، یا اینکه برخی از صفحات سایت آنها محتوای قابل قبولی ندارند و بنابراین ترجیح می دهند این صفحات توسط ربات ها بررسی نشوند. یا اگر وب سایتی دارید که هزاران صفحه دارد و از کل سایت بازدید زیادی می شود ، احتمالاً نمی خواهید از منابع سرور شما (پهنای باند ، قدرت پردازش و …) برای بازدیدهای متوالی ربات ها استفاده شود.

اینجاست که فایل Robots.txt وارد عمل می شود.

در حال حاضر ، هدف اصلی پرونده ربات محدود کردن درخواستهای بیش از حد برای بازدید از صفحات وب است. این بدان معناست که اگر روبات ها بخواهند روزی ششصد صفحه را بررسی کنند ، با نوشتن یک دستور ساده در پرونده Robot جلوی آنها را خواهیم گرفت تا بفهمیم رئیس کیست!

آیا می توان با استفاده از یک فایل Robots.txt صفحه ای را از نتایج جستجو حذف کرد؟

تا همین اواخر ، اگر می خواستید یک صفحه کاملاً از دید ربات های گوگل دور نمانید و حتی در نتایج جستجو نیز نشان داده نشود ، با دستور noindex در همان پرونده امکان پذیر بود ، اما اکنون داستان کمی پیچیده تر است. این فایل برای دور نگه داشتن صفحات از موتور جستجوی Google کمک چندانی به حذف صفحه از نتایج جستجو نمی کند.

گوگل گفت که برای حذف صفحات از نتایج جستجو ، بهتر است از روش های دیگر به غیر از پرونده Robots.txt استفاده کنید. البته اکنون می توان از این پرونده برای استخراج پرونده هایی مانند تصاویر ، ویدئو یا صدا از نتایج جستجو استفاده کرد ، اما برای صفحات وب مناسب نیست.

در اینجا چند روش جایگزین برای حذف صفحه از نتایج جستجوی Google وجود دارد.

آشنایی با ربات های گوگل

Google تعدادی خزنده دارد که به طور خودکار وب سایت ها را اسکن کرده و با دنبال کردن پیوندها از صفحه ای به صفحه دیگر ، صفحات را پیدا می کنند.

در زیر لیستی از مهمترین رباتهای Google وجود دارد که باید بدانید:

AdSense – رباتی برای مرور صفحات برای نمایش تبلیغات مرتبط
Googlebot Image – روباتی که تصاویر را پیدا و بررسی می کند
Googlebot News – رباتی برای نمایه سازی سایت های خبری
Googlebot Video – Googlebot Video
Googlebot – این ربات صفحات وب را شناسایی و نمایه می کند. دارای دو نوع دسکتاپ و گوشی هوشمند است

هر یک از این ربات ها به طور مداوم صفحات وب را اسکن می کنند. در صورت نیاز می توانید هر یک از ربات ها را محدود کنید.

تعداد رباتهای خزنده ای که هر از گاهی به سایت شما مراجعه می کنند به عوامل مختلفی بستگی دارد. هرچه محتوای وب سایت شما در طول روز بیشتر باشد و هرچه اهمیت سایت بیشتر شود ، تعداد خزنده های بیشتری به سایت شما می آیند. به عنوان مثال ، در وب سایت های خبری که دائماً اخبار خود را به روز می کنند ، ربات ها با سرعت بیشتری صفحات را خزیده و فهرست می کنند.

در بخش جستجوی کنسول نامیده می شود

چرا پرونده Robots.txt مهم است؟

این پرونده به چند دلیل مهم است:

1. ترافیک ربات ها به وب سایت را مدیریت کنید

مدیریت ترافیک ربات ها از آن جهت مهم است که سرور میزبان وب شما نیازی به پردازش و بارگیری صفحات ربات ها ندارد. از طرف دیگر ، بیشتر سرورها یا میزبان های وب از نظر پهنای باند و ترافیک محدود هستند. به همین دلیل ، مصرف ترافیک برای روبات ها مقرون به صرفه نیست.

۲. از نمایش صفحات یا پرونده ها در نتایج جستجوی Google جلوگیری کنید

اگر در پرونده Robots مشخص کنید که ربات های گوگل اجازه دسترسی به صفحات را ندارند ، این صفحات به هیچ وجه بررسی نمی شوند ، اما هیچ تضمینی وجود ندارد که این صفحه در نتایج جستجوی Google نشان داده نشود. رباتها می توانند صفحه را از طریق پیوندهای ارائه شده به همان صفحه و با کمک همان پیوند لنگر متن نمایه کنند. در حال حاضر بهترین روش برای حذف یک صفحه از نتایج جستجو افزودن دستور noindex در بالای صفحه است. اگر از وردپرس استفاده می کنید ، افزونه هایی برای این کار وجود دارد ، در غیر این صورت باید از طراحی وب سایت خود بخواهید تا توانایی افزودن این کدها یا دستورات را به هدر هر صفحه ارائه دهد.

در بخش های بعدی ، ما بیشتر درباره حذف صفحه از نتایج جستجو توضیح خواهیم داد.

3. مدیریت بودجه خزیدن

هرچه تعداد صفحات وب سایت شما بیشتر باشد ، رباتهای موتور جستجو زمان بیشتری برای جستجوی صفحات و فهرست آنها خواهند داشت. این مدت طولانی بر روی رتبه بندی سایت شما در نتایج جستجو تأثیر منفی خواهد گذاشت.

چرا؟ خزنده موتور جستجوی گوگل (Googlebot ما!) از ویژگی هایی به نام Crawl udget برخوردار است.

Crawl udget در واقع تعداد صفحات وب سایت شماست که Google در یک روز خزیده و اسکن می کند. بودجه یا تعداد صفحات مشاهده شده توسط Googlebot با توجه به اندازه وب سایت (تعداد صفحات) ، سلامت آن (بدون خطا) و تعداد لینک های بازگشت به سایت شما تعیین می شود.

بودجه Crawl به دو قسمت تقسیم می شود. قسمت اول Crawl Rate Limit و قسمت دوم Crawl Demand است. بنابراین بیایید ببینیم که هر یک به چه معناست و چه تاثیری دارند

.

Crawl Rate Limit

ربات گوگل (Googlebot) به گونه ای طراحی شده است که شهروند خوبی برای دنیای اینترنت است. خزیدن اولویت اصلی این ربات است ، بنابراین طوری طراحی شده است که تجربه کاربر بازدید کنندگان سایت را تحت تأثیر قرار ندهد. این بهینه سازی Crawl Rate Limit نامیده می شود که تعداد صفحات خزیدن در روز را محدود می کند تا تجربه کاربری بهتری فراهم شود.

به طور خلاصه ، Crawl Rate Limit نشان دهنده تعداد خزشهای همزمان ربات گوگل با یک سایت و همچنین تعداد دفعاتی است که خزیدن خزیدن در وب سایت را متوقف کرده است. نرخ خزش می تواند بر اساس عوامل مختلفی تغییر کند:

Crawl Health: اگر وب سایتی سریع باشد و بتواند سریع به سیگنالها پاسخ دهد ، نرخ Crawl مطمئناً افزایش می یابد ، اما اگر وب سایت شما کند باشد یا خطاهای سرور هنگام Crawl رخ دهد ، میزان خزیدن Google کاهش می یابد.
محدود کردن کنسول جستجوی Google: دارندگان وب سایت می توانند میزان خزیدن وب سایت خود را کاهش دهند.

بنابراین ، آیا هنوز بودجه خزیدن را به یاد دارید؟ قسمت دوم Crawl Demand نام دارد. Google Crawl Demand را به شرح زیر توضیح می دهد:

خزیدن تقاضا

حتی اگر Crawl Google به Crawl Rate تعیین شده نرسد ، اگر تقاضایی برای نمایه سازی وجود نداشته باشد ، فعالیت کمی از Crawl Google مشاهده خواهید کرد. دو عاملی که در تعیین تقاضای خزنده نقش مهمی دارند:

محبوبیت: این بدان معنی است که محبوب ترین URL ها در اینترنت بیش از سایر URL ها خزیده می شوند تا در فهرست Google جدیدتر باشند.
بیات باشید! (قدیمی): Google برای جلوگیری از منسوخ شدن URL ها ، URL ها را ذخیره می کند.

علاوه بر این ، رویدادهایی که روی کل سایت تأثیر می گذارد ، مانند موقعیت وب سایت ، ممکن است Crawl Demand را برای فهرست بندی مجدد وب سایت به آدرس جدید افزایش دهد.

در آخر ، ما با بررسی نرخ Crawl و Crawl Demand مقدار Crawl udget یک وب سایت را تعریف می کنیم. در واقع ، Crawl udget تعدادی از URL هایی است که ربات گوگل می خواهد و می تواند فهرست بندی کند.

خوب ، بیایید تعریف Google از Crawl udget را یک بار دیگر بخوانیم:

Crawl udget تعدادی از URL هایی است که ربات گوگل می خواهد و می تواند فهرست بندی کند

مطمئناً شما همچنین می خواهید بودجه Google Crawl از سایت شما بیشترین استفاده را ببرد. به عبارت دیگر ، خزنده گوگل باید اطلاعات بیشتر و بیشتری از ارزشمندترین و مهمترین صفحات شما کسب کند.

البته ، گوگل می گوید عواملی وجود دارد که بر خزیدن و نمایه سازی سایت تأثیر منفی می گذارد:

محتوای تکراری در سایت
وجود صفحات خطا
از شناسه جلسه استفاده کنید
ناوبری سایت ضعیف است
صفحات هک شده در وب سایت
محتوای ناخواسته و هرزنامه

اتلاف منابع سرور برای این صفحات بودجه Crawl شما را از بین می برد. به این ترتیب صفحات ارزشمند و مهمی که واقعاً نیاز به نمایه سازی دارند ، دیرتر به نتایج جستجو می رسند.

خوب ، بیایید به موضوع اصلی خود ، پرونده robots.txt برگردیم.

اگر می توانید یک فایل robots.txt خوب ایجاد کنید ، می توانید به موتورهای جستجو (به ویژه Googlebot) بگویید کدام صفحات را مشاهده نکنند. با این کار شما به ربات ها می گویید که کدام صفحات در اولویت شما نیستند. مطمئناً نمی خواهید خزنده گوگل سرورهای شما را برای مشاهده و فهرست بندی مطالب تکراری و کم ارزش اشغال کند.

با استفاده صحیح از فایل robots.txt ، می توانید به ربات های جستجو بگویید که از بودجه Crawl سایت خود به درستی استفاده کنند. این یک ویژگی است که اهمیت فایل robots.txt در سئو را دو چندان می کند.

توجه داشته باشید که اگر سایت شما دارای پرونده Robots.txt نباشد ، ربات های گوگل وظیفه خود را انجام می دهند. وقتی ربات می خواهد وب سایتی را بررسی کند. اگر چنین پرونده ای وجود نداشته باشد ، ربات بدون محدودیت از تمام بخشهای موجود بازدید می کند.

بیایید ببینیم چگونه از پرونده Robots استفاده کنیم. اما قبل از اینکه ما محدودیت ها را بگوییم ، پس نگویید چرا از ابتدا نگفتی!

محدودیت های دستور Robots.txt

پرونده Robots محدودیت هایی دارد که باید بدانید.

1. دستوراتی که در پرونده Robots.txt استفاده می شود برای همه ربات های موتور جستجو یکسان نیست. بستگی به دستورالعمل های موتور جستجو دارد که آیا روبات های موتور جستجو از این دستورالعمل ها پیروی می کنند. این به این معنی است که ربات های گوگل ممکن است این دستورات را اجرا کنند ، اما موتورهای جستجوی دیگر مانند Yandex یا ing از این دستورات پیروی نمی کنند.

بهتر است دستورالعمل های هر موتور جستجو را بخوانید تا مطمئن شوید دستوراتی که می نویسید برای همه موتورهای جستجو کار می کنند.

۲. برای هر ربات این امکان وجود دارد که فرامین را متفاوت ببیند. این بدان معنی است که دو ربات متعلق به یک موتور جستجو یا هر سرویس ممکن است از یک دستور پیروی کنند و فرمان دیگر نه.

3. اگر اجازه ندهیم صفحه با دستورات پرونده ربات بررسی شود ، Google همچنان ممکن است آن را فهرست بندی کند و در نتایج جستجو ظاهر شود. خزنده گوگل یا باید صفحه را مستقیماً بارگیری و بررسی کند (معمولاً به میزان کمتری از نقشه سایت) یا باید آن را از سایر پیوندهای ارائه شده توسط سایر صفحات و سایتها پیدا کرده و بررسی کند.

اگر صفحات وب خود را مجدداً در پرونده Robots.txt فهرست بندی کنید ، Google همچنان آن را در نتایج جستجو نشان می دهد. Google با کمک لنگر متن هر پیوند و سایر عوامل ، این صفحه را در جستجوهای مرتبط رتبه بندی می کند. این نوع صفحه معمولاً در نتایج جستجو بدون توضیحات متا ظاهر می شود زیرا Google محتوای صفحه و توضیحات متا را ذخیره نکرده است.

آشنایی با دستورات فایل Robots.txt و معنی آنها

در مجموع به 4 دستور مهم در پرونده Robots.txt نیاز داریم:

User-agent: برای تعیین رباتی که دستورات برای آن نوشته شده اند.
اجازه ندهید: قطعاتی که ربات مجاز به درخواست یا بررسی آنها نیست.
مجاز: بخشهایی که مجاز به درخواست و بررسی هستند.
Sitemap: برای نشان دادن آدرس فایل نقشه سایت به ربات ها.

در اینجا نحوه استفاده از این دستورات آورده شده است.

1. ربات را با User-agent مشخص کنید

این دستور برای هدف قرار دادن یک ربات خاص استفاده می شود. از این دستور می توان به دو روش در پرونده robots.txt استفاده کرد.

اگر می خواهید به همه ربات های خزنده دستور یکسانی بدهید ، فقط از ستاره (*) بعد از عبارت User-agent استفاده کنید. ستاره به معنای “همه چیز” است. مانند مثال زیر:

*: عامل کاربر

دستور فوق به این معنی است که دستورات زیر برای همه ربات های جستجو به یک صورت کار می کنند.

اما اگر فقط می خواهید به یک ربات خاص مانند Googleot دستور خاصی بدهید ، دستور شما باید به صورت زیر نوشته شود:

کد فوق به این معنی است که “اجرای دستورات پرونده فقط برای ربات Google لازم است.

۲. با Disallow صفحات و بخشهای غیر مجاز را مشخص کنید

دستور Disallow به ربات ها می گوید که کدام پوشه های وب سایت شما را نباید بررسی کنند. در واقع ، این دستور آدرس هایی را نشان می دهد که می خواهید از ربات های جستجو پنهان کنید.

به عنوان مثال ، اگر نمی خواهید موتورهای جستجو تصاویر وب سایت شما را فهرست بندی کنند ، می توانید تمام تصاویر سایت را در یک پوشه در هاست خود قرار دهید و آنها را از دسترس موتورهای جستجو خارج کنید.

فرض کنید همه این تصاویر را به پوشه ای به نام Photos منتقل کرده اید. برای اینکه به Google بگویید این تصاویر را ایندکس نکند ، باید دستوری مانند این را بنویسید:

*: عامل کاربر
اجازه ندهید: / عکسها

دستور / بعد از Disallow به ربات گوگل می گوید که پوشه ای را در ریشه پرونده وارد کند. نام این پوشه عکس است.

این دو خط در پرونده robots.txt اجازه ورود هیچ یک از ربات ها به پوشه تصویر را نمی دهند. در کد دستوری بالا ، بخش “User-agent: *” می گوید که این دستور برای همه ربات های جستجو لازم است. بخش Disallow: / photos نشان می دهد که ربات اجازه ورود یا فهرست بندی پوشه تصویر سایت را ندارد.

توجه: نیازی به نوشتن آدرس کامل در مقابل دستور Allow یا Disallow ندارید.

3. قسمتهای مجاز رباتها را با Allow مشخص کنید

همانطور که می دانیم ربات خزنده و نمایه سازی گوگل Googlebot نام دارد. این ربات بیشتر از سایر ربات های جستجوگر دستورات را می فهمد. علاوه بر دستورات “User-agent” و “Disallow” ، ربات Google دستور دیگری به نام “Allow” را نیز می فهمد.

با دستور Allow می توانید به ربات گوگل بگویید که مجاز به مشاهده یک پرونده در پوشه غیر مجاز است. برای درک بهتر این دستور ، بیایید از مثال قبلی استفاده کنیم ، آیا بهتر نیست؟

در مثال قبلی ، ما یک رشته کد نوشتیم که به ربات های جستجو اجازه دسترسی به تصاویر سایت را نمی دهد. ما تمام تصاویر سایت را در پوشه ای به نام Photos قرار داده و با دستور زیر یک فایل robots.txt ایجاد کردیم:

*: عامل کاربر

اجازه ندهید: / عکسها

حال تصور کنید که در پوشه ما در میزبان سایت ، تصویری به نام novin.jpg وجود دارد که می خواهیم Googlebot آن را فهرست کند. با استفاده از دستور Allow می توانیم به ربات گوگل این کار را انجام دهیم:

*: عامل کاربر
اجازه ندهید: / عکسها
مجاز: /photos/novin.jpg

این دستور به ربات گوگل می گوید که فایل novin.jpg را مشاهده و ایندکس کند حتی اگر پوشه Photos دیگر در دسترس ربات ها نباشد.

4. نقشه سایت

Google چندین راه برای دسترسی مدیران وب سایت و صاحبان وب سایت به نقشه سایت دارد. یکی از این راه ها نوشتن آدرس پرونده در پرونده است.

نیازی به نمایش آدرس نقشه سایت به ربات های گوگل از این طریق نیست. بهترین راه برای ارسال نقشه سایت به Google استفاده از ابزار Search Console است.

همانطور که مشاهده می کنید ، Digitala دستور sitemap را در پرونده robots.txt خود قرار داده است.

در بخش بعدی نحوه ایجاد یک فایل Robots.txt را توضیح می دهیم ، آن را در مکان مناسب قرار می دهیم و آزمایش می کنیم تا ربات های گوگل به آن دسترسی پیدا کنند.

پرونده Robots.txt کجاست؟

اگر به شما توصیه می شود که به پرونده robots.txt سایت یا هر سایتی نگاهی بیندازید ، یافتن آن دشوار نیست.

تمام کاری که شما باید انجام دهید این است که یک URL منظم در مرورگر خود وارد کنید (به عنوان مثال novin.com یا هر سایت دیگری). سپس ، عبارت robots.txt / را در پایین URL وارد کنید.

با این کار پرونده ربات ها را در مرورگر مشاهده خواهید کرد. دقیقاً مانند تصویر زیر.

با مشاهده فایل های robots.txt از سایت های دیگر می توانید از آنها به عنوان الگوی سایت خود استفاده کنید.

پرونده Robots.txt در قسمت Root سایت شما قرار دارد. برای دسترسی به فهرست ریشه وب سایت خود

می توانید وارد حساب میزبانی وب سایت شوید. پس از ورود به قسمت مدیریت پرونده بروید.

به احتمال زیاد با چنین صفحه ای روبرو خواهید شد.

فایل robots.txt خود را پیدا کرده و آن را برای ویرایش باز کنید. دستور جدیدی را که می خواهید وارد کنید و سپس آن را ذخیره کنید.

توجه: یافتن فایل اصلی در فهرست ریشه وب سایت امکان پذیر نیست. به این دلیل که برخی از سیستم های مدیریت محتوا به طور خودکار یک پرونده robots.txt مجازی ایجاد می کنند. اگر چنین مشکلی دارید ، بهتر است یک پرونده جدید برای وب سایت خود ایجاد کنید تا همیشه به آن دسترسی داشته باشید.

یک پرونده ربات ایجاد کنید

هیچ برنامه خاصی برای ایجاد پرونده ربات مورد نیاز نیست. از همان دفترچه یادداشت ساده برای ویندوز یا ویرایشگر متن دیگری که یک فایل TXT را تولید می کند ، می توان استفاده کرد.

برای ایجاد یک فایل robots.txt ، فقط یک فایل txt جدید ایجاد کنید. قالب یا رمزگذاری پرونده باید UTF-8 باشد.

اکنون این پرونده را باز کرده و مطابق دستورالعمل ها دستورات لازم را بنویسید.

تصویر زیر نمونه ای از یک پرونده ربات ساده است.

پس از ایجاد فایل ، باید آن را در سرور میزبان سایت بارگذاری کنید.

پرونده Robots را در سایت بارگذاری کنید

پرونده ربات ها باید در ریشه باشد. یعنی درست در پوشه اصلی میزبان سایت. این پرونده نباید در پوشه یا فهرست قرار گیرد. به طوری که آدرس دسترسی مانند مثال زیر است:

https://www.example.com/robots.txt

هر مورد دیگری که پرونده ربات در ریشه سایت نباشد ، از دسترس ربات های گوگل خارج خواهد شد. مانند آدرس زیر که پرونده روبات ها در آن قرار دارد.

https://example.com/pages/robots.txt

مهم نیست که میزبان وب شما یک سرور اختصاصی ، اشتراکی یا مجازی باشد ، تنها کاری که شما باید انجام دهید اینست که این فایل را در پوشه یا فهرست اصلی سایت بارگذاری کنید.

به راحتی می توانید فایل Robots هر وب سایت را مشاهده کنید. فقط robots.txt / را به انتهای URL هر سایت اضافه کنید و آن را باز کنید.

فایل ربات ها را با استفاده از Google Tool تست کنید

برای بررسی اینکه آیا یک صفحه یا هر نوع پرونده توسط پرونده Robots.txt قفل شده است و همچنین برای اطمینان از در دسترس بودن فایل Robots ، می توانید از ابزار آزمایش در Google Search Console استفاده کنید.

اگر وب سایت خود را به Google Search Console متصل کرده باشید ، هنگام باز کردن این ابزار آزمایشی ، از شما می خواهد سایت پیوندی را انتخاب کنید.

پس از انتخاب وب سایت ، به صفحه ای هدایت می شوید که آخرین محتوای فایل Robots.txt را که Google بارگیری و بررسی کرده است ، نمایش می دهد. می توانید پرونده را در همان صفحه ویرایش کنید ، پس از آن صفحه با کلیک روی دکمه ارسال باز می شود.

در این صفحه ، همانند تصویر زیر ، سه دکمه را مشاهده خواهید کرد.

با استفاده از اولین دکمه ، یک پرونده جدید Robots.txt بارگذاری کنید.

حال باید این فایل را به جای فایل قبلی در سرور میزبان قرار دهید.

پس از بارگیری ، با کلیک بر روی دکمه “مشاهده نسخه بارگیری شده” نسخه جدید باز می شود.

در آخر ، دکمه ارسال را فشار دهید تا از Google بخواهید فایل جدید را بارگیری و بررسی کند. اگر این کار را با موفقیت انجام دهید ، زمان و تاریخ آخرین نمایش پرونده ربات به زمان بعد از درخواست تغییر می کند. البته برای اطمینان می توانید دوباره از همان ابزار استفاده کنید.

این ابزار نمی تواند مستقیماً پرونده robots.txt را ویرایش کند. پس از کلیک بر روی دکمه ارسال ، پنجره ای باز می شود که از شما می خواهد فایل ویرایش شده جدید را بارگذاری کرده و فایل قبلی را در سرور میزبان وب جایگزین کنید.

اگر می خواهید صفحات خاصی را آزمایش کنید ، فقط URL را در نوار پایین وارد کنید و Googlebot مورد نظر خود را انتخاب کنید. هر بار که دکمه تست را فشار می دهید ، بلافاصله نشان می دهد که آیا ربات ها اجازه دسترسی به صفحه را دارند.

به عنوان مثال ، می توانید بررسی کنید که آیا خزنده تصویر Google به صفحه خاصی دسترسی دارد یا خیر. به ربات اجازه دهید به همان صفحه وب دسترسی داشته باشد ، اما ربات تصویر مجاز به دریافت تصاویر و نمایش آنها در نتایج جستجو نیست.

چگونه می توانم از Google بخواهم که صفحه ای را در نتایج جستجو نمایش ندهد؟

گوگل روش های دیگری برای انجام این کار معرفی کرده است ، با بیان اینکه استفاده از دستورات noindex و ممانعت به حذف صفحات از نتایج جستجو کمک نمی کند.

گوگل می گوید اگر می خواهید صفحات را به طور کامل از نتایج جستجو حذف کنید ، باید دستورات noindex را در همان صفحه قرار دهید.

ساده ترین راه برای حذف یک صفحه از نتایج جستجو استفاده از دستور به اصطلاح متا تگ در بالای صفحه است.

برای افزودن این کدها ، یا باید مستقیماً HTML صفحه را ویرایش کنید یا از روش های دیگر مانند پلاگین ها برای عقب رفتن استفاده کنید. در واقع ، افزونه ها فقط این کد را به صفحه اضافه می کنند.

اگر کمی با کد HTML آشنا باشید ، می دانید که هر صفحه دارای دو قسمت است: یک عنوان و یک بدنه. شما باید دستور Navindex را در هدر قرار دهید.

از این رو ، کد شما باید به این شکل باشد:

\\ خوب این هم پرونده ربات هاست!

تقریباً چیزی برای گفتن نیست! ما به زبان ساده هر آنچه برای کنترل این ربات های فضول اما مفید نیاز دارید را توضیح داده ایم.

شما فقط باید یک بار این پرونده را تهیه کنید و تا زمانی که تغییرات قابل توجهی در ساختار سایت ایجاد نکنید ، مجبور به برخورد با آن نخواهید بود.

دیدگاهتان را بنویسید