Kaptain Kitty
انتشار :۱۵ مهر ۱۳۹۳
بازدید :519 بار

Googlebot نام است که گوگل به برنامه ای داده است که برایش اطلاعات موبوط به آدرس ها و URL های موجود در اینترنت را فراهم می کند. البته گاهی اوقات به آن spider هم می گوید. Crawling عبارتست از فرآیندی که طی آن گوگل صفحات و آدرس های مختلف وبسایت های موجود در اینترنت را پیدا می کند و آنها را تحویل پروسه ی Indexingمی دهد.

گوگل از مجموعه ی کامپیوترهای زیاد و سخت افزارهای قوی بسیاری برای انجام این کار استفاده می کند. همچنین عمل Crawling از یک الگوریتم و برنامه ی خاص برای این کار استفاده می کند که به Googlebot می گوید کدام وبسایت را ، کدام دایرکتوری هایش را و در چه بازه های زمانی مختلف پیمایش کن و نتایج جدید را برگردان.

Googlebot زمانی که می خواهد عمل Crawling را آغاز نماید از یک لیست آدرس یا URL شروع می کند و آن آدرس ها را یک به یک پیمایش می نماید. البته ورودی هایش را از طرق مختلف هم می تواند بدست آورد. مثلا وبمسترها می توانند فایل Sitemap.xml را برایش فراهم آورند که حاوی تمام آدرس های یک وبسایت می باشد و کار گوگل را هم برای جمع آوری ساده تر می کند.

بعد از اینکه این مرحله انجام شد Googlebot لیست آدرس ها و وبسایت هایی را که ملاقات و بررسی کرده را به دیتابیس اضافه می کند. بنابراین بعد از این مرحله تعدادی لینک و داده ی جدید یافت شده است. لینک های قبلی آپدیت و به روز شده اند و همچنین اگر لینکی در وبسایتی پاک شده باشد آن لینک هم حذف می شود. سپس تمام این داده ها تحویل مرحله ی بعد که Google Index نام دارد می شود.

google-Bot

Googlebot و وبسایت شما

چگونه Googlebot وبسایت شما را پیدا می کند؟

در حقیقت Googlebot وبسایت شما را به طور دائم هر چند ثانیه مورد بررسی قرار می دهد اما با توجه به مشکلات شبکه این نرخ ممکن است تغیراتی داشته باشد. Googlebot هر لحظه که به یک آدرس دسترسی پیدا می کند یک کپی از آن آدرس و صفحه را دانلود می کند. ممکن است بعضی مواقع Googlebot یک صفحه را چندین بار دانلود کند و این هم به خاطر این است که Googlebot بار اول به مشکلاتی برخورد کرده است.

البته گوگل طوری طراحی شده است که بتواند روی سیستم های توزیع شده (distributed) کار کند.

اجرای برنامه تحت سیستم های توزیع شده باعث افزایش کارایی و Performance می شود.

خوب است بدانید که این الگوریتم گوگل طوری تنظیم شده است که بسیار هوشمند عمل می نماید. یعنی در زمانی که پهنای باند شبکه و وبسایت شما پایین باشد کمتر سر می زند، همچنین از نزدیکی مکانی که وبسایت شما Host می شود صفحه ی شما را درخواست می دهد. احتمالا اگر زمانی خواستید سری به Log File های وبسایتتان بزنید قطعا خواهید دید که گوگل از مکان های مختلفی به وبسایت شما سر زده است. البته همه ی آنها یک مشخصه ی کلی دارند و آن هم اینست که User-Agent مشترک و یکسانی دارند. بنابراین وقتی وارد وبسایت می شوند می توانیم تشخیص دهیم که این درخواست از سمت گوگل آمده است.

 بلاک کردن  Googlebot برای جلوگیری از دسترسی به محتوای سایت

با توجه به نکات گفته شده در بالا و همچنین مطالب گفته شده در مقالات دیگر دریافتید که گوگل کراولر هر لحظه به تمام وبسایت شما دسترسی دارد و این ممکن است در بعضی مواقع مناسب نباشد. ممکن است شما مطالبی داشته باشید که نخواهید در اینترنت و گوگل ایندکس و دیده شود. در این هنگام شما می توانید از طرق مختلف این کار را انجام دهید. یکی از انتخاب ها این است که شما در فایل Robots.txt آن صفحه و دایرکتوری مورد نظر را بنویسید.

اکثر وبمسترهای حرفه ای از همین روش استفاده می کنند هر چند روشهای دیگری هم وجود دارد. البته به محض اینکه فایل Robots.txt را ایجاد کردید تغییرات اعمال نمی شود و شما باید چند روزی صبر کنید تا فایل Robots.txt توسط گوگل بررسی شود.

فایل Robots.txt باید در ریشه ی وبسایت قرار داده شود، در غیر این صورت عمل نمی کند.

نمونه دستور یا کدهای زیر نمونه ی خوبی است برای اینکه شما بیشتر با این عمل آشنا شوید:

 

#www.website.com robots.txt

User-agent: *
Disallow: /article

با استفاده از دستور بالا ما به تمام موتورهای خزنده از جمله گوگل گفتیم که فولدر یا دایرکتوری article را نباید بررسی و ایندکس کند.
هم چنین اگر می خواهید که یک صفحه ی خاص از یک دایرکتوری فقط ایندکس نشود می توانید از متا تگ هایی که برای این کار در نظر گرفته شده است استفاده کنید. متا تگ زیر را باید در ابتدای کد HTML وارد کنید تا گوگل و سایر موتورهای جست وجو آن را ایندکس نکنند :

<meta name="robots" content="noindex">

نکات دیگری هم در زیر ارائه شده است :

  • اگر زمانی آن طور که از Robots.txt انتظار داشتید عمل نکرد حتما فایل مورد نظر را با ابزار Robots tester واقع در سرویس گوگل وبمستر چک کنید. این ابزار قدرتمند دقیقا به شما نشان می دهد که هر لینک با چه برخوردی از نطر گوگل مواجه می شود.
  • ابزار دیگری در سرویس گوگل وبمستر وجود دارد به نام fetch as google که شما می توانید لینک مورد نظرتان را در آن وارد کنید و سپس ببینید که گوگل چگونه آن را پردازش می کند.

 

کاری کنید که وبسایتتان در دسترس باشد

اصول کار Googlebot این است که هر لینکی را که پیدا می کند دنبال می کند تا از طریق آن لینک های دیگر را بدست آورد و آن ها را پیمایش نماید. ابزار دیگری در سرویس گوگل وبمستر وجود دارد به نام crawl errors که به شما نشان می دهد گوگل در حین پروسه ی رسیدن به سایت شما با چه خطاهایی برخورد کرده است و سرور شما چه مشکلاتی دارد. لذا قویا پیشنهاد می کنیم که قسمت Crawl Error را به طور منظم چک کنید تا خطاهای احتمالی از سمت سرورتان را ببینید و آن ها را برطرف کنید. وجود خطاهای بسیار باعث می شود که گوگل کمتر و کمتر به وبسایت شما سر بزند.

وبسایت های اپلیکیشنی با معماری Ajax

وبسایت های جدید که تحت عنوان وب اپلیکیشن ارائه می شوند به مقدار زیادی از تکنیک Ajax استفاده می کنند و همانطور که می دانید گوگل نمی تواند محتوای تولید شده توسط Ajax را بررسی و ایندکس کند. اما نگران نباشید. گوگل برای این مدل وبسایت ها هم برنامه ای را ارائه کرده است. در صورت علاقه مندی به این موضوع به این لینک بروید، اطلاعات فوق العادی کسب خواهید کرد.

ممکن است شما تمام موارد مورد نیاز برای ایندکس شدن توسط گوگل رعایت کرده باشید اما آنطور که انتظار دارید ترافیکی به سایتتان نمی آید. در این صورت مطالعه ی این مقاله به شدت توصیه می شود.

مشکلات به وجود آمده توسط spammerها و سایر user-agentها

آدرس های IP که گوگل از آنها استفاده می کند همیشه تغییر می کنند. اگر می خواهید که بفهمید که صفحه توسط گوگل مورد بررسی قرار گرفته بهتر است از خصوصیت user-agent استفاده کنید که شامل رشته ی googlebot است. همچنین از طریق DNS lookup می توانید پی ببرید که آیا واقعا درخواست از طرف خود گوگل داده شده است یا خیر.

در پایان به این نکته توجه داشته باشید که موتورهای جست و جوی معتبر به دستورات موجود در فایل Robots.txt احترام می گذارند و آنها را اجرا می کنند. اما این قضیه در مورد سایر موتورهای جستجوی ناآشنا صدق نمی کند و شما باید از راه های مطمئن تری جلوی دسترسی فایل های خود را بگیرید. در این مورد می توانید به تنظیمات موجود در وب سرور رجوع کنید.

برچسب‌ها, , , , ,

مطالب مرتبط

گوگل یک ماه پیش از ارتقاء الگوریتم mobile-friendly خود، شروع به ارسال پیغام های جدید هشداری به صاحبان وب سایت ها کرد. گوگل هم اکنون در حال ارسال نوع جدیدی از پیغام های هشداری به صاحبان وب سایت هایی است که وبسایت آنها mobile-friendly نمی باشد. این پیغام ها مستقیما در نتایج جستجو با موبایل […]

عموما بالا بودن تعداد سوالات مشتریان یک مساله ی خوشایند محسوب می شود. هر چه تعداد پرسش ها بالاتر باشد، تعداد فروش شما نیز به همان نسبت بالاتر خواهد بود. اما به مرور زمان، شما دائما در حال دریافت همان سوالات همیشگی هستید. این امر می تواند خیلی زود به کاری روزمره، زمان بر و خسته […]

robots exclusion protocol (REP) یا Robots.txt یک فایل متنی است که که وبمسترها آن را می سازند تا به موتورهای جستجو و خزنده های آنها چگونگی برخورد با سایتاشان را بفهمانند. در واقع به جای توضیحات اضافه می خواهیم بصورت عملی تر متوجه شویم که نمونه کدهای زیر چه کاری را برای ما در این […]

فایل سایت مپ فایلی است که در آن تمام صفحات و لینک های سایت در آن لیست می شود تا به موتور جستجوی گوگل و سایر موتورهای جستجو ساختار کلی وبسایت را نشان دهد. یکی از راه های شناخت و پیمایش یک وبسایت توسط موتور جستجو بررسی فایل sitemap آن وبسایت است. در واقع وجود […]

نظراتتان را برایمان بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالب ما تو این شبکه های اجتماعی هم پخش میشه