Home ▸ SEO ▸ Google Crawl Budget: Isang Gabay sa Publisher

Badyet ng Google Crawl: Isang Gabay ng Publisher

Abril 21, 2022

Sinuri ng katotohanan ng Vahe Arabian Na-edit ni Andrew Kemp

Nauunawaan na ng mga publisher na namuhunan sa paglitaw sa tuktok ng mga resulta ng paghahanap ng Google ang kahalagahan ng SEO. Gayunpaman, ang isang mahalaga at potensyal na hindi napapansin na aspeto ng SEO para sa mas malalaking publisher ay ang Google crawl budget.

Nakakatulong ang mga badyet sa pag-crawl ng Google na matukoy kung hanggang saan lumilitaw ang mga artikulo sa mga resulta ng paghahanap.

Ang pag-unawa sa mga badyet sa pag-crawl ay isang kritikal na hakbang patungo sa pagtiyak na ang mga layunin ng SEO ay natutugunan at ang nilalaman ay tiningnan. Ang pagsuri na ang teknikal na back end ng isang site ay malusog ay nangangahulugan na ang front end ay mas malamang na sumasalamin sa status na iyon.

Sa artikulong ito, ipinapaliwanag namin kung ano ang badyet sa pag-crawl, kung ano ang nakakaapekto sa badyet, pag-optimize ng badyet sa pag-crawl, kung paano suriin at subaybayan ang mga badyet sa pag-crawl at kung bakit napakahalaga ng mga badyet na ito sa kapakanan ng anumang online na site.

Ano ang Crawl Budget?

Ang crawl budget ay tumutukoy sa mga mapagkukunang inilalaan ng Google sa paghahanap at pag-index ng bago at umiiral na mga web page.

Ang crawl bot ng Google — Googlebot — ay nagko-crawl ng mga site upang i-update at palawakin ang database ng mga web page ng higanteng paghahanap. Gumagamit ito ng mga panloob at panlabas na link, XML sitemaps, RSS at Atom feed, pati na rin ang mga robots.txt file upang makatulong sa pag-crawl at pag-index ng mga site sa lalong madaling panahon.

Ang ilang partikular na pahina ay nakakakuha ng higit na awtoridad sa paglipas ng panahon, habang ang iba ay maaaring ganap na balewalain dahil sa ilang mga kadahilanan na mula sa nilalaman na nauugnay sa mga teknikal na paghihigpit.

Ang pag-alam kung paano i-maximize ang badyet sa pag-crawl ay napakahalaga para sa sinumang publisher o website ng organisasyon na naghahanap ng tagumpay sa mga pahina ng resulta ng search engine (SERPs).

Mga Limitasyon ng Googlebot

Ang Googlebot ay hindi isang walang katapusang mapagkukunan at hindi kayang i-trawl ng Google ang walang katapusang bilang ng mga web server. Dahil dito, nag-alok ang kumpanya ng patnubay sa mga may-ari ng domain upang i-maximize ang kanilang sariling badyet sa pag-crawl. ¹

Ang pag-unawa sa kung paano isinasagawa ng mga bot ang kanilang aktibidad ay batayan.

Kung ang isang crawlbot ay dumating sa isang site at natukoy na ang pagsusuri at pagkakategorya nito ay magiging problema, ito ay bumagal o lilipat sa isa pang site na ganap na depende sa lawak at uri ng mga isyu na kinakaharap nito.

Kapag nangyari ito, ito ay isang malinaw na senyales na ang site ay kulang sa crawl budget optimization.

Ang pag-alam na ang Googlebot ay isang limitadong mapagkukunan ay dapat sapat na dahilan para mag-alala ang sinumang may-ari ng site tungkol sa badyet sa pag-crawl. Gayunpaman, hindi lahat ng mga site ay nahaharap sa problemang ito sa parehong antas.

Sino ang Dapat Magmalasakit at Bakit?

Bagama't gusto ng bawat may-ari ng site na magtagumpay ang kanilang website, ang mga katamtaman at malalaking site lamang na madalas na nag-a-update ng kanilang nilalaman ang talagang kailangang mag-alala tungkol sa mga badyet sa pag-crawl.

Tinukoy ng Google ang mga medium na site bilang mga may higit sa 10,000 natatanging pahina na nag-a-update araw-araw. Ang mga malalaking site, samantala, ay mayroong higit sa 1 milyong natatanging mga pahina at nag-a-update nang hindi bababa sa isang beses sa isang linggo.

ng Google ang kaugnayan sa pagitan ng aktibidad sa pag-crawl at mas malalaking website, na nagsasabing: “Ang pagbibigay-priyoridad sa kung ano ang iko-crawl, kailan, at kung gaano karaming mapagkukunan ang mailalaan ng server na nagho-host ng website sa pag-crawl ay mas mahalaga para sa mas malalaking website, o yaong mga awtomatikong bumubuo ng mga pahina batay sa Mga parameter ng URL, halimbawa." ²

Ang mga site na may limitadong bilang ng pahina ay hindi kailangang labis na mag-alala tungkol sa badyet sa pag-crawl. Gayunpaman, dahil maaaring mabilis na lumawak ang ilang mga publisher, ang pagkakaroon ng pundasyong pag-unawa sa mga istatistika ng pag-crawl at mga operasyon ay maglalagay sa lahat ng may-ari ng site sa isang mas mahusay na posisyon upang umani ng mga gantimpala ng mas malaking trapiko sa site sa ibaba ng track.

Ano ang Nakakaapekto sa Badyet ng Pag-crawl ng Google?

Ang lawak ng pag-crawl ng Google sa isang website ay tinutukoy ng mga limitasyon sa kapasidad ng pag-crawl at pangangailangan sa pag-crawl.

Upang maiwasan ang aktibidad ng pag-crawl mula sa napakaraming host server, ang limitasyon ng kapasidad ay kinakalkula sa pamamagitan ng pagtatatag ng maximum na bilang ng sabay-sabay, parallel na koneksyon na magagamit ng bot upang i-crawl ang site pati na rin ang pagkaantala ng oras sa pagitan ng mga pagbabalik ng data.

Limitasyon sa Kapasidad ng Pag-crawl

Ang sukatang ito, na tinutukoy din bilang limitasyon sa rate ng pag-crawl, ay tuluy-tuloy at nauugnay sa mga pagbabago sa tatlong salik:

Kalusugan ng pag-crawl : Kung ang site ay tumugon nang walang error o pagkaantala, at ang bilis ng site ay mabuti, ang limitasyon ay maaaring tumaas at vice-versa.
Rate ng pag-crawl ng GSC : Maaaring gamitin ang Google Search Console (GSC) upang bawasan ang aktibidad sa pag-crawl , isang function na maaaring maging kapaki-pakinabang sa panahon ng pinalawig na pagpapanatili o pag-update ng site. ³ Ang anumang mga pagbabago ay mananatiling aktibo sa loob ng 90 araw . ⁴

Kung ang limitasyon sa rate ng pag-crawl ay nakalista bilang "kinakalkula sa pinakamainam", ang pagtaas nito ay hindi isang opsyon at ang pagpapababa nito ay maaari lamang mangyari sa pamamagitan ng espesyal na kahilingan. Kung na-overcrawl ang isang site, na humahantong sa pagkakaroon ng site at/o mga isyu sa pag-load ng page, gumamit ng robots.txt upang harangan ang pag-crawl at pag-index. Ang opsyong ito, gayunpaman, ay maaaring tumagal ng 24 na oras bago magkabisa.

Bagama't maraming mga site ang hindi nagpapataw ng mga parusa sa limitasyon sa pag-crawl, maaari pa rin itong maging isang kapaki-pakinabang na tool.

Crawl Demand

Ang crawl demand ay isang pagpapahayag ng kung gaano kalaki ang interes mula sa Google sa pag-index ng isang site. Ito rin ay naiimpluwensyahan ng tatlong salik:

Pinaghihinalaang imbentaryo : Nang walang patnubay mula sa may-ari ng site — na tatalakayin namin sa ibang pagkakataon — susubukan ng Google na i-crawl ang bawat URL, kabilang ang mga duplicate, hindi gumaganang link at hindi gaanong mahalagang mga pahina. Ito ay kung saan ang pagpapaliit sa mga parameter ng paghahanap ng Googlebot ay maaaring mapalakas ang badyet sa pag-crawl.
Popularity : Kung ang isang site ay napakasikat, ang mga URL nito ay mako-crawl nang mas madalas.
Staleness : Sa pangkalahatan, ang Googlebot system ay naglalayong muling i-crawl ang mga pahina upang kunin ang anumang mga pagbabago. Ang prosesong ito ay matutulungan sa pamamagitan ng paggamit sa GSC at paghiling ng mga recrawl, bagama't walang garantiya na ang kahilingan ay agad na aaksyunan.

Ang aktibidad ng pag-crawl ay, sa esensya, isang produkto ng mahusay na pamamahala ng website.

Mga Alalahanin sa CMS

Sinabi Vahe Arabian , tagapagtatag ng State of Digital Publishing (SODP) ang mga elemento ng content management system (CMS) — gaya ng mga plug-in — ay maaaring makaapekto sa mga badyet sa pag-crawl. ⁵

Sinabi niya: "Maraming mga plug-in ang hinihimok ng mabigat na database at nagdudulot ng pagtaas ng resource load na magpapabagal sa isang page o lumikha ng mga hindi kinakailangang page at makakaapekto sa pag-crawl nito."

Ang modelo ng kita na hinihimok ng ad ng isang website ay maaaring lumikha ng mga katulad na isyu kung maraming mga tampok ng site ay mabigat sa mapagkukunan.

Paano Suriin at Subaybayan ang Mga Badyet sa Pag-crawl

Mayroong dalawang pangunahing paraan upang subaybayan ang mga badyet sa pag-crawl: Google Search Console (GSC) at/o mga log ng server. ⁶

Google Search Console

Bago suriin ang mga rate ng pag-crawl ng isang site sa Google Search Console (GSC), dapat ma-verify ang pagmamay-ari ng domain.

Ang console ay may tatlong tool upang suriin ang mga pahina ng website at kumpirmahin kung aling mga URL ang gumagana at kung alin ang hindi na-index.

Sinusuri ng console ang mga kamalian sa domain at mag-aalok ng mga mungkahi kung paano lutasin ang iba't ibang mga error sa pag-crawl.

Pinagpangkat-pangkat ng GSC ang mga error sa status sa ilang kategorya sa Index Coverage Report nito, kabilang ang:

Error sa server [5xx]
Error sa pag-redirect
Na-block ng robots.txt ang isinumiteng URL
Ang isinumiteng URL ay may markang 'noindex'
Ang isinumiteng URL ay tila isang malambot na 404
Ang isinumiteng URL ay nagbabalik ng hindi awtorisadong kahilingan (401)
Hindi nakita ang isinumiteng URL (404)
Ibinalik ang isinumiteng URL na 403:
Na-block ang isinumiteng URL dahil sa iba pang isyu sa 4xx

Isinasaad ng ulat kung gaano karaming mga pahina ang naapektuhan ng bawat error kasama ng status ng pagpapatunay.

Ang URL Inspection Tool ay nagbibigay ng impormasyon sa pag-index sa anumang partikular na page, habang ang Crawl Stats Report ay maaaring gamitin upang malaman kung gaano kadalas nagko-crawl ang Google sa isang site, ang pagtugon ng server ng site at anumang nauugnay na mga isyu sa availability.

Mayroong isang nakapirming diskarte sa pagtukoy at pagwawasto sa bawat error, kasama ang mga ito mula sa pagkilala na ang isang server ng site ay maaaring down o hindi available sa oras ng pag-crawl hanggang sa paggamit ng isang 301 redirection upang mag-redirect sa isa pang pahina, o pag-alis ng mga pahina mula sa sitemap .

Kung malaki ang pagbabago ng nilalaman ng pahina, maaaring gamitin ang button na "pag-index ng kahilingan" ng URL Inspection Tool upang simulan ang pag-crawl ng pahina.

Bagama't maaaring hindi kinakailangan na "ayusin" ang bawat indibidwal na error sa pahina, ang pagliit ng mga problema na nagpapabagal sa pag-crawl ng mga bot ay talagang isang pinakamahusay na kasanayan.

Gumamit ng Mga Log ng Server

Bilang kahalili sa Google Search Console (GSC), maaaring suriin ang kalusugan ng pag-crawl ng isang site sa pamamagitan ng mga log ng server na hindi lamang nagtatala ng bawat pagbisita sa site kundi pati na rin ng bawat pagbisita sa Googlebot.

Para sa mga hindi pa nakakaalam, awtomatikong gumagawa at nag-iimbak ang mga server ng log entry sa tuwing humiling ang Googlebot o isang tao na maghatid ng pahina. Ang mga log entry na ito ay kinokolekta sa isang log file.

Kapag na-access na ang isang log file, kailangan itong suriin. Gayunpaman, dahil sa malawak na saklaw ng mga log entries, ang pagsisikap na ito ay hindi dapat basta-basta gawin. Depende sa laki ng site, ang isang log file ay madaling maglaman ng daan-daang milyon o kahit bilyon-bilyong mga entry.

Kung ang desisyon ay ginawa upang pag-aralan ang log file, ang data ay kailangang i-export sa alinman sa isang spreadsheet o isang proprietary na piraso ng software, na mas madaling pinapadali ang proseso ng pagsusuri.

Ipapakita ng pagsusuri sa mga talaang ito ang uri ng mga error na nahaharap sa isang bot, kung aling mga pahina ang pinakamadalas na-access at kung gaano kadalas na-crawl ang isang site.

9 na Paraan para I-optimize ang Crawl Budget

Kasama sa pag-optimize ang pagsusuri at pagsubaybay sa mga istatistika ng kalusugan ng site, tulad ng nabanggit sa itaas, pagkatapos ay direktang pagtugon sa mga lugar ng problema.

Sa ibaba ay inilatag namin ang aming toolkit sa pag-optimize ng badyet sa pag-crawl, na ginagamit namin upang matugunan ang mga isyu sa pag-crawl kapag lumitaw ang mga ito.

1. Pagsama-samahin ang Duplicate na Nilalaman

Maaaring lumitaw ang mga isyu sa pag-crawl kapag ang isang pahina ay maaaring ma-access mula sa ilang iba't ibang mga URL o naglalaman ng nilalaman na ginagaya sa ibang lugar sa site. Titingnan ng bot ang mga halimbawang ito bilang mga duplicate at pipili lang ng isa bilang canonical na bersyon.

Ang natitirang mga URL ay ituturing na hindi gaanong mahalaga at iko -crawl nang mas madalas o kahit na hindi. ¹⁰ Maayos ito kung pipiliin ng Google ang gustong kanonikal na pahina, ngunit isang seryosong problema kung hindi.

Sabi nga, maaaring may mga wastong dahilan para magkaroon ng mga duplicate na page, gaya ng pagnanais na suportahan ang maraming uri ng device, paganahin ang content syndication o gumamit ng mga dynamic na URL para sa mga parameter ng paghahanap o session ID.

Mga rekomendasyon ng SODP :

Putulin ang nilalaman ng website kung posible
- Gumamit ng 301s upang pagsama-samahin ang mga URL at pagsamahin ang nilalaman
- Tanggalin ang content na mababa ang performance
Ang paggamit ng 301s kasunod ng muling pagsasaayos ng website ay magpapadala sa mga user, bot at iba pang crawler kung saan nila kailangan pumunta.
Gumamit ng noindex para sa manipis na mga pahina, pagination (para sa mas lumang mga archive) at para sa cannibalizing na nilalaman.
Sa mga kaso kung saan ang duplicate na content ay humahantong sa labis na pag-crawl, isaayos ang setting ng crawl rate sa Google Search Console (GSC).

2. Gumamit ng Robots.txt File

Nakakatulong ang file na ito na pigilan ang mga bot sa pag-trawling sa isang buong site. Ang paggamit ng file ay nagbibigay-daan para sa pagbubukod ng mga indibidwal na pahina o mga seksyon ng pahina.

Ang opsyong ito ay nagbibigay sa publisher ng kontrol sa kung ano ang na-index, na pinananatiling pribado ang ilang partikular na content habang pinapahusay din kung paano ginagastos ang badyet sa pag-crawl.

Mga rekomendasyon ng SODP :

Ayusin ang kagustuhan ng mga parameter upang ma-prioritize ang mga parameter na kailangang i-block mula sa pag-crawl.
Tukuyin ang mga robot, direktiba at parameter na nagdudulot ng karagdagang pag-crawl gamit ang mga log file.
I-block ang mga karaniwang path na karaniwang mayroon ang CMS gaya ng 404, admin, login page, atbp.
Iwasang gumamit ng crawl-delay na direktiba upang bawasan ang trapiko ng bot para sa pagganap ng server. Nakakaapekto lang ito sa bagong pag-index ng nilalaman.

3. I-segment ang XML Sitemaps para Matiyak na Mas Mabilis na Nakuha ang Content

Dumating ang isang crawl bot sa isang site na may pangkalahatang alokasyon kung gaano karaming mga page ang iko-crawl nito. Ang XML sitemap ay epektibong nagtuturo sa bot na basahin ang mga napiling URL, na tinitiyak ang epektibong paggamit ng badyet na iyon.

Tandaan na ang pagganap ng pagraranggo ng pahina ay nakasalalay sa ilang mga salik kabilang ang kalidad ng nilalaman at panloob/panlabas na mga link. Isaalang-alang ang pagsasama lamang ng mga top-tier na pahina sa mapa. Maaaring ilaan ang mga imahe ng sarili nilang XML sitemap.

Mga rekomendasyon ng SODP :

Sumangguni sa XML sitemap mula sa robots.txt file.
Lumikha ng maramihang mga sitemap para sa isang napakalaking site. Huwag magdagdag ng higit sa 50,000 URL sa isang XML sitemap.
Panatilihin itong malinis at isama lamang ang mga na-index na pahina.
Panatilihing napapanahon ang XML sitemap.
Panatilihin ang laki ng file sa mas mababa sa 50MB.

4. Suriin ang Internal Linking Strategy

Sinusundan ng Google ang network ng mga link sa loob ng isang site at ang anumang mga page na may maraming link ay makikita bilang mataas ang halaga at sulit na gastusin ang badyet sa pag-crawl.

Gayunpaman, ito ay nagkakahalaga ng pagpuna na habang ang isang limitadong bilang ng mga panloob na link ay maaaring gumana laban sa crawl na badyet, gayundin ay maaaring paminta sa buong site na may mga link.

Ang mga page na walang panloob na link ay hindi tumatanggap ng equity ng link mula sa iba pang bahagi ng website, na naghihikayat sa Google na ituring ang mga ito bilang mas mababang halaga.

Kasabay nito, ang mga page na may mataas na halaga na naglalaman ng maraming panloob na link ay nagtatapos sa pagbabahagi ng kanilang equity ng link nang pantay-pantay sa pagitan ng iba pang mga pahina anuman ang kanilang estratehikong halaga. Dahil dito, iwasan ang pag-link sa mga pahina na nag-aalok ng maliit na halaga sa mga mambabasa.

Ang isang panloob na diskarte sa pag-link ay nangangailangan ng isang deft touch upang matiyak na ang mga page na may mataas na halaga ay nakakatanggap ng sapat na mga link, habang ang mga page na may mababang halaga ay hindi nakaka-cannibalize ng link equity.

5. I-upgrade ang Hosting kung ang Kasabay na Trapiko ay Bottleneck

Kung ang isang website ay tumatakbo sa isang shared hosting platform, ang crawl budget ay ibabahagi sa iba pang mga website na tumatakbo sa nasabing platform. Ang isang malaking kumpanya ay maaaring makahanap ng independiyenteng pagho-host bilang isang mahalagang alternatibo.

Iba pang mga pagsasaalang-alang kapag ina-upgrade ang iyong pagho-host o bago pa man mag-upgrade upang malutas ang labis na karga ng trapiko ng bot na maaaring makaapekto sa mga pag-load ng server:

Iproseso ang mga larawan gamit ang isang hiwalay na CDN na na-optimize din para mag-host ng mga susunod na gen na mga format ng imahe gaya ng webp
Isaalang-alang ang pagho-host ng CPU, espasyo sa disk batay sa paggana at mga kinakailangan ng iyong website
Subaybayan ang aktibidad gamit ang mga solusyon tulad ng New Relic upang subaybayan ang labis na paggamit ng mga plugin at bot

6. Balansehin ang Paggamit ng Javascript

Kapag napunta ang Googlebot sa isang web page, ire-render nito ang lahat ng asset sa nasabing page, kabilang ang Javascript. Bagama't medyo diretso ang pag-crawl sa HTML, kailangang iproseso ng Googlebot ang Javascript nang ilang beses upang mai-render ito at maunawaan ang nilalaman nito.

Mabilis nitong maubos ang badyet sa pag-crawl ng Google para sa isang website. Ang solusyon ay ang ipatupad ang pag-render ng Javascript sa gilid ng server.

Sa pamamagitan ng pag-iwas sa pagpapadala ng mga asset ng Javascript sa kliyente para sa pag-render , hindi ginugugol ng mga crawl bot ang kanilang mga mapagkukunan at maaaring gumana nang mas mahusay. ¹¹

Mga rekomendasyon ng SODP :

Gumamit ng browser-level-lazy loading sa halip na maging JS based
Tukuyin kung ang mga elemento
Gumamit ng server side tagging para sa analytics at third-party na pag-tag, alinman sa self-host o gumagamit ng mga solusyon gaya ng https://stape.io/ . ¹²

7. I-update ang Core Web Vitals (CWV) upang Pahusayin ang Karanasan sa Pahina

Ginagamit ng Google Search Console (GSC) Core Web Vitals (CWV) ang tinatawag ng higanteng paghahanap na “ real world usage data ” para ipakita ang performance ng page. ¹³

Pinapangkat ng ulat ng CWV ang pagganap ng URL sa ilalim ng tatlong kategorya:

Uri ng sukatan ( LCP, FID at CLS)
Katayuan
Mga pangkat ng URL

Sukatan

Ang ulat ng CWV ay nakabatay sa pinakamalaking contentful paint (LCP), ¹⁴ first input delay (FID) ¹⁵ at cumulative layout shift (CLS) ¹⁶ na sukatan.

Nauugnay ang LCP sa dami ng oras na kinakailangan upang mai-render ang pinakamalaking elemento ng nilalaman na nakikita sa nakikitang lugar ng web page.

Ang FID ay nag-aalala sa oras na kinakailangan para sa isang pahina upang tumugon sa pakikipag-ugnayan ng isang user.

Ang CLS ay isang sukatan kung gaano kalaki ang pagbabago ng layout ng page sa panahon ng session ng user, na may mas matataas na marka na kumakatawan sa mas masamang karanasan ng user.

Katayuan

Kasunod ng pagtatasa ng pahina, ang bawat sukatan ay itinalaga ng isa sa tatlong mga ranggo ng katayuan:

Mabuti
Kailangan ng improvement
mahirap

Mga Pangkat ng URL

Ang ulat ay maaari ding magtalaga ng mga isyu sa isang pangkat ng mga katulad na URL, sa pag-aakalang ang mga isyu sa pagganap na nakakaapekto sa mga katulad na pahina ay maaaring maiugnay sa isang nakabahaging problema.

CWV at Crawlability

Gaya ng nabanggit dati, habang tumatagal ang Googlebot sa isang page, mas nilulustay nito ang kanyang badyet sa pag-crawl. Dahil dito, maaaring gamitin ng mga publisher ang mga ulat ng CWV upang i-optimize ang kahusayan ng page at bawasan ang oras ng pag-crawl.

ng SODP , na may pagtuon sa WordPress:

Mga payo ng pagpapabuti ng bilis	Ipatupad sa pamamagitan ng	I-validate sa
I-convert ang mga larawan sa WebP na format	Kung pinagana ang CDN, i-convert ito sa gilid ng CDN o i-install ang EWWW plugin	https://www.cdnplanet.com/tools/cdnfinder/
Ipatupad ang SRCSET & Check in https://pagespeed.web.dev/ kung naresolba ang isyu sa Tamang laki ng mga larawan	Ipatupad sa pamamagitan ng manu-manong pagdaragdag ng code	Suriin sa browser code kung ang lahat ng mga imahe ay may SRCSET code
Paganahin ang pag-cache ng browser	WP rocket	https://www.giftofspeed.com/cache-checker/
Tamad na mag-load ng mga larawan	WP rocket	Tingnan sa browser console kung idinagdag ang lazyload code sa larawan. Maliban sa itinatampok na larawan.
Ipagpaliban ang mga panlabas na script: Ang mga script lamang sa<body> maaaring ipagpaliban	WP rocket o Isang mas mabilis na website! (aka defer.js) na plugin	Pagkatapos idagdag ang defer tag, tingnan ang https://pagespeed.web.dev/ kung naresolba ang Bawasan ang hindi nagamit na isyu sa JavaScript
Tukuyin at alisin ang mga hindi nagamit na JS at CSS file	Manu-manong
Paganahin ang Gzip compression	Sa gilid ng server, makipag-ugnayan sa hosting provider	https://www.giftofspeed.com/gzip-test/
Bawasan ang JS at CSS	WP rocket	https://pagespeed.web.dev/
Mag-load ng mga font nang lokal o Mag-preload ng mga web font	OMG font plugin o i-upload ang mga file ng font sa server at idagdag ito sa pamamagitan ng code sa header
Paganahin ang CDN	Cloudflare (anumang iba pang serbisyo ng CDN) at i-configure ito para sa site

8. Gumamit ng Third-Party Crawler

Ang isang third-party na crawler gaya ng Semrush, Sitechecker.pro o Screaming Frog ay nagbibigay-daan sa mga web developer na i-audit ang lahat ng URL sa isang site at tukuyin ang mga potensyal na isyu.

Maaaring gamitin ang mga crawler upang makilala ang:

Nilalaman mula sa aming mga kasosyo

Suliranin sa Goldilocks ng Pamamahala ng madla (2)

Suliranin ng Goldilocks ng Pamamahala ng madla: Paano nahuli ang mga publisher sa pagitan ng tech na hindi gumagana, o masyadong kumplikado upang magamit

Isang kwento kung paano gumawa ng $ 60,000 ang publisher ng Rollerads '

Paano ang mga platform ng data ng customer na nakatuon sa publisher ay nagtutulak ng mas mahusay na pakikipag-ugnayan sa madla

Sirang mga link
Dobleng nilalaman
Nawawala ang mga pamagat ng pahina

Nag-aalok ang mga program na ito ng ulat sa istatistika ng pag-crawl upang makatulong na i-highlight ang mga problema na maaaring hindi ng sariling mga tool ng Google.

Ang pagpapabuti ng structured data at pagbabawas sa mga isyu sa kalinisan ay mag-streamline sa trabaho ng Googlebot sa pag-crawl at pag-index ng isang site.

Mga rekomendasyon ng SODP :

Gumamit ng mga query sa SQL upang magsagawa ng mga batch na update sa mga error sa halip na manu-manong ayusin ang bawat isyu.
Tularan ang Googlebot, sa pamamagitan ng mga setting ng pag-crawl sa paghahanap, upang maiwasang ma-block mula sa mga provider ng pagho-host at upang maayos na matukoy at ayusin ang lahat ng teknikal na isyu.
I-debug ang mga nawawalang pahina mula sa isang pag-crawl gamit ang mahusay na gabay na ito mula sa Screaming Frog . ¹⁷

9. Mga Parameter ng URL

Mga parameter ng URL — ang seksyon ng web address na sumusunod sa “?” — ay ginagamit sa isang pahina para sa iba't ibang dahilan, kabilang ang pag-filter, pagination at paghahanap.

Bagama't mapapalakas nito ang karanasan ng user, maaari rin itong magdulot ng mga isyu sa pag-crawl kapag parehong ibinalik ng base URL at ng isa na may mga parameter ang parehong nilalaman. Ang isang halimbawa nito ay ang "http://mysite.com" at "http://mysite.com?id=3" na nagbabalik sa eksaktong parehong pahina.

Ang mga parameter ay nagbibigay-daan sa isang site na magkaroon ng halos walang limitasyong bilang ng mga link — tulad ng kapag ang isang user ay maaaring pumili ng mga araw, buwan at taon sa isang kalendaryo. Kung pinapayagan ang bot na i-crawl ang mga pahinang ito, ang badyet sa pag-crawl ay mauubos nang walang pangangailangan.

Mga rekomendasyon ng SODP :

Gumamit ng mga panuntunan sa robots.txt. Halimbawa, tukuyin ang mga order ng parameter sa isang allow directive.
Gumamit ng hreflang upang tukuyin ang mga variation ng wika ng nilalaman.

Round Up ng Googlebot Myths and Facts

Mayroong ilang mga maling kuru-kuro tungkol sa kapangyarihan at saklaw ng Googlebot.

Narito ang limang na-explore namin:

1. Paulit-ulit na Guma-crawl ang Googlebot sa isang Site

Ang Googlebot ay aktwal na nag-crawl ng mga site nang medyo madalas at, sa ilang mga sitwasyon, kahit na araw-araw. Gayunpaman, ang dalas ay tinutukoy ng nakikitang kalidad, pagiging bago, kaugnayan at kasikatan ng site.

Gaya ng nabanggit sa itaas, maaaring gamitin ang Google Search Console (GSC) upang humiling ng pag-crawl.

2. Gumagawa ang Googlebot ng mga Desisyon Tungkol sa Pagraranggo ng Site

Bagama't dati itong tama, itinuturing na ngayon ng Google na ito ay isang hiwalay na bahagi ng proseso ng pag-crawl, index at ranggo, ayon kay Martin Splitt , WebMaster Trends Analyst sa Google. ¹⁸

Gayunpaman, mahalagang tandaan na ang nilalaman ng isang site, sitemap, bilang ng mga pahina, link, URL, atbp. ay lahat ng mga salik sa pagtukoy sa ranggo nito.

Sa esensya, ang matalinong mga pagpipilian sa SEO ng mga publisher ay maaaring humantong sa matatag na pagpoposisyon sa loob ng mga SERP.

3. Sinasalakay ng Googlebot ang Mga Pribadong Seksyon ng isang Site

Ang bot ay walang konsepto ng "pribadong nilalaman" at ito ay nakatalaga lamang sa pag-index ng mga site maliban kung itinuro ng may-ari ng site na gawin ang iba.

Maaaring manatiling hindi na-index ang ilang partikular na web page hangga't ang mga kinakailangang hakbang sa loob ng GSC ay gagawin upang paghigpitan ang pag-access.

4. Ang Aktibidad ng Googlebot ay Maaaring Magpahirap sa Paggana ng Site

Ang proseso ng Googlebot ay may mga limitasyon dahil sa mga limitasyon ng mapagkukunan ng Google at dahil ayaw ng Google na makagambala sa isang site.

Sinabi ni Splitt: "Nag-crawl kami nang kaunti, at pagkatapos ay pinapalakas ito. At kapag nagsimula kaming makakita ng mga error, pinapababa namin ito nang kaunti."¹⁵

Maaaring maantala ng GSC ang mga pag-crawl at dahil ang ilang mga site ay maaaring mayroong ilang daang libong mga pahina, hinati ng Googlebot ang pag-crawl nito sa ilang mga pagbisita.

5. Ang Googlebot ay ang Tanging Bot na Dapat Alalahanin

Bagama't ang Googlebot ang nangungunang crawler sa mundo, hindi lahat ng bot ay pagmamay-ari ng Google. Ang iba pang mga search engine ay nagko-crawl sa web, habang ang mga bot na nakatuon sa analytics pati na rin ang data at kaligtasan ng brand ay aktibo din.

Kasabay nito, ang mga masasamang aktor ay nagdidisenyo ng mas sopistikadong software upang makisali sa pandaraya sa ad , magnakaw ng nilalaman, mag-post ng spam at higit pa. ¹⁹

Pangwakas na Kaisipan

Mahalagang tandaan na ang pag-optimize ng badyet sa pag-crawl at matagumpay na mga karanasan ng user ay maaaring pamahalaan nang hindi nakompromiso ang isa pa.

Ang pagsuri sa kalusugan ng badyet sa pag-crawl ng isang site ay dapat na isang elemento ng lahat ng mga programa sa pagpapanatili ng mga may-ari ng website, na may dalas ng mga pagsusuring ito depende sa laki at katangian ng mismong website.

Ang teknikal na housekeeping — tulad ng pag-aayos ng mga sirang link, hindi gumaganang mga pahina, nadobleng nilalaman, mga URL na hindi maganda ang pagkakasulat at mga luma, may error na sitemap — ay mahalaga din.

Mga Pinili ng Editor

Diskarte sa Nilalaman

Badyet ng Google Crawl: Isang Gabay ng Publisher

Vahe Arabian

Andrew Kemp