Temukan Sumber Daya Lebih Besar dari 15 MB Untuk Perayapan Googlebot yang Lebih Baik

Temukan Sumber Daya Lebih Besar dari 15 MB Untuk Perayapan Googlebot yang Lebih Baik

Googlebot adalah sistem perayapan web otomatis dan selalu aktif yang menjaga indeks Google tetap segar.

Situs web worldwebsize.com memperkirakan indeks Google menjadi lebih dari 62 miliar halaman web.

Indeks pencarian Google “sudah berakhir” 100.000.000 gigabyte dalam ukuran.”

Googlebot dan variannya (smartphone, berita, gambar, dll.) memiliki batasan tertentu untuk frekuensi rendering JavaScript atau ukuran sumber daya.

Google menggunakan batasan perayapan untuk melindungi sumber daya dan sistem perayapannya sendiri.

Misalnya, jika situs web berita memperbarui artikel yang direkomendasikan setiap 15 detik, Googlebot mungkin mulai melewati bagian yang sering disegarkan – karena tidak akan relevan atau valid setelah 15 detik.

Bertahun-tahun yang lalu, Google mengumumkan bahwa mereka tidak merayapi atau menggunakan sumber daya yang lebih besar dari 15 MB.

Pada 28 Juni 2022, Google memublikasikan ulang postingan blog ini dengan menyatakan bahwa itu tidak menggunakan kelebihan bagian dari sumber daya setelah 15 MB untuk merangkak.

Untuk menekankan bahwa itu jarang terjadi, Google menyatakan bahwa “ukuran rata-rata file HTML adalah 500 kali lebih kecil” dari 15 MB.

garis waktu byte htmlTangkapan layar dari penulis, Agustus 2022

Di atas, HTTPArchive.org menunjukkan median ukuran file desktop dan HTML seluler. Dengan demikian, sebagian besar situs web tidak memiliki masalah batasan 15 MB untuk perayapan.

Tapi, web adalah tempat yang besar dan kacau.

Memahami sifat batas perayapan 15 MB dan cara menganalisisnya penting untuk SEO.

Gambar, video, atau bug dapat menyebabkan masalah perayapan, dan informasi SEO yang kurang dikenal ini dapat membantu proyek melindungi nilai penelusuran organiknya.

Temukan Sumber Daya Lebih Besar dari 15 MB Untuk Perayapan Googlebot yang Lebih Baik

Apakah Batas Perayapan Googlebot 15 MB Hanya Untuk Dokumen HTML?

Tidak.

Batas perayapan Googlebot 15 MB adalah untuk semua dokumen yang dapat diindeks dan dapat dirayapi, termasuk Google Earth, Hancom Hanword (.hwp), teks OpenOffice (.odt), dan Rich Text Format (.rtf), atau jenis file lain yang didukung Googlebot.

Apakah Ukuran Gambar Dan Video Dijumlahkan Dengan Dokumen HTML?

Tidak, setiap sumber daya dievaluasi secara terpisah dengan batas perayapan 15 MB.

Jika dokumen HTML berukuran 14,99 MB, dan gambar unggulan dari dokumen HTML kembali berukuran 14,99 MB, keduanya akan dirayapi dan digunakan oleh Googlebot.

Ukuran dokumen HTML tidak dijumlahkan dengan sumber daya yang ditautkan melalui tag HTML.

Apakah Ukuran Dokumen HTML CSS, JS, Atau Data URI Mengasapi?

Ya, CSS sebaris, JS, atau URI Data dihitung dan digunakan dalam ukuran dokumen HTML.

Jadi, jika dokumen melebihi 15 MB karena sumber daya dan perintah sebaris, itu akan memengaruhi kemampuan perayapan dokumen HTML tertentu.

Apakah Google Berhenti Merangkak Sumber Daya Jika Lebih Besar dari 15 MB?

Tidak, sistem perayapan Google tidak berhenti merayapi sumber daya yang lebih besar dari batas 15 MB.

Mereka terus mengambil file dan hanya menggunakan bagian yang lebih kecil dari 15 MB.

Untuk gambar yang lebih besar dari 15 MB, Googlebot dapat memotong gambar hingga 15 MB dengan bantuan “rentang konten”.

Content-Range adalah header respons yang membantu Googlebot atau crawler dan pemohon lainnya melakukan permintaan sebagian.

Bagaimana Mengaudit Ukuran Sumber Daya Secara Manual?

Kamu dapat memakai Alat Pengembang Google Chrome untuk mengaudit ukuran sumber daya secara manual.

Ikuti langkah-langkah di bawah ini di Google Chrome.

  • Buka dokumen halaman web melalui Google Chrome.
  • Tekan F12.
  • Buka tab Jaringan.
  • Segarkan halaman web.
  • Pesan sumber daya sesuai dengan Air Terjun.
  • Periksalah ukuran kolom pada baris pertama, yang menunjukkan ukuran dokumen HTML.

Di bawah ini, Anda dapat melihat contoh dokumen HTML beranda searchenginejournal.com, yang lebih besar dari 77 KB.

hasil html beranda jurnal mesin pencariTangkapan layar oleh penulis, Agustus 2022

Bagaimana Mengaudit Ukuran Sumber Daya Secara Otomatis Dan Massal?

Gunakan Python untuk mengaudit ukuran dokumen HTML secara otomatis dan massal. Advertools dan Pandas adalah dua Pustaka Python yang berguna untuk mengotomatisasi dan menskalakan tugas SEO.

Ikuti petunjuk di bawah ini.

  • Impor Advertools dan Pandas.
  • Kumpulkan semua URL di peta situs.
  • Perayapan semua URL di peta situs.
  • Filter URL dengan Ukuran HTML-nya.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

Blok kode di atas mengekstrak URL peta situs dan merayapinya.

Baris terakhir kode hanya untuk membuat bingkai data dengan urutan menurun berdasarkan ukuran.

url dan ukuran holistikseo.comGambar dibuat oleh penulis, Agustus 2022

Anda dapat melihat ukuran dokumen HTML seperti di atas.

Dokumen HTML terbesar dalam contoh ini adalah sekitar 700 KB, yang merupakan halaman kategori.

Jadi, website ini aman untuk kendala 15 MB. Tapi, kita bisa memeriksa lebih dari ini.

Bagaimana Cara Memeriksa Ukuran Sumber Daya CSS dan JS?

Dalang digunakan untuk memeriksa ukuran CSS dan JS Resources.

Dalang adalah paket NodeJS untuk mengontrol Google Chrome dengan mode tanpa kepala untuk otomatisasi browser dan pengujian situs web.

Sebagian besar ahli SEO menggunakan Lighthouse atau Page Speed ​​Insights API untuk pengujian kinerja mereka. Namun, dengan bantuan Dalang, setiap aspek teknis dan simulasi dapat dianalisis.

Ikuti blok kode di bawah ini.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Jika Anda tidak tahu JavaScript atau tidak menyelesaikan tutorial Dalang apa pun, mungkin akan sedikit lebih sulit bagi Anda untuk memahami blok kode ini. Tapi, sebenarnya sederhana.

Ini pada dasarnya membuka URL, mengambil semua sumber daya, dan memberikan “transferSize”, “encodedSize”, dan “decodedSize” mereka.

Dalam contoh ini, “decodedSize” adalah ukuran yang perlu kita fokuskan. Di bawah ini, Anda dapat melihat hasilnya dalam bentuk file XLS.

Ukuran Sumber DayaUkuran byte sumber daya dari situs web.

Jika Anda ingin mengotomatiskan proses ini untuk setiap URL lagi, Anda perlu menggunakan for loop dalam perintah “await.page.goto()”.

Sesuai dengan preferensi Anda, Anda dapat menempatkan setiap halaman web ke dalam lembar kerja yang berbeda atau melampirkannya ke lembar kerja yang sama dengan menambahkannya.

Kesimpulan

Batasan perayapan Googlebot sebesar 15 MB adalah kemungkinan langka yang akan memblokir proses SEO teknis Anda untuk saat ini, tetapi HTTPArchive.org menunjukkan bahwa median ukuran video, gambar, dan JavaScript telah meningkat dalam beberapa tahun terakhir.

Ukuran gambar rata-rata di desktop telah melebihi 1 MB.

Deret Waktu Byte GambarTangkapan layar oleh penulis, Agustus 2022

Byte video melebihi total 5 MB.

Deret waktu byte videoTangkapan layar oleh penulis, Agustus 2022

Dengan kata lain, dari waktu ke waktu, sumber daya ini – atau beberapa bagian dari sumber daya ini – mungkin dilewati oleh Googlebot.

Dengan demikian, Anda harus dapat mengontrolnya secara otomatis, dengan metode massal untuk menghemat waktu dan tidak melewatkannya.

Lebih banyak sumber daya:


Gambar Unggulan: BestForBest/Shutterstock

Share

Leave a Reply

Your email address will not be published. Required fields are marked *