Pengambilan Informasi: Pengantar Untuk SEO

Pengambilan Informasi: Pengantar Untuk SEO

Ketika kita berbicara tentang pencarian informasi, sebagai ahli SEO, kita cenderung sangat fokus pada tahap pengumpulan informasi – perayapan.

Selama fase ini, mesin telusur akan menemukan dan merayapi URL yang dapat diaksesnya (volume dan luasnya bergantung pada faktor lain yang biasa kami sebut sebagai anggaran perayapan).

Fase perayapan bukanlah sesuatu yang akan kita fokuskan dalam artikel ini, saya juga tidak akan membahas secara mendalam tentang cara kerja pengindeksan.

Jika Anda ingin membaca lebih lanjut tentang perayapan dan pengindeksan, Anda dapat melakukannya di sini.

Dalam artikel ini, saya akan membahas beberapa dasar-dasar pencarian informasi, yang, jika dipahami, dapat membantu Anda mengoptimalkan halaman web dengan lebih baik untuk kinerja peringkat.

Ini juga dapat membantu Anda menganalisis perubahan algoritme dan pembaruan halaman hasil mesin pencari (SERP) dengan lebih baik.

Untuk memahami dan menghargai bagaimana mesin pencari modern memproses pencarian informasi praktis, kita perlu memahami sejarah pencarian informasi di internet – terutama bagaimana kaitannya dengan proses mesin pencari.

Mengenai pencarian informasi digital dan teknologi dasar yang diadopsi oleh mesin pencari, kita dapat kembali ke tahun 1960-an dan Universitas Cornell, di mana Gerard Salton memimpin tim yang mengembangkan Sistem Pencarian Informasi SMART.

Salton dikreditkan dengan mengembangkan dan menggunakan pemodelan ruang vektor untuk pengambilan informasi.

Model Ruang Vektor

Model ruang vektor adalah diterima di komunitas ilmu data sebagai mekanisme kunci dalam cara mesin pencari “mencari” dan platform seperti Amazon memberikan rekomendasi.

Metode ini memungkinkan prosesor, seperti Google, untuk membandingkan dokumen yang berbeda dengan kueri ketika kueri direpresentasikan sebagai vektor.

Google telah menyebut ini dalam dokumennya sebagai pencarian kesamaan vektor, atau “pencarian tetangga terdekat,” yang didefinisikan oleh Donald Knuth pada tahun 1973.

Dalam pencarian kata kunci tradisional, prosesor akan menggunakan kata kunci, tag, label, dll., dalam database untuk menemukan konten yang relevan.

Ini sangat terbatas, karena mempersempit bidang pencarian dalam database karena jawabannya adalah biner ya atau tidak. Metode ini juga dapat dibatasi saat memproses sinonim dan entitas terkait.

Semakin dekat kedua entitas dalam hal kedekatan, semakin sedikit ruang antara vektor, dan semakin tinggi kesamaan / akurasi mereka dianggap.

Untuk mengatasi ini dan memberikan hasil untuk kueri dengan beberapa interpretasi umum, Google menggunakan kesamaan vektor untuk mengikat berbagai arti, sinonim, dan entitas bersama-sama.

Contoh bagusnya adalah ketika Anda meng-Google nama saya.

Ke google, [dan taylor] dapat:

  • Saya, orang SEO.
  • Seorang jurnalis olahraga Inggris.
  • Seorang reporter berita lokal.
  • Letnan Dan Taylor dari Forrest Gump.
  • Seorang fotografer.
  • Seorang pembuat model.

Menggunakan pencarian kata kunci tradisional dengan kriteria biner ya/tidak, Anda tidak akan mendapatkan sebaran hasil ini di halaman pertama.

Dengan pencarian vektor, prosesor dapat menghasilkan halaman hasil pencarian berdasarkan kesamaan dan hubungan antara entitas dan vektor yang berbeda dalam database.

Anda dapat membaca blog perusahaan di sini untuk mempelajari lebih lanjut tentang bagaimana Google menggunakan ini di beberapa produk.

Pencocokan kesamaan

Saat membandingkan dokumen dengan cara ini, mesin pencari kemungkinan menggunakan kombinasi Query Term Weighting (QTW) dan Koefisien Kesamaan.

QTW menerapkan pembobotan ke istilah tertentu dalam kueri, yang kemudian digunakan untuk menghitung koefisien kesamaan menggunakan model ruang vektor dan dihitung menggunakan koefisien kosinus.

Kesamaan kosinus mengukur kesamaan antara dua vektor dan, dalam analisis teks, digunakan untuk mengukur kesamaan dokumen.

Ini adalah mekanisme yang mungkin dalam cara mesin pencari menentukan konten duplikat dan proposisi nilai di seluruh situs web.

Cosinus diukur antara -1 dan 1.

Secara tradisional pada grafik kesamaan kosinus, itu akan diukur antara 0 dan 1, dengan 0 adalah ketidaksamaan maksimum, atau ortogonal, dan 1 adalah kesamaan maksimum.

Peran Indeks

Dalam SEO, kami banyak berbicara tentang masalah indeks, pengindeksan, dan pengindeksan – tetapi kami tidak secara aktif berbicara tentang peran indeks di mesin pencari.

Tujuan indeks adalah untuk menyimpan informasi, yang dilakukan Google melalui sistem pengindeksan berjenjang dan pecahan, untuk bertindak sebagai penampung data.

Itu karena tidak realistis, tidak menguntungkan, dan pengalaman pengguna akhir yang buruk untuk mengakses halaman web (merangkak) dari jarak jauh, mengurai konten mereka, menilainya, dan kemudian menyajikan SERP secara real time.

Biasanya, indeks mesin pencari modern tidak akan berisi salinan lengkap dari setiap dokumen tetapi lebih merupakan basis data poin-poin penting dan data yang telah diberi token. Dokumen itu sendiri kemudian akan tinggal di cache yang berbeda.

Meskipun kami tidak tahu persis proses yang akan dilalui oleh mesin pencari seperti Google sebagai bagian dari sistem pencarian informasi mereka, mereka kemungkinan akan memiliki tahapan:

  • Analisis struktural – Format dan struktur teks, daftar, tabel, gambar, dll.
  • Stemming – Mengurangi variasi kata ke akarnya. Misalnya, “mencari” dan “mencari” akan dikurangi menjadi “mencari”.
  • Analisis leksikal – Konversi dokumen menjadi daftar kata dan kemudian parsing untuk mengidentifikasi faktor-faktor penting seperti tanggal, penulis, dan frekuensi istilah. Untuk diketahui, ini tidak sama dengan TF*IDF.

Kami juga mengharapkan selama fase ini, pertimbangan dan poin data lain diperhitungkan, seperti tautan balik, jenis sumber, apakah dokumen memenuhi ambang batas kualitas atau tidak, tautan internal, konten utama/konten pendukung, dll.

Akurasi & Pasca Pengambilan

Pada tahun 2016, Paul Haahr memberikan wawasan yang luar biasa tentang bagaimana Google mengukur “keberhasilan” prosesnya dan juga bagaimana menerapkan penyesuaian pasca-pengambilan.

Anda dapat menonton presentasinya di sini.

Di sebagian besar sistem temu kembali informasi, ada dua ukuran utama tentang seberapa sukses sistem dalam mengembalikan kumpulan hasil yang baik.

Ini adalah presisi dan recall.

presisi

Jumlah dokumen yang dikembalikan yang relevan versus jumlah total dokumen yang dikembalikan.

Banyak situs web telah melihat penurunan dalam jumlah total kata kunci yang mereka rangking selama beberapa bulan terakhir (seperti kata kunci yang aneh dan canggih yang mungkin mereka tidak berhak dalam peringkatnya). Kita dapat berspekulasi bahwa mesin pencari menyempurnakan sistem pencarian informasi untuk presisi yang lebih besar.

Mengingat

Jumlah dokumen relevan versus jumlah total dokumen relevan yang dikembalikan.

Mesin pencari lebih mengarah ke presisi daripada mengingat, karena presisi mengarah ke halaman hasil pencarian yang lebih baik dan kepuasan pengguna yang lebih besar. Ini juga kurang intensif sistem dalam mengembalikan lebih banyak dokumen dan memproses lebih banyak data daripada yang diperlukan.

Kesimpulan

Praktek pencarian informasi dapat menjadi kompleks karena formula dan mekanisme yang berbeda yang digunakan.

Sebagai contoh:

Karena kami tidak sepenuhnya mengetahui atau memahami cara kerja proses ini di mesin telusur, kami harus lebih fokus pada dasar-dasar dan pedoman yang diberikan dibandingkan mencoba metrik permainan seperti TF*IDF yang mungkin atau mungkin tidak digunakan (dan bervariasi dalam hal bobotnya dalam hasil keseluruhan).

Lebih banyak sumber daya:


Gambar Unggulan: BRO.vector/Shutterstock

Share

Leave a Reply

Your email address will not be published. Required fields are marked *