Google Pada Persentase Yang Mewakili Konten Duplikat

Google Pada Persentase Yang Mewakili Konten Duplikat

John Mueller dari Google baru-baru ini menjawab pertanyaan apakah ada ambang persentase duplikasi konten yang digunakan Google untuk mengidentifikasi dan menyaring konten duplikat.

Berapa Persentase yang Sama dengan Konten Duplikat?

Percakapan sebenarnya dimulai di Facebook ketika Duane Forrester (@DuaneForrester) bertanya apakah ada yang tahu apakah ada mesin telusur yang memublikasikan persentase konten yang tumpang tindih di mana konten dianggap duplikat.

Bill Hartzer (bhartzer) beralih ke Twitter untuk bertanya kepada John Mueller dan menerima tanggapan yang hampir segera.

Bill tweeted:

“Hei @johnmu apakah ada persentase yang mewakili konten duplikat?

Misalnya, haruskah kita mencoba memastikan halaman setidaknya 72,6 persen unik dari halaman lain di situs kita?

Apakah Google bahkan mengukurnya?”

John Mueller dari Google menjawab:

Bagaimana Google Mendeteksi Konten Duplikat?

Metodologi Google untuk mendeteksi konten duplikat tetap sangat mirip selama bertahun-tahun.

Kembali pada tahun 2013, Matt Cutts (@mattcutts), seorang insinyur perangkat lunak pada saat itu di Google menerbitkan video resmi Google menjelaskan cara Google mendeteksi konten duplikat.

Dia memulai video dengan menyatakan bahwa banyak konten Internet adalah duplikat dan itu adalah hal yang normal terjadi.

“Penting untuk disadari bahwa jika Anda melihat konten di web, sekitar 25% atau 30% dari semua konten web adalah konten duplikat.

…Orang-orang akan mengutip sebuah paragraf dari sebuah blog dan kemudian menautkan ke blog, hal semacam itu.”

Dia melanjutkan dengan mengatakan bahwa karena begitu banyak konten duplikat tidak bersalah dan tanpa maksud spam, Google tidak akan menghukum konten itu.

Menghukum halaman web karena memiliki beberapa konten duplikat, katanya, akan berdampak negatif pada kualitas hasil pencarian.

Apa yang dilakukan Google ketika menemukan konten duplikat adalah:

“…cobalah untuk mengelompokkan semuanya dan memperlakukannya seolah-olah itu hanya satu bagian dari konten.”

Matt melanjutkan:

“Itu hanya diperlakukan sebagai sesuatu yang perlu kita klaster dengan tepat. Dan kita perlu memastikan bahwa peringkatnya benar.”

Dia menjelaskan bahwa Google kemudian memilih halaman mana yang akan ditampilkan di hasil pencarian dan menyaring halaman duplikat untuk meningkatkan pengalaman pengguna.

Bagaimana Google Menangani Konten Duplikat – Versi 2020

Maju cepat ke 2020 dan Google menerbitkan episode podcast Search Off the Record di mana topik yang sama dijelaskan dalam bahasa yang sangat mirip.

Ini dia bagian yang relevan dari podcast itu dari menit 06:44 ke episode:

“Gary Illyes: Dan sekarang kita berakhir dengan langkah berikutnya, yang sebenarnya adalah kanonikalisasi dan deteksi penipuan.

Martin Splitt: Bukankah itu sama, deteksi penipuan dan kanonikalisasi?

Gary Illy: [00:06:56] Nah, itu tidak, kan? Karena pertama-tama Anda harus mendeteksi pemalsuan, pada dasarnya mengelompokkannya, dengan mengatakan bahwa semua halaman ini adalah penipu satu sama lain,
dan kemudian pada dasarnya Anda harus menemukan halaman pemimpin untuk semuanya.

…Dan itu adalah kanonikalisasi.

Jadi, Anda memiliki duplikasi, yang merupakan keseluruhan istilah, tetapi di dalamnya Anda memiliki bangunan klaster, seperti pembuatan klaster yang menipu, dan kanonikalisasi. “

Gary selanjutnya menjelaskan secara teknis bagaimana tepatnya mereka melakukan ini. Pada dasarnya, Google tidak benar-benar melihat persentase dengan tepat, melainkan membandingkan checksum.

Checksum dapat dikatakan sebagai representasi konten sebagai rangkaian angka atau huruf. Jadi jika kontennya duplikat maka urutan nomor checksum akan serupa.

Beginilah cara Gary menjelaskannya:

“Jadi, untuk deteksi penipuan yang kami lakukan adalah, ya, kami mencoba mendeteksi penipuan.

Dan bagaimana kami melakukannya mungkin seperti kebanyakan orang di mesin pencari lain melakukannya, yang pada dasarnya mengurangi konten menjadi hash atau checksum dan kemudian membandingkan checksum.”

Gary mengatakan Google melakukannya seperti itu karena lebih mudah (dan jelas akurat).

Google Mendeteksi Konten Duplikat dengan Checksum

Jadi ketika berbicara tentang duplikat konten mungkin bukan masalah ambang batas persentase, di mana ada sejumlah konten yang dikatakan duplikat.

Melainkan, konten duplikat dideteksi dengan representasi konten dalam bentuk checksum dan kemudian checksum tersebut dibandingkan.

Kesimpulan tambahan adalah bahwa tampaknya ada perbedaan antara saat sebagian konten diduplikasi dan semua konten diduplikasi.


Gambar unggulan oleh Gambar Shutterstock/Ezume

Share

Leave a Reply

Your email address will not be published. Required fields are marked *