Trong những bài viết trước hay đây là vấn đề đã được chia sẻ rất nhiều trên các trang thông tin về SEO hay Digital Marketing đó chính sự "Trùng Lặp Nội Dung" hôm nay, Adpia sẽ cùng tổng kết và lắng nghe xem Google nói gì về sự trùng lặp này? Yếu tố trùng lặp này là vấn đề cần giải quyết với nhiều chủ sở hữu website đang thực hiện công việc phát triển với công cụ tìm kiếm nói chung và Google nói riêng.
Google nói gì về sự trùng lặp nội dung?
Nội dung trùng lặp ( Ảnh: Internet)
1. Yếu tố trùng lặp nội dung là gì?
Nội dung trùng lặp ( duplicate content) được hiểu đơn giản là nội dung giống với phiên bản nội dung Gốc được bộ lập chỉ mục của Google hay một công cụ tìm kiếm nào đó công nhận. Nội dung trùng lặp được chia làm hai biểu hiện cụ thể đó là nội dung trùng lặp nội bộ và nội dung trùng lặp bên ngoài.
a. Nội dung trùng lặp nội bộ là gì ?
Nội dung trùng lặp nội bộ được hiểu là nội dung bài viết của cùng một địa chỉ tên miền được lặp lại giống so với bản Gốc tại địa chỉ đó. Nội dung trùng lặp nội bộ thường xuất hiện ở những trang mà chủ sở hữu của nó nghèo nàn về thông tin và ít quan tâm đến việc xây dựng những nội dung phục vụ người sử dụng. Việc nội dung nội bộ bị lặp lại nhiều lần chính là nguyên nhân dẫn đến việc biến mất khỏi công cụ tìm kiếm của rất nhiều website.
>>> Nội dung liên quan: Hướng dẫn đăng ký Google Adwords
- Những trường hợp thường gặp phải lỗi nội dung trùng lặp nội bộ cơ bản
+ Trang Tag
+ Trang Filter
+ Kết quả trang search nội bộ
+ Trang Category
+ Trang sản phẩm đơn lẻ bị add vào nhiều Category khác nhau
+ Phân trang
Nội dung nội bộ nguy hiểm và được google đánh giá là kém chất lượng nhất đó chính là nội dung của các bài viết. Việc sử d ụng những nội dung được "nhai đi nhai lại" chính là hiểm họa vô cùng lớn.
b. Nội dung trùng lặp bên ngoài là gì?
Nội dung trùng lặp bên ngoài được hiểu giống như nội dung trùng lặp nội bộ và nó là sự giống nhau giữa những tên miền có cùng nội dung. Nội dung này được sao chép từ địa chỉ này sang địa chỉ khác một cách hoàn toàn hoặc một phần lớn. Đối với Google họ nhận định rằng, việc trùng lặp nội dung bên ngoài đang nói đến việc sử dụng tài nguyên của một đơn vị khi chưa được phép một cách bất hợp pháp. Họ không thích điều đó và coi đó là một hình thức gian lận.
- Một số trường hợp thường gặp với trùng lặp nội dung bên ngoài:
Các mô tả Sản Phẩm của những trang thương mại điện tử
Nội dung tạo bằng cách sử dụng kỹ thuật tạo từ đồng nghĩa hoặc mã hóa ( spin content )
Ăn trộm nội dung của đối thủ thủ công
Nội dung cóp nhặt ( tìm hiểu thêm tại đây )
Lấy nội dung qua RSS feeds
Sử dụng lại các thông cáo báo chí
Sử dụng content của các affiliate sites
Từ khoá, tiêu đề, mô tả, nội dung trong bài giống hệt nhau
2. Google phát hiện sự trùng lặp như thế nào?
Chúng ta ai cũng biết rằng Google hoạt động theo hình thức nạp - tìm. Chính từ việc sử dụng hoạt động của các robots tìm kiếm thông tin trên các website chúng mang thông tin về bộ lập chỉ mục và từ đó trả thông tin cho người tìm kiếm. Các mốc thời gian được xác lập sẽ được sử dụng để xác minh đâu là phiên bản Gốc và đâu là phiên bản trùng lặp. Kĩ thuật lọc và xác định nội dung của Google nằm ở 3 điểm khi Google lập chỉ mục nội dung :
Khi lên Lịch ( Scheduler )
Trong thời gian lập chỉ mục ( indexing )
Trong các kết quả tìm kiếm

Nội dung trùng lặp ( Ảnh: Internet)
3. Trùng lặp nội dung là điều Google cực kỳ căm ghét?
Công cụ tìm kiếm luôn luôn thay đổi theo xu hướng tìm kiếm và cách người sử dụng cầu thị việc kết quả trả về khi sử dụng dịch vụ đó. Google luôn mong muốn mang đến cho các kết quả tốt và chính xác nhất với truy vấn cho người tìm kiếm. Hãy thử nghĩ một nội dung được trả đi trả lại nhiều lần, người dùng sẽ nghĩ gì về công cụ tìm kiếm này?
Tuy nhiên thì vẫn có một vài lí do khác mà Google chưa nói đến :
- Google phải tiết kiệm thời gian, dung lượng
Mỗi ngày qua đi có hàng triệu website mới cần index, thay vì việc đưa tất cả số khối lượng thông tin đó vào trong bộ lập chỉ mục, các robots có thể lựa chọn và đánh giá ngay từ khi tiếp cận với chúng. Điều này sẽ tiết kiệm được nhiều thời gian và dung lượng lưu trữ. Họ sẽ bỏ đi những nội dung mà nhận ra rằng chúng trùng lặp với một nội dung Gốc đã có sẵn.
- Google sẽ sử phạt hành động trùng lặp nội dung như thế nào?
Thứ hạng giảm xuống
Loại bỏ index
Loại bỏ website khỏi công cụ tìm kiếm
4. Làm thế nào Google phát hiện tác giả của bài viết gốc?
Rất nhiều bạn đã từng bị trường hợp khi viết mội dung nào đó lên và bị website đối thủ ( có điểm chất lượng, lượng truy cập lớn hơn) sao chép. Kẻ đi copy lại có được thứ hạng cao trong khi bản "Gốc" lại dần dần tụt mất vị trí khỏi công cụ tìm kiếm.
Giải thích điều này, chúng ta sẽ cùng tìm hiểu lại cách mà các robots hoạt động ở phía trên bài viết. Với mỗi website khác nhau, bạn luôn luôn có những " robots đưa tin" luôn chờ trực để cập nhật thông tin của bạn về bộ lập chỉ mục. Thế nhưng không phải con robots nào cũng hoạt động và báo cáo về bộ lập chỉ mục vói tần suất là như nhau. Đây chính là điểm phản ánh độ mạnh yếu, độ đáng tin cậy của mỗi website. Khi một website được index nội dung đó trước, Google sẽ mạc định hiểu đó là nội dung Gốc còn các nội dung khác đều là coppy, sử dụng lại.