Nội dung trùng lặp: Nguyên nhân và giải pháp

Nội dung trùng lặp: Nguyên nhân và giải pháp

Các nội dung tương tự nhau (duplicate content) cùng xuất hiện ở nhiều vị trí trên website làm các công cụ tìm kiếm không biết sẽ hiển thị URL nào trong kết quả tìm kiếm. Nội dung trùng lặp là một vấn đề nhức nhối gây ảnh hưởng đến việc xếp hạng trên kết quả tìm kiếm. Nội dung trùng lặp có thể sẽ khiến Google xếp hạng cả hai URL thấp hơn và ưu tiên cho các webite khác. Bài viết này sẽ giúp bạn hiểu đâu là nguyên nhân của nội dung trùng lặp và giải pháp cụ thể. Đừng bỏ lỡ nhé!

Nguyên nhân gây ra nội dung trùng lặp

Có nhiều lý do dẫn đến việc trùng lặp nội dung nhưng chủ yếu là do lỗi kỹ thuật. Đôi khi các admin website nghĩ http://www.example.com/keyword-x/ và http://www.example.com/article-category/keyword-x/ là hai bài khác nhau. 

Hai URL cùng một nội dung

Ví dụ trong cơ sở dữ liệu của một CMS chỉ lưu có một bài, nhưng trên trang web lại xuất hiện hai URL khác nhau cho cùng một nội dung. Điều này cũng sẽ gây trùng lặp trên công cụ tìm kiếm.

Session ID

Bạn theo dõi khách truy cập và cho phép họ lưu các mặt hàng họ muốn mua trong giỏ hàng. Để làm được điều đó, bạn phải cho họ một ‘session’. Session là một lịch sử ngắn gọn về những gì khách truy cập đã làm trên trang web của bạn và có thể chứa những thứ như các mặt hàng trong giỏ hàng.

Để duy trì session đó khi khách truy cập nhấp từ trang này sang trang khác, cần 1 mã định danh duy nhất là Session ID được lưu trữ ở đâu đó. Giải pháp phổ biến nhất là sử dụng cookie. Khi sử dụng Session ID trong URL trong mọi liên kết nội bộ trên trang web, nó tạo ra một URL mới và làm nội dung bị trùng lặp.

Tham số URL được sử dụng để theo dõi và sắp xếp

Một nguyên nhân khác của nội dung trùng lặp là sử dụng các tham số URL mà không thay đổi nội dung của trang. Chẳng hạn việc theo dõi các liên kết như http://www.example.com/keyword-x/http://www.example.com/keyword-x/?source=rss được coi là 2 URL khác nhau nhưng có chứa cùng 1 nội dung. Trong đó, URL thứ 2 cho phép theo dõi mọi người đến từ đâu, nhưng có thể ảnh hạng đến thứ hạng trên trang kết quả tìm kiếm.

Nguyên tắc đánh giá nội dung trùng lặp không chỉ dành cho các thông số theo dõi, mà còn phù hợp với mọi thông số được thêm vào một URL mà không thay đổi phần nội dung quan trọng.

Bị sao chép nội dung

Hầu hết các lý do cho nội dung trùng lặp là do ‘lỗi’ của người viết. Đôi khi, các trang web khác sử dụng lại nội dung được đăng tải trên website của bạn bạn. Và không phải lúc nào nội dung sao chép cũng liên kết đến bài viết gốc của bạn, do đó công cụ tìm kiếm không biết và phải xử lý một phiên bản khác của cùng một bài viết. Trang web của bạn càng trở nên phổ biến, sẽ càng bị nhiều người sao chép nội dung. Điều này sẽ ảnh hưởng không nhỏ đến thứ hạng trên website của bạn.

Thứ tự các tham số

Một nguyên nhân phổ biến khác là CMS không sử dụng các URL ngắn gọn, mà là các URL như /?id=1&cat=2, trong đó ID đề cập đến bài viết và cat đề cập đến danh mục. URL /?cat=2&id=1 sẽ hiển thị các kết quả giống nhau trong hầu hết các hệ thống trang web, nhưng chúng hoàn toàn khác nhau đối với công cụ tìm kiếm.

Phân trang bình luận

Trong WordPress, và một vài nền tảng web cho phép phân trang các nhận xét của bạn. Điều này dẫn đến nội dung bị trùng lặp khi URL bài viết sẽ trùng với URL bài viết + / comment-page-1 /, / comment-page-2 / v.v.

WWW vs. non-WWW

Đôi khi các công cụ tìm kiếm vẫn hiểu sai: nội dung trùng lặp WWW vs. non-WWW, khi cả hai phiên bản trang web của bạn đều có thể truy cập được. Một tình huống khác, ít phổ biến hơn nhưng chúng tôi cũng đã thấy trang HTTP trùng lặp với trang HTTPS.

Giải pháp: ‘canonical’ URL

Hình 1: URL chính xác

Hình 1: Tìm ra URL chính xác so với các URL khác

Xác định vấn đề

Để biết nội dung của bạn có bị trùng lặp hay không, hãy sử dụng công thức: site: example.com intitle: “Từ khoá X”.

Google sẽ hiển thị tất cả các trang trên example.com có ​​chứa từ khóa đó. Bạn thực hiện intitle phần truy vấn đó càng cụ thể thì càng dễ loại bỏ nội dung trùng lặp.

Bạn có thể sử dụng phương pháp này để xác định những trang chứa nội dung trùng lặp với website của bạn. Giả sử tiêu đề đầy đủ của bài viết của bạn là ‘Từ khóa X – tại sao nó lại tuyệt vời’ , bạn sẽ tìm kiếm: intitle: “Từ khoá X – tại sao nó lại tuyệt vời”. 

Google sẽ cung cấp cho bạn tất cả các trang web phù hợp với tiêu đề đó. Đôi khi, bạn còn tìm thấy một hoặc hai câu sao chép hoàn toàn từ bài viết của bạn, vì một số người sửa bài có thể thay đổi tiêu đề.

Trong một số trường hợp, khi bạn thực hiện tìm kiếm như vậy, Google có thể hiển thị thông báo như thế này trên trang cuối cùng của kết quả:

Hình 2: Thông báo trên trang cuối cùng của kết quả

Hình 2: Thông báo trên trang cuối cùng của kết quả

Đây là dấu hiệu cho thấy Google đã ‘loại bỏ’ kết quả, hãy nhấp vào liên kết và xem tất cả các kết quả khác.

Các giải pháp thực tế cho nội dung trùng lặp

Khi đã quyết định URL chuẩn cho phần nội dung, bạn hãy tiến hành thông báo cho các công cụ tìm kiếm về phiên bản chuẩn của một trang. Có bốn phương pháp giải quyết vấn đề, theo thứ tự ưu tiên:

  1. Không tạo nội dung trùng lặp mới.
  2. Chuyển hướng nội dung trùng lặp đến URL chuẩn.
  3. Thêm phần tử liên kết chuẩn rel=”canonical” vào trang trùng lặp.
  4. Liên kết trở lại trang chuẩn.

Tránh nội dung trùng lặp

Một số nguyên nhân ở trên gây ra nội dung trùng lặp có cách khắc phục rất đơn giản:

  • Session ID trong URL => Vào phần cài đặt hệ thống để điều chỉnh.
  • Sử dụng phân trang bình luận trong WordPress => Tắt tính năng này trong cài đặt »thảo luận.
  • Các thông số trên URL theo thứ tự khác nhau => Yêu cầu lập trình viên xây dựng một tập lệnh nhằm đặt các tham số theo cùng một thứ tự.
  • Có sử dụng tham sốt theo dõi => Trong hầu hết các trường hợp, bạn có thể sử dụng theo dõi chiến dịch dựa trên hashtag thay vì theo dõi chiến dịch dựa trên thông số.
  • Sự cố WWW và non-WWW => Chọn một cái và chuyển hướng cái còn lại sang. Vào Công cụ quản trị trang web của Google để cài đặt chọn WWW hay non-WWW, nhưng bạn sẽ cần phải xác nhận cả hai phiên bản của tên miền.

301 Chuyển hướng nội dung trùng lặp

Trong vài trường hợp, bạn không thể ngăn hệ thống tạo sai URL cho nội dung, lúc này bạn cần sử dụng lệnh 301.

Sử dụng rel=”canonical”

Trong phần <head> trên website của bạn, chèn: <link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />

Sau href là link chuẩn cho bài viết. Khi một công cụ tìm kiếm tìm thấy đoạn code này, nó sẽ thực hiện lệnh 301, chuyển phần lớn giá trị liên kết được thu thập bởi trang đó sang trang chuẩn của bạn. Tuy nhiên, quá trình này chậm hơn một chút so với chuyển hướng 301. Vì vậy trong trường hợp này, nên ưu tiên sử dụng lệnh 301.

Link trở lại nội dung gốc

Một cách khác để xử lý nội dung trùng lặp là thêm một link bài viết gốc ở đầu hoặc bên dưới bài viết. Bạn có thể thực hiện việc cách thêm một link bài viết viết gốc trong nguồn cấp dữ liệu RSS. Một số người tìm kiếm sẽ lọc link đó ra, nhưng cũng có trường hợp copy nội dung và giữ nguyên link trong bài viết. Nếu Google gặp một số link trỏ đến bài viết gốc, Google sẽ sớm tìm ra đó là phiên bản chuẩn thực sự.

Kết luận

Nội dung trùng lặp xảy ra là vấn đề phổi biến nhưng có thể giải quyết được trong lúc tối ưu SEO cho website. Là một người đọc, người ta không bận tâm nội dung có trùng lặp hay không vì họ nhận được nội dung họ muốn. Tuy nhiên, công cụ tìm kiếm phải chọn trang nào để hiển thị trong kết quả Google không muốn hiển thị cùng một nội dung hai lần.

Về tác giả

Hoa Võ

Là một Digital Marketer, tôi rất vinh dự khi có thể đóng góp cho cộng đồng số những kiến thức mới và chất lượng nhất trong ngành. Hi vọng rằng những điều chia sẻ của tôi sẽ là hành trang hữu ích cho những bạn đang dấn thân vào lĩnh vực thú vị này.