Những nội dung ẩn bị Google đánh dấu spam

Posted on
Những nội dung ẩn bị Google đánh dấu spam

 

Nội dung bị ẩn là một trong những vấn đề mà các chuyên gia về website và phương tiện tìm kiếm phải đối mặt. Spammer thường xuyên sử dụng nội dung ẩn để thêm vào thật nhiều từ khóa cho trang, nhằm mục đích tối ưu SEO cho website, cũng như tăng thứ hạng website trên trang kết quả tìm kiếm. Dù vậy, Google vẫn có thể tìm, đánh dấu spam và ra án phạt cho những trang này. Tuy nhiên, thỉnh thoảng vẫn có những nội dung vô tình bị ẩn, ảnh hưởng nghiêm trọng đến việc Google đánh giá độ tin cậy của website. Vậy những nội dung như thế nào sẽ bị Google đánh giá spam, hãy cùng MangoAds tìm hiểu thông qua bài viết dưới đây.

Cách Google phát hiện và lọc spam

Nội dung hoặc link ẩn dùng để thay đổi thứ hạng trên Google tìm kiếm sẽ được xem là hành vi lừa gạt và vi phạm nguyên tắc Webmaster.

Google sẽ dựa vào những công cụ tự động, cùng với sự hỗ trợ của những người đánh giá (có trả phí), đội kiểm tra spam và đối thủ của bạn để phát hiện spam.

Hệ thống báo cáo spam

Hệ thống của Google đã viết ra thuật toán chi tiết để phát hiện ra sự bất thường trong cả link đến và link đi, cấu trúc câu và mã HTML, v.v.

Thông thường những người làm marketing còn không thể biết mình sai ở đâu hay vi phạm điều gì trong nguyên tắc. Ví dụ như hệ thống sẽ tập trung vào những trang có dấu hiệu lừa gạt, như thẻ <noarchive>, <noscript>, <noframe>

Mỗi hệ thống sẽ có những giới hạn nhất định cho các chiến thuật SEO. Bất kỳ hành động nào vi phạm nguyên tắc, can thiệp vào thứ hạng tìm kiếm bằng những nội dung không liên quan hay không có giá trị sử dụng đều sẽ bị Google gắn spam.

Việc này giống như một quy luật của website và hệ thống tìm kiếm. Mục tiêu của hệ thống là cung cấp kết quả liên quan nhất đến cho người dùng. Còn mục tiêu của bạn chính là đem đến cho người dùng nhiều nội dung có giá trị và trải nghiệm tốt khi ghé thăm website. Việc cố gắng lừa hệ thống hay lợi dụng quá trình làm việc của nó không phải là một lựa chọn mang tính lâu dài.

Báo cáo từ người dùng

Google cho phép người dùng và thậm chí là cả đối thủ của bạn báo cáo spam. Một điều nữa, hệ thống còn có thể sử dụng những reviewer để thực hiện những đánh giá chất lượng. Vào cuối năm 2012, Google đã công bố “nguyên tắc về việc xếp hạng chất lượng tìm kiếm”.

Án phạt của Google

Một khi bị đánh dấu spam, website của bạn có thể dính án phạt của Google. Những hình phạt thông thường đánh vào thứ hạng, quyền được bình chọn của page, bị cấm một phần hoặc tệ nhất là bị cấm hoàn toàn.

Năm 2013, BBC News và lời bài hát nổi tiếng Rap Genius bị ảnh hưởng bởi lệnh phạt của Google. Trường hợp của BBC News, công cụ Google Webmaster (Search Console) gửi một thông báo về đường link đánh giá là “không bình thường” (chiếm khoảng 1-2% thông báo của Google Webmaster). Tuy cuối cùng phát hiện ra là chỉ có một bài báo bị nhắm đến, điều này vẫn gây ra không ít sóng gió.

Còn về trường hợp của Rap Genius thì lại nghiêm trọng hơn. Rap Genius gửi lời mời cho các blogger nhờ họ thêm link của Rap Genius vào blog của họ. Đổi lại, Rap Genius sẽ thường xuyên tweet bài của những blogger này lên Twitter. Việc làm này bị Google phát hiện, dẫn tới án phạt dành cho website Rap Genius.

Bị Google phạt là gì? Cách khắc phục ra sao ?

Hình 1: Những nguyên nhân khác có thể khiến website của bạn bị phạt bởi Google

Những nội dung ẩn nào bị đánh dấu spam?

Ranh giới giữa “thân thiện với hệ thống tìm kiếm” và spam rất mong manh. Thân thiện có thể hiểu là crawler dễ tiếp cận trang, mã HTML được sắp xếp hợp lý để hạn chế những mã không cần thiết và các tựa đề quan trọng như tên sản phẩm, được để thành một đoạn mã riêng (với thẻ H1) và chứa từ khóa liên quan. Trong link phải có nội dung chứ không chỉ đơn thuần là “nhấn vào đây” hay “thêm thông tin”.

Ngược lại, những hành động dưới đây sẽ được xem là “mánh khoé” nhằm thay đổi thứ hạng kết quả của website:

Website kém chất lượng và website spam

Đây là những trang không có giá trị sử dụng, khó hiểu, không phù hợp với người đọc. Bạn có thể nhận ra website kém chất lượng bằng nhiều cách: tên miền, hoạt động mua link, dùng link spam trên blog, diễn đàn hay phần bình luận dưới bài báo hoặc website không có nội dung giá trị – như doorway pages (các chuyên gia SEO hay gọi là gateway pages, bridge pages, jump pages, attraction pages, advertising pages, channel pages, directory information pages, search engine entry pages, satellite sites, mini sites, magnet sites hoặc shadow domains. Những site này được dùng chỉ nhằm mục đích tăng thứ hạng cho website chính. Những trang này thường có:

  • Tên miền quá ngắn hoặc quá dài, thời gian đăng ký ngắn, ít lượt ghé thăm trực tiếp.
  • Đăng ký cùng với người hay tổ chức có liên quan đến những website không đáng tin cậy.
  • Có nhiều dấu “-” trong tên miền, nhiều subdomain (tên miền phụ) chứa đầy từ khoá, từ khóa xuất hiện thường xuyên và dày đặc.
  • Tỷ lệ quảng cáo Google hiển thị chứa nội dung copy cao, thường chứa một lượng lớn những nội dung vụn vặt được sao chép từ nhiều trang khác.
  • Sử dụng từ khóa spam có giá trị thương mại cao ví dụ như thế chấp, bài poker, khiêu dâm và các từ liên quan.
  • Ít link tới những trang đáng tin cậy, phần lớn link redirect đến các website kém chất lượng.
  • Không đăng ý với những dịch vụ như Google Search Console.
  • Thường xuyên dùng mánh khoé che giấu, thay đổi nội dung dựa trên phần mềm đại diện người dùng hoặc địa chỉ IP.
  • Hiếm những hoạt động marketing online hay offline.
  • Thường sử dụng phần mềm phá hoại, virus, phần mềm theo dõi hoặc những phần mềm tự động tải xuống.
  • Thường bảo mật những thông tin WHOIS (tìm kiếm thông tin chủ sở hữu domain).

Sao chép nội dung

Google sẽ tự động loại bỏ những nội dung trùng lặp nhưng sẽ không phạt bên sản xuất nội dung vì điều đó. Chỉ đơn giản là vì Google không muốn hiển thị các bản sao nội dung vì nó không đem lại giá trị gì cho người dùng. Như vậy, chúng ta cũng có thể ngầm hiểu rằng, những nội dung sao chép không đóng góp nhiều giá trị cho việc tối ưu SEO cho website.

Trên thực tế, vào cuối năm 2013, Matt Cutts đã công bố có tới 25-30% nội dung trên Web là trùng lặp và trừ khi những nội dung này nhiều và độc hại thì mới gây ảnh hưởng.

Tuy nhiên, vẫn có ba ngoại lệ này sẽ ảnh hưởng đến thứ hạng trang của bạn theo thuật toán của Google Panda.

Vi phạm bản quyền

Trong trường hợp này, nếu người sản xuất nội dung dùng content của người khác mà không có sự đồng ý của họ là vi phạm bản quyền. Năm 2014, Google công bố phần mềm Scraper Report báo cáo những website nào hiện đang xếp hạng cao trên SERP, có chứa nội dung sao chép từ các nguồn khác.

Someone Outranking You With Your Own Content? Use The New Google Scraper  Report

Hình 2: Scraper Report thống kê những website có xếp hạng cao trên SERP nhưng sở hữu nội dung sao chép

Trang affiliate

Khác với vi phạm bản quyền, việc đăng sao chép nội dung trên các trang affiliate là được sự chấp thuận từ chủ nguồn tin. Affiliate site thường do các chủ sở hữu chạy một mạng lưới hệ thống website, nhằm thu hút khách hàng tiềm năng và tạo ra những chương trình khuyến mãi khách hàng.

Những website này sẽ trình bày các nội dung tương tự nhau, không đem đến giá trị thông tin thỏa mãn nhu cầu tìm kiếm của người dùng. Những trang này còn có thể tạo ra hàng trăm thậm chí hàng nghìn trang khác để nhắm vào hệ thống tìm kiếm. Ví dụ: những trang giống nhau hoàn toàn chỉ thay một chút tên thành phố như “Tỷ giá vàng ở Hà Nội”, “Tỷ giá vàng ở Hồ Chí Minh”, v.v.

Sao chép lượng lớn thông tin

Trường hợp này xảy ra khi một trang không phải là website vệ tinh nhưng vẫn có một lượng lớn thông tin sao chép (cho dù có sự cho phép). Nếu mức sao chép hơn 70% nội dung thì có thể bị lãnh án phạt của Google.

Những dạng khác

    • Lặp từ khóa trong thẻ <Title> , thẻ <H1>, thuộc tính <Alt>, thẻ <Meta description>, câu đầu của phần nội dung và đoạn text chứa từ khóa (anchor text) trong những link dẫn đến website.
    • Nhắm đến những từ khóa không liên quan.
    • Ẩn những nội dung nhồi nhét từ khóa hoặc link trong mã HTML bằng cách thêm thẻ <noscript>, <noframe> hoặc sử dụng chữ cùng màu với nền, chữ size nhỏ, link không được đánh dấu gạch chân, v.v)
    • Thực hiện “redirect lén” (sneaky redirect) để tự động chuyển người dùng từ website có thứ hạng cao sang trang có thứ hạng thấp.
    • Che giấu hoặc theo dõi hệ thống khi họ truy cập vào website để thay đổi nội dung có lợi nhất cho thứ hạng.
    • SEO tiêu cực: đem link của đối thủ vào những hội nhóm link farms hoặc tạo ra bên thứ ba dưới tên của đối thủ nhằm hãm hại họ.

Các ngoại lệ

Có nhiều trường hợp bạn vô tình tạo ra văn bản ẩn. Một trong những trường hợp phổ biến đó là thông qua CMS, hệ thống có nhiều phương pháp dựa trên CSS.

Ví dụ: bạn dùng kỹ thuật “display:none” để cài đặt menu dạng thả xuống hoặc widget nhằm hiển thị nhiều nội dung hơn khi click vào. Các tab danh mục chính là ví dụ điển hình. Thỉnh thoảng display:none được dùng để ám chỉ số lượng bình luận của người dùng, và chỉ hiển thị đầy đủ nội dung khi khi bạn click vào. Đồng thời xuất hiện trạng thái “0 bình luận” trong trường hợp không có bình luận từ người dùng.

Mọi người hay ẩn nội dung khi họ cảm thấy không cần thiết. Ví dụ: Bạn có tệp tin Flash có kèm đoạn mô tả nội dung. Bạn cảm thấy đoạn văn bản đó không cần thiết, gây rối mắt. Giải pháp cho trường hợp này chính là ẩn đoạn mô tả. Do những trường hợp đó không mang lại ý nghĩa cho SEO ngay cả khi bị tạo bởi spammer, nên những kỹ thuật này cũng không khiến bạn bị phạt vì không có lý do gì để nghi ngờ.

Ngoài ra, những link nội dung (nội dung trên trang chủ và được quyền sao chép) nếu được công bố đúng cách sẽ không bị đánh giá là spam.

Kết luận

Ẩn nội dung là cụm từ khá quen thuộc trong việc tối ưu SEO cho website, và đã từng là cách giúp từ khoá thăng hạng nhanh chóng trên công cụ tìm kiếm Google. Tuy nhiên, việc Google liên tục cập nhật các thuật toán nhằm đảm bảo thứ hạng trên SERP được minh bạch và chất lượng, sử dụng nội dung ẩn đã không thể mang đến kết quả khả quan, thậm chí dính án phạt từ công cụ tìm kiếm này. Dù vậy, không phải nội dung ẩn nào cũng vi phạm luật Webmaster của Google, vì thế các SEOers cần cân nhắc sử dụng nội dung ẩn hợp lý nhằm tránh những án phạt không đáng có.