Những nội dung nào Google không thể "đọc" trên trang web của bạn?
24/08/2020 - Vy Hoang Cong Nhut
Ở phần trước, chúng ta đã hiểu được cách mà Google phân tích và đánh giá nội dung của một trang web, cũng như mức độ ảnh hưởng của những hành động này đến việc tối ưu SEO cho website. Câu hỏi đặt ra là, liệu Google có thể đánh giá mọi loại nội dung gồm cả hình ảnh, video và nhiều định dạng khác không, hay chỉ dừng lại ở một giới hạn nhất định. Các chia sẻ dưới đây sẽ giải đáp thắc mắc của bạn.
Những nội dung mà hệ thống tìm kiếm không thể “đọc”
Việc tìm hiểu những loại nội dung mà Google không thể “nhìn thấy" rất quan trọng nhằm đưa ra kế hoạch content marketing hiệu quả trên hệ thống tìm kiếm, đồng thời nâng cao độ hiệu quả cho hoạt động tối ưu SEO cho website.
Ví dụ, mặc dù công cụ tìm kiếm có thể nhận biết hình ảnh, nhưng nó hoàn toàn không có hiểu được nội dung bức ảnh, trừ phần thông tin mà bạn cung cấp ở thẻ alt. Nó chỉ có thể nhận ra một vài thông tin rất cơ bản về bức ảnh, ví dụ nhận diện gương mặt, hoặc tính khiêu dâm bằng cách xem xét phần màu da lộ ra.
Điều này thỉnh thoảng dẫn đến việc Google có thể xếp bức ảnh quảng cáo cho dịch vụ massage vào nhóm hình ảnh nhạy cảm. Hệ thống gần như không thể nhận biết đây là bức ảnh của Sơn Tùng MTP hay con thuyền, căn nhà hay là cơn bão. Thêm vào đó, nó cũng không thể nhận biết nội dung văn bản chèn trong hình ảnh.
Hình 1: Google gặp hạn chế trong việc đánh giá nội dung hình ảnhThực tế, Google có công nghệ để thực hiện một vài thao tác ở mức độ nào đó. Ví dụ nếu bạn thả một bức ảnh Vịnh Hạ Long vào ô tìm kiếm trong Google hình ảnh, hệ thống sẽ nhận biết được. Tuy nhiên, khả năng này đòi hỏi bức ảnh đó phải được nhận biết từ trước. Google hiện nay không phát triển việc nhận biết toàn bộ bức ảnh nó gặp trên hệ thống website.
Google cũng đang thử nghiệm công nghệ sử dụng Nhận dạng ký tự quang học (Optical character recognition - OCR) để trích văn bản từ hình ảnh. Nhưng công nghệ này vẫn chưa được sử dụng rộng rãi. Vấn đề chính của việc áp dụng OCR và công nghệ phân tích hình ảnh là nó đòi hỏi máy móc làm việc ở cường độ rất cao nên việc áp dụng ở diện rộng cho toàn bộ hệ thống là không khả thi.
Thêm vào đó, mọi người thường nghĩ rằng việc Google không thể đọc được tệp Flash chỉ là lời đồn. Trên thực tế, Google đã có thể lấy thông tin từ tệp Flash suốt nhiều năm. Tuy nhiên, hệ thống rất khó phân biệt một tệp tin có phải là Flash hay không. Một trong những vấn đề lớn đó chính là khi hệ thống nhìn vào tệp Flash, nó vẫn tìm kiếm thông tin bằng chữ trong khi Flash là thông tin dạng hình ảnh. Do đó, các designer không nên chèn quá nhiều chữ vào ảnh. Tất cả những câu từ được chèn vào ảnh và thể hiện dưới dạng HTML cũng sẽ bị bỏ qua, ngay cả khi HTML được dùng chung với Flash.
Loại thông tin thứ ba mà hệ thống không thể “nhìn thấy” đó chính là toàn bộ hình ảnh có trong tệp Flash. Phần này hệ thống cũng bị hạn chế như ở phần hình ảnh. Ví dụ, nếu văn bản được chuyển sang dạng biểu đồ, phần thông tin chữ cũng sẽ bị bỏ qua.
Hệ thống cũng gặp khó khăn trong việc xử lý thông tin dạng âm thanh và video. Mặc dù có vài trường hợp mà nó có thể trích ra một lượng thông tin nhất định ví dụ như thẻ ID3 trong tệp MP3 hoặc podcast nâng cao dưới định dạng ACC với phần chữ “show notes". Tuy nhiên, nói một cách đơn giản, hệ thống sẽ không thể phân biệt đâu là video về cháy rừng, và đâu là video về một trận đấu bóng đá.
Hệ thống cũng không thể đọc được những nội dung gắn với phần mềm. Bạn nhìn thấy được trên trang không có nghĩa là Google cũng thấy được. Nó chỉ nhận ra những thông tin được mã hóa trong mã lập trình.
Một ví dụ về việc con người có thể nhìn thấy nhưng hệ thống thì không, đó chính là AJAX. AJAX là phương pháp dựa trên JavaScript để có thể cho phép trang web phản hồi lại yêu cầu của người dùng sau khi lấy data từ kho dữ liệu mà không cần phải tải lại toàn bộ trang. Nói cách khác, khi người dùng truy cập vào trang web và cung cấp một vài thông tin, AJAX sẽ cho phép trang web phản hồi bằng việc truy xuất thông tin và thể hiện nó một cách phù hợp.
Những vấn đề tương tự cũng xảy ra với những hình thức khác của JavaScript khi nó không mã hoá thông tin dưới dạng HTML. Một loại mới của JavaScript là AngularJS càng làm cho quá trình này khó khăn hơn.
HTML5 là ngôn ngữ cấu trúc và trình bày nội dung, được biết đến dưới dạng thẻ và được thiết kế nhằm mục đích cài đặt các plug-ins (phần cài đặt thêm). Plug-ins là phần mềm nằm trên máy tính của người dùng. Thẻ embed thường được dùng để cài video hoặc tệp tin audio vào trang web. Nó sẽ cho phép plug-in biết nơi cần tìm thông tin để sử dụng. Phần thông tin chứa trong các plug-ins này có thể hoặc không hiển thị đối với hệ thống tìm kiếm.
Hình 2: Ngôn ngữ cấu trúc HTML5Frames và iframes là phương pháp để có thể cài đặt nội dùng từ trang web ngoài vào trang web của bạn. Iframes thường được sử dụng rộng rãi hơn frames. Frames thường được dùng để chia nhỏ các phần nội dung trên trang web, nhưng đồng thời nó cũng có thể được dùng để đính kèm thông tin từ trang web khác. Ví dụ như trang Google News.
Trang web hoạt động dựa trên việc thu thập nội dung từ các trang web khác sẽ được đánh giá như thế nào (trường hợp bạn được cho phép đặt chúng lên trang web của bạn)? Bạn có thể cho rằng điều này rất bình thường, tuy nhiên, công cụ tìm kiếm sẽ đánh dấu những chỗ frame/ iframe được sử dụng và bỏ qua những thông tin này. Nói cách khác, nó sẽ không công nhận nội dung bạn đem từ trang web khác sang là nội dung khác biệt (unique content).
Kết luận
Hiểu được cơ chế phân tích và đánh giá nội dung của Google sẽ giúp bạn tối ưu các thành phần thông tin trên website, từ đó tối ưu SEO cho website hiệu quả hơn. Hi vọng thông tin trên sẽ hữu ích với bạn.