Google lựa chọn và đề xuất thông tin cho các tìm kiếm như thế nào?
24/08/2020 - Vy Hoang Cong Nhut
Trong bài viết này, chúng ta sẽ tìm hiểu sâu hơn về cách Google liên kết những thông tin trên nền tảng của họ. Từ những kiến thức này, người làm marketing có thể đưa ra cách SEO web hiệu quả tốt hơn.
Hệ thống tìm kiếm ngày nay đang được nâng cấp để có thể dễ dàng cung cấp thông tin cho người dùng ngay lập tức thay vì chỉ gợi ý các đường link website như trước đây. Như trong hình dưới đây, thông tin của nhạc sĩ Văn Cao gồm ngày tháng năm sinh, nơi sinh, ngày tháng năm mất và tên người con trai của ông. Các thông tin này được hiển thị ngay trên trang kết quả tìm kiếm mà bạn không cần phải nhấn vào bất kì link nào để đọc. Như vậy, không chỉ đơn thuần cung cấp dữ liệu mà các công cụ tìm kiếm này đã có thể kết nối các thông tin với nhau bằng mối liên hệ giữa các thông tin đó. Ví dụ Google đã có thể nhận ra các mối liên hệ sau:
- Văn Cao là tên của một người
- Con người sẽ có thông tin về ngày tháng năm sinh và nơi sinh
- Con người cũng có thể sẽ có ngày tháng năm mất và nơi mất (nếu họ đã qua đời)
- Con người có thể có thông tin về gia đình của mình
Hình 1: Minh họa kết quả tìm kiếm theo tên người
Bằng việc nhận ra các mối quan hệ đó, Google đã có thể cung cấp thông tin một cách toàn diện hơn ngay trên chính trang kết quả.
Sắp xếp thứ tự hiển thị bằng thuật toán: crawling, indexing và ranking
Nắm rõ cách vận hành của hệ thống tìm kiếm từ việc quét thông tin, phân loại và sắp xếp thứ tự hiển thị sẽ giúp bạn dễ dàng hơn trong việc tìm kiếm cách SEO web hiệu quả cao. Phần này sẽ tập trung vào phân tích Google. Các trang tìm kiếm nổi tiếng khác của các nước trên thế giới như Baidu (Trung Quốc), Yandex (Nga) hay Naver (Hàn Quốc) có thể sẽ có cách vận hành khác.
Các công cụ tìm kiếm có thể bao gồm một chuỗi rất nhiều các tác vụ phức tạp nhưng bạn có thể hiểu đơn giản nó bằng hai bước:
- Hệ thống bắt đầu tìm kiếm sẽ truy cập vào tất cả các trang có liên quan, “tìm kiếm" các thông tin đồng thời cũng crawl cả những trang web khác có liên quan tới chúng. Lưu ý là hệ thống sẽ bỏ qua các trang web nó xem là không có giá trị nếu trang đó không có nội dung hay không link với trang web ngoài nào khác.
- Sau đó, hệ thống sẽ phản hồi kết quả cho các tìm kiếm bằng một danh sách các trang có liên quan.
Phần tiếp theo MangoAds sẽ đi đến tới chức năng cụ thể của hoạt động.
Chúng ta sẽ bắt đầu bằng việc tìm hiểu xem các công cụ tìm kiếm này đã tìm ra các nội dung này bằng cách nào.
Thu thập và sắp xếp
Để có được kết quả tốt nhất, các hệ thống này sẽ đi đến hết tất cả các website để tìm ra nội dung phù hợp nhất với câu hỏi được đặt ra. Bước đầu tiên của việc tìm kiếm này chính là crawling, hay có thể một cách đơn giản là thu thập thông tin. Hệ thống sẽ bằng đầu những trang web uy tín và có lượng truy cập cao sau đó sẽ tiếp tục tìm kiếm dựa trên những đường link mà những trang web này chia sẻ.
Các trang web đều được link với nhau qua một hệ thống liên kết chung. Dựa trên hệ thống link này, robot của Google (được gọi là crawler hay spider) có thể truy cập hàng tỷ tỷ tài liệu được link với nhau.
Ví dụ như hình 2, bạn có thể nhìn thấy trang chủ của VnExpress. Những link được đánh dấu bằng các khung đỏ. Crawler sẽ phân tích nội dung trên trang chủ trước, sau đó sẽ phân tích tới các đường link mà trang này dẫn tới.
Hình 2: Phân tích các đường link trên website
Google sẽ tiếp tục phân tích nội dung trên các trang này và tiếp tục lần theo các link mà các trang này dẫn tới. Có thể thấy đây là một quá trình rất phức tạp do hệ thống các website rất khổng lồ.
Lưu ý: Google trên thực tế sẽ không “tìm kiếm” toàn bộ tất cả các website mỗi ngày. Nó sẽ bỏ qua các trang web mà nó đánh giá là không quan trọng. Khái niệm này chúng ta bàn luận kỹ hơn ở phần “Truy tìm (Retrieval) và Sắp xếp thứ tự hiển thị (Ranking)”
Đầu tiên, Google sẽ xây dựng một danh sách các cụm từ. Đây là một kho dữ liệu cực kỳ khổng lồ khi nó phân loại toàn bộ các cụm từ nổi bật của từng trang mà nó đã nghiên cứu. Ngoài ra, các thông tin khác cũng được lưu trữ như sơ đồ link của toàn bộ trang web, các nội dung có kèm đường link (anchor text) và việc các nội dung này có phải quảng cáo hay không.
Google đã xây dựng rất nhiều các trung tâm thông tin (data centers) để có thể hoàn thành một khối lượng công việc khổng lồ bao gồm việc lưu trữ hàng tỷ tỷ thông tin về các trang web mà vẫn đảm bảo nó có thể được truy cập một cách nhanh chóng.
Điểm then chốt trong việc xây dựng một hệ thống tìm kiếm đó là chính là lựa chọn nơi bắt đầu “tìm kiếm”. Mặc dù theo lý thuyết, việc bắt đầu ở đâu không quan trong nếu nó phải đi qua hết các trang web, nhưng bằng đầu bằng các trang web uy tín sẽ hỗ trợ rất nhiều cho việc “tìm kiếm" cũng như lưu trữ thông tin sau này.
Việc bắt đầu bằng các trang web uy tín này còn giúp crawler có thể đánh giá được các trang web mà nó tìm thấy sau này. Chúng ta sẽ tìm hiểu kỹ hơn về vai trò của các trang web nền tảng này trong thuật toán tìm kiếm ở phần “Ảnh hưởng của các đường link lên thứ tự hiển thị của trang kết quả”
Truy tìm và sắp xếp thứ tự hiển thị (Retrieval and Ranking)
Ngay khi người dùng gõ một yêu cầu vào hộp tìm kiếm trên trình duyệt, Google cung cấp cho người dùng một danh sách các trang web mà Google cho là liên quan nhất đến những gì mà người dùng tìm kiếm. Bước này đòi hỏi Google phải nghiên cứu qua rất nhiều tài liệu sau đó lọc ra những kết quả liên quan đến yêu cầu và xếp hàng chúng theo mức độ quan trọng. Lúc này hệ thống sẽ cân nhắc đến độ uy tín của từng trang web. Mức độ liên quan và mức độ quan trọng của các trang web là hai yếu tố quan trọng mà những người làm SEO cần phải lưu ý.
Mức độ liên quan: dùng để đánh giá các nội dung trả lời cho các tìm kiếm mà người dùng nhập vào. Mức độ liên quan của một trang sẽ tăng nếu như nó càng có nhiều các từ/cụm từ giống với từ cần tìm kiếm hoặc là đường link của nó bắt nguồn từ các trang liên quan và có anchor text liên quan. Thay vì chỉ viết những anchor text đơn giản, phổ biến như "tại đây", xem thêm... bạn có thể viết những anchor text dài và cụ thể hơn, chẳng hạn như "xem thông tin chi tiết về chương trình học tại đây", "xem bảng giá tại đây".
Hình 3: Minh họa về anchor text
Yếu tố liên quan như là “cánh cửa” cho việc bạn tiếp cận với người dùng. Nếu không đạt được yếu tố này, hệ thống sẽ nhanh chóng loại trang web của bạn ngay. Chúng ta sẽ bàn luận kỹ về yếu tố này trong phần “Phân tích mục đích tìm kiếm và cách để có một nội dung liên quan và mới mẻ”
Mức độ quan trọng: thông qua việc trích dẫn (citation) để đánh giá độ uy tín của một nội dung. Độ uy tín sẽ tăng lên nếu như trang web đó nhận được càng nhiều sự trích dẫn từ các trang web, tài liệu khác hoặc thông qua các mạng xã hội. Quy trình đánh giá này được gọi là citation analysis.
Bạn có thể hiểu nôm na là mức độ quan trọng sẽ quyết định xem trang web của bạn xuất hiện thứ mấy trên trang kết quả tìm kiếm. Độ uy tín của trang cũng như đánh giá của hệ thống sẽ đóng vai trò then chốt trong việc quyết định thứ tự này. Tuy nhiên, việc đánh giá sẽ phức tạp hơn vì đôi khi các trang web không đạt được mức độ liên quan giống nhau. Cho nên việc xem xét cả hai yếu tố mức độ liên quan và mức độ quan trọng đều sẽ được cân nhắc.
Việc đánh giá này sẽ dựa trên thuật toán của Google. Những thuật toán này sẽ bao gồm rất nhiều những tiêu chí đánh giá. Trong lĩnh vực marketing, những yếu này được gọi là yếu tố ảnh hưởng đến thứ hạng hiển thị (ranking factors) hay tiêu chuẩn đánh giá thứ hạng (algorithmic ranking criteria).
Chúng ta sẽ nghiên cứu về các yếu tố hay tín hiệu này ở phần “Phân tích các yếu tố ảnh hưởng đến thứ hạng hiển thị”
Kết luận
Qua bài viết này, hy vọng bạn đọc đã tích lũy được những kiến thức cơ bản về các thuật toán tìm kiếm và liên kết thông tin của Google. Dựa trên cơ sở này, các bạn có thể đưa ra cách SEO web hiệu quả thông qua tối ưu hóa link nội bộ để giúp cải thiện thứ hạng của trang web trên trang kết quả tìm kiếm.