Cách Google xử lý và phân tích để mang lại dữ liệu chính xác cho người dùng

25/08/2020 - Vy Hoang Cong Nhut

Các công cụ tìm kiếm xuất hiện từ giữa thế kỷ 20 và tiếp tục phát triển đến nay. Hầu hết các công cụ tìm kiếm hoạt động dựa trên cơ sở truy xuất thông tin (information retrieval - IR).  Nhưng bạn có biết, các công cụ tìm kiếm đã làm cách nào để đưa được thông tin chính xác cho người dùng? Hãy xem bài viết dưới đây nhé!

Vào những giai đoạn đầu của việc phát triển hệ thống tìm kiếm, nhiều nhà khoa học trong lĩnh vực IR đã nhận ra tầm quan trọng của hai yếu tố then chốt trong việc tìm kiếm: mức độ liên quan và độ quan trọng. Để đánh giá được các yếu tố này, Google thực hiện thao tác phân tích văn bản (bao gồm  việc xác định nghĩa của từng khái niệm trong văn bản đó) và phân tích link hay citation.

Document analysis và sự liên kết ý nghĩa trong nội dung

Trong document analysis, hệ thống tìm kiếm sẽ tập trung vào search terms ở trong những phần quan trọng của văn bản. Ví dụ như tiêu đề, phần metadata, phần các thẻ tiêu đề, và phần nội dung của văn bản đó. Nó còn tự động đánh giá chất lượng của văn bản đó thông qua việc document analysis cũng như nhiều yếu tố khác.

Tuy nhiên, chỉ dựa trên việc phân tích văn bản là không đủ đối với Google hiện nay. Google cũng xem xét đến nội dung các nội dung liên quan về ngữ nghĩa của các từ trong văn bản. 

Ví dụ, nếu bạn tìm kiếm từ Aloha, nó sẽ liên quan đến Hawaii chứ không phải Hà Nội. Google cũng chủ động tự xây dựng cho mình từ điển cũng như hệ thống các từ đồng nghĩa để giúp nó dễ dàng hơn trong việc xác định các từ cũng như các chủ đề có liên quan đến nhau. Bằng việc lướt qua mạng lưới dữ liệu khổng lồ trên các hệ thống trang mạng, Google có thể sử dụng lý thuyết  fuzzy set và một số công thức để liên kết các từ ngữ với nhau. Từ đó họ có thể dễ dàng tìm hiểu về nội dung của các trang web.

Các chuyên gia về SEO sẽ không cần sử dụng các công cụ đánh giá các link (semantic connectivity) để tối ưu hoá trang web của mình. Tuy nhiên, đối với những người muốn tận dụng tối đa mọi cơ hội, các slug có chứa từ khóa có thể hỗ trợ trong các trường hợp sau:

  • Đánh giá được từ khoá nào cần được tập trung
  • Đánh giá được từ khoá nào cần được nhắc đến trên trang khi nói về một chủ đề cụ thể nào đó
  • Đánh giá được mối quan hệ của các văn bản của các trang web có thứ hạng cao
  • Tìm kiếm được các trang có cùng các slug về các đề tài liên quan.

Mặc dù nguồn thông tin cần cho việc đánh giá này đòi hỏi trình độ cao về công nghệ, nhưng các chuyên gia SEO chỉ cần nắm được quy tắc cơ bản để lấy thông tin quan trọng. Hãy nhớ rằng tuy việc truy xuất thông tin (IR)  gồm rất nhiều khái niệm công nghệ khó hiểu, nhưng nó vẫn có thể được đơn giản hoá để ngay cả người mới tìm hiểu về SEO vẫn có thể nắm được.

Một vài loại tìm kiếm điển hình trong việc truy xuất thông tin (IR):

Tìm kiếm chính xác

Nếu bạn muốn tìm chính xác những thông tin chỉ liên quan đến từ khóa, hãy thêm dấu ngoặc kép cho từ khóa khi search trên các công cụ tìm kiếm. Chúng sẽ đưa ra những kết quả tìm kiếm gần với từ khóa đó nhất, theo đúng thứ tự của từ khóa. 

Ngược lại, tìm kiếm tương đối có thể đề xuất các kết quả không đúng thứ tự của các từ cần tìm để tìm kiếm trong các văn bản liên quan.

Ví dụ khi bạn tìm kiếm cụm từ “Giải phóng miền Nam” trong ngoặc kép, bạn đang mong muốn nhấn mạnh các kết quả gần nhất với cụm từ đó theo đúng thứ tự. Nhưng nếu bỏ ngoặc kép ra, các kết quả tìm kiếm vẫn gần với từ cần tìm nhưng lúc này thứ tự sẽ không được hoàn toàn giống với từ được nhập vào. Ví dụ có thể ra các kết quả như: Miền Nam giải phóng, Miền Nam được giải phóng.

Hình 1: Kết quả tìm kiếm chính xác Hình 1: Kết quả tìm kiếm chính xác

Logic mờ (Fuzzy logic)

Logic mờ đơn giản là để nói đến những lập luận không được phân loại đúng hay sai hoàn toàn. Một ví dụ cụ thể là tìm kiếm về việc liệu trời hôm nay có nắng không. Tuy nhiên nếu 50% có mây thì khó có thể xác định là nắng hay không.

Trong việc tìm kiếm thì fuzzy logic sẽ được dùng để xác định các tìm kiếm có lỗi chính tả và đề xuất những kết quả đúng với nhu cầu người dùng. Bằng việc sử dụng fuzzy logic, Google vẫn có thể đưa ra những kết quả đúng mặc dù người dùng có một vài lỗi sai chính tả.

Tìm kiếm Boolean:

Có những tìm kiếm sẽ sử dụng những cụm từ Boolean như VÀ. HOẶC, KHÔNG (AND, OR and NOT). Loại logic này được dùng để mở rộng hoặc giới hạn những văn bản được chọn xuất hiện lại.

Sức nặng của cụm từ (Term weighting):

Sức nặng của cụm từ để chỉ mức độ quan trọng của cụm từ đó đối với câu hỏi. Việc đánh giá độ quan trọng của từng từ với nhau giúp cho Google có thể dễ dàng hơn trong việc ưu tiên các kết quả. Ví dụ những từ hay xuất hiện trong các văn bản như con, các, gì, thế nào, cách thì sẽ có ít sức nặng hơn những từ khác. Những từ này không có gì đặc biệt và không giúp ích trong việc tìm kiếm.

Mô hình IR sử dụng lý thuyết tập mờ (fuzzy set) để xác định liên kết về nghĩa của hai từ bất kì. Thay vì sử dụng từ điển hay tập hợp từ đồng nghĩa để tìm, hệ thống IR có thể sử dụng hệ thống dữ liệu khổng lồ của mình để làm việc đó.

Mặc dù quy trình này nghe có vẻ rất phức tạp, nền tảng của nó lại vô cùng đơn giản. Google làm việc dựa hoàn toàn trên quy tắc logic của máy tính (đúng/sai, có/không, v.v). Tuy logic của máy tính những ưu thế do với con người nhưng nó lại không có cách suy nghĩ như con người. Có những khái niệm tưởng chừng rất hiển nhiên đối với con người nhưng lại trở nên rất khó hiểu với máy tính. Ví dụ, quả chuối với quả cam có điểm chung đều là trái cây, nhưng quả chuối với quả cảm có hình dạng khác nhau, không đều tròn như nhau. Đối với con người đây là hiển nhiên.

Tuy nhiên máy tính lại phải dựa vào liên kết về nghĩa của từ. Một lượng lớn các kiến thức của nhân loại trên hệ thống web sẽ được tập hợp vào hệ thống danh mục và sau đó được phân tích để có thể tạo ra những mối quan hệ mà con người có thể dễ dàng nhận ra ở trên. Ví dụ, máy tính có thể nhận ra được quả cam hình tròn và quả chuối không như vậy bằng việc xem qua hàng nghìn sự xuất hiện của các từ chuốicam trong danh mục của nó để nhận ra rằng từ tròn và chuối không cùng đồng thời xuất hiện trong khi camtròn thì có.

Đây là khi logic mờ phát huy tác dụng. Việc sử dụng tập mờ giúp máy tính có thể hiểu được mối liên hệ của các từ bằng cách đánh giá mức độ xuất hiện cùng nhau của nó trong các văn bản.

Ví dụ, hệ thống tìm kiếm có thể nhận ra bánh mì có thể bao gồm thịtăn có khả năng là một phần của nấu nướng hoặc địa điểm ăn uống.

Để có thể hiểu rõ hơn, hãy bắt đầu tìm kiếm thử cụm từ bánh mì thịt. Google xác định cụm từ tìm kiếm được in đậm và xác định cụm từ nào thường xuất hiện cùng với những từ đó trong danh mục thông tin có sẵn.

Các công ty liên quan đến hệ thống tìm kiếm đã đầu tư để phát triển công nghệ này từ nhiều năm nay. Vào năm 2013, Google đã lặng lẽ công bố rằng công ty đã viết lại phần mềm tìm kiếm và đặt tên là “Chim ruồi" (Hummingbird). Việc viết lại này tập trung vào việc cho phép nhận ra mối quan hệ của các sự vật hiện tượng với công suất lớn hơn.

Ví dụ, nếu bạn sử dụng phần mềm tìm kiếm bằng giọng nói (nhấn vào biểu tượng micro bên phải ô tìm kiếm trên Google) và đặt câu hỏi “Nguyễn Xuân Phúc là ai?”. Nó sẽ ra kết quả cho bạn biết “Ông hiện là Thủ tướng Chính phủ đương nhiệm của nước Cộng hoà xã hội chủ nghĩa Việt Nam. Ông còn là đại biểu quốc hội Việt Nam khóa XIV nhiệm kỳ 2016-2021 thuộc đoàn đại biểu thành phố Hải Phòng.” (Hình 1)

Nó còn thể hiện Google có thể nhận ra nhiều khía cạnh của ông như

  • Công việc: Thủ tướng Chính phủ đương nhiệm của nước Cộng hoà xã hội chủ nghĩa Việt Nam.
  • Quốc tịch: Việt Nam
  • Thông tin chi tiết: Ông còn là đại biểu quốc hội Việt Nam khóa XIV nhiệm kỳ 2016-2021 thuộc đoàn đại biểu thành phố Hải Phòng.
Hình 2: Thông tin về Thủ tướng Nguyễn Xuân Phúc Hình 2: Thông tin về Thủ tướng Nguyễn Xuân Phúc

Hệ thống này còn được nâng cấp hơn so với trước năm 2012. Nó còn có thể làm được nhiều hơn thế. Ví dụ nếu như bạn tiếp tục nhấn vào tìm kiếm bằng giọng nói và nói “Tuổi” nó sẽ trả lời tiếp câu hỏi của bạn. (Hình 3)

Hình 3: Tuổi của Thủ tướng Nguyễn Xuân Phúc

Bạn có thể để ý rằng trong lần tìm kiếm thứ hai, chúng ta không nhắc lại tên của Thủ tướng Nguyễn Xuân Phúc. Google đã tự động ghi nhớ nội dung thông tin của lần tìm kiếm trước và mặc định chúng ta muốn tìm kiếm tiếp về Thủ tướng. Nếu bạn tiếp tục với câu hỏi “vợ của ông”, Google vẫn sẽ trả lời được.

Thử nghiệm này cho chúng ta thấy rằng giờ đây hệ thống tìm kiếm đã có thể nhận ra mối liên hệ của các từ, cụm từ và sự vật hiện tượng khác nhau trên hệ thống Web. Việc liên kết về nghĩa trở thành một phần quan trọng của thuật toán tìm kiếm góp phần khiến mọi người chú trọng hơn vào việc lựa chọn chủ đề của trang. Trong tương lai, hệ thống còn hoàn toàn có thể nhận ra chủ đề cũng như nội dung hay đường link nào đó không liên quan đến nội dung chính của trang web bất kỳ.

Lợi ích của nền tảng truy xuất thông tin Google

Google là một nền tảng truy xuất thông tin vô cùng tuyệt vời. Bài viết đã cho ta thấy được những khả năng xử lý phân tích của Google để có thể truy xuất dữ liệu chính xác. Thông qua đó, bạn có thể xác định được những loại hình thức truy xuất phổ biến và cách thức chúng hoạt động trên Google. Nhờ đó, chúng ta đã có cái nhìn rõ nét hơn về nền tảng tìm kiếm lớn nhất hiện nay Google.

Nếu bạn quan tâm về cách tối ưu từ khóa cho website, click vào đây để tìm hiểu thêm.