1 search engines là gì
Bài viết này cần thêm chú thích nguồn gốc để kiểm chứng thông tin. Mời bạn giúp hoàn thiện bài viết này bằng cách bổ sung chú thích tới các nguồn đáng tin cậy. Các nội dung không có nguồn có thể bị nghi ngờ và xóa bỏ. Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm hay cỗ máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên cơ sở các từ khóa liên quan đến trang web.
Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).
Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.
Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.
Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.
Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.
Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).
Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.
Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.
Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:
Những tiêu chí quan trọng dùng trong phân hạngDưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:
Kỹ thuật nâng cao thứ hạng cho một trang WebViệc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:
Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:
Phân loại máy truy tìmNgày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thủy. Có hai cách chính phân loại máy truy tìm. Theo phương thức hoạt động
Theo chức năngTheo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:
Phép toán và hỗ trợ của máy truy tìmDùng Google để tìm lại nguồn thơ khi chỉ nhớ một câuĐể mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.
Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light
Từ khoá mặc địnhNhiều máy truy tìm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này biểu tượng. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm. Các từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.
Ký tự thay thế và ký tự "~" trong bộ từ khoáKý tự thay thế (wildcard character) được hiểu là một ký tự có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các ký tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, ký tự thay thế là ký tự được dùng để đại diện cho một ký tự, hay một chuỗi ký tự trong một từ khoá, mệnh đề, câu hay dãy các ký tự. Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại ký tự thay thế. Đó là dấu sao * và dấu chấm hỏi ?
Dấu ngã ~: Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi. Chế độ cao cấp của máy truy tìmChế độ nâng cao của máy truy tìm AskJeeves (www.ask.com)Ngoài chế độ tìm kiếm thông thường hầu hết các máy truy tìm đều hỗ trợ chức năng nâng cao mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search", hay đơn giản là "Advanced". Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của các chế độ nâng cao là:
Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác. Sử dụng các chức năng đặc biệt của máy truy tìmCác máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt
Một máy tìm hoạt động theo các bước cơ bản sau
Các máy tìm mạng thực hiện công việc lưu giữ thông tin về một số lượng khổng lồ các trang web nó tìm thấy trên WWW. Những trang web này được lấy về bằng các con lọ mọ (còn gọi là nhện web) bằng cách lần theo các siêu liên kết. Nội dung các trang web sau đó được phân tích để xác định xem trang web đó nên xuất hiện trong các yêu cầu tìm kiếm với tổ hợp từ khóa nào (ví dụ, những từ thu được từ tiêu đề, nội dung hoặc các trường đặc biệt gọi là meta tags). Đọc thêm
Tham khảo
Liên kết ngoài
Lấy từ “https://vi.wikipedia.org/w/index.php?title=Máy_truy_tìm_dữ_liệu&oldid=68938364” |