Netencyclo tiếng Việt, The wikipedia mirror - The biggest multilingual encyclopedia : Máy truy tìm dữ liệu

- Máy truy tìm dữ liệu -

Máy truy tìm dữ liệu :

Máy truy tìm dữ liệu

Bách khoa toàn thư mở Wikipedia

Bước tới: menu, tìm kiếm
Trang tìm kiếm đơn giản Google Việt Nam ngày 8 tháng 2 năm 2008.

Máy truy tìm hay máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thuỷ là một phần mềm nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên các từ khóa (keyword) được người dùng gõ vào và trả về một danh mục của các trang Web có chứa từ khóa mà nó tìm được.

Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).

Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.

Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.

Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Without further qualification, máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.

Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.

Mục lục

[sửa] Các thuật ngữ liên quan

Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.

Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).

[sửa] Hoạt động phân hạng các trang Web

Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.

Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.

Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:

[sửa] Những tiêu chí quan trọng dùng trong phân hạng

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:

  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title:
    Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta có dạng:
    <META (các thông số cho câu lệnh meta)>
    Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta có nhiều hiệu lực cho việc phân hạng là:
    • <META name="description" content="(miêu tả ngắn nội dung trang Web)">
    • <META name="keywords" content="(danh sách từ khoá)">
      Với lý do tương tự, nếu câu lệnh
    • <title>(tựa đề của trang Web)</title> không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
  3. Ngôn ngữ: Nếu một người dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị các trang Web có cùng ngôn ngữ Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố ngôn ngữ của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web đưọc nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại không có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và được phân hạng cao hơn.

[sửa] Kỹ thuật nâng cao thứ hạng cho một trang Web

Minh họa các thành phần trong giao diện của máy truy tìm Altavista

Việc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:

Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:

Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một thí dụ là chỉ việc thêm vào phần nội dung các thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ meta hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xãy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.

[sửa] Phân loại máy truy tìm

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có hai cách chính phân loại máy truy tìm.

[sửa] Theo phương thức hoạt động

Giao diện của máy metacrawler

[sửa] Theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:

[sửa] Phép toán và hỗ trợ của máy truy tìm

Dùng Google để tìm lại nguồn thơ khi chỉ nhớ một câu

Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.

[sửa] Từ khoá mặc định

Nhiều máy truy tìm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này biểu tượng. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm.

Các từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.

Lưu ý: Đối với các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Do đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần, một riêng cho htm và một cho html.

[sửa] Kí tự thay thế và kí tự "~" trong bộ từ khoá

Kí tự thay thế (wildcard character) được hiểu là một kí tự có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các kí tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, kí tự thay thế là kí tự được dùng để đại diện cho một kí tự, hay một chuỗi kí tự trong một từ khoá, mệnh đề, câu hay dãy các kí tự. Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại kí tự thay thế. Đó là dấu sao * và dấu chấm hỏi ?

Dấu ngã ~: Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi.

[sửa] Chế độ cao cấp của máy truy tìm

Chế độ nâng cao của máy truy tìm AskJeeves (www.ask.com)

Ngoài chế độ tìm kiếm thông thường hầu hết các máy truy tìm đều hỗ trợ chức năng nâng cao mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search", hay đơn giản là "Advanced". Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của các chế độ nâng cao là:

Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác.

[sửa] Sử dụng các chức năng đặc biệt của máy truy tìm

Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt

Các chức năng đặc biệt của máy truy tìm Google

[sửa] Máy tìm hoạt động như thế nào

Một máy tìm hoạt động theo các bước cơ bản sau

  1. Lọ mọ
    1. Tìm kiếm theo chiều sâu (DFS)
    2. Tìm kiếm theo chiều rộng (BFS)
  2. Lập chỉ mục
  3. Tìm kiếm

Các máy tìm mạng thực hiện công việc lưu giữ thông tin về một số lượng khổng lồ các trang web nó tìm thấy trên WWW. Những trang web này được lấy về bằng các con lọ mọ (còn gọi là nhện web) bằng cách lần theo các siêu liên kết. Nội dung các trang web sau đó được phân tích để xác định xem trang web đó nên xuất hiện trong các yêu cầu tìm kiếm với tổ hợp từ khóa nào (ví dụ, những từ thu được từ tiêu đề, nội dung hoặc các trường đặc biệt gọi là meta tags).

[sửa] Liên kết ngoài đến một số công cụ truy tìm thông dụng hiện nay

Để cho tiện tra cứu các liên kết sẽ được xếp theo chủ đề tìm kiếm

[sửa] Dữ liệu đặc biệt

Nhiều thông tin được cất giữ riêng trong các cơ sở dữ liệu mà chỉ có thể tìm ra khi vào các trang riêng biệt để tìm chúng. Một vài trang chứa cơ sở dữ liệu như vậy là:

[sửa] Tài liệu tham khảo

[sửa] Thư viện Web

[sửa] Trích dẫn

[sửa] Tin tức

Xa lộ - Tin tức
Yahoo news
Google news
Vào thẳng các trang của các hãng thông tấn để truy tìm tin tức mới như là cnet tech news, BBC news, US NEWS, CNN, AP, AFP, NBC, CBS, Fox, ...

[sửa] Người, địa chỉ, số điện thoại

Infoplease
Biography on A&E
Lives, the Biography Resource
Hãy thử gõ tên đúng chính tả của ngưòi cần tìm trên www.google.com
Yahoo People Search
freeality.com Reverse Directory Lookup
InteliUS

[sửa] Đọc thêm

[sửa] Liên kết ngoài

Tìm hiểu về Search Engine và xây dựng ứng dụng tiếng Việt - vietSEO

Tuổi trẻ Online: (25/12/2007): Vì sao Google muốn “đấu với” Wikipedia ?

Máy truy tìm dữ liệu - theo chủ đề

Máy truy tìm dữ liệu - Dự án liên quan

© 2008 Netencyclo - Netencyclo Trang Chính - Chính sách về sự riêng tư - Lời phủ nhận - Program Policies
Netencyclo, the Wikipedia mirror : the biggest multilingual free-content encyclopedia on the Internet. Sửa đổi lần cuối lúc 00:11, ngày 14 tháng 5 năm 2007. Tất cả nội dung được phép sử dụng theo Giấy phép Tài liệu Tự do GNU (xem Quyền tác giả để biết thêm chi tiết). All Wikipedia content is licensed under the GNU Free Documentation License (see details). Content on this web site is provided for informational purposes only. We accept no responsibility for any loss, injury or inconvenience sustained by any person resulting from information published on this site. We encourage you to verify any critical information with the relevant authorities.