Supervised Learning
Supervised learning là một hướng tiếp cận của machine learning để làm cho máy tính có khả năng "học". Trong hướng tiếp cận này, người ta "huấn luyện" máy tính dựa trên những quan sát có dán nhãn(labeled data). Ta có thể hình dung những quan sát (observation) này như là những câu hỏi, và nhãn (label) của chúng là những câu trả lời. Ý tưởng của supervised learning là: bằng việc ghi nhớ và tổng quát hóa một số quy tắc từ một tập câu hỏi có đáp án trước, máy tính sẽ có thể trả lời được những câu hỏi dù chưa từng gặp phải, nhưng có mối liên quan. Ví dụ ta dạy máy tính "1 + 1 = 2" và hy vọng nó sẽ học được phép tính cộng x + 1 và trả lời được là "2 + 1 = 3". Supervised learning mô phỏng việc con người học bằng cách đưa ra dự đoán của mình cho một câu hỏi, sau đó đối chiếu với đáp án. Sau đó con người rút ra phương pháp để trả lời đúng không chỉ câu hỏi đó, mà cho những câu hỏi có dạng tương tự.
Trong supervised learning, các quan sát bắt buộc phải được dán nhãn trước. Đây chính là một trong những nhược điểm của phương pháp này, bởi vì không phải lúc nào việc dán nhãn chính xác cho quan sát cũng dễ dàng. Ví dụ như trong dịch thuật (machine translation), từ một câu của ngôn ngữ gốc có thể dịch thành rất nhiều phiên bản khác nhau trong ngôn ngữ cần dịch sang. Tuy nhiên, việc quan sát được dán nhãn cũng lại chính là ưu điểm của supervised learning bởi vì một khi đã thu thập được một bộ dữ liệu lớn được dán nhãn chuẩn xác, thì việc huấn luyện trở nên dễ dàng hơn rất nhiều so với khi dữ liệu không được dán nhãn.
Trong chương này, chúng ta sẽ đưa supervised learning về một phương trình toán học đơn giản, thậm chí có thể giải được bằng kiến thức phổ thông. Tuy nhiên, ta sẽ chỉ ra những điểm bất cập khi sử dụng các phương pháp thông thường để tìm lời giải và đưa ra một số cách để hạn chế những bất cập đó. Tổng hợp những phương pháp này, ta xây dựng được một thuật toán supervised learning tổng quát.